مايكروسوفت تفاصيل الخطوة التالية في رحلتها الذكاء الاصطناعي
لدى ChatGPT القدرة على إعادة تعريف الطريقة التي نبحث بها في الإنترنت ، ولكنها تقتصر حاليا على النص. هذا يتجاهل واحدة من ميزات محرك البحث الأكثر استخداما: الصور.
تحقيقا لهذه الغاية ، كشفت Microsoft الآن عن Visual ChatGPT ، وهي ترقية لروبوت الدردشة الذي يمكنها من إنتاج الصور من النص ومعالجة مطالبات الصور التي تم تحميلها من قبل المستخدمين.
في حين أن OpenAI نفسها قد انخرطت بالفعل في توليد الصور الذكاء الاصطناعي مع نظام DALL-E-2 ، فقد وضعت Microsoft أنظارها أعلى. Visual ChatGPT هي خطوة نحو الذكاء الاصطناعي متعدد الوسائط التي كشفت Microsoft أنها تهدف إليها مع ترقية GPT- 4 القادمة إلى Bing مع ChatGPT قريبا.
هذا يعني أنه يمكن قريبا الانضمام إلى معالجة الصور بواسطة أدوات الفيديو والصوت التي تعمل بنظام الذكاء الاصطناعي.
بت العلم - كيف يعمل Visual ChatGPT؟
يعمل Bing مع ChatGPT على نموذج اللغة الكبيرة GPT (LLM) الخاص ب Open الذكاء الاصطناعي ونموذج Prometheus الخاص بشركة Microsoft. تستخدم معظم مولدات الفن الذكاء الاصطناعي نموذج الأساس المرئي (VFM) مثل الانتشار المستقر لإنتاج الصور. عادة ما تكون فعالة ولكنها محدودة إلى حد ما في نطاقها. كشفت مايكروسوفت(يفتح في علامة تبويب جديدة) أنه لإنشاء Visual ChatGPT تمكنوا من تثبيت عدد كبير من VFMs المختلفة على نموذج GPT المرن.
تم تحقيق ذلك من خلال إنشاء "مدير سريع" تصفه Microsoft بأنه يساعد في "سد الفجوة بين ChatGPT و VFMs هذه" التي تمكن ChatGPT من "الاستفادة من VFMs هذه وتلقي ملاحظاتهم بطريقة تكرارية حتى تلبي متطلبات المستخدمين أو تصل إلى حالة النهاية ".
كيف تختلف عن مولدات الصور الذكاء الاصطناعي؟

أدى ذلك إلى إنشاء أداة الذكاء الاصطناعي يمكنها إنشاء صور من مطالبات النص والصور ، والتعامل مع الطلبات المعقدة التي تمتد عبر عمليات متعددة ، وحتى تقديم مدخلات وتعليقات على الصور التي تم تحميلها أو إنشاؤها.
قامت Microsoft بتضمين مثال على Github الخاص بها(يفتح في علامة تبويب جديدة) صفحة مستخدم يسأل الذكاء الاصطناعي عن لون الدراجة النارية أو يجعلها تحدد محتويات الصورة ، ويسأل "ماذا يوجد في هذه الصورة؟" أجاب الذكاء الاصطناعي ، "الصورة تحتوي على ساحة". إنها تفاعلات مثل هذه ، والقدرة على تعديل وتحرير صورة عدة مرات داخل نفس الجلسة التي تفصلها عن مولدات الصور الذكاء الاصطناعي القياسية.
ما الذي يمكن استخدام Chat GPT المرئي له؟
إذا كان بحث صور Google قد تركك ترغب في ذلك ، فقد يكون Visual ChatGPT طريقة رائعة لإنشاء وتحسين صورة قد لا تكون موجودة عبر الإنترنت بالفعل.
يمكن أن تكون برامج تحرير الصور مثل Photoshop مكلفة ومعقدة للاستخدام ، ومطالبة Bing بإزالة كائن من صورة أو تغيير لون الخلفية هي طريقة أسرع وأبسط بكثير.
الاستخدامات المحددة لهذه الأداة لا تعد ولا تحصى. يمكن للمحترفين العثور على الكثير من الاستخدام ل Visual ChatGPT. يمكن للمهندسين المعماريين ومصممي الديكور الداخلي أن يظهروا للعملاء كيف سيبدو طلاء هذا الجدار باللون الأزرق أو إزالته تماما. بينما يمكن للمستخدمين ضعاف البصر الحصول على أوصاف الذكاء الاصطناعي دقيقة للصور التي تم تحميلها.
التحفظات والمخاوف

بالطبع ، لا تزال الذكاء الاصطناعي الأدوات في مهدها النسبي ومع ارتكاب أمثال Bing و Google Bard لأخطاء بارزة ومحاربة المراوغات - نفتقدك سيدني - من المحتمل أن تكون هناك مشكلات مماثلة مع Visual ChatGPT.
وبالمثل ، عندما يتعلق الأمر بالإنترنت ، ستكون هناك دائما مخاوف تتعلق بالسلامة. لا بد أن يشق المحتوى غير اللائق طريقه إلى Visual ChatGPT وسيكون من المثير للاهتمام معرفة كيفية تعامل Microsoft مع المحتوى الصريح باستخدام أدوات الذكاء الاصطناعي الصور والفيديو. حتى مع مرشحات المحتوى ، قد تكون طرقا لتجاوز هذه الطرق المشابهة ل ChatGPT "alter-ego" DAN.
قد يؤدي ظهور التعديلات والتعديلات على الصور أيضا إلى التشكيك في صحة أي صورة وفيديو نراه عبر الإنترنت. غالبا ما تتميز وسائل التواصل الاجتماعي بالفعل بلقطات مثالية للغاية للحياة ومن الأسهل رؤية بعضها خادعا باستخدام هذه الأدوات. تعد التزييف العميق للفيديو والصوت مشكلة بالفعل عندما يتعلق الأمر بنشر المعلومات المضللة وسيحتاج ذلك إلى المراقبة بعناية.