تطوير هائل في قدرة ChatGPT على إنشاء الصور

أصبحت الصور التي ينشئها مساعد الذكاء الاصطناعي الشهير (شات جي بي تي) تحظى بمزيد من الواقعية، واتساق محسن بشكل كبير.

صدق أو لا تصدق.. هذه الصور مصنوعة بمساعد الذكاء الاصطناعي شات جي بي تي، الصورة لقطة شاشة لما أعلنت عنه الشركة عبر موقعها الرسمي.

يأتي ذلك بعدما قامت شركة OpenAI المطورة للنموذج بتطوير قدرات إنشاء الصور الخاصة بـ ChatGPT بشكل كبير، وذلك منذ أطلقت التحديث (GPT-4o) في مايو من العام الماضي 2024.

هذا النموذج أصبح متاحا لجميع المستخدمين لشات جي بي تي، سواء كانوا مستخدمين مجانيين أو لديهم اشتراكات وخطط مدفوعة، لكن الفارق أن المستخدمين المجانيين لهم قدر معين من الاستخدام لا يمكنهم تجاوزه.

وبالنسبة لتصميم الصور، فيمكنكم إنشاءها من خلال واجهة ChatGPT العادية، وكذلك يمكنكم استخدام النموذج المصمم خصيصا لإنشاء الصور وهو (DALL-E 3)، لكننا نفضل استخدام النموذج الأحدث GPT-4o مباشرة، إذ يقدم لنا نتائج أفضل.

إذن لقد حدثت الكثير من التحسينات على كل ذلك، والأهم أنها تعاملت مع بعض الأشياء التي كانت أدوات إنشاء الصور بالذكاء الاصطناعي تواجه صعوبات ومشاكل فيها عادةً: (مثل لو كنت تريد تصميم صورة بها نصوص مكتوبة، فالجديد هنا أن النصوص تخرج متسقة والكلمات صحيحة، بل لقد أصبحت قادرة على رسم مخططات بيانية).

وتقول شركة OpenAI عن ذلك: أنه يمكنك الآن توقع نتائج "أكثر دقة ومصداقية وواقعية" من ما تتخيله أنت نفسك.

صور أكثر واقعية ودقة:

غالبًا ما تأتي الصور المصنوعة باستخدام الذكاء الاصطناعي مع لمعان اصطناعي ملحوظ يخبرك أنها تم ابتكارها بواسطة خوارزميات، ذلك اللمعان أصبح أقل وضوحًا مع صور GPT-4o.

ومن ضمن ما عرضته شركة OpenAI من الصور التجريبية التي أنشائها شات جي بي تي في أحدث نسخة منه، صورة لطالبة تكتب على سبورة بيضاء، مع انعكاس المنظر الخلفي.

كل شيء في الصورة يبدو حقيقيا بشكل غير معقول، فقط ستلاحظون أنهم قد دونوا عبارة (best of 8) أسفل الصورة في إشارة إلى أنها أفضل صورة انشائها النموذج من ثمانية محاولات.

شركة (أوبن أيه آي) قالت أن مستخدمي الصور التي ينتجها الذكاء الاصطناعي يجب عليهم في نفس الوقت أن يلتزموا بتقديم (مطالبات ووصف دقيق) للصور التي يريدون من النموذج ابتكارها.

لذا، حدد بدقة إذا كنت تريد وضع أشياء محددة في أماكن محددة، أو كنت بحاجة إلى أشخاص يقفون في مواقع معينة من الصورة، فيجب عليك توضيح ذلك بدقة وسيعمل مساعد الذكاء الاصطناعي على تنفيذه.

لقد حاولت أن أجعل ChatGPT يصمم صورة تعبر عن عدد من أفراد الأسرة السعودية الحاكمة للمملكة، وكانت النتائج جيدة.

على أي حال فمن المؤكد أنها أفضل بكثير من الصور التي كان ChatGPT ينتجها سابقًا، على الرغم من أن عملية العرض أصبحت تستغرق وقتًا أطول حتى تكتمل.

تحسين النصوص والرسوم البيانية بشكل كبير:

لم يعد النص يشكل مشكلة كبيرة مع مصمم الصور من شات جي بي تي، لذا أصبح يمكن صنع حتى أغلفة كتب بكل سهولة.

يأتي ذلك بعد فترة طويلة كانت محاولة جعل الذكاء الاصطناعي قادرًا على تقديم النصوص والرسوم البيانية بدقة يشكل تحديًا كبيرا، وكانت الكلمات تبدو من حروف مركبة أو غير مرتبة وتشكل معا كلمات غير مفهومة.

لكن النموذج الجديد GPT-4o أصبح قادرا على تقديم النصوص والكلمات والرسوم البيانية بمستوى عالٍ من التفاصيل والدقة، لذا لن ترى الكثير من الأخطاء والتناقضات الغريبة التي كنت تراها من قبل، ومع ذلك قد يحدث ذلك أحيانا لكنه بشكل أقل وبمعدل أقل.

ومن ضمن ما عرضته شركة OpenAI في الإعلان عن القدرات الجديدة لشات جي بي تي في إنشاء الصور: قائمة طعام، ودعوة لحضور مناسبة، وتذكرة صعود للطائرة، ورسمًا تخطيطيًا يشرح تجربة لنيوتن.

ومثلا، عندما طلبت من ChatGPT إنتاج رسم بياني توضيحي يشرح الحمض النووي بعبارات بسيطة، وغلاف كتاب بعنوان ومؤلف محددين، فقد اتبع ما طلبته بشكل دقيق للغاية.

لفترات طويلة كان إنشاء نصوص مكتوبة بشكل سليم في الصور التي يصممها الذكاء الاصطناعي مشكلة كبيرة، هذا الأمر تم حله مع أحدث نماذج شات جي بي تي، الصورة لقطة شاشة لما أعلنت عنه الشركة عبر موقعها الرسمي.

فجاء رسم الحمض النووي بسيط ولكنه دقيق، وكان غلاف الكتاب يبدو وكأنه شيء قد تراه في متجر بيع كتب.

كذلك عندما طلبت منه رسم بياني توضيحي مرئي يصف أسباب الضباب في مدينة لندن، فقد قام شات جي بي تي بذلك بشكل جيد.

لكن الأمر الأكثر أهمية بالنسبة لي، هو أنه لم تكن هناك أي آثار غريبة أو تناقضات في الصور.

الاتساق والتعديل:

فيما سبق كان ChatGPT يفرض عددا من القيود على تعديل الصور التي قم بإنشاؤها، وهذه نقطة أخرى من النقاط التي تم تطوير مساعد الذكاء الاصطناعي فيها.

هذا الأمر أصبح اسهل الآن، من أجل الحفاظ على الاتساق بين الشخصيات وبين المشهد العام في الصورة، حيث يمكن تعديل أجزاء محددة منها فقط، وترك بقية الصورة كما هي.

كما أصبح من الممكن جعل خلفية الصورة شفافة إذا لزم الأمر، أو تحديد الألوان باستخدام الرموز السادسية العشرية، حيث يكون لكل لون رمز معين.

ما رأيك حتى الآن؟ 🤔 أضف تعليقًا

كما تتضمن التحسينات التي طرأت على تعديل الصور، الطريقة التي يمكن بها لـ ChatGPT أن يتلقي صورك الخاصة، تلك التي التقطتها بالكاميرا مثلا، وإعادة تصميمها.

في اختباراتي الخاصة، وجدت أن ChatGPT أصبح أفضل بكثير في تحرير الصور وتعديلها، وصار ذو كفاءة عالية في إعادة مزج ودمج الصور بأنماط مختلفة.

ومع ذلك ففي بعض الأحيان كان لا يزال يواجه صعوبة في الحفاظ على الاتساق العام لبعض الصور.

قضايا حقوق النشر والسلامة:

وكما هو الحال مع أي إعلان عن تطور في الذكاء الاصطناعي التوليدي تثور القضايا المتعلقة بحقوق النشر، أو إساءة استخدام هذه التطورات، وحتى كميات الطاقة الكبيرة التي تستخدمها الشركات في تطويره ((طالع تقريرنا: لماذا استأجرت مايكروسوفت أسوء مفاعل نووي في التاريخ الأمريكي؟)).

شركة OpenAI قالت بأنه من المستحيل تدريب هذه الأدوات بدون أن يكون جزء من هذا التدريب هو تدريبها على الصور المحمية بحقوق النشر وأضافت أنها وقعت مؤخرا صفقات محتوى مع مقدمي خدمات مثل Shutterstock المتخصصة في بيع الصور المحمية بحقوق النشر بشكل قانوني.

وقال براد لايتكاب، الرئيس التنفيذي للعمليات في OpenAI، لصحيفة وول ستريت جورنال إن مولد الصور GPT-4o سيرفض الطلبات لمحاكاة عمل أي فنان حي.

أما عندما يتعلق الأمر بالسلامة، تقول شركة OpenAI أن جميع الصور المولدة تأتي مع بيانات تعريفية C2PA لتحديدها على أنها صور تم إنشاؤها بواسطة الذكاء الاصطناعي.

في النهاية عزيزي القارئ .. من فضلك أترك تعليقا فيه رأيك وتقييمك لهذا التقرير، فهذا يساعدنا على تطوير المحتوى الذي نقدمه.

كما يسعدنا أن نستقبل استفساراتكم أو طلباتكم بشأن إعداد تقارير عن أي مواضيع تحبونها.