SORA إنشاء فيديو من النص بالذكاء الاصطناعي

الرئيسية » الذكاء الاصطناعي » SORA إنشاء فيديو من النص بالذكاء الاصطناعي

Sora هو نموذج للذكاء الاصطناعي يمكنه إنشاء مشاهد واقعية ومتخيلة من التعليمات النصية.

إنه يقوم بتعليم الذكاء الاصطناعي كيفية فهم ومحاكاة العالم المادي المتحرك، وذلك بهدف نماذج التدريب التي تساعد الأشخاص على حل المشكلات التي تتطلب تفاعلًا في العالم الحقيقي.

يقدم لكم Sora، نموذجنا لتحويل النص إلى فيديو. يمكن بواسطته إنشاء مقاطع فيديو تصل مدتها إلى دقيقة واحدة مع الحفاظ على الجودة المرئية والالتزام بطلب المستخدم.

اليوم، أصبح Sora متاحًا لأعضاء الفريق الأحمر في (OPEN AI) لتقييم المناطق الحرجة فيما يتعلق بالأضرار أو المخاطر.

الدخول لاستخدامه غير متاح للعموم للأسف لا توجد حاليًا طريقة للوصول إلى Sora من موقع ويب أو واجهة برمجة التطبيقات (حتى تاريخ كتابة هذه السطور)

بل إن إمكانية الوصول متاحة فقط إلى عدد من الفنانين التشكيليين والمصممين وصانعي الأفلام للحصول على تعليقات حول كيفية تطوير النموذج ليكون أكثر فائدة للمحترفين المبدعين.

يقول صناعه أنهم يشاركون التقدم الذي يحرزونه في أبحاث مبكرة لبدء العمل مع أشخاص خارج OpenAI والحصول على تعليقات منهم ولإعطاء الجمهور فكرة عن قدرات الذكاء الاصطناعي التي تلوح في الأفق.

يستطيع Sora إنشاء مشاهد معقدة بشخصيات متعددة وأنواع محددة من الحركة وتفاصيل دقيقة للموضوع والخلفية. لا يفهم النموذج ما طلبه المستخدم في الموجه فحسب، بل يفهم أيضًا كيفية وجود هذه الأشياء في العالم المادي.

يتمتع النموذج بفهم عميق للغة، مما يمكنه من تفسير المطالبات بدقة وإنشاء شخصيات مقنعة تعبر عن المشاعر النابضة بالحياة. يمكن لـ Sora أيضًا إنشاء لقطات متعددة في مقطع فيديو واحد يتم إنشاؤه بدقة مع الشخصيات والأسلوب المرئي.

النموذج الحالي لديه نقاط ضعف. قد يجد صعوبة في محاكاة فيزياء مشهد معقد بدقة، وقد لا يفهم حالات محددة من السبب والنتيجة. على سبيل المثال، قد يأخذ شخص ما قضمة من البسكوتة، ولكن بعد ذلك، قد لا تظهر علامة القضمة على البسكوتة نفسها.

قد يخلط النموذج أيضًا بين التفاصيل المكانية للموجه، على سبيل المثال، الخلط بين اليسار واليمين، وقد يواجه صعوبة في تقديم الأوصاف الدقيقة للأحداث التي تحدث مع مرور الوقت، مثل اتباع مسار معين للكاميرا.

تقنيات البحث باستخدام SORA

Sora هو نموذج انتاج، يقوم بإنشاء مقطع فيديو من خلال البدء بفيديو يشبه الضجيج الساكن وتحويله تدريجيًا عن طريق إزالة الضجيج على عدة خطوات.

Sora قادر على إنشاء مقاطع فيديو كاملة مرة واحدة أو توسيع مقاطع الفيديو التي تم إنشاؤها لجعلها أطول. من خلال إعطاء النموذج رؤية مسبقة للعديد من الإطارات في المرة الواحدة، فقد قمنا بحل مشكلة صعبة تتمثل في التأكد من بقاء الهدف كما هو حتى عندما يخرج عن نطاق الرؤية مؤقتًا.

على غرار نماذج GPT، يستخدم Sora بنية المحولات، مما يفتح المجال أمام أداء التوسع الفائق.

يتم تمثيل مقاطع الفيديو والصور كمجموعات من وحدات أصغر من البيانات تسمى التصحيحات، كل منها يشبه رمزًا مميزًا في GPT. ومن خلال توحيد كيفية تمثيل البيانات، يمكن تدريب محولات الانتشار على نطاق أوسع من البيانات المرئية مما كان ممكنًا من قبل، ويمتد على فترات ودرجات دقة ونسب عرض إلى ارتفاع مختلفة.

يعتمد Sora على الأبحاث السابقة في نماذج DALL·E وGPT. ويستخدم تقنية الاسترداد من DALL · E 3، والتي تتضمن إنشاء تعليقات وصفية للغاية لبيانات التدريب المرئي. ونتيجة لذلك، أصبح النموذج قادرًا على اتباع التعليمات النصية للمستخدم في الفيديو الذي تم إنشاؤه بأمانة أكبر.

بالإضافة إلى القدرة على إنشاء فيديو من التعليمات النصية فقط، فإن النموذج قادر على التقاط صورة ثابتة موجودة وإنشاء فيديو منها، مما يؤدي إلى تحريك محتويات الصورة بدقة واهتمام بالتفاصيل الصغيرة. يمكن للنموذج أيضًا التقاط مقطع فيديو موجود وتوسيعه أو ملء الإطارات المفقودة.

يعمل Sora كأساس للنماذج التي يمكنها فهم ومحاكاة العالم الحقيقي، وهي القدرة التي نعتقد أنها ستكون علامة فارقة مهمة لتحقيق الذكاء الاصطناعي العام.

تقنيات البحث باستخدام SORA

مقالات مشابهة:

اترك تعليقاً