مايكروسوفت تبسط عملية إنشاء الفيديو بواسطة الذكاء الاصطناعي

 تدير مايكروسوفت الموجة القادمة في مجال إنتاج الفيديو بواسطة التكنولوجيا الذكية، حيث قامت الشركة بإطلاق نموذج جديد لتوليد الفيديو بالاستفادة من التفكير الاصطناعي يُدعى DragNUWA.

مايكروسوفت تسهل توليد الفيديو بالذكاء الاصطناعي

يهدف هذا النموذج إلى توفير تحكم دقيق في عملية تكوين الفيديو، حيث يستفيد من النصوص والصور والمسار كعوامل تحكم رئيسية. يسعى النموذج إلى تسهيل عملية إنشاء مقاطع فيديو قابلة للتحكم بشكل شامل، مما يتيح التحكم الفعّال في الجوانب الدلالية والمكانية والزمانية للمحتوى المولد.


تتسارع شركات الذكاء الاصطناعي لتحسين تقنيات توليد الفيديو بواسطة الذكاء الاصطناعي، حيث أطلق العديد من اللاعبين في هذا المجال نماذج متقدمة خلال الأشهر الأخيرة، تستند إلى المطالبة المبنية على النصوص والصور لتوليد مقاطع فيديو متنوعة.


يتيح نموذج DragNUWA للمستخدمين التلاعب المباشر في خلفيات الصور أو الكائنات داخلها، ويقوم بترجمة هذه الإجراءات بسلاسة إلى حركات الكاميرا أو الكائنات، مما يسفر عن إنشاء فيديو متفاعل بشكل فعّال.


يُضيف النموذج الذي يعتمد على المسار إلى جانب الأساليب المعروفة، مثل المطالبة المستندة إلى النص والمطالبة المستندة إلى الصورة، كأسلوب جديد في عملية توليد الفيديو.


وهذا يسمح للمستخدمين بمعالجة الكائنات أو إطارات الفيديو بشكل كامل عبر مسارات محددة، مما يوفر وسيلة سهلة لإنشاء فيديو قابل للتحكم بشكل كبير في الجوانب الدلالية والمكانية والزمانية. ويتيح ذلك ضمان إنتاج فيديو عالي الجودة في الوقت نفسه.


قامت مايكروسوفت بتقديم معايير قابلة للتعلم للنموذج بشكل مفتوح المصدر، كما قدمت عرضًا توضيحيًا للمشروع، مما يتيح للمجتمع تجربة النموذج وفهم تفاصيله بشكل أفضل.


تتنوع عمليات توليد الفيديو بالذكاء الاصطناعي حول استخدام النص أو الصورة أو المدخلات المستندة إلى المسار. واجه كل نهج تحديات في توفير تحكم دقيق في النتائج المرجوة.


يفشل الجمع بين النص والصور بمفرده في نقل تفاصيل الحركة المعقدة الموجودة في الفيديو، وقد لا تمثل الصور والمسارات الأشياء المستقبلية بشكل مناسب. بالإضافة إلى ذلك، يمكن أن تؤدي النصوص والمسارات إلى الغموض عند التعبير عن المفاهيم المجردة.


في شهر أغسطس 2023، اقترح فريق الذكاء الاصطناعي في مايكروسوفت نموذج DragNUWA لتجاوز هذه المشكلة، إذ يعتبر هذا النموذج نموذجًا قائمًا على الانتشار مفتوح المدى، حيث يجمع بين العوامل الثلاثة المتمثلة في النص والصور والمسارات.


هذا يتيح للمستخدم تحديد النص والصورة والمسار بدقة في الإدخال، مما يسمح بالتحكم في جوانب مختلفة مثل حركات الكاميرا، ويشمل ذلك تأثيرات مثل التكبير أو التصغير، وحتى حركة الكائنات في الفيديو الناتج.


يقدم المسار تفاصيل حول حركة العناصر، بينما تقدم النصوص توجيهًا حول الأحداث المستقبلية المحتملة، وتضيف الصور تمييزًا بين الكائنات. وفي اختباراتها، أفادت مايكروسوفت أن النموذج قد تمكن من تحقيق حركات دقيقة للكاميرا والكائنات باستخدام مسارات سحب متنوعة.

شارك الموضوع
تعليقات