OpenAI تُطلق نموذج Sora لتحويل النص إلى فيديو بالذكاء الاصطناعي!

فريق المنصة Plus16/02/2024

672

أعلنت شركة OpenAI يوم الخميس عن نموج ذكاء اصطناعي جديد من إنتاجها، وهو نموذج Sora القادر على تحول النص إلى مقطع فيديو عالي الوضوح يصل مدته إلى دقيقة كاملة.

النموذج الجديد الذي يعني “السماء” باللغة اليابانية، لن يكون متاحًا للمستخدمين في أي وقت قريب، نظرًا لإساءة الإستخدام الممكنة بسبب قوته وجودة المقاطع التي قدمها.

وعلى الجانب الآخر تعمل شركة OpenAI على إتاحة Sora لمجموعة صغيرة من الأكاديميين والباحثين الذين سيجربون البرنامج الجديد ويقيمون مدى الأضرار أو إساءة الاستعمال التي قد يتسبب بها.

نموذج Sora يحول النص إلى فيديو بقدرات مُذهلة

نموذج الذكاء الاصطناعي الجديد من OpenAI يقدم تجربة مذهلة، حيث يُمكنك مطالبته بصناعة مشهد كامل بكل تفاصيله، واختيار أماكن الأشياء وحتى الإضاءة وزاوية التصوير، وكل ذلك من خلال الأوامر النصية فقط ويقوم البرنامج بتقديم مشهد عالي الجودة بتفاصيل يصعب التشكيك فيها في ثوان معدودة. إنه قادر على تقديم مشهد سينمائي كامل بدون مكان تصور أو ممثل أو أشخاص فقط اخبره بما تريد أن تراه وسيصنعه لك!

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

وقالت الشركة على موقعها عبر الإنترنت: :”إن Sora قادر على إنشاء مشاهد معقدة بشخصيات متعددة، وأنواع محددة من الحركة، وتفاصيل دقيقة للموضوع والخلفية”. “لا يفهم النموذج ما طلبه المستخدم في الموجه فحسب، بل يفهم أيضًا كيفية وجود هذه الأشياء في العالم المادي.”

يُظهر أحد مقاطع الفيديو التي أنشأتها Sora والتي شاركتها OpenAI على موقعها على الإنترنت زوجين يسيران في مدينة طوكيو المغطاة بالثلوج في حين تتطاير بتلات أزهار الكرز والثلج حولهما.

ويُظهر آخر ماموثًا صوفيًا يبدو واقعيًا وهو يسير عبر مرج ثلجي على خلفية سلاسل الجبال المغطاة بالثلوج.

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024

تقول OpenAI أن النموذج يعمل نتيجة “للفهم العميق للغة”، مما يتيح له تفسير المطالبات النصية بدقة.ومع ذلك، مثل جميع مولدات الصور والفيديو التي تعمل بتقنية الذكاء الاصطناعي التي رأيناها، فإن Sora ليس مثاليًا.

في أحد الأمثلة، فإن Yحدى الأوامر، التي تطلب مقطع فيديو لشخص ينظر من خلال النافذة وأشخاص “يمشون ويركبون الدراجات على طول شوارع القناة”، يقوم النموذج بحذف الأشخاص والشوارع الموجودة في الفيديو بالكامل.

وتحذر OpenAI أيضًا من أن النموذج قد يواجه صعوبة في فهم السبب والنتيجة، فيمكنه إنشاء مقطع فيديو لشخص يأكل كعكة، على سبيل المثال، ولكن قد لا تحتوي الكعكة على علامات القضم.

ما الفرق بين Sora وبرامج تحويل النص إلى فيديو بالذكاء الاصطناعي

نموذج Sora ليس النموذج الأول لتحويل النص إلى فيديو. قامت شركات أخرى، بما في ذلك Meta وGoogle وRunway، إما باستعراض أدوات تحويل النص إلى فيديو أو جعلتها متاحة للجمهور.

ومع ذلك، لا توجد أداة أخرى قادرة حاليًا على إنشاء مقاطع فيديو تصل مدتها إلى 60 ثانية. يقوم Sora أيضًا بإنشاء مقاطع فيديو كاملة مرة واحدة، بدلاً من تجميعها معًا إطارًا بإطار مثل النماذج الأخرى، ما يجعل المشهد النهائي متكامل بشكل لا يُصدق!

أخيرًا، فمن حسن الحظ أن هذا النموذج القوي غير متاح للمستخدمين، ولا نعرف كيف ستعالج OpenAI المشكلات التي قد يتسبب بها في حالة إتاحته للعامة!

الوسوم

فريق المنصة Plus16/02/2024

672