الموناليزا بتغني راب.. هذا ما يفعله نظام ذكاء مايكروسوفت الاصطناعي الجديد

الإثنين، 22 أبريل 2024 07:00 م

الموناليزا

كتب مؤنس حواس

كشفت شركة مايكروسوفت عن مقطع فيديو لموسيقى الراب للموناليزا، وقد أثار ذعر بعض المشاهدين، حيث كشفت شركة التكنولوجيا العملاقة عن نموذج جديد للذكاء الاصطناعي يمكنه التقاط صورة ثابتة للوجه، ودمجها بسلاسة تقريبًا مع مقطع صوتي لشخص يتحدث.

وفي أحد أمثلة الفيديو، يوضح الباحثون كيف قاموا بتحريك لوحة الموناليزا لتلاوة أغنية راب كوميدية لآن هاثاواي باستخدام نموذج الذكاء الاصطناعي VASA-1.

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

وقالت مايكروسوفت إن الذكاء الاصطناعي يمكن استخدامه لأغراض تعليمية أو لإنشاء رفاق افتراضيين للبشر، لكنها حذرت أيضًا من المخاطر المحتملة لمثل هذه التكنولوجيا، وتعترف الشركة بإمكانية إساءة استخدام الأداة لانتحال هوية البشر، وبالتالي لن تقوم بإصدار النسخة التجريبية للعامة.

وتفاعلت شبكة الإنترنت بقوة مع مقطع فيديو تم إنتاجه بواسطة الذكاء الاصطناعي لموضوع لوحة الموناليزا الشهيرة لليوناردو دافنشي وهو يغني مع أغنية راب كتبها وأدتها الممثلة آن هاثاواي.

ويعد المقطع الاستقطابي، الذي أثار ردود فعل عبر الإنترنت تراوحت بين الفكاهة والرعب، أحد حيل تقنية الذكاء الاصطناعي الجديدة من مايكروسوفت والتي تسمى VASA-1، حيث ان هذه التقنية قادرة على إنشاء وجوه ناطقة واقعية لشخصيات افتراضية باستخدام صورة واحدة ومقطع صوتي للكلام. يمكن للذكاء الاصطناعي أن يجعل الشخصيات الكرتونية والصور الفوتوغرافية واللوحات تغني أو تتحدث، كما يتضح من اللقطات التي أصدرتها مايكروسوفت كجزء من البحث المنشور في 16 أبريل.

في المقطع الأكثر انتشارًا، تغني المرأة في لوحة الموناليزا وفمها وعينيها ووجهها يتحرك لأغنية "Paparazzi"، وهي أغنية راب كتبتها هاثاواي وأدتها في برنامج كونان أوبراين الحواري في عام 2011، وفي مقطع آخر لمايكروسوفت، الصورة الرمزية تغني، وفي صور أخرى تم إنشاؤها من صور حقيقية، يتحدث الناس عن مواضيع شائعة.

وكتب الفريق في منشور بالمدونة: "نموذجنا الأول، VASA-1، قادر ليس فقط على إنتاج حركات الشفاه المتزامنة بشكل رائع مع الصوت ولكن أيضًا التقاط مجموعة كبيرة من الفروق الدقيقة في الوجه وحركات الرأس الطبيعية التي تساهم في الإدراك" من الأصالة والحيوية.

وأضافوا: "ليس لدينا أي خطط لإصدار عرض توضيحي عبر الإنترنت أو واجهة برمجة تطبيقات أو منتج أو تفاصيل تنفيذ إضافية أو أي عروض ذات صلة حتى نتأكد من استخدام التكنولوجيا بشكل مسؤول ووفقًا للوائح المناسبة."

قامت مايكروسوفت بتدريب الذكاء الاصطناعي باستخدام مقاطع فيديو لوجوه الأشخاص أثناء التحدث، وتصميم التقنية للتعرف على حركات الوجه والرأس الطبيعية من خلال حركة الشفاه وتعبيرات الوجه ونظرة العين والرمش.