أثبتت أساليب الترجمة الحديثة للذكاء الاصطناعى أنها كافية في التحويل الدقيق لأنظمة الاتصال المنطوقة والمكتوبة البشرية التي يبلغ عددها حوالي 6500 نظام بين بعضها البعض، إلا أن المشكلة تكمن فى أن كل نموذج من هذه النماذج يميل إلى القيام بمهمة واحدة أو مهمتين بشكل جيد حقًا ومنها ترجمة وتحويل النص إلى كلام، أو الكلام إلى نص أو بين أي من المجموعتين، لذلك طورت شركة ميتا نموذجًا واحدًا يمكنه القيام بكل شيء مثل SeamlessM4T هو "نموذج أساسي متعدد اللغات ومتعدد المهام يترجم وينسخ بسلاسة عبر الكلام والنص".
وحسبما جاء في مدونة ميتا اليوم، فإن النموذج يمكنه الترجمة بين أي من ما يقرب من 100 لغة لوظائف تحويل الكلام إلى نص وتحويل النص إلى نص، ويدعم تحويل الكلام إلى كلام وتحويل النص إلى كلام تلك اللغات نفسها كمدخلات ومخرجات فى أى من 36 لغة أخرى، بما في ذلك اللغة الإنجليزية.
وفى منشور مدونتهم، لاحظ فريق بحث Meta أن SeamlessM4T يحسن بشكل كبير أداء اللغات المنخفضة والمتوسطة الموارد التي ندعمها، مع الحفاظ على الأداء القوي في اللغات عالية الموارد، مثل الإنجليزية والإسبانية والألمانية. وقامت Meta ببناء SeamlessM4T من بنية نموذج UnitY متعددة المهام المستندة إلى PyTorch، والتي تقوم بالفعل بتنفيذ ترجمات مشروطة متنوعة بالإضافة إلى التعرف التلقائي على الكلام.
ويستخدم نظام BERT 2.0 لتشفير الصوت، وتقسيم المدخلات إلى الرموز المكونة الخاصة بها للتحليل، ووحدة التشفير الصوتي HiFi-GAN لإنشاء استجابات منطوقة.
وقامت ميتا أيضًا برعاية مجموعة ضخمة مفتوحة المصدر من الكلام إلى كلام ومن الكلام إلى النص، يطلق عليها اسم SeamlessAlign. استخرجت الشركة "عشرات المليارات من الجمل" و"أربعة ملايين ساعة" من الكلام من المستودعات المتاحة للجمهور من أجل "مواءمة أكثر من 443000 ساعة من الكلام مع النصوص تلقائيًا، وإنشاء حوالي 29000 ساعة من محاذاة الكلام إلى الكلام". فى المدونة.
وعند اختبار المتانة، أفادت التقارير أن SeamlessM4T تفوقت على سابقتها (حاليًا على أحدث طراز) مقابل ضوضاء الخلفية وتغيرات نمط السماعات بنسبة 37% و48% على التوالى.
كما هو الحال مع معظم جهود الترجمة الآلية السابقة - سواء كان ذلك Llama 2 أو Massively Multilingual Speech ( MMS ) أو Universal Speech Translator ( UST ) أو مشروع No Language Left Behind (NLLB) الطموح - أصبح SeamlessM4T مفتوح المصدر.
وكتب الفريق: "نعتقد أن SeamlessM4T يعد إنجازًا مهمًا فى سعى مجتمع الذكاء الاصطناعي نحو إنشاء أنظمة عالمية متعددة المهام.. تماشيًا مع نهجنا في العلوم المفتوحة، نحن متحمسون لمشاركة نموذجنا علنًا للسماح للباحثين والمطورين بالبناء على هذه التكنولوجيا." وإذا كنت مهتمًا بالعمل مع SeamlessM4T بنفسك، فتوجه إلى GitHub لتنزيل النموذج وبيانات التدريب والوثائق.
تم أضافة تعليقك سوف يظهر بعد المراجعة