استنساخ الأصوات بواسطة الذكاء الاصطناعي في دائرة الضوء بعد حادثة سكارليت جوهانسون | تكنولوجيا
تثير تقنية استنساخ الصوت مخاوف كثيرة مع إقدام عدد من الشركات على اعتمادها، كـ”أوبن إيه آي” مُبتكرة برنامج “شات جي بي تي” الشهير، التي اضطرت أخيرا للاعتذار من الممثلة سكارليت جوهانسون بعدما نسخت صوتها في أحدث نسخة من برنامجها للمحادثة الآلية، بحسب ما أوردته وكالة الأنباء الفرنسية.
وقد اعتذر مدير عام “أوبن إيه آي” سام ألتمان من الممثلة وأعلن تعليق صوت أداة المساعدة “سكاي” في “شات جي بي تي”.
وكانت الشركة قدّمت عرضا في سبتمبر/أيلول الفائت لسكارليت التي أعارت صوتها قبل نحو 10 سنوات لنظام بالذكاء الاصطناعي في فيلم “هير”، لكنّ الممثلة رفضت أن تكون صوت نظام النسخة الجديدة من “شات جي بي تي”.
ونفت “أوبن إيه آي” من جانبها أن تكون قد استنسخت صوت جوهانسون، مشيرة إلى أنها ابتكرت أداتها باستخدام صوت ممثلة أخرى.
وتتصدر أخبار عن حيل صوتية مشابهة جدا للواقع أو عمليات احتيال أو تضليل باستخدام الاستنساخ الصوتي، عناوين الأخبار باستمرار، مسلّطة الضوء على قدرة أنظمة الذكاء الاصطناعي على تقليد الأصوات البشرية.
وفي العام الفائت، حذرت شركة “إيليفن لابز” (Eleven Labs) الناشئة التي تعمل على ابتكار أداة لاستنساخ الصوت باستخدام الذكاء الاصطناعي، من الاستعمال المسيء لبرنامجها.
وكان مستخدمون مجهولون على منتدى “4 تشان” (4Chan) تداولوا رسائل فيها عمليات استنساخ لأصوات مشاهير، وجعلوا هذه الأصوات تتلفظ بأقوال تنطوي على معان جنسية أو عنصرية أو معادية للمثليين.
وفي أحد المقاطع الصوتية، يُسمَع صوت مزيّف للممثلة إيما واتسون وهي تقرأ مقطعا من كتاب “كفاحي” لأدولف هتلر.
“نقلة نوعية”
وأوضح مدير شركة “سنتيزيا” الناشئة رجل الأعمال الدانماركي فيكتور ريباربيلي، في حديث إلى وكالة الأنباء الفرنسية، أنّ هذه التكنولوجيا تم ابتكرها إلى حد كبير من خلال برنامج مفتوح المصدر يسمى “تورتس” وأُطلق قبل عامين.
وتقوم شركته بتحويل النص إلى مقطع فيديو باستخدام صورة رمزية (أفاتار) تم إنشاؤها بواسطة الذكاء الاصطناعي. وتوظف ممثلين يخضع صوتهم وشكلهم لعقد مدته عامين، مع احتمال تجديده، على قول ريباربيلي الذي التقت به وكالة الأنباء الفرنسية على هامش معرض “فيفاتك” للتكنولوجيات الجديدة الذي أقيم أخيرا في باريس.
وقد حلّل برنامج التعلم الآلي “تورتس” آلاف الساعات من التسجيلات الصوتية وكان بمثابة قاعدة لتطبيق “إيلفن لابس”.
وقال ريباربيلي: “كان ذلك نقلة نوعية مهمة”.
وتستخدم “أوبن إيه آي” برامج مماثلة، رغم أنها لا تكشف تفاصيل ذلك.
ومع “شات جي بي تي 4.0″، يمكن للمستخدم التلفّظ ببضع جمل بالفرنسية أمام التطبيق القادر في دقائق معدودة على إعادة إنتاج هذا الصوت واستخدامه لسرد مقطع فيديو قصيرة بـ5 لغات مختلفة، بحسب ما أظهرت “أوبن إيه آي” خلال عرض توضيحي للبرنامج في باريس.
وعلى غرار هذه الشركة الأميركية، باتت مئات الشركات تقدّم خدمة استنساخ الصوت التي أصبحت واقعية ودقيقة بصورة أكبر.
ومن بينها “تالكر. إيه آي” (TALKR.ai)، وهي شركة فرنسية للمساعدين الصوتيين الافتراضيين الذين يتم إنشاؤهم بواسطة الذكاء الاصطناعي.
ويمكن لهذه الخدمة التعامل مع 25% إلى 30% من مكالمات خدمة الزبائن من دون أي تدخل بشري، بحسب رئيستها كاتيا لينيه.
وترى لينيه كما فيكتور ريباربيلي أنّ استخدام أصوات الممثلين من دون موافقتهم هو خط أحمر.