يعمل نظام الذكاء الاصطناعي "ليب نت" من خلال متابعة مقطع مصور لحديث الأشخاص ويقارن النص بحركة أفواههم بدقة تصل إلى 93 في المئة، حسبما أفاد الباحثون.
وأشار الباحثون إلى أن الاستعانة بهذا الجهاز في معرفة لغة الكلام يمكن أن يساعد ملايين الأشخاص.
لكن الخبراء أوضحوا أن هذا النظام لا يزال بحاجة للاختبار في مواقف الحياة الحقيقية.
وتمثل قراءة الشفاة عملية معقدة إذ يتمكن المتخصصون في هذا المجال فقط من فك شفرة ما يقوله الشخص عبر لغة الشفاه بنسبة دقة تصل إلى 60 في المئة.
وقال الباحثون إن "قارئ لغة الشفاه الآلي يتمتع بفرص نجاح كبيرة مع وجود التطبيقات التي تتعلق بأجهزة المساعدة في تحسين السمع والإملاء الصامت في الأماكن العامة والمحادثات السرية وفهم الكلام في البيئات الصاخبة وتحديد الهوية بأجهزة القياس الحيوية ومعالجة الأفلام الصامتة".
وأشار الباحثون إلى أن نظام الذكاء الاصطناعي زُود بجمل كاملة حتى يتسنى له التعرف على الأحرف التي تتناغم مع حركة الشفاه.
وفي إطار الاختبار زود فريق البحث من معمل الذكاء الاصطناعي التابع لجامعة أوكسفورد نظام الذكاء الاصطناعي بنحو 29 ألف مقطع فيديو وأضاف إليها النص الصحيح، وكانت مدة كل مقطع هي ثلاث ثواني فقط يتبعها نمط قواعد نحوية متماثل.
وفي حين أن الباحثين توصلوا إلى نسبة الخطأ في الاختبارات التي أجريت على البشر وجرى تزويدهم بنفس مقاطع الفيديو بلغت 47.7 في المئة، فإن نظام الذكاء الاصطناعي سجل خطأ واحدا من بين 6.6 في المئة فقط.
وأثارت حقيقة أن هذا النظام الآلي يستند إلى مقاطع فيديو متخصصة للتدريب انتقادات لهذا البحث من جانب بعض مستخدمي موقع تويتر الاجتماعي.
وقال البروفيسور نيل لورانس أستاذ "التعلم الآلي وعلم الأحياء الحسابي" في مقال له على موقع مؤسسة "أوبن ريفيو" العلمية إن مقاطع الفيديو تتمتع "بمفردات محدودة وقواعد تركيب نحوية وحيدة."
BBC News
التعديل الأخير: