سماعات ذكية تمكن من ترجمة محادثات متعددة في آن واحد

سماعات ذكية تمكن من ترجمة محادثات متعددة في آن واحد

لندن-راي اليوم
ابتكر فريق من الباحثين في جامعة واشنطن الأميركية نظام سماعات رأس ذكية يمكنها ترجمة محادثات متعددة في الوقت الفعلي، مع الحفاظ على نبرة صوت كل متحدث واتجاه صوته بدقة ثلاثية الأبعاد، حتى أثناء حركته. يُعتبر هذا الابتكار خطوة كبيرة في مجال الترجمة الفورية، وقد أُطلق عليه اسم “الترجمة الصوتية المكانية”. تم نشر النتائج في دورية “جمعية الحوسبة الأميركية (ACM)” في الجمعة.
نقلة نوعية في الترجمة الفورية
على الرغم من التطور الكبير الذي شهدته تقنيات الترجمة الفورية، لا يزال هناك تحديات كبيرة في تطبيق هذه التقنيات في الأماكن العامة. فعلى سبيل المثال، تقدم نظارات “ميتّا” الجديدة ترجمة صوتية آلية ولكن فقط عند وجود متحدث واحد، وتعرض الترجمة بعد انتهاء الحديث. ومع ذلك، طوّر الباحثون في جامعة واشنطن حلاً مبتكرًا يعمل على ترجمة كلمات عدة متحدثين في الوقت نفسه، مع الحفاظ على خصوصيات كل صوت من حيث الاتجاه والنبرة.
كيف يعمل النظام؟
يعتمد النظام الجديد على سماعات رأس مانعة للضوضاء مزودة بميكروفونات دقيقة، حيث تستخدم خوارزميات الذكاء الاصطناعي لفصل أصوات المتحدثين وتتبع تحركاتهم داخل المكان. بعد ذلك، يقوم النظام بترجمة حديثهم وإعادة تشغيله بصوت يشبه الصوت الأصلي للمستخدم مع تأخير بسيط يتراوح بين 2 و4 ثوانٍ.
ويتميز النظام بثلاثة ابتكارات رئيسية:
اكتشاف عدد المتحدثين تلقائيًا: يستطيع النظام التعرف على عدد المتحدثين في أي مساحة مغلقة أو مفتوحة باستخدام مسح محيطي بزاوية 360 درجة.
حفظ خصائص الصوت: يقوم النظام بترجمة الكلام مع الحفاظ على نبرة الصوت وارتفاعه، ويستخدم معالجات داخلية مثل شريحة Apple M2 بدلاً من الحوسبة السحابية، ما يعزز الخصوصية.
متابعة تحركات المتحدثين: يستطيع النظام تعديل اتجاه الصوت وفقًا لحركة رؤوس المتحدثين، مما يوفر تجربة سمعية أكثر طبيعية وواقعية.
اختبار النظام في بيئات متعددة
تم اختبار النظام باستخدام 29 متطوعًا في 10 بيئات مختلفة، شملت الأماكن العامة مثل الشوارع، المقاهي، المتاحف، وغيرها. أثبت النظام فعاليته في هذه البيئات المزدحمة، حتى مع وجود ضوضاء خلفية. ركزت التجربة على ثلاث لغات رئيسية هي الإسبانية، والألمانية، والفرنسية، وأظهر النظام أداءً جيدًا في الترجمة إلى الإنجليزية والعكس.
استجابة المستخدمين
أظهرت نتائج الاختبارات أن معظم المستخدمين فضلوا النظام الجديد على الأنظمة التقليدية. حيث أكدت النتائج أنه يوفر دقة عالية في الترجمة ويتيح تجربة سمعية تحاكي الواقع، مع القدرة على تتبع المتحدثين وحفظ الخصائص الصوتية لكل منهم، حتى أثناء حركتهم.
آفاق جديدة في السياحة والتعليم
يوفر النظام للمستخدمين القدرة على فهم ما يقوله عدة أشخاص في الوقت نفسه، بلغات مختلفة، في بيئات مزدحمة. وهذا يعد من أهم مميزاته، إذ يمكنه تحديد من قال ماذا، مع الحفاظ على صوت كل شخص وتعبيراته الصوتية المميزة. يُتوقع أن يفتح هذا الابتكار آفاقًا جديدة في مجالات السياحة والتعليم والتفاعل الثقافي، حيث يمكن للمستخدمين التواصل مع الآخرين بلغاتهم الأصلية دون قيود لغوية.
يأمل فريق البحث أن يسهم هذا النظام في إزالة الحواجز اللغوية بين الثقافات، مع إمكانية توسيعه ليشمل نحو 100 لغة في المستقبل. يعكس هذا الابتكار الطموح في تسهيل التواصل الفعّال بين الأفراد حول العالم، وبالتالي تحسين تجربة المستخدم في العديد من السياقات الاجتماعية والمهنية.