→ المدونة
الذكاء الاصطناعي

تطور تقنيات التعرف على الصوت

مهند الجواميس
27/4/2021
تطور تقنيات التعرف على الصوت

تطور تقنيات التعرف على الصوت

ليس من المستغرب في الوقت الحاضر أن تصدر الأوامر لهاتفك أو ساعتك أو مكبرات الصوت أو أي جهاز تقني آخر، عن طريق نطق بضع كلمات وانتظار استجابة دقيقة. وعلى نحو مماثل، نقوم باستخدام روبوتات المحادثة ( الشات بوت ) والمساعد الصوتي العربي، والعديد من الأدوات "الذكية" التي تفهم صوتنا ولغتنا بشكل مثالي تقريبًا.


ولكن كيف ظهرت هذه التقنية؟ هل تم اختراعها بين عشية وضحاها أم أنها ناتجة عن تطور طويل وتدريجي؟ 



الإنجاز الأول - تم عرض أداة The Voder عام 1939 في المعرض العالمي في مدينة نيويورك، حيث تم تطوير هذه الأداة لتوليف الخطاب البشري عن طريق محاكاة الأحبال الصوتية البشرية. وتم تشغيلها عن طريق اختيار أحد الصوتين الأساسيين عن طريق شريط دواسة، وعلى الرغم من محدودية وظائفها إلا أنها رسمت الخطوط الأولية لتقنيات التعرف على الصوت. 



الإنجاز الثاني - شهد عام 1952 ولادة Audrey من قبل Bell Labs. وقد كانت Audrey قادرة على فهم مجموعة صغيرة من الأرقام المنطوقة وتمييز الأرقام من صفر إلى تسعة. وفي جوهرها، اتخذت Audrey خطوة كبيرة إلى ما وراء الأعمال اليومية والأصوات العشوائية حيث كان بوسعها في الواقع التعرف على الصوت المميز للأرقام المنطوقة -من صفر إلى تسعة- بدقة تفوق نسبة 90٪.



الإنجاز الثالث - قامت شركة IBM بعرض تقنية The Shoebox في معرض سياتل العالمي لعام 1962، حيث يمكن لهذه التقنية فهم ما يصل إلى 16 كلمة منطوقة باللغة الإنجليزية. وتم تشغيل هذه التقنية من خلال التحدث في ميكروفون والذي بدوره يحول الأصوات إلى نبضات كهربائية. بحلول ذلك الوقت، كان من الواضح أن تقنيات التعرف على الصوت كانت في طريقها لفهم اللغة البشرية.



الإنجاز الرابع - في عام 1976، وبعد خمس سنوات من الأبحاث التي أجرتها DARPA، تم تطوير The Harpy من قبل جامعة كارنيغي ميلون، وتمكنت هذه التقنية من فهم 1,011 كلمة، مما يمثل إنجازًا آخر في رحلة توسيع قدرات التعرف على الصوت.



الإنجاز الخامس - بحلول أوائل الثمانينيات، بدأت تقنيات التعرف على الصوت في إحراز تقدم كبير، حيث تم استخدام تقنية تسمى نموذج ماركوف المخفي، والتي تسمح لأجهزة التعرف على الصوت بتحديد الكلام بدقة أكبر. وفي هذا الوقت تقريبًا، بدأت شركة IBM العمل على Tangora، وهي تقنية قادرة على تحديد 20,000 كلمة منطوقة. 



الإنجاز السادس - بحلول عام 1990، تم إدخال تقنيات التعرف على الكلام إلى مكان العمل باستخدام تقنية Dragon Dictate، عبر أجهزة كمبيوتر مايكروسوفت ويندوز. واستمر اتجاه التسعينيات للتعرف على الكلام في العمل، حيث أطلقت شركة أبل Speakable Items في عام 1993، وهو برنامج مدمج لأجهزة أبل. وشهد عام 1993 أيضًا إدخال  نظام Sphinx-II، وهو أول نظام كبير للتعرف المستمر على الكلام. 



الإنجاز السابع - أطلقت شركة جوجل تطبيق البحث الصوتي لأجهزة الآيفون في عام 2008، بينما تم تقديم المساعدة الشخصية الرقمية Siri للعالم في عام 2011. وكان هذا بمثابة تغيير كبير لشركات تكنولوجيا الهاتف المحمول، حيث مكّنت تقنيات التعرف على الصوت المستخدمين من التحكم بأجهزتهم بكفاءة أكبر من أي وقت مضى. 


ومنذ ذلك الحين ، بدأت تقنية التعرف على الصوت بالتطور في جميع أنحاء العالم، على مستوى قدراتها وتطبيقاتها. ولكن مع ظهور الذكاء الاصطناعي، أصبحت تقنيات التعرف على الصوت لا تقتصر فقط على مستودع الكلمات والأصوات التي يمكن فهمها، بل أن الجهاز أو التطبيق نفسه يمكن أن يتعلم ويتدرب ليصبح أكثر ذكاءً وقوة باستمرار.


وهنا تأتي زينة إلى العالم العربي: أول مساعد صوتي عربي تفاعلي وشات بوت باللغة العربية في العالم، مستفيدة من سنوات من تطوير الذكاء الاصطناعي للتعرف على الصوت وملء الفراغ تقنيات الدعم التجاري باللغة العربية.


اكتشف المزيد عن Xina هنا!