ليس من المستغرب في الوقت الحاضر أن تصدر الأوامر لهاتفك أو ساعتك أو مكبرات الصوت أو أي جهاز تقني آخر، عن طريق نطق بضع كلمات وانتظار استجابة دقيقة. وعلى نحو مماثل، نقوم باستخدام روبوتات المحادثة ( الشات بوت ) والمساعد الصوتي العربي، والعديد من الأدوات "الذكية" التي تفهم صوتنا ولغتنا بشكل مثالي تقريبًا.
ولكن كيف ظهرت هذه التقنية؟ هل تم اختراعها بين عشية وضحاها أم أنها ناتجة عن تطور طويل وتدريجي؟
الإنجاز الأول - تم عرض أداة The Voder عام 1939 في المعرض العالمي في مدينة نيويورك، حيث تم تطوير هذه الأداة لتوليف الخطاب البشري عن طريق محاكاة الأحبال الصوتية البشرية. وتم تشغيلها عن طريق اختيار أحد الصوتين الأساسيين عن طريق شريط دواسة، وعلى الرغم من محدودية وظائفها إلا أنها رسمت الخطوط الأولية لتقنيات التعرف على الصوت.
وقد كانت Audrey قادرة على فهم مجموعة صغيرة من الأرقام المنطوقة وتمييز الأرقام من صفر إلى تسعة. وفي جوهرها، اتخذت Audrey خطوة كبيرة إلى ما وراء الأعمال اليومية والأصوات العشوائية حيث كان بوسعها في الواقع التعرف على الصوت المميز للأرقام المنطوقة -من صفر إلى تسعة- بدقة تفوق نسبة 90٪.
، حيث يمكن لهذه التقنية فهم ما يصل إلى 16 كلمة منطوقة باللغة الإنجليزية. وتم تشغيل هذه التقنية من خلال التحدث في ميكروفون والذي بدوره يحول الأصوات إلى نبضات كهربائية. بحلول ذلك الوقت، كان من الواضح أن تقنيات التعرف على الصوت كانت في طريقها لفهم اللغة البشرية.
تم تطوير The Harpy من قبل جامعة كارنيغي ميلون، وتمكنت هذه التقنية من فهم 1,011 كلمة، مما يمثل إنجازًا آخر في رحلة توسيع قدرات التعرف على الصوت.
والتي تسمح لأجهزة التعرف على الصوت بتحديد الكلام بدقة أكبر. وفي هذا الوقت تقريبًا، بدأت شركة IBM العمل على Tangora، وهي تقنية قادرة على تحديد 20,000 كلمة منطوقة.
عبر أجهزة كمبيوتر مايكروسوفت ويندوز. واستمر اتجاه التسعينيات للتعرف على الكلام في العمل، حيث أطلقت شركة أبل Speakable Items في عام 1993، وهو برنامج مدمج لأجهزة أبل. وشهد عام 1993 أيضًا إدخال نظام Sphinx-II، وهو أول نظام كبير للتعرف المستمر على الكلام.
الإنجاز السابع - أطلقت شركة جوجل تطبيق البحث الصوتي لأجهزة الآيفون في عام 2008، بينما تم تقديم المساعدة الشخصية الرقمية Siri للعالم في عام 2011. وكان هذا بمثابة تغيير كبير لشركات تكنولوجيا الهاتف المحمول، حيث مكّنت تقنيات التعرف على الصوت المستخدمين من التحكم بأجهزتهم بكفاءة أكبر من أي وقت مضى.
ومنذ ذلك الحين ، بدأت تقنية التعرف على الصوت بالتطور في جميع أنحاء العالم، على مستوى قدراتها وتطبيقاتها. ولكن مع ظهور الذكاء الاصطناعي، أصبحت تقنيات التعرف على الصوت لا تقتصر فقط على مستودع الكلمات والأصوات التي يمكن فهمها، بل أن الجهاز أو التطبيق نفسه يمكن أن يتعلم ويتدرب ليصبح أكثر ذكاءً وقوة باستمرار.
وهنا تأتي زينة إلى العالم العربي: أول مساعد صوتي عربي تفاعلي وشات بوت باللغة العربية في العالم، مستفيدة من سنوات من تطوير الذكاء الاصطناعي للتعرف على الصوت وملء الفراغ تقنيات الدعم التجاري باللغة العربية.