للاقتراب أكثر من حديث البشر: جوجل تطلق تقنية WaveNet ضمن مساعدها الذكيّ Google Assistant
للاقتراب أكثر من حديث البشر: جوجل تطلق تقنية WaveNet ضمن مساعدها الذكيّ Google Assistant

على الرّغم من التطور الكبير الذي حصل بمجال المساعدات الرقمية الذكية، فإن مشكلةً واحدة لا تزال حاضرة منذ إطلاقها وحتى الآن: أنها “رقمية”! وهنا أعني أن طريقة إجابتها على أسئلة واستعلامات المستخدمين توحي بشكلٍ فوريّ أنها أمرٌ “اصطناعيّ”. عندما قامت جوجل بإطلاق مساعدها الذكيّ Google Assistant، تم العمل على تطويره بحيث يتمكن من فهم سياق الحديث، وعلى الرّغم من تفوقه بهذا المجال، إلا أن الصوت البشريّ الذي يجيب على استعلامات المستخدمين لا يزال يمتلك طابعًا “روبوتيًا”.

لهذا السبب، ومن أجل تيسر تجربة استخدام أقرب للمحادثة البشرية الطبيعية، تم تضمين تقنية WaveNet ضمن المساعد الذكيّ Google Assistant والتي من شأنها المساعدة على توليد صوت وحديثٍ يمتلك مواصفاتٍ وخصائص قريبة جدًا من الحديث البشريّ الطبيعيّ، وذلك بدلًا من آليات تحويل النص إلى حديث TTS: Text-to-Speach التقليدية ذات الأداء المنخفض بهذا الخصوص.

لتوضيح أهمية تقنية WaveNet يجب التطرّق قليلًا لمفهوم تحويل النص إلى حديث أو اصطناع الحديث Speech Synthesis، وهي عبارة عن برمجيات وظيفتها توليد حديث اعتمادًا على نصوصٍ مدخلة إليه. أشهر الطرق التقليدية هي Concatenative TTS والتي تعتمد على عددٍ كبيرٍ من التسجيلات الصوتية المأخوذة من نفس الشخص، حيث يتم توليد الألفاظ الجديدة من هذه التسجيلات، ودائمًا ما يعاب على هذه التقنية بالأداء غير الطبيعيّ أو أنه غير واضح أو مفهوم. يتم أيضًا استخدام طريقة أخرى هي Parametric TTS التي تأخذ بعين الاعتبار القواعد اللغوية وحركات الفم من أجل توليد الألفاظ والحديث.

بالنسبة لتقنية WaveNet، فهي توّفر طريقًا مختلفًا وبشكلٍ كليّ لتوليد الألفاظ، حيث وبدلًا من الاعتماد على قاعدة بيانات ضخمة يتم اقتطاع الأصوات وتركيبها منها، يتم العمل على بناء الجمل والألفاظ من الصفر ولكن عبر نموذجٍ ذكيّ مبنيّ على الشبكات العصبونية قادر على توليد عيناتٍ صوتية بشكلٍ كبير يصل عددها حتى 16000 عينة بالثانية، وذلك بعد أن تم تدريب النموذج ليكون قادرًا على فهم بنية وتركيب الصوت والحديث البشريّ مع الأخذ بعين الاعتبار بعض الخواص المتقدمة كنبرة الصوت أو حركة الشفاه. التسجيلات الصوتية التالية تظهر الصوت الذي تم توليده للمساعد الذكيّ قبل استخدام تقنية WaveNet وبعدها:

قبل:

بعد:https://ardroid.com/wp-content/uploads/2017/10/Hol_After.wav

تقول جوجل أن النموذج الأوليّ من تقنية WaveNet وفر أداءًا ممتازًا ولكن كان من الصعب تضمينه ببرنامج ذو انتشارٍ تجاريّ واسع مثل Google Assistant، ولذلك تم العمل على تحسينه من حيث سرعته وقدرته على توليد الكلمات والألفاظ الصوتية، ليصبح اليوم أسرع بـ 1000 مرة من النموذج الأصليّ الذي تم إطلاقه قبل عام، حيث سيحتاج الآن إلى زمنٍ قدره 50 ميللي ثانية لتوليد حديثٍ مدته ثانية واحدة. من ناحيةٍ أخرى، تقول جوجل أن التقنية توّفر حاليًا صوتًا ذو أداءٍ قريبٍ جدًا من الصوت الطبيعيّ، مع تسجيل نتيجةٍ قدرها 4.347 على مقياسٍ من 1 إلى 5.

wavenet-waveform-anim-optimised-171004-r

من المفترض أن جوجل قد بدأت بطرح تحديثٍ لكل المستخدمين الذين يمتلكون المساعد الذكيّ Google Assistant والذي من شأنه تضمين تقنية WaveNet داخلها، وما يعني الحصول على صوتٍ واستجابة طبيعية أكثر.

المصدر

المصدر : اندوريد