Google AI อ่านปาก ได้แม่นยำกว่ามืออาชีพ 3.8 เท่า

Google เปิดตัวปัญญาประดิษฐ์ (AI) สำหรับอ่านปาก เพื่อแกะคำพูดได้แม่นยำกว่ามืออาชีพ หลังเรียนรู้ผ่านรายการโทรทัศน์ต่างๆ ของ BBC นานกว่า 5,000 ชั่วโมง

ทีมนักวิจัยจากมหาวิทยาลัย University of Oxford และฝ่าย DeepMind ของ Google ทำการฝึกฝน AI ให้เรียนรู้ชุดข้อมูลการอ่านปาก (Lip Reading Sentences – LRS) ด้วยวิธี deep learning จากรายการโทรทัศน์อังกฤษ ที่ออกอากาศในระหว่างเดือน มี.ค. – ก.ย. 2016 ซึ่งมีตัวอย่างกว่า 118,000 ประโยค

ไม่ว่าจะเป็นรายการ Newsnight, BBC Breakfast และ Question Time โดยสามารถอ่านได้อย่างถูกต้องถึง 46.8 เปอร์เซ็นต์ของคำทั้งหมดโดยไม่มีข้อผิดพลาด ซึ่งถือว่าสูงกว่าผู้เชี่ยวชาญด้านการอ่านริมฝีปาก ซึ่งมีค่าเฉลี่ยความถูกต้องเพียง 12.4% จาก 200 คลิปที่เลือกแบบสุ่มในชุดข้อมูลเดียวกัน

DeepMind และ ม. Oxford วางแผนที่จะนำรายการของ BBC มาเป็นทรัพยากรการฝึกอบรม ที่จะถูกใช้เพื่อช่วยให้นักวิจัยคนอื่นๆ ในสาขา สามารถผลักดันระบบของตัวเองให้มีประสิทธิภาพมากยิ่งขึ้น

จีเฮง โจว จากมหาวิทยาลัย University of Oulu ในประเทศฟินแลนด์ เชื่อว่าสิ่งนี้จะเป็นก้าวสำคัญในการพัฒนาระบบอ่านริมฝีปากอัตโนมัติอย่างสมบูรณ์ต่อไป “หากไม่มีชุดข้อมูลขนาดใหญ่ ก็เป็นเรื่องยากสำหรับเราที่จะตรวจสอบเทคโนโลยีใหม่อย่าง deep learning”

อย่างไรก็ตาม แม้ว่าเทคโนโลยีจะถูกปรับปรุงพัฒนาขึ้น แต่ยังเป็นไปได้ยากที่จะถูกใช้เหมือนในภาพยนตร์สายลับ เนื่องจากการใช้งานยังต้องคำนึงถึงปัจจัยทับซ้อนค่อนข้างมาก

Loading...

ยานนิส อัซซาเอล ตัวแทนของ LipNet บริษัทที่พัฒนา AI เพื่อการอ่านปากเช่นกัน ระบุว่า “เราเชื่อว่าเครื่องอ่านริมฝีปากมีศักยภาพในการใช้งานได้อย่างมหาศาล แต่แอพพลิเคชันในการช่วยฟังก็ต้องดีขึ้น รวมไปถึงการต้องใช้งานในพื้นที่เงียบเสียง และต้องพยายามจับเสียงพูดในสภาพแวดล้อมที่มีเสียงดังให้ได้”

Google นั้นถือเป็นหนึ่งในบริษัทที่มีความก้าวหน้าด้าน AI ลำดับต้นๆของสหรัฐ ด้วยความที่มีคลังข้อมูลมหาศาลอยู่ในมือ

เราจึงมักได้เห็นปัญญาประดิษฐ์จาก DeepMind สร้างความฮือฮาได้เป็นระยะ นับตั้งแต่ AlphaGo ไปจึง AI ที่สามารถเรียนรู้ได้ตัวเอง หรือสามารถใช้ตรรกะได้เหมือนมนุษย์ และล่าสุด คือการอ่านริมฝีปาก เพื่อแกะคำพูด

แม้หลายคนจะตั้งคำถามถึงเหตุผลที่ AI ถูกพัฒนาเพื่อใช้เรียนรู้การอ่านปาก และตีความไปว่าอาจมีการนำไปใช้ในการทหารหรือสอดแนม

แต่ที่จริงแล้ว หากสามารถพัฒนาให้ใช้งานได้จริง ประโยชน์ของมันก็คือสามารถนำไปใช้ช่วยเหลือผู้บกพร่องทางการได้ยิน ให้เข้าใจการสนทนา สร้างคำบรรยายใต้หนังเงียบ หรือสั่งการ AI Assistant อย่าง Siri ผ่านกล้องได้ ซึ่งจะเป็นประโยชน์มาก หากอยู่ในพื้นที่ที่มีเสียงอึกทึกเกินกว่าที่ AI จะจับคำพูดของเราจากเสียงได้อย่างชัดเจน

ในอนาคตเชื่อได้ว่าการพัฒนา AI ให้อ่านปากได้นั้น จะแม่นยำขึ้นกว่าเดิมขึ้นไปอีก ซึ่งก็น่าจะถูกนำไปประยุกต์ใช้ในหลายๆ อย่าง ทั้งในกระบวนการยุติธรรม (เช่นการอ่านปากจากภาพในกล้องวงจรปิด) หรือการในเชิงประวัติศาสตร์ (เช่นการอ่านปากจากภาพในวิดีโอเหตุการณ์ต่างๆ) ซึ่งจะช่วยไขข้อสงสัยต่างๆ ให้กับเราได้อีกมากพอสมควร

เรียบเรียงจาก
Watch Your Mouth. Google’s DeepMind AI Can Outperform Professional Lip Readers

Facebook Comments
Loading...

ATHIPAT SAHAPACHUDA

ชอบอ่านหนังสือ โดยเฉพาะ วิทยาศาสตร์ เทคโนโลยี ปรัญชา ความสำเร็จ

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น