آواز کی ترکیب نے 1978 کے اسپیک اینڈ اسپیل کھلونا کے بعد ایک طویل فاصلہ طے کیا ہے، جس نے کبھی الیکٹرانک آواز کا استعمال کرتے ہوئے الفاظ کو بلند آواز سے پڑھنے کی اپنی جدید ترین صلاحیت کے ساتھ لوگوں کو حیران کر دیا تھا۔ اب، گہری سیکھنے والے AI ماڈلز کا استعمال کرتے ہوئے، سافٹ ویئر نہ صرف حقیقت پسندانہ آوازیں بنا سکتا ہے بلکہ آڈیو کے چھوٹے نمونوں کا استعمال کرتے ہوئے موجودہ آوازوں کی قائل طور پر نقل بھی کر سکتا ہے۔
ان خطوط کے ساتھ، اوپن اے آئی نے اس ہفتے وائس انجن کا اعلان کیا، جو کہ ریکارڈ شدہ آڈیو کے 15 سیکنڈ کے حصے پر مبنی مصنوعی آوازیں بنانے کے لیے ٹیکسٹ ٹو اسپیچ AI ماڈل ہے۔ اس نے اپنی ویب سائٹ پر وائس انجن کے آڈیو نمونے فراہم کیے ہیں۔
ایک بار آواز کلون ہونے کے بعد، صارف وائس انجن میں ٹیکسٹ داخل کر سکتا ہے اور AI سے تیار کردہ آواز کا نتیجہ حاصل کر سکتا ہے۔ لیکن OpenAI اپنی ٹیکنالوجی کو وسیع پیمانے پر جاری کرنے کے لیے تیار نہیں ہے۔ کمپنی نے ابتدائی طور پر اس مہینے کے شروع میں وائس انجن API کے لیے سائن اپ کرنے کے لیے ڈویلپرز کے لیے ایک پائلٹ پروگرام شروع کرنے کا منصوبہ بنایا تھا۔ لیکن اخلاقی مضمرات کے بارے میں مزید غور و فکر کے بعد، کمپنی نے ابھی کے لیے اپنے عزائم کو کم کرنے کا فیصلہ کیا۔
کمپنی لکھتی ہے، “اے آئی سیفٹی کے حوالے سے ہمارے نقطہ نظر اور اپنے رضاکارانہ وعدوں کے مطابق، ہم اس وقت اس ٹیکنالوجی کا جائزہ لینے کا انتخاب کر رہے ہیں لیکن وسیع پیمانے پر جاری نہیں کر رہے ہیں،” کمپنی لکھتی ہے۔ “ہم امید کرتے ہیں کہ وائس انجن کا یہ پیش نظارہ اس کی صلاحیت کو واضح کرتا ہے اور پہلے سے زیادہ قابل اعتماد جنریٹو ماڈلز کے ذریعے لائے گئے چیلنجوں کے خلاف سماجی لچک کو بڑھانے کی ضرورت کو بھی تحریک دیتا ہے۔”
عام طور پر وائس کلوننگ ٹیک خاص طور پر نئی نہیں ہے — 2022 سے کئی AI آواز کی ترکیب کے ماڈلز موجود ہیں، اور یہ ٹیکنالوجی اوپن سورس کمیونٹی میں OpenVoice اور XTTSv2 جیسے پیکجز کے ساتھ فعال ہے۔ لیکن یہ خیال کہ OpenAI کسی کو بھی اپنے مخصوص برانڈ کی صوتی ٹیک کو استعمال کرنے کی اجازت دینے کی طرف بڑھ رہا ہے۔ اور کچھ طریقوں سے، کمپنی کی جانب سے اسے مکمل طور پر جاری کرنے میں نرمی اس سے بڑی کہانی ہو سکتی ہے۔
اوپن اے آئی کا کہنا ہے کہ اس کی صوتی ٹیکنالوجی کے فوائد میں قدرتی آوازوں کے ذریعے پڑھنے میں مدد فراہم کرنا، مقامی لہجوں کو محفوظ رکھتے ہوئے مواد کا ترجمہ کرکے تخلیق کاروں تک عالمی رسائی کو قابل بنانا، غیر زبانی افراد کو ذاتی نوعیت کے بولنے کے اختیارات کے ساتھ مدد کرنا، اور مریضوں کی اپنی آواز کی بحالی میں مدد کرنا شامل ہے۔ تقریر کو خراب کرنے والے حالات۔
لیکن اس کا مطلب یہ بھی ہے کہ 15 سیکنڈ کی ریکارڈ شدہ آواز کے ساتھ کوئی بھی شخص اسے مؤثر طریقے سے کلون کرسکتا ہے، اور اس کے ممکنہ غلط استعمال کے واضح مضمرات ہیں۔ یہاں تک کہ اگر OpenAI کبھی بھی اپنے وائس انجن کو بڑے پیمانے پر جاری نہیں کرتا ہے، آوازوں کو کلون کرنے کی صلاحیت نے پہلے ہی فون گھوٹالوں کے ذریعے معاشرے میں پریشانی پیدا کر دی ہے جہاں کوئی اپنے پیارے کی آواز کی نقل کرتا ہے اور جو بائیڈن جیسے سیاست دانوں کی کلون شدہ آوازوں پر مشتمل انتخابی مہم کے روبوکالز۔
نیز، محققین اور نامہ نگاروں نے یہ ظاہر کیا ہے کہ صوتی کلوننگ ٹیکنالوجی کا استعمال ایسے بینک کھاتوں کو توڑنے کے لیے کیا جا سکتا ہے جو صوتی تصدیق کا استعمال کرتے ہیں (جیسے چیس کی وائس آئی ڈی)، جس نے اوہائیو کے امریکی سینیٹر شیروڈ براؤن، جو کہ بینکنگ سے متعلق امریکی سینیٹ کی کمیٹی کے چیئرمین ہیں۔ , ہاؤسنگ اور شہری امور، مئی 2023 میں کئی بڑے بینکوں کے سی ای اوز کو ایک خط بھیجنے کے لیے ان حفاظتی اقدامات کے بارے میں استفسار کریں گے جو بینک AI سے چلنے والے خطرات سے نمٹنے کے لیے اٹھا رہے ہیں۔
OpenAI تسلیم کرتا ہے کہ اگر ٹیک وسیع پیمانے پر جاری کی جاتی ہے تو پریشانی کا باعث بن سکتی ہے، لہذا یہ ابتدائی طور پر ان مسائل کے حل کے لیے قواعد کے ایک سیٹ کے ساتھ کام کرنے کی کوشش کر رہا ہے۔ یہ گزشتہ سال سے منتخب پارٹنر کمپنیوں کے سیٹ کے ساتھ ٹیکنالوجی کی جانچ کر رہا ہے۔ مثال کے طور پر، ویڈیو سنتھیسز کمپنی HeyGen ایک ہی مخر آواز کو برقرار رکھتے ہوئے اسپیکر کی آواز کو دوسری زبانوں میں ترجمہ کرنے کے لیے ماڈل کا استعمال کر رہی ہے۔