اینتھروپک AI ماڈلز کی کارکردگی اور اثرات کا جائزہ لینے کے قابل نئے قسم کے بینچ مارکس کی ترقی کے لیے فنڈز فراہم کرنے کے لیے ایک پروگرام شروع کر رہا ہے، بشمول اس کے اپنے کلاڈ جیسے تخلیقی ماڈلز۔
پیر کے روز نقاب کشائی کی گئی، اینتھروپک کا پروگرام فریق ثالث کی تنظیموں کو ادائیگیاں کرے گا جو کمپنی کے بلاگ پوسٹ میں بتاتی ہے، “AI ماڈلز میں جدید صلاحیتوں کی مؤثر طریقے سے پیمائش کر سکتے ہیں۔” جو لوگ دلچسپی رکھتے ہیں وہ رولنگ کی بنیاد پر جانچنے کے لیے درخواستیں جمع کر سکتے ہیں۔
انتھروپک نے اپنے آفیشل بلاگ پر لکھا، “ان تشخیصوں میں ہماری سرمایہ کاری کا مقصد اے آئی سیفٹی کے پورے شعبے کو بلند کرنا ہے، ایسے قیمتی ٹولز فراہم کرنا جو پورے ماحولیاتی نظام کو فائدہ پہنچاتے ہیں۔” “اعلی معیار کی، حفاظت سے متعلقہ تشخیص کو تیار کرنا اب بھی چیلنجنگ ہے، اور طلب رسد سے آگے بڑھ رہی ہے۔”
جیسا کہ ہم نے پہلے روشنی ڈالی ہے، AI میں بینچ مارکنگ کا مسئلہ ہے۔ آج کل AI کے لیے سب سے زیادہ عام طور پر پیش کیے جانے والے بینچ مارکس اس بات کو پکڑنے میں ناقص کام کرتے ہیں کہ اوسطاً فرد کس طرح جانچے جانے والے سسٹمز کو استعمال کرتا ہے۔ ایسے سوالات بھی ہیں کہ کیا کچھ معیارات، خاص طور پر وہ جو کہ جدید جنریٹو AI کے طلوع ہونے سے پہلے جاری کیے گئے، حتیٰ کہ ان کی عمر کے پیش نظر، وہ جس چیز کی پیمائش کرنا چاہتے ہیں اس کی پیمائش کرتے ہیں۔
انتہائی اعلیٰ سطح کا، اس سے زیادہ مشکل حل Anthropic تجویز کر رہا ہے جو نئے ٹولز، انفراسٹرکچر اور طریقوں کے ذریعے AI سیکیورٹی اور سماجی مضمرات پر توجہ مرکوز کرتے ہوئے چیلنجنگ بینچ مارکس بنا رہا ہے۔
کمپنی خاص طور پر ایسے ٹیسٹوں کے لیے کال کرتی ہے جو سائبر حملے کرنے، بڑے پیمانے پر تباہی پھیلانے والے ہتھیاروں (مثلاً جوہری ہتھیاروں) کو “بڑھانے” اور لوگوں کو جوڑ توڑ یا دھوکہ دینے جیسے کاموں کو انجام دینے کے لیے ماڈل کی صلاحیت کا اندازہ لگاتے ہیں (مثلاً ڈیپ فیکس یا غلط معلومات کے ذریعے)۔ قومی سلامتی اور دفاع سے متعلق AI خطرات کے لیے، Anthropic کا کہنا ہے کہ وہ خطرات کی شناخت اور تشخیص کے لیے ایک “ابتدائی وارننگ سسٹم” تیار کرنے کے لیے پرعزم ہے، حالانکہ یہ بلاگ پوسٹ میں یہ نہیں بتاتا ہے کہ اس طرح کے نظام میں کیا شامل ہو سکتا ہے۔
اینتھروپک کا یہ بھی کہنا ہے کہ وہ اپنے نئے پروگرام کو بینچ مارکس اور “آخر سے آخر تک” کاموں میں تحقیق کی حمایت کرنے کا ارادہ رکھتا ہے جو سائنسی مطالعہ میں مدد کرنے، متعدد زبانوں میں بات چیت کرنے اور جڑے ہوئے تعصبات کو کم کرنے کے ساتھ ساتھ خود کو سنسر کرنے والے زہریلے پن میں AI کی صلاحیت کی جانچ کرتا ہے۔
اس سب کو حاصل کرنے کے لیے، انتھروپک نئے پلیٹ فارمز کا تصور کرتا ہے جو موضوع کے ماہرین کو اپنی تشخیصات اور ماڈلز کے بڑے پیمانے پر ٹرائلز تیار کرنے کی اجازت دیتے ہیں جن میں “ہزاروں” صارفین شامل ہیں۔ کمپنی کا کہنا ہے کہ اس نے پروگرام کے لیے ایک کل وقتی کوآرڈینیٹر کی خدمات حاصل کی ہیں اور یہ کہ وہ ایسے منصوبوں کو خرید یا بڑھا سکتی ہے جن کے بارے میں اس کے خیال میں پیمانے کی صلاحیت موجود ہے۔
“ہم ہر پروجیکٹ کی ضروریات اور مرحلے کے مطابق فنڈنگ کے بہت سے اختیارات پیش کرتے ہیں،” اینتھروپک پوسٹ میں لکھتا ہے، حالانکہ انتھروپک کے ترجمان نے ان اختیارات کے بارے میں مزید تفصیلات فراہم کرنے سے انکار کردیا۔ “ٹیموں کو فرنٹیئر ریڈ ٹیم، فائن ٹیوننگ، اعتماد اور حفاظت اور دیگر متعلقہ ٹیموں کے اینتھروپک کے ڈومین ماہرین کے ساتھ براہ راست بات چیت کرنے کا موقع ملے گا۔”
نئے AI بینچ مارکس کو سپورٹ کرنے کے لیے اینتھروپک کی کوشش قابلِ تعریف ہے – یہ فرض کرتے ہوئے کہ یقیناً اس کے پیچھے کافی رقم اور افرادی قوت موجود ہے۔ لیکن اے آئی ریس میں کمپنی کے تجارتی عزائم کو دیکھتے ہوئے، اس پر مکمل اعتماد کرنا مشکل ہو سکتا ہے۔
بلاگ پوسٹ میں، انتھروپک اس حقیقت کے بارے میں کافی شفاف ہے کہ وہ AI حفاظتی درجہ بندیوں کے ساتھ ہم آہنگ ہونے کے لیے کچھ خاص تشخیصات چاہتا ہے۔ یہ تیار کیا گیا (تیسرے فریقوں کے کچھ ان پٹ کے ساتھ جیسے غیر منفعتی AI ریسرچ org METR)۔ یہ کمپنی کے اختیار میں ہے۔ لیکن یہ پروگرام میں درخواست دہندگان کو “محفوظ” یا “خطرناک” AI کی تعریفیں قبول کرنے پر مجبور بھی کر سکتا ہے جن سے وہ متفق نہیں ہوسکتے ہیں۔
AI کمیونٹی کا ایک حصہ اینتھروپک کے “تباہ کن” اور “فریبی” AI خطرات جیسے کہ جوہری ہتھیاروں کے خطرات کے حوالے سے بھی مسئلہ اٹھائے گا۔ بہت سے ماہرین کا کہنا ہے کہ AI کی تجویز کرنے کے لیے بہت کم ثبوت موجود ہیں کیونکہ ہم جانتے ہیں کہ یہ کسی بھی وقت جلد ہی، اگر کبھی بھی ہو، تو دنیا کو ختم کرنے والی، انسانوں کو بہتر بنانے کی صلاحیتیں حاصل کر لے گی۔ ان ماہرین کا کہنا ہے کہ آسنن “سپر انٹیلی جنس” کے دعوے صرف اس وقت کے دباؤ والے AI ریگولیٹری مسائل سے توجہ ہٹانے کے لیے کام کرتے ہیں، جیسے AI کے فریب کاری کے رجحانات۔
اپنی پوسٹ میں، Anthropic لکھتا ہے کہ اسے امید ہے کہ اس کا پروگرام “مستقبل کی جانب پیش رفت کے لیے ایک اتپریرک کے طور پر کام کرے گا جہاں جامع AI تشخیص ایک صنعت کا معیار ہے۔” یہ ایک مشن ہے جس کی شناخت بہتر AI بینچ مارکس بنانے کے لیے بہت ساری کھلی، کارپوریٹ غیر منسلک کوششیں کر سکتی ہیں۔ لیکن یہ دیکھنا باقی ہے کہ آیا وہ کوششیں کسی ایسے AI وینڈر کے ساتھ افواج میں شامل ہونے کو تیار ہیں جس کی وفاداری بالآخر حصص یافتگان کے ساتھ ہوتی ہے۔