আমরা বেশিরভাগেই সিরি বা অ্যালেক্সা’র কণ্ঠস্বর শুনে চিনেছি যে এটি কৃত্রিম বুদ্ধিমত্তা (এআই) দ্বারা তৈরি। প্রাথমিকভাবে এসব কণ্ঠস্বর স্পষ্টভাবে যান্ত্রিক মনে হলেও, এখন পরিস্থিতি বদলেছে। সম্প্রতি এক গবেষণায় দেখা গেছে যে সাধারণ শ্রোতা বাস্তব মানুষের কণ্ঠস্বর এবং কণ্ঠস্বর ক্লোন বা ডিপফেকের মধ্যে পার্থক্য করতে পারছে না।
কী বলছে গবেষণা
ছলতি বছরের ২৪ সেপ্টেম্বর প্রকাশিত এক গবেষণায়, লন্ডনের কুইন মেরি বিশ্ববিদ্যালয়ের মনোবিজ্ঞানের সিনিয়র লেকচারার নাদিন লাভান জানিয়েছেন, ‘মানুষের কণ্ঠস্বর এবং ওই একই মানুষের কণ্ঠস্বর থেকে তৈরি ‘কৃত্রিম কণ্ঠস্বর’ এক সঙ্গে শুনলে শ্রোতা সঠিকভাবে পার্থক্য করতে পারছে না। কণ্ঠস্বর ক্লোন এতটাই বাস্তবসম্মত হয়েছে যে সাধারণ শ্রোতা প্রায় বিভ্রান্ত হয়।’
গবেষণায় ৮০টি কণ্ঠস্বর নমুনা ব্যবহার করা হয়েছে, যেখানে ৪০টি কণ্ঠস্বর মানুষের এবং ৪০টি কৃত্রিম। অংশগ্রহণকারীদের এগুলো শোনার পর বলতে বলা হয়েছিল কোনটি বাস্তব। ফলাফল দেখায়, তৈরি কৃত্রিম কণ্ঠস্বরকে ৪১ শতাংশ অংশগ্রহণকারীরা ভুলভাবে মানুষের কণ্ঠস্বর মনে করেছেন। অংশগ্রহণকারীদের মধ্যে ৫৮ শতাংশ মানুষের কণ্ঠস্বর থেকে ক্লোন করা কণ্ঠস্বরকে ভুলভাবে মানুষের বলে মনে করেছেন। অর্থাৎ মানুষের কণ্ঠস্বর এবং ক্লোনের মধ্যে পার্থক্য করা প্রায় অসম্ভব হয়ে পড়েছে।
গবেষণায় লাভান উল্লেখ করেছেন, এই প্রযুক্তি নৈতিকতা, কপিরাইট এবং নিরাপত্তার জন্য বড় চ্যালেঞ্জ তৈরি করছে। কণ্ঠস্বর ক্লোন করলে অপরাধীরা সহজেই ব্যাংকের ভয়েস-ভিত্তিক প্রমাণীকরণ বাইপাস করতে পারে, প্রিয়জনদের কণ্ঠস্বর নকল করে অর্থ হাতাতে পারে, এবং রাজনৈতিক বা সামাজিক বিভ্রান্তি সৃষ্টি করতে পারে।
ইতালির এক ঘটনার উদাহরণে দেখা গেছে কণ্ঠস্বর নকল করে ব্যবসায়ীদের কাছ থেকে বিপুল অর্থ স্থানান্তর করা হয়েছে।
কৃত্রিম কণ্ঠস্বরের কার্যপ্রণালী
কৃত্রিম কণ্ঠস্বর তৈরিতে গভীর শিক্ষা পদ্ধতি ব্যবহার করা হয়। মডেলগুলো মানুষের কণ্ঠস্বর বিশ্লেষণ করে উচ্চারণ, স্বরভঙ্গি, শ্বাসের শব্দ এবং কথা বলার ছন্দ শেখে। এরপর এটি টেক্সটকে ধ্বনিতে রূপান্তর করে বাস্তবসম্মত কণ্ঠস্বর তৈরি করে। সফটওয়্যারগুলো সহজলভ্য এবং মাত্র কয়েক মিনিটের রেকর্ডিং দিয়েও কার্যকর কণ্ঠস্বর ক্লোন তৈরি করা সম্ভব।
প্রকাশিত এ গবেষণায় বিভিন্ন উচ্চারণের কণ্ঠস্বর ব্যবহার করা হয়েছিল- ব্রিটিশ, আমেরিকান, অস্ট্রেলীয় এবং ভারতীয়। অংশগ্রহণকারীরা ব্রিটিশ উচ্চারণকে বেশি মানবিক মনে করেছেন। এটি নির্দেশ করে যে মডেলগুলো প্রশিক্ষণ ডেটা বিশ্লেষণ করে কণ্ঠস্বরকে অত্যন্ত বাস্তবসম্মত করতে সক্ষম।
ডিপফেকের নেতিবাচক ও ইতিবাচক প্রভাব
ডিপফেক কণ্ঠস্বরের নেতিবাচক প্রভাব স্পষ্ট- ফ্রড, পরিচয় চুরি, রাজনৈতিক প্রোপাগান্ডা, অনৈতিক যৌন সামগ্রী তৈরি এবং সামাজিক বিভ্রান্তি। তবে এর ইতিবাচক ব্যবহারও রয়েছে- শারীরিক বা স্বাস্থ্যজনিত কারণে কথা বলতে অক্ষম ব্যক্তির কণ্ঠ ফেরত আনা, শিক্ষা ও যোগাযোগের জন্য উন্নত অ্যাক্সেসিবিলিটি।
প্রযুক্তির দ্রুত বিকাশকে নিয়ন্ত্রণে আনার জন্য মাল্টিফ্যাক্টর প্রমাণীকরণ, আইনি নিয়ন্ত্রণ, প্রযুক্তি নির্মাতাদের দায়বদ্ধতা এবং সচেতনতা বৃদ্ধি প্রয়োজন। জনসাধারণের সতর্কতা অপরিহার্য, যাতে নকল কণ্ঠস্বর আমাদের বিশ্বাস বা সিদ্ধান্তকে প্রভাবিত করতে না পারে।
আপনার ফেসবুক প্রোফাইল থেকে মতামত লিখুন