সোমবার, ১৩ অক্টোবর, ২০২৫

ফেসবুক


ইউটিউব


টিকটক

Rupali Bangladesh

ইনস্টাগ্রাম

Rupali Bangladesh

এক্স

Rupali Bangladesh


লিংকডইন

Rupali Bangladesh

পিন্টারেস্ট

Rupali Bangladesh

গুগল নিউজ

Rupali Bangladesh


হোয়াটস অ্যাপ

Rupali Bangladesh

টেলিগ্রাম

Rupali Bangladesh

মেসেঞ্জার গ্রুপ

Rupali Bangladesh


ডিজিটাল দুনিয়া ডেস্ক

প্রকাশিত: অক্টোবর ১৩, ২০২৫, ০৬:২০ পিএম

মানুষের সঙ্গে ‘এআই’ কণ্ঠস্বর আলাদা করা যাচ্ছে না, এবার কী হবে?

ডিজিটাল দুনিয়া ডেস্ক

প্রকাশিত: অক্টোবর ১৩, ২০২৫, ০৬:২০ পিএম

ছবি - সংগৃহীত

ছবি - সংগৃহীত

আমরা বেশিরভাগেই সিরি বা অ্যালেক্সা’র কণ্ঠস্বর শুনে চিনেছি যে এটি কৃত্রিম বুদ্ধিমত্তা (এআই) দ্বারা তৈরি। প্রাথমিকভাবে এসব কণ্ঠস্বর স্পষ্টভাবে যান্ত্রিক মনে হলেও, এখন পরিস্থিতি বদলেছে। সম্প্রতি এক গবেষণায় দেখা গেছে যে সাধারণ শ্রোতা বাস্তব মানুষের কণ্ঠস্বর এবং কণ্ঠস্বর ক্লোন বা ডিপফেকের মধ্যে পার্থক্য করতে পারছে না।

কী বলছে গবেষণা

ছলতি বছরের ২৪ সেপ্টেম্বর প্রকাশিত এক গবেষণায়, লন্ডনের কুইন মেরি বিশ্ববিদ্যালয়ের মনোবিজ্ঞানের সিনিয়র লেকচারার নাদিন লাভান জানিয়েছেন, ‘মানুষের কণ্ঠস্বর এবং ওই একই মানুষের কণ্ঠস্বর থেকে তৈরি ‘কৃত্রিম কণ্ঠস্বর’ এক সঙ্গে শুনলে শ্রোতা সঠিকভাবে পার্থক্য করতে পারছে না। কণ্ঠস্বর ক্লোন এতটাই বাস্তবসম্মত হয়েছে যে সাধারণ শ্রোতা প্রায় বিভ্রান্ত হয়।’

গবেষণায় ৮০টি কণ্ঠস্বর নমুনা ব্যবহার করা হয়েছে, যেখানে ৪০টি কণ্ঠস্বর মানুষের এবং ৪০টি কৃত্রিম। অংশগ্রহণকারীদের এগুলো শোনার পর বলতে বলা হয়েছিল কোনটি বাস্তব। ফলাফল দেখায়, তৈরি কৃত্রিম কণ্ঠস্বরকে ৪১ শতাংশ অংশগ্রহণকারীরা ভুলভাবে মানুষের কণ্ঠস্বর মনে করেছেন। অংশগ্রহণকারীদের মধ্যে ৫৮ শতাংশ মানুষের কণ্ঠস্বর থেকে ক্লোন করা কণ্ঠস্বরকে ভুলভাবে মানুষের বলে মনে করেছেন। অর্থাৎ মানুষের কণ্ঠস্বর এবং ক্লোনের মধ্যে পার্থক্য করা প্রায় অসম্ভব হয়ে পড়েছে।

গবেষণায় লাভান উল্লেখ করেছেন, এই প্রযুক্তি নৈতিকতা, কপিরাইট এবং নিরাপত্তার জন্য বড় চ্যালেঞ্জ তৈরি করছে। কণ্ঠস্বর ক্লোন করলে অপরাধীরা সহজেই ব্যাংকের ভয়েস-ভিত্তিক প্রমাণীকরণ বাইপাস করতে পারে, প্রিয়জনদের কণ্ঠস্বর নকল করে অর্থ হাতাতে পারে, এবং রাজনৈতিক বা সামাজিক বিভ্রান্তি সৃষ্টি করতে পারে।

ইতালির এক ঘটনার উদাহরণে দেখা গেছে কণ্ঠস্বর নকল করে ব্যবসায়ীদের কাছ থেকে বিপুল অর্থ স্থানান্তর করা হয়েছে।

কৃত্রিম কণ্ঠস্বরের কার্যপ্রণালী

কৃত্রিম কণ্ঠস্বর তৈরিতে গভীর শিক্ষা পদ্ধতি ব্যবহার করা হয়। মডেলগুলো মানুষের কণ্ঠস্বর বিশ্লেষণ করে উচ্চারণ, স্বরভঙ্গি, শ্বাসের শব্দ এবং কথা বলার ছন্দ শেখে। এরপর এটি টেক্সটকে ধ্বনিতে রূপান্তর করে বাস্তবসম্মত কণ্ঠস্বর তৈরি করে। সফটওয়্যারগুলো সহজলভ্য এবং মাত্র কয়েক মিনিটের রেকর্ডিং দিয়েও কার্যকর কণ্ঠস্বর ক্লোন তৈরি করা সম্ভব।

প্রকাশিত এ গবেষণায় বিভিন্ন উচ্চারণের কণ্ঠস্বর ব্যবহার করা হয়েছিল- ব্রিটিশ, আমেরিকান, অস্ট্রেলীয় এবং ভারতীয়। অংশগ্রহণকারীরা ব্রিটিশ উচ্চারণকে বেশি মানবিক মনে করেছেন। এটি নির্দেশ করে যে মডেলগুলো প্রশিক্ষণ ডেটা বিশ্লেষণ করে কণ্ঠস্বরকে অত্যন্ত বাস্তবসম্মত করতে সক্ষম।

ডিপফেকের নেতিবাচক ও ইতিবাচক প্রভাব

ডিপফেক কণ্ঠস্বরের নেতিবাচক প্রভাব স্পষ্ট- ফ্রড, পরিচয় চুরি, রাজনৈতিক প্রোপাগান্ডা, অনৈতিক যৌন সামগ্রী তৈরি এবং সামাজিক বিভ্রান্তি। তবে এর ইতিবাচক ব্যবহারও রয়েছে- শারীরিক বা স্বাস্থ্যজনিত কারণে কথা বলতে অক্ষম ব্যক্তির কণ্ঠ ফেরত আনা, শিক্ষা ও যোগাযোগের জন্য উন্নত অ্যাক্সেসিবিলিটি।

প্রযুক্তির দ্রুত বিকাশকে নিয়ন্ত্রণে আনার জন্য মাল্টিফ্যাক্টর প্রমাণীকরণ, আইনি নিয়ন্ত্রণ, প্রযুক্তি নির্মাতাদের দায়বদ্ধতা এবং সচেতনতা বৃদ্ধি প্রয়োজন। জনসাধারণের সতর্কতা অপরিহার্য, যাতে নকল কণ্ঠস্বর আমাদের বিশ্বাস বা সিদ্ধান্তকে প্রভাবিত করতে না পারে।

রূপালী বাংলাদেশ

Link copied!