ডিপ ফেক ভয়েস : সাড়ে ৩ সেকেন্ডের রেকর্ডিং থেকেই কণ্ঠ ক্লোন

আপডেট: ডিসেম্বর ৩, ২০১৮, ১২:৩১ পূর্বাহ্ণ

সোনার দেশ ডেস্ক


ডিপ ফেক ভিডিও নিয়ে উদ্বেগের মধ্যেই এখন আরেক আপদ হাজির— ডিপ ফেক ভয়েস। কারো কণ্ঠের মাত্র ৩ দশমিক ৭ সেকেন্ডের একটি অডিও রেকর্ডিং পেলেই ডিপ ফেক ভয়েস সফটওয়্যার তার ক্লোন করে ফেলতে পারে। এ কয়েক সেকেন্ডের কণ্ঠ থেকেই সফটওয়্যার সেই ব্যক্তির মুখ দিয়ে যেকোনো কথা, বক্তব্য বলিয়ে নিতে পারবে।
এ ডিপ ফেক ভয়েস সফটওয়্যার তৈরি করেছে চীনা টেক জায়ান্ট বাইদু। এ প্রযুক্তির প্রেরণা হচ্ছে মেশিন লার্নিং সফটওয়্যার। গবেষণা বলছে, ধীরে ধীরে মিডিয়া বা ইন্টারনেটের বিভিন্ন কনটেন্টকে বিশ্বাস করা কঠিন হয়ে যাচ্ছে। বাইদুর গবেষকরা এ বছর ডিপ ফেক ভয়েস নিয়ে তাদের গবেষণার অগ্রগতি প্রকাশ করেছেন। তাদের এ প্রযুক্তি কোনো কণ্ঠকে ক্লোন করে ফেলতে পারে। গত বছর ক্লোন করা একটি নকল অডিও ক্লিপস তৈরি করতে মূল কণ্ঠের প্রায় ৩০ মিনিটের একটি অডিও প্রয়োজন হতো। কিন্তু এখন মাত্র কয়েক সেকেন্ডের ক্লিপস থেকে আরো ভালো নকল কণ্ঠ তৈরি করা সম্ভব। তবে একটু বেশি সময়ের অডিও পেলে নকলটির মানও বৃদ্ধি পায়।
ডিপ ফেক ভয়েস সফটওয়্যার চাইলে একজন নারীর কণ্ঠকে পুরুষের কণ্ঠে রূপান্তর করতে পারে। ব্রিটিশ অ্যাকসেন্টকে আমেরিকান অ্যাকসেন্টে রূপান্তর করা সম্ভব এ সফটওয়্যার দিয়ে। অর্থাৎ এ সফটওয়্যারের কৃত্রিম বুদ্ধিমত্তা রয়েছে, যেটা ব্যবহার করে কথা বলার ভঙ্গিকে অনুকরণ করতে পারে। কোনো লিখিত বক্তব্যকে কোনো নির্দিষ্ট মানুষের কণ্ঠে পড়তে পারবে।
বাইদুর এক গবেষক লিখেছেন, ‘মানুষ-যন্ত্রের সম্পর্ককে ব্যক্তিগতকরণে ভয়েস ক্লোনিং গুরুত্বপূর্ণ অগ্রগতি নিয়ে আসবে।’
২০১৬ সালে অ্যাডোব ভোকো নামে একটি সফটওয়্যার তৈরি করেছিল, যেটা কোনো কণ্ঠের অনুকরণ করতে পারত। তবে এ অনুকরণের জন্য ভোকোকে ২০ মিনিটের অডিও শুনতে হতো। মনট্রিয়ালভিত্তিক আর্টিফিশিয়াল ইন্টেলিজেন্স স্টার্টআপ লারবার্ড দাবি করেছে, ১ মিনিটের অডিও পেলেই তারা টেক্সট থেকে কোনো মানুষের বক্তব্য তৈরি করতে সক্ষম। লারবার্ডে কৃত্রিম বুদ্ধিমত্তার ব্যবহার অবাক করার মতো। লারবার্ডের প্রযুক্তি কোনো মানুষের মূল কণ্ঠ, বাচনভঙ্গি এবং একই সঙ্গে কোনো লিখিত রচনাকে বিশ্লেষণ করতে পারে। আর এ বিশ্লেষণের ওপর ভিত্তি করে কোনো ব্যক্তির কণ্ঠে কোনো লিখিত বক্তব্য বলিয়ে নিতে পারে। লারবার্ড প্রতি সেকেন্ডে হাজার বাক্য তৈরি করতে পারে। এসব অগ্রগতি নৈতিক প্রশ্ন দাঁড় করিয়ে দিয়েছে এবং এ প্রযুক্তি ভালো না খারাপ কাজে ব্যবহার হবে, তা নিয়ে উদ্বেগ দেখা দিয়েছে।
মানুষের প্রাকৃতিক কণ্ঠের মতো শব্দ তৈরি করা ছিল প্রযুক্তির জন্য একটি চ্যালেঞ্জ। এছাড়া আরেকটি চ্যালেঞ্জ ছিল লিখিত শব্দকে মানুষের কণ্ঠে উচ্চারণের ব্যবস্থা করা।
সিরি, অ্যালেক্সা কিংবা মাইক্রোসফটের কর্টানা ও গুগলের প্রযুক্তি কোনো একটি নির্দিষ্ট কণ্ঠ দিয়ে লিখিত টেক্সটকে উচ্চারণের ব্যবস্থা করতে পারত। এখানে কোনো কণ্ঠ দিয়ে শব্দ রেকর্ড করানো হতো। তারপর সেগুলো জুড়ে দিয়েই অডিও ক্লিপস তৈরি হতো। কিন্তু এ পদ্ধতি শুধু ওই নির্দিষ্ট কণ্ঠের ক্ষেত্রেই প্রয়োগ করা যেত। অন্য কারো কণ্ঠে বক্তব্য শুনতে তার কণ্ঠে বিভিন্ন শব্দ রেকর্ড করাতে হতো। কিন্তু লারবার্ডের প্রযুক্তি নিজে নিজেই অক্ষর, শব্দ পড়তে পারে এবং সরবরাহ করা কণ্ঠের নমুনা অনুসরণ করে পুরো বক্তব্য তৈরি করে দেয়। এমনকি বক্তব্যের মধ্যে বিভিন্ন স্বরভঙ্গি ও আবেগের প্রকাশও করতে পারে। লারবার্ডে ব্যবহার করা হয় কৃত্রিম নিউরাল নেটওয়ার্ক, যা গাণিতিক ডিজাইন অনুসরণ করে মানুষের মস্তিষ্কের মতো কাজ করে। নিউরাল নেটওয়ার্কে ডাটা দেয়া হলে তারা মস্তিষ্কের নিউরনসদৃশ ইউনিটের মধ্যে যোগাযোগ করে কথা বলার ধরনটি বুঝে নেয়।
এসব প্রযুক্তি হচ্ছে কৃত্রিম বুদ্ধিমত্তার উন্নতি, কিন্তু গবেষক ও বিজ্ঞানীরা এর বিকাশ নিয়ে উদ্বিগ্ন। ফেক ভিডিও নিয়ে এর মধ্যেই বিপুল আলোড়ন তৈরি হয়েছে। বিশ্বনেতাদের ডিপ ফেক ভিডিও কিংবা তারকা অভিনেত্রীদের পর্নো ভিডিও দুনিয়ার বিভিন্ন প্রান্তে চায়ের কাপে ঝড় তুলেছে। এ প্রযুক্তি যে নানা ধরনের সংঘাত ও উত্তেজনা দ্রুতই ছড়িয়ে দিতে পারে, তা সমাজচিন্তকদের উদ্বেগে ফেলেছে। এখন এ ফেক ভয়েস নতুন হুমকি তৈরি করছে। কারো কণ্ঠের কয়েক সেকেন্ডের অডিও ক্লিপ এবং তার চেহারার একটা ছবি পেলেই আস্ত নকল সাক্ষাৎকার, প্রেস কনফারেন্স তৈরি করা সম্ভব। চাইলে তাকে নিয়ে সংবাদ ক্লিপসও হয়ে যাবে।
রাজনীতি, অর্থনীতি ও আন্তর্জাতিক সম্পর্কের ক্ষেত্রে ডিপ ফেক ভিডিও ও ডিপ ফেক ভয়েস ব্যবহার নিয়ে বিশেষজ্ঞরা ক্রমেই উদ্বিগ্ন হয়ে উঠছেন। রাজনীতিতে কোনো নেতার মুখে উল্টোপাল্টা কথা জুড়ে দিয়ে পরিস্থিতি বদলে দেয়া সম্ভব। এসব শুনতে কাল্পনিক মনে হতে পারে কিন্তু বাস্তবতা হচ্ছে, এটা কল্পনা নয়, বরং বাস্তব চেহারা নিতে শুরু করেছে।
সূত্র: সায়েন্টিফিক আমেরিকান, মাদারবোর্ড