
AI মডেলের দুনিয়ায় সাধারণত আলোনার কেন্দ্রবিন্দুতে থাকে আমেরিকা ও চিন। বিপুল জনসংখ্যা ও গভীর প্রযুক্তিগত প্রতিভা থাকা সত্ত্বেও ভারতকে খুব কমই AI উন্নয়নের উৎস হিসেবে দেখা হয়। তবে বেঙ্গালুরু ভিত্তিক স্টার্টআপ Sarvam AI সেই ধারণা বদলাতে শুরু করেছে। সংস্থাটি এটির নাম দিয়েছে
'সার্বভৌম AI'। এর লক্ষ্য হল, ভারতে বসেই একেবারে নতুন করে ফাউন্ডেশনাল AI মডেল তৈরি করা।
চলতি সপ্তাহে Sarvam AI-এর ২টি টুল- Sarvam Vision এবং Bulbul আলোচনায় এসেছে।
Sarvam Vision: OCR-এ বড় মডেলকেও পিছনে ফেলছে
Sarvam Vision মূলত অপটিক্যাল ক্যারেক্টার রেকগনিশন (OCR)-এ বিশেষজ্ঞ। সংস্থার দাবি অনুযায়ী, এই মডেলটি ChatGPT, Google Gemini এবং Anthropic Claude-এর মতো বহুল আলোচিত AI মডেলকেও কিছু নির্দিষ্ট বেঞ্চমার্কে ছাড়িয়ে গিয়েছে।
Sarvam AI-এর সহ প্রতিষ্ঠাতা প্রত্যুষ কুমার এক্স-এ একাধিক পোস্টে তাদের ইন-হাউস AI মডেলের সাম্প্রতিক সাফল্যের কথা তুলে ধরেছেন। তার মতে, olmOCR-Bench-এ Sarvam Vision ৮৩.৩% নির্ভুল। যা Gemini 3 Pro এবং DeepSeek OCR v2-এর মতো সাম্প্রতিক OCR মডেলের থেকেও বেশি। সেখানে ChatGPT-এর স্কোর তুলনামূলকভাবে অনেক কম।
এছাড়াও, OmniDocBench v1.5-এ Sarvam Vision-এর পারফরম্যান্স ছিল নজরকাড়া। এই বেঞ্চমার্কে বাস্তব দুনিয়ার ডকুমেন্ট—যেমন জটিল লেআউট, টেকনিক্যাল টেবিল ও গাণিতিক সূত্র—বোঝার ক্ষমতা যাচাই করা হয়। এখানে Sarvam Vision মোট ৯৩.২৮% স্কোর করেছে। সাধারণত যেসব ক্ষেত্রে প্রচলিত OCR সিস্টেম হিমশিম খায়, সেখানেই Sarvam Vision সবচেয়ে ভাল ফল দেখিয়েছে। এই সাফল্যের ফলে আন্তর্জাতিক মহলেও Sarvam AI-এর প্রতি দৃষ্টি পড়েছে। আগে যারা সংস্থাটির শুধুমাত্র ইন্ডিক ভাষার মডেলে ফোকাস করা নিয়ে সন্দেহ প্রকাশ করেছিলেন, এখন তাদের অনেকেই মত বদলাচ্ছেন।
Bulbul V3: ভারতীয় ভাষার জন্য শক্তিশালী TTS
OCR-এর পাশাপাশি Sarvam AI চালু করেছে তাদের নতুন AI ভয়েস মডেল Bulbul V3। এটি একটি টেক্সট-টু-স্পিচ (TTS) মডেল, যা অনেকটা ElevenLabs-এর মতো কাজ করে।
বর্তমানে Bulbul V3 ১১টি ভারতীয় ভাষায় ৩৫টিরও বেশি ভয়েস সাপোর্ট করে। ভবিষ্যতে এই সংখ্যা বাড়িয়ে ২২টি ভাষা পর্যন্ত নিয়ে যাওয়ার পরিকল্পনা রয়েছে।
সব মিলিয়ে, Sarvam AI দেখিয়ে দিচ্ছে, ভারত শুধু AI ব্যবহারকারী দেশই নয়, বরং নিজস্ব, শক্তিশালী ও বিশ্বমানের AI প্রযুক্তি তৈরির ক্ষমতাও রাখে।