Homeপ্রতিবেদনবাংলা ভাষায় Hate-Speech Detection: BLP-2025 এবং সাম্প্রতিক অগ্রগতি

বাংলা ভাষায় Hate-Speech Detection: BLP-2025 এবং সাম্প্রতিক অগ্রগতি

40537_2024_956_Fig1_HTML

অনলাইন মিডিয়া ও সামাজিক যোগাযোগমাধ্যমে ঘৃণাত্মক ও অবমাননাকর ভাষা ছড়িয়ে পড়া আজ বৈশ্বিক উদ্বেগের বিষয়। ইংরেজির মতো উচ্চ-রিসোর্স ভাষায় hate-speech detection উল্লেখযোগ্য অগ্রগতি অর্জন করলেও বাংলা—বাংলাদেশ ও পশ্চিমবঙ্গ উভয় অঞ্চলের পরিপ্রেক্ষিতে—এখনও চ্যালেঞ্জপূর্ণ পর্যায়ে রয়েছে।
২০২৪ সালের গবেষণা বলছে, বাংলা hate-speech শনাক্তকরণে মূল বাধাগুলো হলো:

  • পর্যাপ্ত ও বৈচিত্র্যময় লেবেলড ডেটার অভাব
  • ভাষাগত ভ্যারিয়েশন (উপভাষা, কথ্যভাষা)
  • সাংস্কৃতিক প্রসঙ্গনির্ভর সূক্ষ্মতা
  • কোড-মিক্সড কন্টেন্ট (Banglish) বোঝার সমস্যা

তবুও BLP-2025 Shared Task–এ অংশগ্রহণকারী দলগুলোর কাজ প্রমাণ করেছে যে, আধুনিক NLP–ভিত্তিক পদ্ধতিতে বাংলাতেও খুব ভালো মানের hate-speech detection সম্ভব।


Retriv Team: Transformer Ensemble + Multi-Task Learning

Retriv দলের গবেষণা (Retriv at BLP-2025 Task 1) তিনটি সাবটাস্ক নিয়েই মডেল তৈরি করেছে:

  • 1A: Hate type classification
  • 1B: Target group identification
  • 1C: Joint detection (type + severity + target)

তারা BanglaBERT, MuRIL, IndicBERT v2–সহ বিভিন্ন transformer মডেলের soft-voting ensemble প্রয়োগ করে উচ্চতর নির্ভুলতা অর্জন করেছে। Joint detection–এ তারা multi-task learning এবং weighted ensemble ব্যবহার করে।

ফলাফল ছিল—

  • 1A: micro-F1 = 72.75%
  • 1B: micro-F1 = 72.69%
  • 1C: weighted micro-F1 ≈ 72.62%

এটি স্পষ্ট করে যে ensemble ও multi-task কাঠামো low-resource ভাষায় কার্যকর ফল দিতে পারে।


Few-Shot ও Adversarial Training–ভিত্তিক অন্যান্য পন্থা

✓ PromptGuard — Few-shot Classification

এই পদ্ধতি খুব কম ডেটা ব্যবহার করেই কার্যকর hate speech শনাক্ত করতে সক্ষম হয়েছে।
তারা chi-square keyword extraction + adaptive majority voting প্রয়োগ করে micro-F1: 67.61% পেয়েছে, যা n-gram baseline (≈ 60.75%)–এর তুলনায় উল্লেখযোগ্যভাবে উন্নত।

✓ Gradient Masters — Adversarial + Ensemble

Adversarial training মডেলকে noise ও variation–এর বিরুদ্ধে আরও শক্তিশালী (robust) করেছে।
তাদের ফল—

  • 1A: micro-F1 ≈ 73.23%
  • 1B: micro-F1 ≈ 73.28%

এটি দেখায় adversarial regularization বাংলা hate-speech detection–এ কার্যকর।


বর্তমান চ্যালেঞ্জ

1. ভাষাগত বৈচিত্র্য

বাংলা একরূপ নয় — বিভিন্ন অঞ্চল, উপভাষা, slang, Banglish—all increase complexity.

2. Dataset imbalance

ধর্মীয়, জাতিগত, লিঙ্গভিত্তিক, রাজনৈতিক—all types rarely get equal representation.

3. Domain shift problem

YouTube মন্তব্যে ভালো কাজ করা মডেল Twitter, Facebook, নিউজ কমেন্টে সমানভাবে সফল নাও হতে পারে।

4. Computational cost

Ensemble + adversarial + multi-task learning অনেক সময় real-time moderation–এ বেশি ব্যয়বহুল।


বাংলা NLP–এর গুরুত্ব: কেন এই গবেষণা প্রয়োজন?

সামাজিক দায়বদ্ধতা

নিরাপদ অনলাইন পরিবেশ গঠন ও বিদ্বেষমূলক কন্টেন্ট কমানো।

ভাষিক সমানাধিকার

ইংরেজি-নির্ভর NLP–এর আধিপত্য কমিয়ে স্থানীয় ভাষাকে প্রযুক্তিগতভাবে সক্ষম করা।

রিসার্চ ইকোসিস্টেম গঠন

Shared task গবেষক, শিক্ষার্থী ও ডেভেলপারদের মধ্যে সহযোগিতা বাড়ায়, নতুন মডেল তৈরির সুযোগ তৈরি করে।


উপসংহার

BLP-2025 Shared Task এবং Retriv, Gradient Masters, PromptGuard–এর মতো দলগুলোর অর্জন স্পষ্টভাবে দেখিয়ে দিয়েছে যে বাংলা hate-speech detection এখন “উদীয়মান কিন্তু প্রতিশ্রুতিশীল” পর্যায়ে রয়েছে।
ডেটা বৈচিত্র্য, ভাষাগত জটিলতা, এবং বাস্তব-প্রয়োগে computational সীমাবদ্ধতা থাকলেও সাম্প্রতিক গবেষণা প্রমাণ করছে— বাংলা NLP দ্রুত এগোচ্ছে এবং নিকট ভবিষ্যতে আরও শক্তিশালী মডেল তৈরি সম্ভব।