হতে চাই ক্ষুদে গবেষক
  • পর্ব- ০ঃ [ অ-আ-ক-খ ]
  • পর্ব- ১ঃ গবেষণা কি এবং যে কারনে গবেষণা করবেন
  • পর্ব- ২ঃ গবেষনা শুরু করতে যা যা প্রয়োজন
  • পর্ব- ৩ঃ দেখে নেই সচরাচর গবেষণার ফিল্ডসমূহ
    • ৩.১ঃ আর্টিফিশিয়াল ইন্টেলিজেন্স (AI)
      • - মেশিন লার্ণিং (ML)
      • - ডিপ লার্নিং (DL)
      • - কম্পিউটার ভিশন (CV)
      • - ডেটা মাইনিং (DM)
      • টুলস অ্যান্ড টেকনিকস
    • ৩.২ঃ এনএলপি (Natural Language Processing)
    • ৩.৩ঃ আইওটি (Internet of Things)
    • ৩.৪ঃ ডেভেলপমেন্ট ওয়ার্ক
  • পর্ব- ৪ঃ চলুন গবেষণার টপিক নির্বাচন করি
  • পর্ব- ৫ঃ গবেষনার শুরুটা যেভাবে হওয়া উচিৎ
  • পর্ব- ৬ঃ অন্যের পেপার পড়া এবং তার ড্রাফট রাইটিং
  • পর্ব- ৭ঃ চলুন শুরু করি পেপার লেখার কাজ
  • পর্ব- ৮ঃ পেপারের কমন সেকশনসমূহ সম্পর্কে জেনে নেই
  • পর্ব- ৯ঃ থিসিস পেপার যেভাবে পাবলিশ করবেন
  • পর্ব- ১০ঃ শুরুর শেষ
  • সাপোর্ট
Powered by GitBook
On this page
  • - কি এবং কেন
  • - এনএলপির টুলস
  • - বাস্তব প্রয়োগ
  • - প্রয়োজনীয় টুলস

Was this helpful?

  1. পর্ব- ৩ঃ দেখে নেই সচরাচর গবেষণার ফিল্ডসমূহ

৩.২ঃ এনএলপি (Natural Language Processing)

- কি এবং কেন

এনএলপি তথা ন্যাচারাল ল্যাংগুয়েজ প্রসেসিং মূলত আলাদা একটা গবেষনার ফিল্ড হলেও আমি এটা আর্টিফিসিয়াল ইন্টেলিজেন্স ফিল্ডের সাব-ফিল্ড হিসেবেই কনসিডার করছি, কেননা এতদিন এনএলপির কাজকর্ম সব রুল বেজডই বেশি করা হত। কিন্তু বর্তমানে প্রায় সকল কাজই মেশিন লার্নিং, ডিপ লার্নিং অ্যাপ্রোচে সলভ করা হয়ে থাকে।

অর্থাৎ আমাদের কাছে অনেক অনেক ল্যাংগুয়েজ ডেটা থাকে, হতে পারে সেটা টেক্সট, ভয়েস বা লেখা। সেগুলো এনালাইজ করে মেশিনকে মানুষের মত ভাষা-জ্ঞান প্রদান করা হয়। আর এটাই হল এনএলপি বা ন্যাচারাল ল্যাংগুয়েজ প্রসেসিং।

১৯৫২ সালে আমাদের বাংলা ভাষা অর্জিত হলেও, এখন পর্যন্ত কম্পিউটারকে এই ভাষা আমরা শেখাতে পারিনি। যেজন্য কিনা ওয়েবে আমাদের ভাষা খুব একটা সমৃদ্ধ নয়। তাই বলবো বাংলা ভাষা প্রসেসিং তথা বাংলা ভাষা নিয়ে কাজ করার অনেক বড় স্কোপ এখন পর্যন্ত বিদ্যমান।

ভাষার যেমন নিজস্ব রূপ রয়েছে, কিছু নিয়মকানুন মেনে চলে। একইভাবে এনএলপি বা ন্যাচারাল ল্যাংগুয়েজ প্রসেসিং করতে গেলেও ঐসকল নিয়মকানুনের বিকল্প বানাতে হয়। এগুলোকে আমরা এনএলপির টুলস বলতে পারি। এনএলপির বেসিক টুলসগুলোর মধ্যে অন্যতম হল-

- এনএলপির টুলস

  • করপাস (Corpus)

  • পজ ট্যাগার (Parts of speech tagger)

  • ডিজিটাল ডিকশনারী (Dictionary)

  • স্টেমার (Stemmer)

  • ওয়ার্ডনেট (WordNet)

  • টোকেনাইজার (Tokenizer)

এগুলোকে টুলস বলার কারন হল, এগুলো কাজে লাগিয়ে ল্যাঙ্গুয়েজ প্রসেস করা হয়। এগুলো ছাড়া ল্যাংগুয়েজ প্রসেসিং এর কাজ আসলে সম্ভব নয়। আর এসকল টুলসগুলো মূলত ভাষার নিয়মকানুন মোতাবেগই তৈরি করা হয়ে থাকে।

হয়তো কাজ ভেদে বিভিন্ন টুলস বিভিন্ন সময় কাজে লাগবে। তাই কাজ শুরু করার আগে আমার কাজ করতে কি কি টুলস লাগতে পারে সে অনুযায়ী আমাকে টুলসগুলো বানিয়ে নিতে হবে অথবা অন্য কেউ বানিয়ে থাকলে সেগুলো ইউজ করা যেতে পারে।

কিন্তু আমাদের বাংলার জন্য তেমন উন্নত টুলস এভেইলেবল না দেখে বাংলায় এনএলপির কাজ এখনো অনেকটা পিছিয়ে আছে। এই টুলসগুলো বানানোই এখন অনেক বড় চ্যালেন্জ। এই টুলসগুলো বানাতে যেটা লাগবে তা হলো অনেক অনেক ডেটাসেট- হতে পারে সেটা টেক্সট, ভয়েস বা লিখিত ডেটা।

এই টুলসগুলো দিয়ে এনএলপির যেসকল কাজ করা হচ্ছে সেগুলো হল-

- বাস্তব প্রয়োগ

  • টেক্সট থেকে স্পিস (TTS)

  • হার্ড ডকুমেন্ট থেকে টেক্সট (OCR)

  • সেন্টিমেন্ট এনালাইসিস (Sentiment Analysis)

  • ইশারা ভাষা থেকে টেক্সট বা স্পিস (Sign Language Recognition)

  • ভুয়া নিউজ যাচাই করা (Fake News Detection)

  • কম্পিউটারকে দিয়ে সাইনবোর্ড, বিলবোর্ড পড়ানো (OCR)

  • প্রোডাক্ট রিভিউ এনালাইসিস করা (Review Analysis)

  • অটোমেটিক টেক্সট জেনারেট করা (Text Generator)

  • ভার্চুয়াল অ্যাসিসট্যান্ট বানানো (Virtual Assistant)

  • চ্যাটবট তৈরি করা (ChatBot)

  • টেক্সট সামারাইজিং (Text Summarizer)

  • লেখার টাইটেল প্রেডিকশন (Title Prediction)

  • ট্রান্সলেটর তৈরি করা (Translator)

এই সব কাজই বর্তমানে মেশিন লার্নিং, ডিপ লার্নিং এলগোরিদম অ্যাপ্লাই করা হয়। তাই কাজের শুরুতে আমাদের উচিৎ হবে এগুলোর ডেটাসেট কালেক্ট করা এবং সেগুলো প্রসেস করা। এরপর সেই ডেটাসমূহ দিয়ে কম্পিউটারকে মানুষের মত ভাষা শেখানো, এটাই এনএলপির মূল কাজ।

- প্রয়োজনীয় টুলস

পাইথন লাইব্রেরী

  • NLTK

  • Googletrans

  • PyAudioAnalysis

  • AI এর প্রয়োজনীয় লাইব্রেরী

Previousটুলস অ্যান্ড টেকনিকসNext৩.৩ঃ আইওটি (Internet of Things)

Last updated 6 years ago

Was this helpful?