৩.২ঃ এনএলপি (Natural Language Processing)

- কি এবং কেন

এনএলপি তথা ন্যাচারাল ল্যাংগুয়েজ প্রসেসিং মূলত আলাদা একটা গবেষনার ফিল্ড হলেও আমি এটা আর্টিফিসিয়াল ইন্টেলিজেন্স ফিল্ডের সাব-ফিল্ড হিসেবেই কনসিডার করছি, কেননা এতদিন এনএলপির কাজকর্ম সব রুল বেজডই বেশি করা হত। কিন্তু বর্তমানে প্রায় সকল কাজই মেশিন লার্নিং, ডিপ লার্নিং অ্যাপ্রোচে সলভ করা হয়ে থাকে।

অর্থাৎ আমাদের কাছে অনেক অনেক ল্যাংগুয়েজ ডেটা থাকে, হতে পারে সেটা টেক্সট, ভয়েস বা লেখা। সেগুলো এনালাইজ করে মেশিনকে মানুষের মত ভাষা-জ্ঞান প্রদান করা হয়। আর এটাই হল এনএলপি বা ন্যাচারাল ল্যাংগুয়েজ প্রসেসিং।

১৯৫২ সালে আমাদের বাংলা ভাষা অর্জিত হলেও, এখন পর্যন্ত কম্পিউটারকে এই ভাষা আমরা শেখাতে পারিনি। যেজন্য কিনা ওয়েবে আমাদের ভাষা খুব একটা সমৃদ্ধ নয়। তাই বলবো বাংলা ভাষা প্রসেসিং তথা বাংলা ভাষা নিয়ে কাজ করার অনেক বড় স্কোপ এখন পর্যন্ত বিদ্যমান।

ভাষার যেমন নিজস্ব রূপ রয়েছে, কিছু নিয়মকানুন মেনে চলে। একইভাবে এনএলপি বা ন্যাচারাল ল্যাংগুয়েজ প্রসেসিং করতে গেলেও ঐসকল নিয়মকানুনের বিকল্প বানাতে হয়। এগুলোকে আমরা এনএলপির টুলস বলতে পারি। এনএলপির বেসিক টুলসগুলোর মধ্যে অন্যতম হল-

- এনএলপির টুলস

করপাস (Corpus)
পজ ট্যাগার (Parts of speech tagger)
ডিজিটাল ডিকশনারী (Dictionary)
স্টেমার (Stemmer)
ওয়ার্ডনেট (WordNet)
টোকেনাইজার (Tokenizer)

এগুলোকে টুলস বলার কারন হল, এগুলো কাজে লাগিয়ে ল্যাঙ্গুয়েজ প্রসেস করা হয়। এগুলো ছাড়া ল্যাংগুয়েজ প্রসেসিং এর কাজ আসলে সম্ভব নয়। আর এসকল টুলসগুলো মূলত ভাষার নিয়মকানুন মোতাবেগই তৈরি করা হয়ে থাকে।

হয়তো কাজ ভেদে বিভিন্ন টুলস বিভিন্ন সময় কাজে লাগবে। তাই কাজ শুরু করার আগে আমার কাজ করতে কি কি টুলস লাগতে পারে সে অনুযায়ী আমাকে টুলসগুলো বানিয়ে নিতে হবে অথবা অন্য কেউ বানিয়ে থাকলে সেগুলো ইউজ করা যেতে পারে।

কিন্তু আমাদের বাংলার জন্য তেমন উন্নত টুলস এভেইলেবল না দেখে বাংলায় এনএলপির কাজ এখনো অনেকটা পিছিয়ে আছে। এই টুলসগুলো বানানোই এখন অনেক বড় চ্যালেন্জ। এই টুলসগুলো বানাতে যেটা লাগবে তা হলো অনেক অনেক ডেটাসেট- হতে পারে সেটা টেক্সট, ভয়েস বা লিখিত ডেটা।

এই টুলসগুলো দিয়ে এনএলপির যেসকল কাজ করা হচ্ছে সেগুলো হল-

- বাস্তব প্রয়োগ

টেক্সট থেকে স্পিস (TTS)
হার্ড ডকুমেন্ট থেকে টেক্সট (OCR)
সেন্টিমেন্ট এনালাইসিস (Sentiment Analysis)
ইশারা ভাষা থেকে টেক্সট বা স্পিস (Sign Language Recognition)
ভুয়া নিউজ যাচাই করা (Fake News Detection)
কম্পিউটারকে দিয়ে সাইনবোর্ড, বিলবোর্ড পড়ানো (OCR)
প্রোডাক্ট রিভিউ এনালাইসিস করা (Review Analysis)
অটোমেটিক টেক্সট জেনারেট করা (Text Generator)
ভার্চুয়াল অ্যাসিসট্যান্ট বানানো (Virtual Assistant)
চ্যাটবট তৈরি করা (ChatBot)
টেক্সট সামারাইজিং (Text Summarizer)
লেখার টাইটেল প্রেডিকশন (Title Prediction)
ট্রান্সলেটর তৈরি করা (Translator)

এই সব কাজই বর্তমানে মেশিন লার্নিং, ডিপ লার্নিং এলগোরিদম অ্যাপ্লাই করা হয়। তাই কাজের শুরুতে আমাদের উচিৎ হবে এগুলোর ডেটাসেট কালেক্ট করা এবং সেগুলো প্রসেস করা। এরপর সেই ডেটাসমূহ দিয়ে কম্পিউটারকে মানুষের মত ভাষা শেখানো, এটাই এনএলপির মূল কাজ।

- প্রয়োজনীয় টুলস

পাইথন লাইব্রেরী

NLTK
Googletrans
PyAudioAnalysis
AI এর প্রয়োজনীয় লাইব্রেরী

Previousটুলস অ্যান্ড টেকনিকস Next৩.৩ঃ আইওটি (Internet of Things)

Last updated 7 years ago

Was this helpful?

hashtag- কি এবং কেন

hashtag- এনএলপির টুলস

hashtag- বাস্তব প্রয়োগ

hashtag- প্রয়োজনীয় টুলস

hashtagপাইথন লাইব্রেরী

- কি এবং কেন

- এনএলপির টুলস

- বাস্তব প্রয়োগ

- প্রয়োজনীয় টুলস

পাইথন লাইব্রেরী