# Дэвшилтэт эх хэлний боловсруулалт

## Нэр хэлц ялгах

In [None]:
# Шаардлагатай сангуудыг импортлох ба татаж авах
import nltk
nltk.download('brown')    # TextBlob ажиллахад шаардлагатай өгөгдлийн сан
nltk.download('punkt_tab')    # Текст задлахад ашиглагдах сан
from textblob import TextBlob

# Нэр хэлцийг ялгах жишээ
blob = TextBlob("John is learning natural language processing")
for np in blob.noun_phrases:
    print(np)

# Гаралт:
#   John
#   natural language processing


[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


john
natural language processing


## Текстийн ижил төстэй байдал

In [None]:
# Жишээ текст өгөгдөл
documents = (
	 "I like NLP",
	 "I am exploring NLP",
	 "I am a beginner in NLP",
	 "I want to learn NLP",
	 "I like advanced NLP"
)

# шаардлагатай сангуудыг импортлох
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity


# TF-IDF векторчлал хийх
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

print("TF-IDF матрицын хэмжээ:", tfidf_matrix.shape)

# Гаралт:
(5, 10) # 5 өгүүлбэр, 10 өвөрмөц үг

# Эхний өгүүлбэрийг бусад өгүүлбэртэй харьцуулан косинусын ижил төстэйг тооцоолох
cosine_similarity(tfidf_matrix[0:1],tfidf_matrix)

# Гаралт:
# array([[ 1. ,  0.17682765,  0.14284054,  0.13489366,   0.68374784]])

TF-IDF матрицын хэмжээ: (5, 10)


array([[1.        , 0.17682765, 0.14284054, 0.13489366, 0.68374784]])

## Soundex

In [None]:
!pip install fuzzy
import fuzzy

# Soundex функц үүсгэх, параметр: кодын урт (4 тэмдэгт)
soundex = fuzzy.Soundex(4)

# Үгийн авиа зүйн кодыг гаргах
print(soundex('natural'))   # Гаралт: 'N364'
print(soundex('natuaral'))  # Гаралт: 'N364' (зөв бичгийн алдаатай ч адилхан код)
print(soundex('language'))  # Гаралт: 'L52'
print(soundex('processing'))# Гаралт: 'P625'

Collecting fuzzy
  Downloading Fuzzy-1.2.2.tar.gz (14 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: fuzzy
  Building wheel for fuzzy (setup.py) ... [?25l[?25hdone
  Created wheel for fuzzy: filename=Fuzzy-1.2.2-cp312-cp312-linux_x86_64.whl size=231376 sha256=910c4eb0707f17d4f831fc2558ad820e11607e5e43ea714b894e9391e5c983a1
  Stored in directory: /root/.cache/pip/wheels/ae/17/05/e688b455079b61cb255bc2e08458d6e66894a14be5cd5a5954
Successfully built fuzzy
Installing collected packages: fuzzy
Successfully installed fuzzy-1.2.2
8K!
8K!
8K!
8K!


## POS тэмдэглэгээ

In [None]:
# Шаардлагатай сангуудыг импортлох
import nltk
nltk.download('averaged_perceptron_tagger_eng')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize

# Англи хэлний зогсоох үгсийг тодорхойлох
stop_words = set(stopwords.words('english'))

# Жишээ өгөгдөл
text  =  "I love NLP and I will learn NLP in 2 month"

# Өгүүлбэрээр тасалж, тэмдэглэгээ үүсгэх
tokens = sent_tokenize(text)

# давталт ашиглан тэмдэглэгээ үүсгэх
for sentence in tokens:
    words = word_tokenize(sentence)

    # Зогсоох үгсийг устгах
    filtered_words = [w for w in words if w.lower() not in stop_words]

    # POS тэмдэглэгээ хийх
    tags = nltk.pos_tag(filtered_words)
    print(tags)

# Гаралт:
# [('love', 'NN'), ('NLP', 'NNP'), ('learn', 'NN'), ('NLP', 'NNP'), ('2', 'CD'), ('month', 'NN')]


[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


[('love', 'NN'), ('NLP', 'NNP'), ('learn', 'NN'), ('NLP', 'NNP'), ('2', 'CD'), ('month', 'NN')]


## NER: nlkt сангийн ne_chunk функц

In [None]:
# Шаардлагатай санг импортлох
import nltk
nltk.download('punkt')                        # Үгсийг салгах tokenizer
nltk.download('averaged_perceptron_tagger')   # Үгийн аймаг тодорхойлогч (POS tagger)
nltk.download('maxent_ne_chunker')            # Нэрлэсэн нэгжийн chunker
nltk.download('maxent_ne_chunker_tab')
nltk.download('words')                        # NE танихад хэрэглэгдэх үгийн жагсаалт

from nltk import ne_chunk, word_tokenize, pos_tag

# Жишээ өгөгдөл
txt = "John is studying at Stanford University in California"

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker_tab.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!


In [None]:
# NER гүйцэтгэх
tokens = word_tokenize(txt)
pos_tags = pos_tag(tokens)
tree = ne_chunk(pos_tags, binary=False)

print(tree)

(S
  (PERSON John/NNP)
  is/VBZ
  studying/VBG
  at/IN
  (ORGANIZATION Stanford/NNP University/NNP)
  in/IN
  (GPE California/NNP))


## NER: SpaCy

In [None]:
# spacy санг импортлох
import spacy

# Англи хэлний жижиг загварыг ачаалах
nlp = spacy.load("en_core_web_sm")

# Жишээ өгүүлбэр
doc = nlp("Apple is ready to launch new phone worth $10000 in New York Time Square")

# NER үр дүнг хэвлэх
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

# Гаралт:
# Apple 0 5 ORG
# 10000 42 47 MONEY
# New york 51 59 GPE


Apple 0 5 ORG
10000 42 47 MONEY
New York 51 59 GPE


## Сэдэв тодорхойлох

In [1]:
# Жишээ баримт үүсгэх
doc1 = "I am learning NLP, it is very interesting and exciting. it includes machine learning and deep learning"
doc2 = "My father is a data scientist and he is nlp expert"
doc3 = "My sister has good exposure into android development"

doc_complete = [doc1, doc2, doc3]
print(doc_complete)

# Гаралт:
# ['I am learning NLP, it is very interesting and exciting.
#   it includes machine learning and deep learning',
#   'My father is a data scientist and he is nlp expert',
#   'My sister has good exposure into android development']


['I am learning NLP, it is very interesting and exciting. it includes machine learning and deep learning', 'My father is a data scientist and he is nlp expert', 'My sister has good exposure into android development']


In [4]:
!pip install gensim
import nltk
nltk.download('stopwords')
nltk.download('wordnet')

from nltk.corpus import stopwords
from nltk.stem.wordnet import WordNetLemmatizer
import string


Collecting gensim
  Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (8.4 kB)
Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (27.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.9/27.9 MB[0m [31m70.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: gensim
Successfully installed gensim-4.4.0


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [5]:
# Stopwords буюу утга багатай түгээмэл үгсийн жагсаалтыг авах
stop = set(stopwords.words('english'))

# Цэг таслал, тэмдэгтүүдийн жагсаалт
exclude = set(string.punctuation)

# Үгсийг үндсэн хэлбэрт буцаах lemmatizer үүсгэх
lemma = WordNetLemmatizer()

# Текстийг урьдчилан цэвэрлэх функц
def clean(doc):
    # Текстийг жижиг үсгээр бичиж, stopwords-ийг устгана
    stop_free = " ".join([i for i in doc.lower().split() if
i not in stop])

	  # Тэмдэгтүүдийг устгана
    punc_free = ''.join(ch for ch in stop_free if ch not in exclude)

	  # Үг бүрийг үндсэн хэлбэрт нь шилжүүлнэ
    normalized = " ".join(lemma.lemmatize(word) for word in punc_free.split())
    return normalized

# Бүх баримтуудыг цэвэрлэж, үгсийн жагсаалт хэлбэрт оруулах
doc_clean = [clean(doc).split() for doc in doc_complete]

# Цэвэрлэсэн өгөгдлийг хэвлэх
print(doc_clean)

# Гаралт:
# [['learning',  'nlp',  'interesting',  'exciting',
#   'includes',  'machine',  'learning',  'deep',  'learning'],
#   ['father', 'data', 'scientist', 'nlp', 'expert'],
#   ['sister', 'good', 'exposure', 'android', 'development']]


[['learning', 'nlp', 'interesting', 'exciting', 'includes', 'machine', 'learning', 'deep', 'learning'], ['father', 'data', 'scientist', 'nlp', 'expert'], ['sister', 'good', 'exposure', 'android', 'development']]


In [6]:
# gensim санг импортлох
import gensim
from gensim import corpora

# Өгөгдсөн цэвэрлэсэн баримтуудаас (doc_clean)
# өвөрмөц үг бүрт индекс оноож, нэр томъёоны толь бичгийг үүсгэх
dictionary = corpora.Dictionary(doc_clean)

In [7]:
# Үүсгэсэн толь бичгийг ашиглан баримтын жагсаалтаас
# Document-Term матриц буюу корпус үүсгэх
doc_term_matrix = [dictionary.doc2bow(doc) for doc in doc_clean]

# Корпусыг хэвлэх
print(doc_term_matrix)

# Гаралт:
# [[(0, 1), (1, 1), (2, 1), (3, 1), (4, 3), (5, 1), (6, 1)],
#  [(6, 1), (7, 1), (8, 1), (9, 1), (10, 1)],
#  [(11, 1), (12, 1), (13, 1), (14, 1), (15, 1)]]

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 3), (5, 1), (6, 1)], [(6, 1), (7, 1), (8, 1), (9, 1), (10, 1)], [(11, 1), (12, 1), (13, 1), (14, 1), (15, 1)]]


In [8]:
# gensim сангаас LDA загвар үүсгэх классийг авах
Lda = gensim.models.ldamodel.LdaModel

# LDA загварыг сургах ба ажиллуулах
# num_topics = 3: 3 сэдэвтэй загвар үүсгэнэ
# id2word = dictionary: үгсийн индексийг зааж өгнө
# passes = 50: өгөгдлийг 50 удаа давтан суралцана
ldamodel = Lda(doc_term_matrix, num_topics=3, id2word=dictionary, passes=50)

# Сурсан загварын сэдвүүдийг хэвлэх
print(ldamodel.print_topics())

[(0, '0.173*"learning" + 0.121*"nlp" + 0.069*"deep" + 0.069*"exciting" + 0.069*"interesting" + 0.069*"includes" + 0.069*"machine" + 0.069*"scientist" + 0.069*"data" + 0.069*"expert"'), (1, '0.129*"development" + 0.129*"exposure" + 0.129*"good" + 0.129*"sister" + 0.129*"android" + 0.032*"expert" + 0.032*"scientist" + 0.032*"data" + 0.032*"father" + 0.032*"nlp"'), (2, '0.063*"data" + 0.063*"scientist" + 0.063*"father" + 0.063*"expert" + 0.063*"nlp" + 0.062*"interesting" + 0.062*"deep" + 0.062*"exciting" + 0.062*"includes" + 0.062*"machine"')]


## Текстийн ангилал

In [10]:
import pandas as pd

# Өгөгдлийг "spam.csv" файлаас унших.
# encoding='latin1' текстийн кодлолоор латин1-г ашиглаж байгааг заана.
Email_Data = pd.read_csv("spam.csv", encoding='latin1')

# Өгөгдлийн багануудын нэрсийг шалгах
print(Email_Data.columns)
# Гаралт:
# Index(['v1', 'v2', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], dtype= 'object')

#  Зөвхөн хэрэгтэй баганууд болох 'v1' ба 'v2'-г сонгож авах
Email_Data = Email_Data[['v1', 'v2']]

# Баганын нэрсийг ойлгомжтой болгох зорилгоор "v1" -> "Target"
# "v2" -> "Email" (имэйл мессеж) гэж өөрчлөх
Email_Data = Email_Data.rename(columns={"v1": "Target", "v2": "Email"})

# Өгөгдлийн эхний хэдэн мөрийг харуулах
Email_Data.head()

# Гаралт:
    # Target   Email
    # 0      ham   Go until jurong point, crazy.. Available only ...
    # 1      ham   Ok lar... Joking wif u oni...
    # 2      spam  Free entry in 2 a wkly comp to win FA Cup fina...
    # 3      ham   U dun say so early hor... U c already then say...
    # 4      ham   Nah I don't think he goes to usf, he lives aro...


Index(['v1', 'v2', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], dtype='object')


Unnamed: 0,Target,Email
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [11]:
# Ерөнхий зориулалтын сангууд
import string
import pandas as pd

# Текст боловсруулах сангууд
import nltk
nltk.download('stopwords')
nltk.download('wordnet')
from nltk.stem import PorterStemmer
from nltk.corpus import stopwords
from textblob import Word

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [12]:
# Бүх текстийг жижиг үсгээр хөрвүүлэх
Email_Data['Email'] = Email_Data['Email'].apply(lambda x: " ".join(x.lower() for x in x.split()))

# Англи хэлний stopwords буюу ач холбогдол багатай үгсийн жагсаалтыг авах
stop = stopwords.words('english')

# Stopwords үгсийг текстээс устгах
Email_Data['Email'] = Email_Data['Email'].apply(lambda x: " ".join(x for x in x.split() if x not in stop))

# Үгсийн үндсийг олох зорилгоор PorterStemmer ашиглах
st = PorterStemmer()
Email_Data['Email'] = Email_Data['Email'].apply(lambda x: " ".join([st.stem(word) for word in x.split()]))

# Үгсийг зөв дүрмийн хэлбэрт (лемматизаци) оруулах
Email_Data['Email'] = Email_Data['Email'].apply(lambda x: " ".join([Word(word).lemmatize() for word in x.split()]))

# Өгөгдлийн эхний хэдэн мөрийг харуулах
Email_Data.head()

# Гаралт:
    #   Target                                              Email
    #   0    ham  go jurong point, crazy.. avail bugi n great wo...
    #   1    ham                        ok lar... joke wif u oni...
    #   2    spam free entri 2 wkli comp win fa cup final tkt 21...
    #   3    ham          u dun say earli hor... u c alreadi say...
    #   4    ham              nah think goe usf, live around though


Unnamed: 0,Target,Email
0,ham,"go jurong point, crazy.. avail bugi n great wo..."
1,ham,ok lar... joke wif u oni...
2,spam,free entri 2 wkli comp win fa cup final tkt 21...
3,ham,u dun say earli hor... u c alreadi say...
4,ham,"nah think goe usf, live around though"


In [16]:
from sklearn import model_selection
from sklearn import preprocessing
from sklearn.feature_extraction.text import TfidfVectorizer

# Өгөгдлийг сургалтын болон баталгаажуулах (validation) хэсэгт хуваах
# train_test_split функцээр Email баганын текстийг (features) ба Target баганын шошгыг (labels) тусад нь хуваана
train_x, valid_x, train_y, valid_y = model_selection.train_test_split(Email_Data['Email'], Email_Data['Target'])

# Шошго буюу ангиллын утгуудыг тоон утгад хөрвүүлэхийн тулд LabelEncoder ашиглана
encoder = preprocessing.LabelEncoder()
train_y = encoder.fit_transform(train_y)  # Сургалтын шошгуудыг хөрвүүлэх
valid_y = encoder.fit_transform(valid_y)  # Баталгаажуулах шошгуудыг хөрвүүлэх

# TF-IDF вектор үүсгэх
# Үүнд үгсийг нэгээс дээш тэмдэгттэй гэж үзэн хамгийн ихдээ 5000 онцлог (feature) авч байна
tfidf_vect = TfidfVectorizer(analyzer='word', token_pattern=r'\w{1,}', max_features=5000)

# Бүх Email өгөгдлийг ашиглан TF-IDF векторыг сургана
tfidf_vect.fit(Email_Data['Email'])

# Сургалтын ба баталгаажуулах өгөгдлийг TF-IDF вектор болгон хувиргана
xtrain_tfidf = tfidf_vect.transform(train_x)
xvalid_tfidf = tfidf_vect.transform(valid_x)

# Сургалтын TF-IDF өгөгдлийн бүрэн бүтэц буюу өгөгдлийн матрицын дата хэсгийг шалгах
xtrain_tfidf.data

# Гаралт:
# array([0.39933971, 0.36719906, 0.60411187, ..., 0.36682939, 0.30602539, 0.38290119])


array([0.50372399, 0.32058338, 0.80217731, ..., 0.37891643, 0.74718421,
       0.54602024])

In [20]:
from sklearn import naive_bayes
import sklearn.metrics as metrics
from sklearn.metrics import accuracy_score
def train_model(classifier, feature_vector_train, label, feature_vector_valid, is_neural_net=False):
    # Сургалтын өгөгдлийг өгсөн ангилагчид тохируулах буюу сургах
    classifier.fit(feature_vector_train, label)
    # Баталгаажуулах өгөгдлийн шошгыг урьдчилан таамаглах
    predictions = classifier.predict(feature_vector_valid)
    # Урьдчилсан таамаглал болон бодит утгын үнэн зөв байдал буюу нарийвчлалыг тооцоолох
    return metrics.accuracy_score(predictions, valid_y)

# Naive Bayes ангилагч ашиглан сургалт явуулах жишээ
accuracy = train_model(naive_bayes.MultinomialNB(alpha=0.2), xtrain_tfidf, train_y, xvalid_tfidf)
print("Accuracy: ", accuracy)

# Гаралт:
# Accuracy:  0.9791816223977028


Accuracy:  0.9849246231155779


In [22]:
from sklearn import linear_model
# Логистик регрессор ашиглан сургалтын загварыг бэлтгэж, баталгаажуулах өгөгдөл дээр үнэлгээ хийх
accuracy = train_model(linear_model.LogisticRegression(), xtrain_tfidf, train_y, xvalid_tfidf)
print ("Accuracy: ", accuracy)

# Гаралт:
# Accuracy:  0.9626704953338119

Accuracy:  0.9691313711414213


## Хандлагын шинжилгээ

In [23]:
# Жишээ өгөгдөл
review = "I like this phone. Screen quality and camera clarity is really good."
review2 = "This tv is not good. Bad quality, no clarity, worst experience"

In [24]:
# TextBlob санг импортлох
from textblob import TextBlob

# TextBlob нь хандлагыг таамаглах урьдчилан сургасан загвартай
# Загварыг ашиглан тухайн текстийн хандлагыг тодорхойлно
blob = TextBlob(review)

# Хандлагын оноо (туйлшрал болон субъектив байдлын утга)
blob.sentiment

# Гаралт:
# Sentiment(polarity=0.7, subjectivity=0.6000000000000001)


Sentiment(polarity=0.7, subjectivity=0.6000000000000001)

In [25]:
# review2 хувьсагч дахь өгөгдлийн хандлагыг тодорхойлъё
blob = TextBlob(review2)
blob.sentiment

# Гаралт:
# Sentiment(polarity=-0.6833333333333332, subjectivity=0.7555555555555555)

Sentiment(polarity=-0.6833333333333332, subjectivity=0.7555555555555555)

## Үгийн утга тодорхойлох

In [26]:
# Жишээ өгөгдөл
Text1 = 'I went to the bank to deposit my money'
Text2 = 'The river bank was full of dead fishes'

In [32]:
# pywsd санг суулгах
!pip install pywsd

# Шаардлагатай сангуудыг татаж авах
import nltk
nltk.download('averaged_perceptron_tagger')
nltk.download('averaged_perceptron_tagger_eng')
nltk.download('wordnet')
nltk.download('punkt')


# Холбогдох функцуудыг импортлох
from pywsd.lesk import simple_lesk




[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [34]:
# Өгүүлбэрүүдийг нэгтгэх
bank_sents = [Text1, Text2]

In [36]:
nltk.download('punkt_tab')
# Эхний өгүүлбэрийг хэвлэх
print ("Context-1:", bank_sents[0])

# Леск алгоритм ашиглан "bank" үгийн утгыг тодорхойлох
answer = simple_lesk(bank_sents[0], 'bank')

# Үр дүнг хэвлэх
print ("Sense:", answer)
print ("Definition : ", answer.definition())

# Гаралт:
# Context-1: I went to the bank to deposit my money
# Sense: Synset(‘depository_financial_institution.n.01’)
# Definition :  a financial institution that accepts deposits and channels the money into lending activities


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Context-1: I went to the bank to deposit my money
Sense: Synset('depository_financial_institution.n.01')
Definition :  a financial institution that accepts deposits and channels the money into lending activities


In [37]:
# Хоёр дахь өгүүлбэрийг хэвлэх
print ("Context-2: ", bank_sents[1])

# Lesk функцийг дуудаж ажиллуулах
# ‘n’ буюу нэр үгийн утгаар тодорхойлохыг зааж өгч байна
answer = simple_lesk(bank_sents[1], 'bank', 'n')

# Үр дүнг гаргах
print ("Sense: ", answer)
print ("Definition: ", answer.definition())

# Гаралт:
# Context-2: The river bank was full of dead fishes
# Sense: Synset('bank.n.01')
# Definition:  sloping land (especially the slope beside a body of water)

Context-2:  The river bank was full of dead fishes
Sense:  Synset('bank.n.01')
Definition:  sloping land (especially the slope beside a body of water)


## Яриаг текст рүү хөрвүүлэх

In [45]:
# Сангуудыг суулгах
!pip install SpeechRecognition
!apt-get install -y portaudio19-dev
!pip install PyAudio

# Импортлох
import speech_recognition as sr


Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following additional packages will be installed:
  libportaudio2 libportaudiocpp0
Suggested packages:
  portaudio19-doc
The following NEW packages will be installed:
  libportaudio2 libportaudiocpp0 portaudio19-dev
0 upgraded, 3 newly installed, 0 to remove and 38 not upgraded.
Need to get 188 kB of archives.
After this operation, 927 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy/universe amd64 libportaudio2 amd64 19.6.0-1.1 [65.3 kB]
Get:2 http://archive.ubuntu.com/ubuntu jammy/universe amd64 libportaudiocpp0 amd64 19.6.0-1.1 [16.1 kB]
Get:3 http://archive.ubuntu.com/ubuntu jammy/universe amd64 portaudio19-dev amd64 19.6.0-1.1 [106 kB]
Fetched 188 kB in 0s (665 kB/s)
Selecting previously unselected package libportaudio2:amd64.
(Reading database ... 126675 files and directories currently installed.)
Preparing to unpack .../libportaudio2_19.6.0-1.

In [None]:
# Таних объект үүсгэх
r=sr.Recognizer()

# Микрофоноор дуу авах
with sr.Microphone() as source:
    print("Ярьж эхлээрэй:")
    audio = r.listen(source)
    print("Цаг дууслаа.")

# Авсан дууг текст болгон хөрвүүлэх
try:
    print("Таны хэлснийг ингэж ойлголоо: " + r.recognize_google(audio));
except Exception as e:
    print("Алдаа гарлаа:", e)


## Текстийг яриа болгох

In [49]:
# gTTS санг суулгах
!pip install gTTS

from gtts import gTTS

# Хөрвүүлэх өгөгдөл
text_to_convert = 'I like this NLP book'

# Хэл сонгох, Англи хэл бол - 'en'
# slow=False бол хурдан, slow=True бол удаан уншина
convert = gTTS(text= text_to_convert, lang='en', slow=False)

# Хөрвүүлсэн аудиог mp3 файл болгон хадгалах
convert.save("audio.mp3")

# Гаралт: "audio.mp3" файлыг хадгалсан хавтаснаасаа сонсоно.




## Орчуулга

In [1]:
# goslate санг суулгах
!pip install goslate
# Санг импортлох
import goslate






In [2]:
# Жишээ өгөгдөл
text = "Bonjour le monde"

# Орчуулах объект үүсгэх
gs = goslate.Goslate()

# Англи хэл рүү орчуулах
translatedText = gs.translate(text, 'en')

print(translatedText)

# Гаралт:
# Hello world

Hello world
