# Word to vector embedding

In [1]:
import re
import numpy as np
from gensim.models import Word2Vec
from nltk.corpus import gutenberg
from multiprocessing import Pool
from scipy import spatial

# Import training dataset

In [2]:
url = "C:/Users/DELL/Desktop/yct/Guttenberg.txt"

sentences = list(gutenberg.sents(url)) 

In [3]:
print('Type of corpus: ', type(sentences))
print('Length of corpus: ', len(sentences))

Type of corpus:  <class 'list'>
Length of corpus:  10


In [4]:
print(sentences[0])    # title, author, and year
print(sentences[1])

['Four', 'score', 'and', 'seven', 'years', 'ago', 'our', 'fathers', 'brought', 'forth', 'on', 'this', 'continent', ',', 'a', 'new', 'nation', ',', 'conceived', 'in', 'Liberty', ',', 'and', 'dedicated', 'to', 'the', 'proposition', 'that', 'all', 'men', 'are', 'created', 'equal', '.']
['Now', 'we', 'are', 'engaged', 'in', 'a', 'great', 'civil', 'war', ',', 'testing', 'whether', 'that', 'nation', ',', 'or', 'any', 'nation', 'so', 'conceived', 'and', 'dedicated', ',', 'can', 'long', 'endure', '.']


# Preprocess data
Use re module to preprocess data
Convert all letters into lowercase
Remove punctuations, numbers, etc.

In [5]:
for i in range(len(sentences)):
    sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-zA-Z]+', word)]

In [6]:
print(sentences[0])    # title, author, and year
print(sentences[1])

['four', 'score', 'and', 'seven', 'years', 'ago', 'our', 'fathers', 'brought', 'forth', 'on', 'this', 'continent', 'a', 'new', 'nation', 'conceived', 'in', 'liberty', 'and', 'dedicated', 'to', 'the', 'proposition', 'that', 'all', 'men', 'are', 'created', 'equal']
['now', 'we', 'are', 'engaged', 'in', 'a', 'great', 'civil', 'war', 'testing', 'whether', 'that', 'nation', 'or', 'any', 'nation', 'so', 'conceived', 'and', 'dedicated', 'can', 'long', 'endure']


# Create and train model

In [7]:
model = Word2Vec(sentences = sentences, size = 100, sg = 1, window = 3, min_count = 1, iter = 10, workers = Pool()._processes)

In [8]:
model.init_sims(replace = True)

# Save and load model 

In [9]:
model.save('word2vec_model')

In [10]:
model = Word2Vec.load('word2vec_model')

# Similarity between embedded words  can be computed using metrics such as cosine similarity

In [11]:
model.most_similar('nation')

  """Entry point for launching an IPython kernel.


[('our', 0.2545439302921295),
 ('take', 0.21808111667633057),
 ('the', 0.20061245560646057),
 ('their', 0.19746452569961548),
 ('remaining', 0.1893421709537506),
 ('resolve', 0.18609538674354553),
 ('brought', 0.18374404311180115),
 ('god', 0.18291740119457245),
 ('a', 0.17804870009422302),
 ('birth', 0.17390869557857513)]

In [12]:
model.most_similar(positive=['four','seven'], negative=['ago'], topn = 1)

  """Entry point for launching an IPython kernel.


[('perish', 0.21596106886863708)]

In [13]:
model.similarity(w1="four",w2='seven')

  """Entry point for launching an IPython kernel.


-0.099643126

# Chunking using NLTK

In [14]:
import nltk
doc1 = """I am pleased to recommend MrXX for an MS in Computer Science at your esteemed university. I have known him since his second year. He was my student in the 3rd semester (2nd year), where I taught him the course of Database Management Systems. 
I first got to know X in the course of Database Management Systems, CSE-2004. In the first week of the course, I was surprised to know that X, an Electronics and Instrumentation student, had taken up a computer science core course. Initially I was doubtful about a non-CS student’s approach and grasp of the subject, but he adapted to it as naturally as a fish to water. By the time the course came to an end, he had proved his mettle. 
I observed that X had a keen interest and was fully involved in the course when I saw his performances during the Lab sessions, where he would be able to grasp new concepts such as query formation and joins. He has been highly active in the technical scene of our college too with him organizing many events.
As a part of the course, students are required to develop a project, with a fully functional Database System consisting of the concepts learnt throughout the semester. Despite X not being from a computer science background, his project did not languish. He went above and beyond to make a professional database design, which included an ‘Auto-Increment’ feature using a PL/SQL sequence written by him, bulk insertion into the table and other features.
I was pleased to know that he applied the concepts in his internship extensively to build a professional tool for Intellect Design Arena. He designed this tool to make the process of configuring a Logical Data Model easier and much faster. It consisted of a User Interface (UI) that can replicate back-end tasks such as inserting data in a database at the click of a button. His task was cut out for him as the tool was being built for J.P. Morgan Chase as a client and hence there was no room for error. I am proud to say that the tool, which he built over a course of two months, was pushed to production at the end of his internship.
X makes a strong candidate for your Master's program majoring in Computer Science. His proposed candidature has my endorsement without any reservations whatsoever. 
"""

In [15]:
token = nltk.word_tokenize(doc1) #tokenising the words

In [16]:
postags = nltk.pos_tag(token) # pos tagging of the doc
print(postags)

[('I', 'PRP'), ('am', 'VBP'), ('pleased', 'JJ'), ('to', 'TO'), ('recommend', 'VB'), ('MrXX', 'NNP'), ('for', 'IN'), ('an', 'DT'), ('MS', 'NNP'), ('in', 'IN'), ('Computer', 'NNP'), ('Science', 'NNP'), ('at', 'IN'), ('your', 'PRP$'), ('esteemed', 'JJ'), ('university', 'NN'), ('.', '.'), ('I', 'PRP'), ('have', 'VBP'), ('known', 'VBN'), ('him', 'PRP'), ('since', 'IN'), ('his', 'PRP$'), ('second', 'JJ'), ('year', 'NN'), ('.', '.'), ('He', 'PRP'), ('was', 'VBD'), ('my', 'PRP$'), ('student', 'NN'), ('in', 'IN'), ('the', 'DT'), ('3rd', 'CD'), ('semester', 'NN'), ('(', '('), ('2nd', 'CD'), ('year', 'NN'), (')', ')'), (',', ','), ('where', 'WRB'), ('I', 'PRP'), ('taught', 'VBD'), ('him', 'PRP'), ('the', 'DT'), ('course', 'NN'), ('of', 'IN'), ('Database', 'NNP'), ('Management', 'NNP'), ('Systems', 'NNPS'), ('.', '.'), ('I', 'PRP'), ('first', 'RB'), ('got', 'VBD'), ('to', 'TO'), ('know', 'VB'), ('X', 'NNP'), ('in', 'IN'), ('the', 'DT'), ('course', 'NN'), ('of', 'IN'), ('Database', 'NNP'), ('Manage

In [17]:
grammar1 = "VP: {<RB.?>*<VB.?>*<NNP>+<NN>?}"
cp1 = nltk.RegexpParser(grammar1) #RegularExpression is ready in Cp

In [18]:
result = cp1.parse(postags) #entire doc is parsed through the filter

In [19]:
print(result)

(S
  I/PRP
  am/VBP
  pleased/JJ
  to/TO
  (VP recommend/VB MrXX/NNP)
  for/IN
  an/DT
  (VP MS/NNP)
  in/IN
  (VP Computer/NNP Science/NNP)
  at/IN
  your/PRP$
  esteemed/JJ
  university/NN
  ./.
  I/PRP
  have/VBP
  known/VBN
  him/PRP
  since/IN
  his/PRP$
  second/JJ
  year/NN
  ./.
  He/PRP
  was/VBD
  my/PRP$
  student/NN
  in/IN
  the/DT
  3rd/CD
  semester/NN
  (/(
  2nd/CD
  year/NN
  )/)
  ,/,
  where/WRB
  I/PRP
  taught/VBD
  him/PRP
  the/DT
  course/NN
  of/IN
  (VP Database/NNP Management/NNP)
  Systems/NNPS
  ./.
  I/PRP
  first/RB
  got/VBD
  to/TO
  (VP know/VB X/NNP)
  in/IN
  the/DT
  course/NN
  of/IN
  (VP Database/NNP Management/NNP)
  Systems/NNPS
  ,/,
  (VP CSE-2004/NNP)
  ./.
  In/IN
  the/DT
  first/JJ
  week/NN
  of/IN
  the/DT
  course/NN
  ,/,
  I/PRP
  was/VBD
  surprised/VBN
  to/TO
  know/VB
  that/DT
  (VP X/NNP)
  ,/,
  an/DT
  Electronics/NNS
  and/CC
  (VP Instrumentation/NNP student/NN)
  ,/,
  had/VBD
  taken/VBN
  up/RP
  a/DT
  computer/NN
  sc

In [20]:
result.draw()

In [21]:
chunks = nltk.ne_chunk(postags) #chunking the tagged sentence 

In [22]:
print(chunks)

(S
  I/PRP
  am/VBP
  pleased/JJ
  to/TO
  recommend/VB
  (ORGANIZATION MrXX/NNP)
  for/IN
  an/DT
  MS/NNP
  in/IN
  (ORGANIZATION Computer/NNP Science/NNP)
  at/IN
  your/PRP$
  esteemed/JJ
  university/NN
  ./.
  I/PRP
  have/VBP
  known/VBN
  him/PRP
  since/IN
  his/PRP$
  second/JJ
  year/NN
  ./.
  He/PRP
  was/VBD
  my/PRP$
  student/NN
  in/IN
  the/DT
  3rd/CD
  semester/NN
  (/(
  2nd/CD
  year/NN
  )/)
  ,/,
  where/WRB
  I/PRP
  taught/VBD
  him/PRP
  the/DT
  course/NN
  of/IN
  (ORGANIZATION Database/NNP Management/NNP Systems/NNPS)
  ./.
  I/PRP
  first/RB
  got/VBD
  to/TO
  know/VB
  X/NNP
  in/IN
  the/DT
  course/NN
  of/IN
  (ORGANIZATION Database/NNP Management/NNP Systems/NNPS)
  ,/,
  CSE-2004/NNP
  ./.
  In/IN
  the/DT
  first/JJ
  week/NN
  of/IN
  the/DT
  course/NN
  ,/,
  I/PRP
  was/VBD
  surprised/VBN
  to/TO
  know/VB
  that/DT
  X/NNP
  ,/,
  an/DT
  Electronics/NNS
  and/CC
  Instrumentation/NNP
  student/NN
  ,/,
  had/VBD
  taken/VBN
  up/RP
  a/DT
 

In [23]:
chunks.draw()

# Chunking using spaCy

In [24]:
import spacy
from spacy import displacy
from collections import Counter
import en_core_web_sm
nlp = en_core_web_sm.load()

In [25]:

doc = nlp("""I am pleased to recommend MrXX for an MS in Computer Science at your esteemed university. I have known him since his second year. He was my student in the 3rd semester (2nd year), where I taught him the course of Database Management Systems. 
I first got to know X in the course of Database Management Systems, CSE-2004. In the first week of the course, I was surprised to know that X, an Electronics and Instrumentation student, had taken up a computer science core course. Initially I was doubtful about a non-CS student’s approach and grasp of the subject, but he adapted to it as naturally as a fish to water. By the time the course came to an end, he had proved his mettle. 
I observed that X had a keen interest and was fully involved in the course when I saw his performances during the Lab sessions, where he would be able to grasp new concepts such as query formation and joins. He has been highly active in the technical scene of our college too with him organizing many events.
As a part of the course, students are required to develop a project, with a fully functional Database System consisting of the concepts learnt throughout the semester. Despite X not being from a computer science background, his project did not languish. He went above and beyond to make a professional database design, which included an ‘Auto-Increment’ feature using a PL/SQL sequence written by him, bulk insertion into the table and other features.
I was pleased to know that he applied the concepts in his internship extensively to build a professional tool for Intellect Design Arena. He designed this tool to make the process of configuring a Logical Data Model easier and much faster. It consisted of a User Interface (UI) that can replicate back-end tasks such as inserting data in a database at the click of a button. His task was cut out for him as the tool was being built for J.P. Morgan Chase as a client and hence there was no room for error. I am proud to say that the tool, which he built over a course of two months, was pushed to production at the end of his internship.
X makes a strong candidate for your Master's program majoring in Computer Science. His proposed candidature has my endorsement without any reservations whatsoever. 
""")
print([(X.text, X.label_) for X in doc.ents])

[('MrXX', 'PRODUCT'), ('MS', 'FAC'), ('his second year', 'DATE'), ('the 3rd semester (2nd year', 'DATE'), ('Database Management Systems', 'ORG'), ('first', 'ORDINAL'), ('Database Management Systems', 'ORG'), ('CSE-2004', 'DATE'), ('the first week', 'DATE'), ('SQL', 'ORG'), ('Logical Data', 'ORG'), ('UI', 'ORG'), ('J.P. Morgan Chase', 'PERSON'), ('two months', 'DATE'), ('Computer Science', 'ORG')]


In [26]:
print([(X, X.ent_iob_, X.ent_type_) for X in doc])

[(I, 'O', ''), (am, 'O', ''), (pleased, 'O', ''), (to, 'O', ''), (recommend, 'O', ''), (MrXX, 'B', 'PRODUCT'), (for, 'O', ''), (an, 'O', ''), (MS, 'B', 'FAC'), (in, 'O', ''), (Computer, 'O', ''), (Science, 'O', ''), (at, 'O', ''), (your, 'O', ''), (esteemed, 'O', ''), (university, 'O', ''), (., 'O', ''), (I, 'O', ''), (have, 'O', ''), (known, 'O', ''), (him, 'O', ''), (since, 'O', ''), (his, 'B', 'DATE'), (second, 'I', 'DATE'), (year, 'I', 'DATE'), (., 'O', ''), (He, 'O', ''), (was, 'O', ''), (my, 'O', ''), (student, 'O', ''), (in, 'O', ''), (the, 'B', 'DATE'), (3rd, 'I', 'DATE'), (semester, 'I', 'DATE'), ((, 'I', 'DATE'), (2nd, 'I', 'DATE'), (year, 'I', 'DATE'), (), 'O', ''), (,, 'O', ''), (where, 'O', ''), (I, 'O', ''), (taught, 'O', ''), (him, 'O', ''), (the, 'O', ''), (course, 'O', ''), (of, 'O', ''), (Database, 'B', 'ORG'), (Management, 'I', 'ORG'), (Systems, 'I', 'ORG'), (., 'O', ''), (
, 'O', ''), (I, 'O', ''), (first, 'B', 'ORDINAL'), (got, 'O', ''), (to, 'O', ''), (know, 'O', 

In [27]:
len(doc.ents)

15

In [28]:
labels = [x.label_ for x in doc.ents]
Counter(labels)

Counter({'PRODUCT': 1,
         'FAC': 1,
         'DATE': 5,
         'ORG': 6,
         'ORDINAL': 1,
         'PERSON': 1})

In [29]:
sentences = [x for x in doc.sents]
print(sentences)

[I am pleased to recommend MrXX for an MS in Computer Science at your esteemed university., I have known him since his second year., He was my student in the 3rd semester (2nd year), where I taught him the course of Database Management Systems. 
, I first got to know X in the course of Database Management Systems, CSE-2004., In the first week of the course, I was surprised to know that X, an Electronics and Instrumentation student, had taken up a computer science core course., Initially I was doubtful about a non-CS student’s approach and grasp of the subject, but he adapted to it as naturally as a fish to water., By the time the course came to an end, he had proved his mettle. 
, I observed that X had a keen interest and was fully involved in the course when I saw his performances during the Lab sessions, where he would be able to grasp new concepts such as query formation and joins., He has been highly active in the technical scene of our college too with him organizing many events.


In [30]:
displacy.render(nlp(str(sentences)), jupyter=True, style='ent')

In [31]:
displacy.render(doc, style="dep", jupyter=True)

# Regional Language-TELUGU

In [32]:
from nltk.corpus import indian
from nltk.tokenize import sent_tokenize
#converting list to single string str1
text1=indian.words(fileids='telugu.pos')
str1=" ".join(text1)
str1[:500]

'4 . ఆడిట్ నిర్వహణ ఆడిటర్ ఒక కొత్త ఆడిట్ చేపట్టే ముందు సక్రమ పద్ధతి లో కార్య ప్రణాళికను రూపొందించాలి . దాని కనుగుణంగా వ్యవహరించాలి . పత్రసహిత సాక్ష్యాధారాల తో , వ్యవహారాల ను తనిఖీ చేయాలి . ఆడిట్ చేసే విధానం సంస్థ అవసరాల ను బట్టి , అంతర్గత తనిఖీన్ బట్టి , ఇంకా అనేక ఇతర విషయాల ను బట్టి మారుతూఉంటుంది . పద్దుపుస్తకాలలో ని అంకగణిత యదార్థత ను , సరిచూడటాని కి , సాక్ష్యాలు సమాచారం , వివరణలు , అవసరమౌతాయి . సాక్ష్యాలు వోచర్లరూపం లో , లేదా పత్రాల రూపం లో ఉండవచ్చు . కావలసిన సమాచారాన్ ని వివరణల ను ఆడిటర్ యాజమ'

In [33]:
# frequency distribution of words in a text
text="""తెలుగు ప్రజల కోరికపై 1956, నవంబరు 1న హైదరాబాదు రాష్ట్రం మరియు ఆంధ్ర రాష్ట్రం లోని తెలుగు మాట్లాడే ప్రాంతాలను కలిపి ఆంధ్ర ప్రదేశ్ ను ఏర్పాటు చేసారు. కొత్త రాష్ట్రానికి హైదరాబాదు రాజధానిగా అవతరించింది. ఈ విధంగా భాష ఆధారముగా ఏర్పడిన రాష్ట్రములలో ఆంధ్ర ప్రదేశ్ మొదటి రాష్ట్రము అయినది. నీలం సంజీవరెడ్డి ఆంధ్ర ప్రదేశ్ రాష్ట్రానికి మొట్టమొదటి ముఖ్యమంత్రి.
ఈ విశాలాంద్ర ఏర్పడటానికి ముందు జరిగిన ఉద్యమాలు, సంభవించిన పరిణామాలు ఎన్నెన్నో. అనేక వ్యక్తుల కృషి, పలువురి త్యాగధనుల ఫలితంగా 1953, అక్టోబర్ 1న ఆంధ్రరాష్ట్రం ఏర్పడింది. అంతకు క్రితం తెలుగువారు తమిళనాడు రాష్ట్రంలోనూ, హైదరాబాదు రాష్ట్రంలోనూ ఉండేవారు. 1952, 1953లలో గొల్లపూడి సీతారామశాస్త్రి, పొట్టి శ్రీరాములు లాంటి మహనీయులు ప్రత్యేక ఆంధ్ర రాష్ట్రం కోసం నిరాహారదీక్షలు చేశారు. 58 రోజుల నిరాహారదీక్ష అనంతరం ప్రాణాలు కోల్పోయిన పొట్టి శ్రీరాములు కృషి ఫలితంగా ప్రత్యేక ఆంధ్ర రాష్ట్రం ఇవ్వక తప్పలేదు. కర్నూలు రాజధానిగా ఏర్పడిన ఆంధ్రరాష్ట్రం మరియు హైదరాబాదు రాష్ట్రం ఇలా తెలుగు వారికి రెండు రాష్ట్రాలు ఉండటం రుచించక విశాలాంధ్ర ఉద్యమం ఊపందుకొంది.అనేక మంది జైలుకు వెళ్ళారు. ఉధృతంగా సాగిన ఉద్యమంలో అనేక మంది మరణించారు. అయిననూ ఉద్యమం శాంతించలేదు. చివరకు రాష్ట్రాల పునర్వ్యవస్థీకరణ కమీషన్‌ను ఏర్పాటు చేయడంతో ఆకమిటీ సిఫార్సు చేసిన భాషాప్రయుక్త రాష్ట్రాల ఆధారంగా దేశంలోనే తొలిసారిగా తెలుగు వారికందరికీ కలిపి ప్రత్యేకంగా ఆంధ్ర ప్రదేశ్ రాష్ట్రం ఏర్పడింది"""
fd=nltk.FreqDist(text.split())
fd

FreqDist({'ఆంధ్ర': 7, 'రాష్ట్రం': 6, 'తెలుగు': 4, 'హైదరాబాదు': 4, 'ప్రదేశ్': 4, '1న': 2, 'మరియు': 2, 'కలిపి': 2, 'ఏర్పాటు': 2, 'రాష్ట్రానికి': 2, ...})

In [34]:
from nltk.probability import ConditionalFreqDist
cfd=ConditionalFreqDist((len(word),word) for word in text.split())
#list of conditons
cfd.conditions()

[6, 5, 7, 2, 9, 8, 4, 10, 12, 1, 3, 11, 13, 16, 14, 15]

In [35]:
cfd[5]

FreqDist({'ఆంధ్ర': 7, 'మరియు': 2, 'కలిపి': 2, 'ప్రజల': 1, '1956,': 1, 'కొత్త': 1, 'మొదటి': 1, 'ముందు': 1, 'కృషి,': 1, '1953,': 1, ...})

In [36]:
indiandata = indian.words(fileids = 'telugu.pos')
cdf = ConditionalFreqDist((len(word), word) for word in indiandata)
cdf[5]


FreqDist({'ఆడిట్': 89, 'సంస్థ': 21, 'రెండు': 21, 'చేసిన': 17, 'తనిఖీ': 16, 'శరీరం': 15, 'ముఖ్య': 14, 'రాజ్య': 14, 'నుంచి': 13, 'అందరూ': 13, ...})

In [37]:
data = []
for words in indiandata:
    if len(words)>5:
        data.append(words)

In [38]:
fd = nltk.FreqDist(data)
fd

FreqDist({'రాజనీతి': 56, 'జంతువు': 55, 'పోలీసు': 41, 'సిబ్బంది': 35, 'రాజకీయ': 28, 'కార్యక్రమం': 23, 'ఉంటుంది': 20, 'కొన్ని': 20, 'వివరాలు': 19, 'రాజనీతిశాస్త్ర': 19, ...})

In [39]:
sorted_fd = sorted(fd.items(), key = lambda x:x[1])

In [40]:
print(sorted_fd)

[('చేపట్టే', 1), ('ప్రణాళికను', 1), ('వ్యవహరించాలి', 1), ('సాక్ష్యాధారాల', 1), ('తనిఖీన్', 1), ('మారుతూఉంటుంది', 1), ('పద్దుపుస్తకాలలో', 1), ('అంకగణిత', 1), ('యదార్థత', 1), ('సరిచూడటాని', 1), ('అవసరమౌతాయి', 1), ('వోచర్లరూపం', 1), ('స్వీకరించి', 1), ('నిర్వహించాలి', 1), ('ఖాతాదారుల', 1), ('వాడుకోవచ్చు', 1), ('కొనుగోలు', 1), ('చెల్లింపుల', 1), ('వసూళ్ళ', 1), ('పుస్తకాలు', 1), ('రిజిష్టర్లు', 1), ('నిజానిజాల', 1), ('నిర్థారణ', 1), ('నిర్వహిస్తారు', 1), ('సంబంధిత', 1), ('సాక్ష్యాల', 1), ('నిల్వలు', 1), ('ఋణదాతల', 1), ('ధృవీకరించు', 1), ('పద్ధతుల', 1), ('ఆస్తుల', 1), ('అయినవా', 1), ('ప్రశ్నలు', 1), ('సంస్థలో', 1), ('తెలుసుకోవడం', 1), ('విధులు', 1), ('నిల్వల', 1), ('సమన్వయపట్టీ', 1), ('సరిచూడాలి', 1), ('పట్టీని', 1), ('ఆర్థికస్థితి', 1), ('ప్రతిబింబించేటట్లు', 1), ('ఉన్నాయోలేదో', 1), ('పెట్టుబడి', 1), ('వ్యయాలు', 1), ('కేటాయింపులు', 1), ('ఉన్నదీ', 1), ('లేనిదీ', 1), ('కంపెనీ', 1), ('నిబంధనల', 1), ('జరగలేదని', 1), ('నిర్ధారణ', 1), ('ఉంచుకొని', 1), ('ప్రారంభించినట్లయితే', 1), ('సమర్థనీయంగాను',

In [41]:
word = list(sorted_fd)[len(sorted_fd)-1]

In [42]:
print("most frequently used word in this document is:", word)

most frequently used word in this document is: ('రాజనీతి', 56)


In [43]:
from nltk.corpus import indian

In [44]:


train_data = indian.tagged_sents('telugu.pos')[:300] 
test_data = indian.tagged_sents('telugu.pos')[301:] 



In [45]:
word_to_be_tagged ="""లిప్యంతరీకరణ అంటే, ఇంగ్లీషు లిపిలో టైపు చేస్తూ ఉంటే దానంతట అదే తెలుగు లిపి లోకి మారిపోవడం. ఉదాహరణకు "telugu" అని రాస్తే అది "తెలుగు" అని మారిపోతుంది. ఇది రైస్ ట్రాన్స్‌లిటరేషన్ స్టాండర్డ్ ఫై ఆధారపడిన పద్ధతి."""

In [46]:
print(word_to_be_tagged)
print (train_data)

లిప్యంతరీకరణ అంటే, ఇంగ్లీషు లిపిలో టైపు చేస్తూ ఉంటే దానంతట అదే తెలుగు లిపి లోకి మారిపోవడం. ఉదాహరణకు "telugu" అని రాస్తే అది "తెలుగు" అని మారిపోతుంది. ఇది రైస్ ట్రాన్స్‌లిటరేషన్ స్టాండర్డ్ ఫై ఆధారపడిన పద్ధతి.
[[('4', 'QFNUM'), ('.', 'SYM')], [('ఆడిట్', 'NN'), ('నిర్వహణ', 'NN'), ('ఆడిటర్', 'NN'), ('ఒక', 'QFNUM'), ('కొత్త', 'JJ'), ('ఆడిట్', 'NN'), ('చేపట్టే', 'VRB'), ('ముందు', 'PREP'), ('సక్రమ', 'JJ'), ('పద్ధతి', 'NN'), ('లో', 'PREP'), ('కార్య', 'JJ'), ('ప్రణాళికను', 'NN'), ('రూపొందించాలి', 'VFM'), ('.', 'SYM')], ...]


# Using Indic NLP Library

In [47]:

# The path to the local git repo for Indic NLP library
INDIC_NLP_LIB_HOME=r"C:\Users\DELL\Desktop\yct\indic_nlp_library-master"

# The path to the local git repo for Indic NLP Resources
INDIC_NLP_RESOURCES=r"C:\Users\DELL\Desktop\yct\indic_nlp_resources-master"

In [48]:
from indicnlp.tokenize import sentence_tokenize

indic_string="""తెలుగు వికీపీడియా అభివృద్ధికి ముఖ్య కారణం కొత్త సభ్యులను ప్రోత్సహించడం. కొత్త సభ్యులను ప్రోత్సహించడంలో సభ్యులు, నిర్వాహకులు, అధికారులు సైతం ఓర్పు నేర్పుతో వ్యవహరిస్తుంటారు. అత్యుత్సాహంతో కొత్తవారు చేసే పొరపాట్లను సరిచేస్తూ సూచనలను, సలహాలను అందిస్తూ ఉంటారు. కావలసిన సహాయం అందించడంలో అందరూ ఉత్సాహం చూపుతూనే ఉంటారు. సభ్యుల మధ్య ఉండే స్నేహపూరిత వాతావరణం కొత్త వారి ఆందోళనను ఒకింత తగ్గిస్తూ ముందుకు సాగేలా చేస్తుంది. మృదుమధురంగా సూచనలను అందించడం ఎక్కువమంది సభ్యుల పద్ధతులలో ఒకటి. """

# Split the sentence, language code "tel" is passed for telugu
sentences=sentence_tokenize.sentence_split(indic_string, lang='tel')

# print the sentences
for t in sentences:
    print(t)

తెలుగు వికీపీడియా అభివృద్ధికి ముఖ్య కారణం కొత్త సభ్యులను ప్రోత్సహించడం.
కొత్త సభ్యులను ప్రోత్సహించడంలో సభ్యులు, నిర్వాహకులు, అధికారులు సైతం ఓర్పు నేర్పుతో వ్యవహరిస్తుంటారు.
అత్యుత్సాహంతో కొత్తవారు చేసే పొరపాట్లను సరిచేస్తూ సూచనలను, సలహాలను అందిస్తూ ఉంటారు.
కావలసిన సహాయం అందించడంలో అందరూ ఉత్సాహం చూపుతూనే ఉంటారు.
సభ్యుల మధ్య ఉండే స్నేహపూరిత వాతావరణం కొత్త వారి ఆందోళనను ఒకింత తగ్గిస్తూ ముందుకు సాగేలా చేస్తుంది.
మృదుమధురంగా సూచనలను అందించడం ఎక్కువమంది సభ్యుల పద్ధతులలో ఒకటి.


In [49]:
from indicnlp.transliterate.unicode_transliterate import UnicodeIndicTransliterator
input_text='क्या आप मेरी मदद कर सकते हैं ।'

# Transliterate from Hindi to Telugu
print(UnicodeIndicTransliterator.transliterate(input_text,"hi","te"))

క్యా ఆప మేరీ మదద కర సకతే హైం ౤


In [50]:
from indicnlp.tokenize import indic_tokenize  

indic_string='ఆంధ్ర, తెలంగాణ రాష్ట్రాల అధికార భాష తెలుగు.'

print('Input String: {}'.format(indic_string))
print('Tokens: ')
for t in indic_tokenize.trivial_tokenize(indic_string): 
    print(t)

Input String: ఆంధ్ర, తెలంగాణ రాష్ట్రాల అధికార భాష తెలుగు.
Tokens: 
ఆంధ్ర
,
తెలంగాణ
రాష్ట్రాల
అధికార
భాష
తెలుగు
.


In [51]:
from indicnlp.tokenize import indic_detokenize  
indic_string=' ఆంధ్ర , తెలంగాణ రాష్ట్రాల అధికార భాష తెలుగు .'

print('Input String: {}'.format(indic_string))
print('Detokenized String: {}'.format(indic_detokenize.trivial_detokenize(indic_string,lang='tel')))

Input String:  ఆంధ్ర , తెలంగాణ రాష్ట్రాల అధికార భాష తెలుగు .
Detokenized String:  ఆంధ్ర, తెలంగాణ రాష్ట్రాల అధికార భాష తెలుగు.


In [52]:
from indicnlp.langinfo import *

In [53]:
c='అ'
lang='te'

In [54]:
print('Is vowel?:  {}'.format(is_vowel(c,lang)))
print('Is consonant?:  {}'.format(is_consonant(c,lang)))
print('Is velar?:  {}'.format(is_velar(c,lang)))
print('Is palatal?:  {}'.format(is_palatal(c,lang)))
print('Is aspirated?:  {}'.format(is_aspirated(c,lang)))
print('Is unvoiced?:  {}'.format(is_unvoiced(c,lang)))
print('Is nasal?:  {}'.format(is_nasal(c,lang)))

Is vowel?:  True
Is consonant?:  False
Is velar?:  False
Is palatal?:  False
Is aspirated?:  False
Is unvoiced?:  False
Is nasal?:  False
