<a href="https://colab.research.google.com/github/Apoorva57/NLP-Project/blob/main/NLP_Project.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Import nltk, punkt package and tokenizer

In [1]:
import nltk
nltk.download('punkt')
nltk.download
from nltk.tokenize import sent_tokenize, word_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


## Tokenizer

In [2]:
Steve_Jobs="Your time is limited, so don’t waste it living someone else’s life. Don’t be trapped by dogma – which is living with the results of other people’s thinking."

In [3]:
sent_tokenize(Steve_Jobs)

['Your time is limited, so don’t waste it living someone else’s life.',
 'Don’t be trapped by dogma – which is living with the results of other people’s thinking.']

In [4]:
word_tokenize(Steve_Jobs)

['Your',
 'time',
 'is',
 'limited',
 ',',
 'so',
 'don',
 '’',
 't',
 'waste',
 'it',
 'living',
 'someone',
 'else',
 '’',
 's',
 'life',
 '.',
 'Don',
 '’',
 't',
 'be',
 'trapped',
 'by',
 'dogma',
 '–',
 'which',
 'is',
 'living',
 'with',
 'the',
 'results',
 'of',
 'other',
 'people',
 '’',
 's',
 'thinking',
 '.']

## Stopwords

In [5]:
nltk.download("stopwords")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [6]:
from nltk.corpus import stopwords

In [7]:
Will_Smith="Money and success don’t change people; they merely amplify what is already there."

In [8]:
words_in_quote = word_tokenize(Will_Smith)

In [9]:
words_in_quote

['Money',
 'and',
 'success',
 'don',
 '’',
 't',
 'change',
 'people',
 ';',
 'they',
 'merely',
 'amplify',
 'what',
 'is',
 'already',
 'there',
 '.']

In [10]:
stop_words = set(stopwords.words("english"))

In [11]:
filtered_list = [
    word for word in words_in_quote if word.casefold() not in stop_words
    ]

In [12]:
filtered_list

['Money',
 'success',
 '’',
 'change',
 'people',
 ';',
 'merely',
 'amplify',
 'already',
 '.']

## Stemmer

In [13]:
from nltk.stem import PorterStemmer

In [14]:
stemmer = PorterStemmer()

In [15]:
string_for_stemming = """The crew of the USS Discovery discovered many discoveries. Discovering is what explorers do."""

In [16]:
words = word_tokenize(string_for_stemming)

In [17]:
words

['The',
 'crew',
 'of',
 'the',
 'USS',
 'Discovery',
 'discovered',
 'many',
 'discoveries',
 '.',
 'Discovering',
 'is',
 'what',
 'explorers',
 'do',
 '.']

In [18]:
stemmed_words = [stemmer.stem(word) for word in words]

In [19]:
stemmed_words

['the',
 'crew',
 'of',
 'the',
 'uss',
 'discoveri',
 'discov',
 'mani',
 'discoveri',
 '.',
 'discov',
 'is',
 'what',
 'explor',
 'do',
 '.']

## POS Tagger

In [20]:
Oprah_Winfrey = """The biggest adventure you can take is to live the life of your dreams."""

In [21]:
words_in_quote = word_tokenize(Oprah_Winfrey)

In [22]:
words_in_quote

['The',
 'biggest',
 'adventure',
 'you',
 'can',
 'take',
 'is',
 'to',
 'live',
 'the',
 'life',
 'of',
 'your',
 'dreams',
 '.']

In [23]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [24]:
nltk.pos_tag(words_in_quote)

[('The', 'DT'),
 ('biggest', 'JJS'),
 ('adventure', 'NN'),
 ('you', 'PRP'),
 ('can', 'MD'),
 ('take', 'VB'),
 ('is', 'VBZ'),
 ('to', 'TO'),
 ('live', 'VB'),
 ('the', 'DT'),
 ('life', 'NN'),
 ('of', 'IN'),
 ('your', 'PRP$'),
 ('dreams', 'NNS'),
 ('.', '.')]

## Lemmatizer

In [25]:
from nltk.stem import WordNetLemmatizer
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [26]:
lemmatizer = WordNetLemmatizer()

In [27]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [28]:
print("runners :", lemmatizer.lemmatize("runners"))
print("items :", lemmatizer.lemmatize("items"))

runners : runner
items : item


In [29]:
string_for_lemmatizing = "The world needs dreamers and the world needs doers. But above all, the world needs dreamers who do."

In [30]:
words = word_tokenize(string_for_lemmatizing)

In [31]:
words

['The',
 'world',
 'needs',
 'dreamers',
 'and',
 'the',
 'world',
 'needs',
 'doers',
 '.',
 'But',
 'above',
 'all',
 ',',
 'the',
 'world',
 'needs',
 'dreamers',
 'who',
 'do',
 '.']

In [32]:
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

In [33]:
lemmatized_words

['The',
 'world',
 'need',
 'dreamer',
 'and',
 'the',
 'world',
 'need',
 'doer',
 '.',
 'But',
 'above',
 'all',
 ',',
 'the',
 'world',
 'need',
 'dreamer',
 'who',
 'do',
 '.']

## Hindi POS Tagger

In [34]:
from nltk.corpus import indian
from nltk.tag import tnt
import string

In [35]:
nltk.download('indian')

[nltk_data] Downloading package indian to /root/nltk_data...
[nltk_data]   Unzipping corpora/indian.zip.


True

In [36]:
tagged_set = 'hindi.pos'
word_set = indian.sents(tagged_set)
count = 0
for sen in word_set:
    count = count + 1
    sen = "".join([" "+i if not i.startswith("'") and i not in string.punctuation else i for i in sen]).strip()
    print (count, sen)
print ('Total sentences in the tagged file are',count)

train_perc = .9

train_rows = int(train_perc*count)
test_rows = train_rows + 1

print ('Sentences to be trained',train_rows, 'Sentences to be tested against',test_rows)

1 पूर्ण प्रतिबंध हटाओ: इराक
2 संयुक्त राष्ट्र ।
3 इराक के विदेश मंत्री ने अमरीका के उस प्रस्ताव का मजाक उड़ाया है, जिसमें अमरीका ने संयुक्त राष्ट्र के प्रतिबंधों को इराकी नागरिकों के लिए कम हानिकारक बनाने के लिए कहा है ।
4 विदेश मंत्री का कहना है कि चूंकि बगदाद संयुक्त राष्ट्र की मांगों का पालन करते हुए अपने भारी विनाशकारी हथियारों को नष्ट कर रहा है ।
5 लिहाजा प्रतिबंधों को पूर्ण रूप से उठा दिया जाना चाहिए ।
6 विदेश मंत्री मोहम्मद सईद का कहना है कि वे इसे'सुव्यवस्थित प्रतिबंध' कह कर आम राय और सुरक्षा परिषद को छल रहे हैं ।
7 बेनजीर की सुनवाई स्थगित
8 कराची ।
9 पाकिस्तान की पूर्व प्रधानमंत्री बेनजीर भुट्टो पर लगे भ्रष्टाचार के आरोपों के खिलाफ भुट्टो द्वारा दायर की गई याचिका की सुनवाई मंगलवार को वकीलों की हड़ताल के कारण स्थगित कर दी गई ।
10 सिंध हाईकोर्ट बार एसोसिएशन के अध्यक्ष रशीद रिजवी के मुताबिक यह हड़ताल उच्च न्यायालय और निचली अदालतों के स्तर पर सफल रही ।
11 देश में पुन: प्रजातंत्र की स्थापना की मांग को लेकर यह हड़ताल की गई थी ।
12 सुप्रीम कोर्ट में भुट्टो के उक्त मामले की सुनवाई सोमवार 

In [37]:
data = indian.tagged_sents(tagged_set)
train_data = data[:train_rows]
test_data = data[test_rows:]


pos_tagger = tnt.TnT()
pos_tagger.train(train_data)
pos_tagger.evaluate(test_data)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  pos_tagger.evaluate(test_data)


0.8111964873765093

In [38]:
sentence_to_be_tagged = "प्रधानमंत्री ने कहा कि उन्हें उम्मीद है कि पड़ोसी देश पाकिस्तान, भारत विरोधी दुष्प्रचार रोक कर सीमा पार आतंकवाद को रोकने में सहयोग करेगा ।"

tokenized = nltk.word_tokenize(sentence_to_be_tagged)

In [39]:
hindi_pos = pos_tagger.tag(tokenized)

In [40]:
hindi_pos

[('प्रधानमंत्री', 'NN'),
 ('ने', 'PREP'),
 ('कहा', 'VFM'),
 ('कि', 'CC'),
 ('उन्हें', 'PRP'),
 ('उम्मीद', 'NN'),
 ('है', 'VFM'),
 ('कि', 'CC'),
 ('पड़ोसी', 'NNC'),
 ('देश', 'NN'),
 ('पाकिस्तान', 'NNP'),
 (',', 'PUNC'),
 ('भारत', 'NNP'),
 ('विरोधी', 'JJ'),
 ('दुष्प्रचार', 'NN'),
 ('रोक', 'VFM'),
 ('कर', 'VRB'),
 ('सीमा', 'NNC'),
 ('पार', 'NNC'),
 ('आतंकवाद', 'NN'),
 ('को', 'PREP'),
 ('रोकने', 'VNN'),
 ('में', 'PREP'),
 ('सहयोग', 'NVB'),
 ('करेगा', 'VFM'),
 ('।', 'PUNC')]

## Uploading Hindi dataset

In [41]:
from google.colab import files
uploaded = files.upload()

Saving Hindi_English_Truncated_Corpus.csv to Hindi_English_Truncated_Corpus.csv


In [42]:
import warnings
warnings.filterwarnings('ignore')

In [43]:
import pandas as pd
import io
 
df = pd.read_csv(io.BytesIO(uploaded['Hindi_English_Truncated_Corpus.csv']))

In [44]:
df.head()

Unnamed: 0,source,english_sentence,hindi_sentence
0,ted,politicians do not have permission to do what ...,"राजनीतिज्ञों के पास जो कार्य करना चाहिए, वह कर..."
1,ted,"I'd like to tell you about one such child,",मई आपको ऐसे ही एक बच्चे के बारे में बताना चाहू...
2,indic2012,This percentage is even greater than the perce...,यह प्रतिशत भारत में हिन्दुओं प्रतिशत से अधिक है।
3,ted,what we really mean is that they're bad at not...,हम ये नहीं कहना चाहते कि वो ध्यान नहीं दे पाते
4,indic2012,.The ending portion of these Vedas is called U...,इन्हीं वेदों का अंतिम भाग उपनिषद कहलाता है।


## Installation of torch and inltk

In [45]:
pip install torch==1.12.1+cpu -f https://download.pytorch.org/whl/torch_stable.html

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in links: https://download.pytorch.org/whl/torch_stable.html
Collecting torch==1.12.1+cpu
  Downloading https://download.pytorch.org/whl/cpu/torch-1.12.1%2Bcpu-cp38-cp38-linux_x86_64.whl (189.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m189.2/189.2 MB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: torch
  Attempting uninstall: torch
    Found existing installation: torch 1.13.1+cu116
    Uninstalling torch-1.13.1+cu116:
      Successfully uninstalled torch-1.13.1+cu116
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
torchvision 0.14.1+cu116 requires torch==1.13.1, but you have torch 1.12.1+cpu which is incompatible.
torchtext 0.14.1 requires torch==1.13.1, but you have torch 1.12.1+cpu which is incomp

In [46]:
pip install inltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting inltk
  Downloading inltk-0.9-py3-none-any.whl (13 kB)
Collecting bottleneck
  Downloading Bottleneck-1.3.6-cp38-cp38-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (355 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m355.2/355.2 KB[0m [31m11.4 MB/s[0m eta [36m0:00:00[0m
Collecting fastai==1.0.57
  Downloading fastai-1.0.57-py3-none-any.whl (233 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m233.3/233.3 KB[0m [31m24.9 MB/s[0m eta [36m0:00:00[0m
Collecting nvidia-ml-py3
  Downloading nvidia-ml-py3-7.352.0.tar.gz (19 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting sentencepiece
  Downloading sentencepiece-0.1.97-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m28.2 MB/s[0m et

In [53]:
from inltk.inltk import setup
setup('hi')

RuntimeError: ignored

Done!


In [54]:
from inltk.inltk import tokenize

## Tokenizing from dataset

In [55]:
tokenize(df.hindi_sentence[0],"hi")

['▁राजनीतिज्ञों',
 '▁के',
 '▁पास',
 '▁जो',
 '▁कार्य',
 '▁करना',
 '▁चाहिए',
 ',',
 '▁वह',
 '▁करने',
 '▁कि',
 '▁अनुमति',
 '▁नहीं',
 '▁है',
 '▁.']

In [56]:
tokenize(df.hindi_sentence[1],"hi")

['▁मई',
 '▁आपको',
 '▁ऐसे',
 '▁ही',
 '▁एक',
 '▁बच्चे',
 '▁के',
 '▁बारे',
 '▁में',
 '▁बताना',
 '▁चाह',
 'ू',
 'ंगी',
 ',']

In [57]:
tokenize(df.hindi_sentence[2],"hi")

['▁यह',
 '▁प्रतिशत',
 '▁भारत',
 '▁में',
 '▁हिन्दुओं',
 '▁प्रतिशत',
 '▁से',
 '▁अधिक',
 '▁है',
 '।']

In [58]:
tokenize(df.hindi_sentence[3],"hi")

['▁हम',
 '▁ये',
 '▁नहीं',
 '▁कहना',
 '▁चाहते',
 '▁कि',
 '▁वो',
 '▁ध्यान',
 '▁नहीं',
 '▁दे',
 '▁पाते']

In [59]:
tokenize(df.hindi_sentence[4],"hi")

['▁इन्हीं',
 '▁वेदों',
 '▁का',
 '▁अंतिम',
 '▁भाग',
 '▁उपनिषद',
 '▁कहलाता',
 '▁है',
 '।']

## Tokenizing user input sentence

In [60]:
hindi_input = """प्राचीन काल में विक्रमादित्य नाम के एक आदर्श राजा हुआ करते थे।
अपने साहस, पराक्रम और शौर्य के लिए  राजा विक्रम मशहूर थे। 
ऐसा भी कहा जाता है कि राजा विक्रम अपनी प्राजा के जीवन के दुख दर्द जानने के लिए रात्री के पहर में भेष बदल कर नगर में घूमते थे।"""

In [61]:
tokenize(hindi_input, "hi")

['▁प्राचीन',
 '▁काल',
 '▁में',
 '▁विक्रमादित्य',
 '▁नाम',
 '▁के',
 '▁एक',
 '▁आदर्श',
 '▁राजा',
 '▁हुआ',
 '▁करते',
 '▁थे',
 '।',
 '▁अपने',
 '▁साहस',
 ',',
 '▁पराक्रम',
 '▁और',
 '▁शौर्य',
 '▁के',
 '▁लिए',
 '▁राजा',
 '▁विक्रम',
 '▁मशहूर',
 '▁थे',
 '।',
 '▁ऐसा',
 '▁भी',
 '▁कहा',
 '▁जाता',
 '▁है',
 '▁कि',
 '▁राजा',
 '▁विक्रम',
 '▁अपनी',
 '▁प्रा',
 'जा',
 '▁के',
 '▁जीवन',
 '▁के',
 '▁दुख',
 '▁दर्द',
 '▁जानने',
 '▁के',
 '▁लिए',
 '▁रात्री',
 '▁के',
 '▁पहर',
 '▁में',
 '▁भेष',
 '▁बदल',
 '▁कर',
 '▁नगर',
 '▁में',
 '▁घूमते',
 '▁थे',
 '।']

## Remove foreign languages

In [62]:
from inltk.inltk import remove_foreign_languages

In [63]:
remove_foreign_languages("इस्लाम धर्म (الإسلام) ईसाई धर्म के बाद अनुयाइयों के आधार पर दुनिया का दूसरा सब से बड़ा धर्म है।", "hi")

['▁इस्लाम',
 '▁धर्म',
 '▁',
 '<unk>',
 ')',
 '▁ईसाई',
 '▁धर्म',
 '▁के',
 '▁बाद',
 '▁अनु',
 'या',
 'इयों',
 '▁के',
 '▁आधार',
 '▁पर',
 '▁दुनिया',
 '▁का',
 '▁दूसरा',
 '▁सब',
 '▁से',
 '▁बड़ा',
 '▁धर्म',
 '▁है',
 '।']

In [64]:
remove_foreign_languages("विकिपीडिया सभी विषयों ਇੱਕ ਅਲੌਕਿਕ ਨਜ਼ਾਰਾ ਬੱਝਾ ਹੋਇਆ ਸਾਹਮਣੇ ਆ ਖਲੋਂਦਾ ਸੀ पर प्रामाणिक और 维基百科:关于中文维基百科 उपयोग, परिवर्तन 维基百科:关于中文维基百科", "hi")

['▁विकिपीडिया',
 '▁सभी',
 '▁विषयों',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁',
 '<unk>',
 '▁पर',
 '▁प्रामाणिक',
 '▁और',
 '▁',
 '<unk>',
 ':',
 '<unk>',
 '▁उपयोग',
 ',',
 '▁परिवर्तन',
 '▁',
 '<unk>',
 ':',
 '<unk>']