# 2. Getting Started with spaCy and its Linguistic Annotations

# English (en) dataset

## 2.1. Importing spaCy and Loading Data

In [38]:
import spacy

In [39]:
nlp = spacy.load('en_core_web_sm')

In [40]:
# Thesis tab-delimited dataset file

with open ('eng_-urdu.en', 'r') as f:
    tt_dfile = f.read()

In [41]:
print(tt_dfile)

This then is the message which we have heard of him , and declare unto you , that God is light , and in him is no darkness at all .
And saying , Alas , alas , that great city , that was clothed in fine linen , and purple , and scarlet , and decked with gold , and precious stones , and pearls !
For in one hour so great riches is come to nought . And every shipmaster , and all the company in ships , and sailors , and as many as trade by sea , stood afar off .
And cried when they saw the smoke of her burning , saying , What city is like unto this great city !
And the voice of harpers , and musicians , and of pipers , and trumpeters , shall be heard no more at all in thee ; and no craftsman , of whatsoever craft he be , shall be found any more in thee ; and the sound of a millstone shall be heard no more at all in thee .
And these things write we unto you , that your joy may be full .
Canada has so far participated in 50 peace missions, which include all of the peace restoration missions s

import pandas as pd

# Read the tab-delimited file into a DataFrame
tt_dfile = pd.read_csv('eng_-urdu.en', delimiter='\t', header=None)

# Display the first few rows using the .head() method
print(tt_dfile.head())


## 2.2. Creating a Doc Container

In [42]:
doc = nlp(tt_dfile)

import pandas as pd
import spacy

# Read the tab-delimited file into a DataFrame
tt_dfile = pd.read_csv('eng_-urdu.en', delimiter='\t', header=None, names=['text'])

# Create a spaCy language model
nlp = spacy.load('en_core_web_sm')

# Process each row in the 'text' column and store the results in a new column 'doc'
tt_dfile['doc'] = tt_dfile['text'].apply(nlp)

# Display the first few rows with the processed text
print(tt_dfile.head())


In [43]:
print(doc)

This then is the message which we have heard of him , and declare unto you , that God is light , and in him is no darkness at all .
And saying , Alas , alas , that great city , that was clothed in fine linen , and purple , and scarlet , and decked with gold , and precious stones , and pearls !
For in one hour so great riches is come to nought . And every shipmaster , and all the company in ships , and sailors , and as many as trade by sea , stood afar off .
And cried when they saw the smoke of her burning , saying , What city is like unto this great city !
And the voice of harpers , and musicians , and of pipers , and trumpeters , shall be heard no more at all in thee ; and no craftsman , of whatsoever craft he be , shall be found any more in thee ; and the sound of a millstone shall be heard no more at all in thee .
And these things write we unto you , that your joy may be full .
Canada has so far participated in 50 peace missions, which include all of the peace restoration missions s

In [44]:
print(len(tt_dfile))
print(len(doc))

11855
2328


## Tokenization

In [45]:
for token in tt_dfile[0:10]:
    print(token)

T
h
i
s
 
t
h
e
n
 


In [46]:
for token in doc[:10]:
    print(token)

This
then
is
the
message
which
we
have
heard
of


In [47]:
for token in tt_dfile.split()[:10]:
    print(token)

This
then
is
the
message
which
we
have
heard
of


## 2.3. Sentence Boundary Detection (SBD)

In [48]:
for sent in doc.sents:
    print(sent)

This then is the message which we have heard of him , and declare unto you , that God is light , and in him is no darkness at all .

And saying , Alas , alas , that great city , that was clothed in fine linen , and purple , and scarlet , and decked with gold , and precious stones , and pearls !

For in one hour so great riches is come to nought .
And every shipmaster , and all the company in ships , and sailors , and as many as trade by sea , stood afar off .

And cried when they saw the smoke of her burning , saying , What city is like unto this great city !

And the voice of harpers , and musicians , and of pipers , and trumpeters , shall be heard no more at all in thee ; and no craftsman , of whatsoever craft he be , shall be found any more in thee ; and the sound of a millstone shall be heard no more at all in thee .

And these things write we unto you , that your joy may be full .

Canada has so far participated in 50 peace missions, which include all of the peace restoration miss

In [49]:
for sentence in doc.sents:
    print(sentence.text)

This then is the message which we have heard of him , and declare unto you , that God is light , and in him is no darkness at all .

And saying , Alas , alas , that great city , that was clothed in fine linen , and purple , and scarlet , and decked with gold , and precious stones , and pearls !

For in one hour so great riches is come to nought .
And every shipmaster , and all the company in ships , and sailors , and as many as trade by sea , stood afar off .

And cried when they saw the smoke of her burning , saying , What city is like unto this great city !

And the voice of harpers , and musicians , and of pipers , and trumpeters , shall be heard no more at all in thee ; and no craftsman , of whatsoever craft he be , shall be found any more in thee ; and the sound of a millstone shall be heard no more at all in thee .

And these things write we unto you , that your joy may be full .

Canada has so far participated in 50 peace missions, which include all of the peace restoration miss

In [50]:
sentence1 = list(doc.sents)[0]
print(sentence1)

This then is the message which we have heard of him , and declare unto you , that God is light , and in him is no darkness at all .



In [51]:
print(sentence1[12])

and


## 2.5. Part of Speech Tagging (POS)

## 2.6. Named Entity Recognition (NER)

In [52]:
for ent in doc.ents:
    print(ent.text, ent.label_)

Alas PERSON
one hour TIME
Canada GPE
50 CARDINAL
1989 DATE
one CARDINAL
Sufism NORP
Sufism ORG
Sharia WORK_OF_ART
Sufism ORG
Parents NORP
Barack Obama PERSON
Hilary Clinton PERSON
first ORDINAL
America GPE
afghan NORP
Atlantic Ocean LOC
Arctic Ocean LOC
1950 DATE
Dominion of Canada ORG
Europeans NORP
Canada GPE
Pacific LOC
French NORP
Indians NORP
Canada GPE
america GPE
the end of 1850 DATE
Canadian NORP
Arctic LOC
1914 DATE
britain GPE
first ORDINAL
canada GPE
Canadian NORP
Canada GPE
Canada GPE
1989 DATE
1994 DATE
canada GPE
America GPE
two CARDINAL
Canada GPE
three-fourth CARDINAL
the 160 kilometers QUANTITY
America GPE
2001 DATE
English LANGUAGE
french NORP
Canada GPE
Canada Broadcasting Corporation ORG
National Film Board of Canada ORG
Canada Radio-TV ORG
Detail Communication Commission ORG
Canadian NORP
Aarabs NORP
Arabic LANGUAGE
Urdu GPE
Persian NORP
Islam ORG
one CARDINAL
kitaab PERSON
634 CARDINAL
Abubaker ORG
Umar ibn Al-Khatab PERSON
second ORDINAL
Ali PERSON
September 28 D

In [53]:
from spacy import displacy
displacy.render(doc, style='ent')

## Lemmatization

In [54]:
# Lemmatize the words in the document
lemmatized_text = " ".join([token.lemma_ for token in doc])

# Print the lemmatized text
print(lemmatized_text)

this then be the message which we have hear of he , and declare unto you , that God be light , and in he be no darkness at all . 
 and say , alas , alas , that great city , that be clothe in fine linen , and purple , and scarlet , and deck with gold , and precious stone , and pearl ! 
 for in one hour so great riches be come to nought . and every shipmaster , and all the company in ship , and sailor , and as many as trade by sea , stand afar off . 
 and cry when they see the smoke of her burning , say , what city be like unto this great city ! 
 and the voice of harper , and musician , and of piper , and trumpeter , shall be hear no more at all in thee ; and no craftsman , of whatsoever craft he be , shall be find any more in thee ; and the sound of a millstone shall be hear no more at all in thee . 
 and these thing write we unto you , that your joy may be full . 
 Canada have so far participate in 50 peace mission , which include all of the peace restoration mission since 1989 till n

## Stemming

In [55]:
import nltk
nltk.download("punkt")

[nltk_data] Downloading package punkt to C:\Users\Muhammad
[nltk_data]     Iqbal\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [56]:
# Import the toolkit and the full Porter Stemmer library
import nltk
from nltk.stem.porter import *

In [57]:
# Import the toolkit and the full Porter Stemmer library
import nltk
from nltk.stem import PorterStemmer

In [58]:
from nltk.tokenize import word_tokenize

In [59]:
# Initialize the Porter stemmer
p_stemmer = PorterStemmer()

In [60]:
# Tokenize the text using NLTK
tokens = word_tokenize(lemmatized_text)

In [62]:
# Apply stemming to each token
stemmed_tokens = [p_stemmer.stem(token) for token in tokens]

# Join the stemmed tokens to form the stemmed text
stemmed_text = " ".join(stemmed_tokens)

# Print the stemmed text
print(stemmed_text)

thi then be the messag which we have hear of he , and declar unto you , that god be light , and in he be no dark at all . and say , ala , ala , that great citi , that be cloth in fine linen , and purpl , and scarlet , and deck with gold , and preciou stone , and pearl ! for in one hour so great rich be come to nought . and everi shipmast , and all the compani in ship , and sailor , and as mani as trade by sea , stand afar off . and cri when they see the smoke of her burn , say , what citi be like unto thi great citi ! and the voic of harper , and musician , and of piper , and trumpet , shall be hear no more at all in thee ; and no craftsman , of whatsoev craft he be , shall be find ani more in thee ; and the sound of a millston shall be hear no more at all in thee . and these thing write we unto you , that your joy may be full . canada have so far particip in 50 peac mission , which includ all of the peac restor mission sinc 1989 till now . shaik shahab uddin saherwardi awaruf ul maaru

In [63]:
for word in tt_dfile.split():
    print(word+' --> '+p_stemmer.stem(word))

This --> thi
then --> then
is --> is
the --> the
message --> messag
which --> which
we --> we
have --> have
heard --> heard
of --> of
him --> him
, --> ,
and --> and
declare --> declar
unto --> unto
you --> you
, --> ,
that --> that
God --> god
is --> is
light --> light
, --> ,
and --> and
in --> in
him --> him
is --> is
no --> no
darkness --> dark
at --> at
all --> all
. --> .
And --> and
saying --> say
, --> ,
Alas --> ala
, --> ,
alas --> ala
, --> ,
that --> that
great --> great
city --> citi
, --> ,
that --> that
was --> wa
clothed --> cloth
in --> in
fine --> fine
linen --> linen
, --> ,
and --> and
purple --> purpl
, --> ,
and --> and
scarlet --> scarlet
, --> ,
and --> and
decked --> deck
with --> with
gold --> gold
, --> ,
and --> and
precious --> preciou
stones --> stone
, --> ,
and --> and
pearls --> pearl
! --> !
For --> for
in --> in
one --> one
hour --> hour
so --> so
great --> great
riches --> rich
is --> is
come --> come
to --> to
nought --> nought
. --> .
And --> and
e

In [64]:
# word, part-of-speech, lemma(base word)

for token in doc:
    print(token.text, '\t', token.pos_, '\t', token.lemma, '\t', token.lemma_)

This 	 PRON 	 1995909169258310477 	 this
then 	 ADV 	 2630753287402592467 	 then
is 	 AUX 	 10382539506755952630 	 be
the 	 DET 	 7425985699627899538 	 the
message 	 NOUN 	 1381057396011922202 	 message
which 	 PRON 	 7063653163634019529 	 which
we 	 PRON 	 16064069575701507746 	 we
have 	 AUX 	 14692702688101715474 	 have
heard 	 VERB 	 16158783587822825203 	 hear
of 	 ADP 	 886050111519832510 	 of
him 	 PRON 	 1655312771067108281 	 he
, 	 PUNCT 	 2593208677638477497 	 ,
and 	 CCONJ 	 2283656566040971221 	 and
declare 	 VERB 	 1790747816877812643 	 declare
unto 	 ADP 	 11496056511825172829 	 unto
you 	 PRON 	 7624161793554793053 	 you
, 	 PUNCT 	 2593208677638477497 	 ,
that 	 SCONJ 	 4380130941430378203 	 that
God 	 PROPN 	 11676624564649181180 	 God
is 	 AUX 	 10382539506755952630 	 be
light 	 NOUN 	 6098669707108623374 	 light
, 	 PUNCT 	 2593208677638477497 	 ,
and 	 CCONJ 	 2283656566040971221 	 and
in 	 ADP 	 3002984154512732771 	 in
him 	 PRON 	 1655312771067108281 	 he
is 	 AU

In [65]:
def show_lemmas(text):
    for token in text:
        print(f'{token.text:{12}} {token.pos_:{6}} {token.lemma:<{22}} {token.lemma_}')

In [66]:
show_lemmas(doc)

This         PRON   1995909169258310477    this
then         ADV    2630753287402592467    then
is           AUX    10382539506755952630   be
the          DET    7425985699627899538    the
message      NOUN   1381057396011922202    message
which        PRON   7063653163634019529    which
we           PRON   16064069575701507746   we
have         AUX    14692702688101715474   have
heard        VERB   16158783587822825203   hear
of           ADP    886050111519832510     of
him          PRON   1655312771067108281    he
,            PUNCT  2593208677638477497    ,
and          CCONJ  2283656566040971221    and
declare      VERB   1790747816877812643    declare
unto         ADP    11496056511825172829   unto
you          PRON   7624161793554793053    you
,            PUNCT  2593208677638477497    ,
that         SCONJ  4380130941430378203    that
God          PROPN  11676624564649181180   God
is           AUX    10382539506755952630   be
light        NOUN   6098669707108623374    light
,   

# Stop Words
Stop words are those words that do not contribute to the deeper meaning of the phrase. They are the most common words such as: the, a, and is. For some applications like documentation classification, it may make sense to remove stop words. NLTK provides a list of commonly agreed upon stop words for a variety of languages, such as English. 

In [67]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to C:\Users\Muhammad
[nltk_data]     Iqbal\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [68]:
# Print the set of spaCy's default stop words (remember that sets are unordered):
print(nlp.Defaults.stop_words)

{'whence', '‘m', 'using', 'via', 'but', 'always', 'well', 'formerly', 'amongst', 'first', 'so', 'itself', 'amount', 'even', 'every', 'perhaps', 'none', 'doing', 'everyone', 'whereby', 'do', 'neither', 'sometimes', '‘ll', 'same', 'has', 'seeming', 'moreover', 'became', 'nothing', 're', 'call', 'onto', 'nine', 'except', '’s', '’re', 'thereafter', '’d', 'fifty', 'below', 'and', 'you', 'otherwise', 'something', 'hundred', 'these', 'really', 'anything', 'along', 'why', 'eight', 'whereupon', 'being', 'which', 'back', 'ours', 'beforehand', 'this', "n't", 'everything', 'yours', 'whenever', 'if', '‘s', 'can', 'over', 'my', 'then', 'too', 'am', 'least', 'where', 'someone', 'never', '‘d', 'between', 'unless', 'together', 'noone', 'latter', 'another', 'whoever', 'else', 'as', 'any', 'please', 'your', 'less', 'by', 'into', 'top', 'for', 'ever', 'own', 'is', 'some', 'mostly', 'very', 'anyhow', 'how', 'becoming', 'one', 'thence', 'several', 'above', 'other', 'twelve', "'s", '’m', 'across', 'however',

In [69]:
len(nlp.Defaults.stop_words)

326

In [70]:
import string
import re
import nltk
nltk.download('punkt')
from nltk import word_tokenize,sent_tokenize
from nltk.corpus import stopwords

[nltk_data] Downloading package punkt to C:\Users\Muhammad
[nltk_data]     Iqbal\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [72]:
# Tokenize the text using NLTK
stopwords_removal_tt_dfile = word_tokenize(tt_dfile)
print(stopwords_removal_tt_dfile)

['This', 'then', 'is', 'the', 'message', 'which', 'we', 'have', 'heard', 'of', 'him', ',', 'and', 'declare', 'unto', 'you', ',', 'that', 'God', 'is', 'light', ',', 'and', 'in', 'him', 'is', 'no', 'darkness', 'at', 'all', '.', 'And', 'saying', ',', 'Alas', ',', 'alas', ',', 'that', 'great', 'city', ',', 'that', 'was', 'clothed', 'in', 'fine', 'linen', ',', 'and', 'purple', ',', 'and', 'scarlet', ',', 'and', 'decked', 'with', 'gold', ',', 'and', 'precious', 'stones', ',', 'and', 'pearls', '!', 'For', 'in', 'one', 'hour', 'so', 'great', 'riches', 'is', 'come', 'to', 'nought', '.', 'And', 'every', 'shipmaster', ',', 'and', 'all', 'the', 'company', 'in', 'ships', ',', 'and', 'sailors', ',', 'and', 'as', 'many', 'as', 'trade', 'by', 'sea', ',', 'stood', 'afar', 'off', '.', 'And', 'cried', 'when', 'they', 'saw', 'the', 'smoke', 'of', 'her', 'burning', ',', 'saying', ',', 'What', 'city', 'is', 'like', 'unto', 'this', 'great', 'city', '!', 'And', 'the', 'voice', 'of', 'harpers', ',', 'and', 'mu

## Lowercasing

In [73]:
# convert to lower case
stopwords_removal_tt_dfile = [w.lower() for w in stopwords_removal_tt_dfile]
print(stopwords_removal_tt_dfile)

['this', 'then', 'is', 'the', 'message', 'which', 'we', 'have', 'heard', 'of', 'him', ',', 'and', 'declare', 'unto', 'you', ',', 'that', 'god', 'is', 'light', ',', 'and', 'in', 'him', 'is', 'no', 'darkness', 'at', 'all', '.', 'and', 'saying', ',', 'alas', ',', 'alas', ',', 'that', 'great', 'city', ',', 'that', 'was', 'clothed', 'in', 'fine', 'linen', ',', 'and', 'purple', ',', 'and', 'scarlet', ',', 'and', 'decked', 'with', 'gold', ',', 'and', 'precious', 'stones', ',', 'and', 'pearls', '!', 'for', 'in', 'one', 'hour', 'so', 'great', 'riches', 'is', 'come', 'to', 'nought', '.', 'and', 'every', 'shipmaster', ',', 'and', 'all', 'the', 'company', 'in', 'ships', ',', 'and', 'sailors', ',', 'and', 'as', 'many', 'as', 'trade', 'by', 'sea', ',', 'stood', 'afar', 'off', '.', 'and', 'cried', 'when', 'they', 'saw', 'the', 'smoke', 'of', 'her', 'burning', ',', 'saying', ',', 'what', 'city', 'is', 'like', 'unto', 'this', 'great', 'city', '!', 'and', 'the', 'voice', 'of', 'harpers', ',', 'and', 'mu

## Special Characters Handling

In [74]:
# prepare regex for char filtering
re_punc = re.compile('[%s]' % re.escape(string.punctuation))
print(re_punc)

re.compile('[!"\\#\\$%\\&\'\\(\\)\\*\\+,\\-\\./:;<=>\\?@\\[\\\\\\]\\^_`\\{\\|\\}\\~]')


In [75]:
import re
import string

# Your existing regular expression for character filtering
re_punc = re.compile('[%s]' % re.escape(string.punctuation))

# Define a string containing additional punctuation characters to be filtered
additional_punctuation = "!@#$%^&*()_+=-[]{};:'\"<>,.?/~`|\\"

# Update the regular expression pattern to include additional punctuation
re_punc = re.compile('[%s]' % re.escape(string.punctuation + additional_punctuation))

# Test the updated regular expression pattern
text = "This is an example sentence with additional punctuation: !@#$%^&*"
filtered_text = re_punc.sub('', text)
print(filtered_text)

This is an example sentence with additional punctuation 


In [77]:
# remove punctuation from each word
stripped = [re_punc.sub('', w) for w in stopwords_removal_tt_dfile]
print(stripped)

['this', 'then', 'is', 'the', 'message', 'which', 'we', 'have', 'heard', 'of', 'him', '', 'and', 'declare', 'unto', 'you', '', 'that', 'god', 'is', 'light', '', 'and', 'in', 'him', 'is', 'no', 'darkness', 'at', 'all', '', 'and', 'saying', '', 'alas', '', 'alas', '', 'that', 'great', 'city', '', 'that', 'was', 'clothed', 'in', 'fine', 'linen', '', 'and', 'purple', '', 'and', 'scarlet', '', 'and', 'decked', 'with', 'gold', '', 'and', 'precious', 'stones', '', 'and', 'pearls', '', 'for', 'in', 'one', 'hour', 'so', 'great', 'riches', 'is', 'come', 'to', 'nought', '', 'and', 'every', 'shipmaster', '', 'and', 'all', 'the', 'company', 'in', 'ships', '', 'and', 'sailors', '', 'and', 'as', 'many', 'as', 'trade', 'by', 'sea', '', 'stood', 'afar', 'off', '', 'and', 'cried', 'when', 'they', 'saw', 'the', 'smoke', 'of', 'her', 'burning', '', 'saying', '', 'what', 'city', 'is', 'like', 'unto', 'this', 'great', 'city', '', 'and', 'the', 'voice', 'of', 'harpers', '', 'and', 'musicians', '', 'and', 'of

In [78]:
# remove remaining tokens that are not alphabetic
words = [word for word in stripped if word.isalpha()]
print(words)

['this', 'then', 'is', 'the', 'message', 'which', 'we', 'have', 'heard', 'of', 'him', 'and', 'declare', 'unto', 'you', 'that', 'god', 'is', 'light', 'and', 'in', 'him', 'is', 'no', 'darkness', 'at', 'all', 'and', 'saying', 'alas', 'alas', 'that', 'great', 'city', 'that', 'was', 'clothed', 'in', 'fine', 'linen', 'and', 'purple', 'and', 'scarlet', 'and', 'decked', 'with', 'gold', 'and', 'precious', 'stones', 'and', 'pearls', 'for', 'in', 'one', 'hour', 'so', 'great', 'riches', 'is', 'come', 'to', 'nought', 'and', 'every', 'shipmaster', 'and', 'all', 'the', 'company', 'in', 'ships', 'and', 'sailors', 'and', 'as', 'many', 'as', 'trade', 'by', 'sea', 'stood', 'afar', 'off', 'and', 'cried', 'when', 'they', 'saw', 'the', 'smoke', 'of', 'her', 'burning', 'saying', 'what', 'city', 'is', 'like', 'unto', 'this', 'great', 'city', 'and', 'the', 'voice', 'of', 'harpers', 'and', 'musicians', 'and', 'of', 'pipers', 'and', 'trumpeters', 'shall', 'be', 'heard', 'no', 'more', 'at', 'all', 'in', 'thee', '

In [80]:
# filter out non-stop words
stop_words = set(stopwords.words('english'))
stopwords_removal_tt_dfile = [w for w in words if not w in stop_words]
print(stopwords_removal_tt_dfile)

['message', 'heard', 'declare', 'unto', 'god', 'light', 'darkness', 'saying', 'alas', 'alas', 'great', 'city', 'clothed', 'fine', 'linen', 'purple', 'scarlet', 'decked', 'gold', 'precious', 'stones', 'pearls', 'one', 'hour', 'great', 'riches', 'come', 'nought', 'every', 'shipmaster', 'company', 'ships', 'sailors', 'many', 'trade', 'sea', 'stood', 'afar', 'cried', 'saw', 'smoke', 'burning', 'saying', 'city', 'like', 'unto', 'great', 'city', 'voice', 'harpers', 'musicians', 'pipers', 'trumpeters', 'shall', 'heard', 'thee', 'craftsman', 'whatsoever', 'craft', 'shall', 'found', 'thee', 'sound', 'millstone', 'shall', 'heard', 'thee', 'things', 'write', 'unto', 'joy', 'may', 'full', 'canada', 'far', 'participated', 'peace', 'missions', 'include', 'peace', 'restoration', 'missions', 'since', 'till', 'shaik', 'shahab', 'uddin', 'saherwardi', 'awaruf', 'ul', 'maaruf', 'last', 'part', 'topic', 'waiting', 'one', 'world', 'like', 'provide', 'answers', 'present', 'lie', 'sufism', 'society', 'sins',

# Sentence Segmentation
Sentence segmentation is the process of determining the longer processing units consisting of one or more words. This task involves identifying sentence boundaries between words in different sentences.

In **spaCy Basics** we saw briefly how Doc objects are divided into sentences. In this section we'll learn how sentence segmentation works, and how to set our own segmentation rules.

In [81]:
for sent in doc.sents:
    print(sent)

This then is the message which we have heard of him , and declare unto you , that God is light , and in him is no darkness at all .

And saying , Alas , alas , that great city , that was clothed in fine linen , and purple , and scarlet , and decked with gold , and precious stones , and pearls !

For in one hour so great riches is come to nought .
And every shipmaster , and all the company in ships , and sailors , and as many as trade by sea , stood afar off .

And cried when they saw the smoke of her burning , saying , What city is like unto this great city !

And the voice of harpers , and musicians , and of pipers , and trumpeters , shall be heard no more at all in thee ; and no craftsman , of whatsoever craft he be , shall be found any more in thee ; and the sound of a millstone shall be heard no more at all in thee .

And these things write we unto you , that your joy may be full .

Canada has so far participated in 50 peace missions, which include all of the peace restoration miss

In [82]:
for sentence in doc.sents:
    print(sentence.text)

This then is the message which we have heard of him , and declare unto you , that God is light , and in him is no darkness at all .

And saying , Alas , alas , that great city , that was clothed in fine linen , and purple , and scarlet , and decked with gold , and precious stones , and pearls !

For in one hour so great riches is come to nought .
And every shipmaster , and all the company in ships , and sailors , and as many as trade by sea , stood afar off .

And cried when they saw the smoke of her burning , saying , What city is like unto this great city !

And the voice of harpers , and musicians , and of pipers , and trumpeters , shall be heard no more at all in thee ; and no craftsman , of whatsoever craft he be , shall be found any more in thee ; and the sound of a millstone shall be heard no more at all in thee .

And these things write we unto you , that your joy may be full .

Canada has so far participated in 50 peace missions, which include all of the peace restoration miss

In [83]:
sentence1 = list(doc.sents)[0]
print(sentence1)

This then is the message which we have heard of him , and declare unto you , that God is light , and in him is no darkness at all .



In [84]:
print(sentence1[12])

and


You *can* build a sentence collection by running `doc.sents` and saving the result to a list:

In [85]:
doc_sents = [sent for sent in doc.sents]
doc_sents

[This then is the message which we have heard of him , and declare unto you , that God is light , and in him is no darkness at all .,
 And saying , Alas , alas , that great city , that was clothed in fine linen , and purple , and scarlet , and decked with gold , and precious stones , and pearls !,
 For in one hour so great riches is come to nought .,
 And every shipmaster , and all the company in ships , and sailors , and as many as trade by sea , stood afar off .,
 And cried when they saw the smoke of her burning , saying , What city is like unto this great city !,
 And the voice of harpers , and musicians , and of pipers , and trumpeters , shall be heard no more at all in thee ; and no craftsman , of whatsoever craft he be , shall be found any more in thee ; and the sound of a millstone shall be heard no more at all in thee .,
 And these things write we unto you , that your joy may be full .,
 Canada has so far participated in 50 peace missions, which include all of the peace restora

In [86]:
# Now you can access individual sentences:
print(doc_sents[1])

And saying , Alas , alas , that great city , that was clothed in fine linen , and purple , and scarlet , and decked with gold , and precious stones , and pearls !



### `sents` are Spans
At first glance it looks like each `sent` contains text from the original Doc object. In fact they're just Spans with start and end token pointers.

In [107]:
type(doc_sents[1])

spacy.tokens.span.Span

In [108]:
print(doc_sents[1].start, doc_sents[1].end)

32 69


## Adding Rules
spaCy's built-in `sentencizer` relies on the dependency parse and end-of-sentence punctuation to determine segmentation rules. We can add rules of our own, but they have to be added *before* the creation of the Doc object, as that is where the parsing of segment start tokens happens:

Let's add a semicolon to our existing segmentation rules. That is, whenever the sentencizer encounters a semicolon, the next token should start a new segment.

In [109]:
# Parsing the segmentation start tokens happens during the nlp pipeline

for token in doc:
    print(token.is_sent_start, ' '+token.text)

True  This
False  then
False  is
False  the
False  message
False  which
False  we
False  have
False  heard
False  of
False  him
False  ,
False  and
False  declare
False  unto
False  you
False  ,
False  that
False  God
False  is
False  light
False  ,
False  and
False  in
False  him
False  is
False  no
False  darkness
False  at
False  all
False  .
False  

True  And
False  saying
False  ,
False  Alas
False  ,
False  alas
False  ,
False  that
False  great
False  city
False  ,
False  that
False  was
False  clothed
False  in
False  fine
False  linen
False  ,
False  and
False  purple
False  ,
False  and
False  scarlet
False  ,
False  and
False  decked
False  with
False  gold
False  ,
False  and
False  precious
False  stones
False  ,
False  and
False  pearls
False  !
False  

True  For
False  in
False  one
False  hour
False  so
False  great
False  riches
False  is
False  come
False  to
False  nought
False  .
True  And
False  every
False  shipmaster
False  ,
False  and
False  all
False  the
Fa

In [110]:
for sent in doc.sents:
    print(sent)

This then is the message which we have heard of him , and declare unto you , that God is light , and in him is no darkness at all .

And saying , Alas , alas , that great city , that was clothed in fine linen , and purple , and scarlet , and decked with gold , and precious stones , and pearls !

For in one hour so great riches is come to nought .
And every shipmaster , and all the company in ships , and sailors , and as many as trade by sea , stood afar off .

And cried when they saw the smoke of her burning , saying , What city is like unto this great city !

And the voice of harpers , and musicians , and of pipers , and trumpeters , shall be heard no more at all in thee ; and no craftsman , of whatsoever craft he be , shall be found any more in thee ; and the sound of a millstone shall be heard no more at all in thee .

And these things write we unto you , that your joy may be full .

Canada has so far participated in 50 peace missions, which include all of the peace restoration miss

In [111]:
# ADD A NEW RULE TO THE PIPELINE
@Language.component("set_custom_boundaries")
def set_custom_boundaries(doc):
    for token in doc[:-1]:
        if token.text == ';':
            doc[token.i+1].is_sent_start = True
    return doc

# Register the custom component with a name
nlp.add_pipe("set_custom_boundaries", before="parser")

# Check the pipeline components
nlp.pipe_names
print(nlp.pipe_names)

['tok2vec', 'tagger', 'set_custom_boundaries', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [112]:
import spacy
import re
from spacy.language import Language

nlp = spacy.load('en_core_web_sm')
boundary = re.compile('^[0-9]$')

@Language.component("component")
def custom_seg(doc):
    prev = doc[0].text
    length = len(doc)
    for index, token in enumerate(doc):
        if (token.text == '.' and boundary.match(prev) and index!=(length - 1)):
            doc[index+1].sent_start = False
        prev = token.text
    return doc
    
nlp.add_pipe("component", before='parser')

<function __main__.custom_seg(doc)>

## Word Embeddings Model

Word2Vec:

Word2Vec, is one of the earliest and most well-known word embedding models. It learns to represent words as continuous vector representations based on the context in which they appear in a large corpus of text.

There are two primary training methods for Word2Vec: Continuous Bag of Words (CBOW) and Skip-gram. CBOW predicts a target word from its context, while Skip-gram predicts context words from a target word.

Word2Vec embeddings capture semantic relationships and are capable of performing tasks like word similarity and analogy completion.

## Bag of Words

In [113]:
from sklearn.feature_extraction.text import CountVectorizer

In [116]:
# create the transform
vectorizer = CountVectorizer()
# tokenize and build vocab
vectorizer.fit(words)
# summarize
print(vectorizer.vocabulary_)

{'message': 372, 'heard': 268, 'declare': 157, 'unto': 657, 'god': 252, 'light': 347, 'darkness': 152, 'saying': 537, 'alas': 17, 'great': 259, 'city': 108, 'clothed': 114, 'fine': 223, 'linen': 350, 'purple': 484, 'scarlet': 538, 'decked': 156, 'gold': 253, 'precious': 466, 'stones': 598, 'pearls': 443, 'one': 422, 'hour': 280, 'riches': 521, 'come': 119, 'nought': 413, 'every': 208, 'shipmaster': 568, 'company': 125, 'ships': 569, 'sailors': 533, 'many': 363, 'trade': 642, 'sea': 541, 'stood': 599, 'afar': 6, 'cried': 146, 'saw': 535, 'smoke': 578, 'burning': 84, 'like': 348, 'voice': 670, 'harpers': 264, 'musicians': 390, 'pipers': 454, 'trumpeters': 646, 'shall': 561, 'thee': 621, 'craftsman': 144, 'whatsoever': 682, 'craft': 143, 'found': 232, 'sound': 583, 'millstone': 377, 'things': 623, 'write': 694, 'joy': 312, 'may': 365, 'full': 245, 'canada': 89, 'far': 216, 'participated': 436, 'peace': 442, 'missions': 381, 'include': 291, 'restoration': 516, 'since': 574, 'till': 632, 's

In [117]:
# encode document
vector = vectorizer.transform(words)
# summarize encoded vector
print(vector.shape)
print(type(vector))
print(vector.toarray())

(1056, 702)
<class 'scipy.sparse._csr.csr_matrix'>
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


# Urdu (ur) dataset

## 2.1. Importing stanza and Loading Data

In [2]:
import stanza

stanza.download('urdu')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json: 367kB [00:00, 3.91MB/s]
2023-11-20 11:13:11 INFO: "urdu" is an alias for "ur"
2023-11-20 11:13:11 INFO: Downloading default packages for language: ur (Urdu) ...
2023-11-20 11:13:12 INFO: File exists: C:\Users\Muhammad Iqbal\stanza_resources\ur\default.zip
2023-11-20 11:13:13 INFO: Finished downloading models and saved to C:\Users\Muhammad Iqbal\stanza_resources.


In [3]:
nlp = stanza.Pipeline('ur')

2023-11-20 11:13:19 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json: 367kB [00:00, 2.98MB/s]
2023-11-20 11:13:20 INFO: Loading these models for language: ur (Urdu):
| Processor | Package       |
-----------------------------
| tokenize  | udtb          |
| pos       | udtb_nocharlm |
| lemma     | udtb_nocharlm |
| depparse  | udtb_nocharlm |

2023-11-20 11:13:20 INFO: Using device: cpu
2023-11-20 11:13:20 INFO: Loading: tokenize
2023-11-20 11:13:22 INFO: Loading: pos
2023-11-20 11:13:23 INFO: Loading: lemma
2023-11-20 11:13:23 INFO: Loading: depparse
2023-11-20 11:13:24 INFO: Done loading processors!


In [4]:
# Thesis tab delimited file

with open ('data/my.en-ur1-clean.ur', 'r', encoding='utf-8') as f:
    tt_dfile = f.read()

In [5]:
print(tt_dfile)

ُس سے سُنکر جو پَیغام ہم تُمہیں دیتے ہیں وہ یہ ہے کہ خُدا نُور ہے اور اُس میں ذرا بھی تارِیکی نہیں ۔
اور کہیں گے افسوس ! افسوس ! وہ بڑا شہر جو مہِین کتانی اور ارغوانی اور قِرمزی کپڑے پہنے ہُوئے اور سونے اور جواہِر اور موتِیوں سے آراستہ تھا !
گھڑی ہی بھر میں اُس کی اِتنی بڑی دَولت برباد ہو گئی اور سب ناخُدا اور جہاز کے سب مُسافِر اور ملاح اور اَور جِتنے سمُندر کا کام کرتے ہیں ۔
جب اُس کے جلنے کا دھُواں دیکھیں گے تو دُور کھڑے ہُوئے چِلائیں گے اور کہیں گے کَون سا شہر اِس بڑے شہر کی مانِند ہے ؟
اور بربط نوازوں اور مُطِربوں اور بانسلی بجانے والوں اور نرسِنگا پھُونکنے والوں کی آواز پھِر کبھی تُجھ میں نہ سُنائی دے گی اور کِسی پیشہ کا کاریگر تُجھ میں پھِر کبھی نہ پایا جائے گا اور چکّی کی آواز تُجھ میں پھِر کبھی نہ سُنائی دے گی ۔
اور یہ باتیں ہم اس لئے لکھتے ہیں کہ ہماری خوشی پوری ہو جائے ۔
کینیڈا اب تک 50 امن مشنوں میں حصہ لے چکا ہے جس میں 1989 سے اب تک کے تمام بحالی امن کے مشن شامل ہیں۔
شیخ شہاب الدین سہروردی کی عوارف المعارف
اس مضمون کا یہ آخری قطعہ ابھی کسی ایسے عالم کا منتظر ہے کہ جو اس با

## Creating a Doc Container

In [6]:
doc = nlp(tt_dfile)

In [7]:
print(doc)

[
  [
    {
      "id": 1,
      "text": "ُس",
      "lemma": "ُس",
      "upos": "PROPN",
      "xpos": "NNP",
      "feats": "Case=Acc|Gender=Masc|Number=Sing|Person=3",
      "head": 8,
      "deprel": "obl",
      "start_char": 0,
      "end_char": 2
    },
    {
      "id": 2,
      "text": "سے",
      "lemma": "سے",
      "upos": "ADP",
      "xpos": "PSP",
      "feats": "AdpType=Post",
      "head": 1,
      "deprel": "case",
      "start_char": 3,
      "end_char": 5
    },
    {
      "id": 3,
      "text": "سُنکر",
      "lemma": "سُنکر",
      "upos": "PROPN",
      "xpos": "NNP",
      "feats": "Case=Nom|Gender=Masc|Number=Sing|Person=3",
      "head": 11,
      "deprel": "nsubj",
      "start_char": 6,
      "end_char": 11
    },
    {
      "id": 4,
      "text": "جو",
      "lemma": "جو",
      "upos": "PRON",
      "xpos": "PRP",
      "feats": "Case=Nom|Number=Sing|Person=3|PronType=Prs",
      "head": 8,
      "deprel": "nsubj",
      "start_char": 12,
      "end_cha

In [8]:
sentence1 = doc.sentences[0]
print(sentence1)

[
  {
    "id": 1,
    "text": "ُس",
    "lemma": "ُس",
    "upos": "PROPN",
    "xpos": "NNP",
    "feats": "Case=Acc|Gender=Masc|Number=Sing|Person=3",
    "head": 8,
    "deprel": "obl",
    "start_char": 0,
    "end_char": 2
  },
  {
    "id": 2,
    "text": "سے",
    "lemma": "سے",
    "upos": "ADP",
    "xpos": "PSP",
    "feats": "AdpType=Post",
    "head": 1,
    "deprel": "case",
    "start_char": 3,
    "end_char": 5
  },
  {
    "id": 3,
    "text": "سُنکر",
    "lemma": "سُنکر",
    "upos": "PROPN",
    "xpos": "NNP",
    "feats": "Case=Nom|Gender=Masc|Number=Sing|Person=3",
    "head": 11,
    "deprel": "nsubj",
    "start_char": 6,
    "end_char": 11
  },
  {
    "id": 4,
    "text": "جو",
    "lemma": "جو",
    "upos": "PRON",
    "xpos": "PRP",
    "feats": "Case=Nom|Number=Sing|Person=3|PronType=Prs",
    "head": 8,
    "deprel": "nsubj",
    "start_char": 12,
    "end_char": 14
  },
  {
    "id": 5,
    "text": "پَیغام",
    "lemma": "پَیغام",
    "upos": "NOUN",
    

In [9]:
sentence1 = doc.sentences[0]  # Access the first sentence using .sentences attribute
urdu_text = sentence1.text  # Get the text of the sentence

print(urdu_text)

ُس سے سُنکر جو پَیغام ہم تُمہیں دیتے ہیں وہ یہ ہے کہ خُدا نُور ہے اور اُس میں ذرا بھی تارِیکی نہیں ۔


In [10]:
for sent in doc.sentences:
    print(sent.text)

ُس سے سُنکر جو پَیغام ہم تُمہیں دیتے ہیں وہ یہ ہے کہ خُدا نُور ہے اور اُس میں ذرا بھی تارِیکی نہیں ۔
اور کہیں گے افسوس ! افسوس ! وہ بڑا شہر جو مہِین کتانی اور ارغوانی اور قِرمزی کپڑے پہنے ہُوئے اور سونے اور جواہِر اور موتِیوں سے آراستہ تھا !
گھڑی ہی بھر میں اُس کی اِتنی بڑی دَولت برباد ہو گئی اور سب ناخُدا اور جہاز کے سب مُسافِر اور ملاح اور اَور جِتنے سمُندر کا کام کرتے ہیں ۔
جب اُس کے جلنے کا دھُواں دیکھیں گے تو دُور کھڑے ہُوئے چِلائیں گے اور کہیں گے کَون سا شہر اِس بڑے شہر کی مانِند ہے ؟
اور بربط نوازوں اور مُطِربوں اور بانسلی بجانے والوں اور نرسِنگا پھُونکنے والوں کی آواز پھِر کبھی تُجھ میں نہ سُنائی دے گی اور کِسی پیشہ کا کاریگر تُجھ میں پھِر کبھی نہ پایا جائے گا اور چکّی کی آواز تُجھ میں پھِر کبھی نہ سُنائی دے گی ۔
اور یہ باتیں ہم اس لئے لکھتے ہیں کہ ہماری خوشی پوری ہو جائے ۔
کینیڈا اب تک 50 امن مشنوں میں حصہ لے چکا ہے جس میں 1989 سے اب تک کے تمام بحالی امن کے مشن شامل ہیں۔
شیخ شہاب الدین سہروردی کی عوارف المعارف
اس مضمون کا یہ آخری قطعہ ابھی کسی ایسے عالم کا منتظر ہے کہ جو اس با

In [11]:
# Words and Sentences

for sent in doc.sentences:
    for word in sent.tokens:
        print(word.text)

ُس
سے
سُنکر
جو
پَیغام
ہم
تُمہیں
دیتے
ہیں
وہ
یہ
ہے
کہ
خُدا
نُور
ہے
اور
اُس
میں
ذرا
بھی
تارِیکی
نہیں
۔
اور
کہیں
گے
افسوس
!
افسوس
!
وہ
بڑا
شہر
جو
مہِین
کتانی
اور
ارغوانی
اور
قِرمزی
کپڑے
پہنے
ہُوئے
اور
سونے
اور
جواہِر
اور
موتِیوں
سے
آراستہ
تھا
!
گھڑی
ہی
بھر
میں
اُس
کی
اِتنی
بڑی
دَولت
برباد
ہو
گئی
اور
سب
ناخُدا
اور
جہاز
کے
سب
مُسافِر
اور
ملاح
اور
اَور
جِتنے
سمُندر
کا
کام
کرتے
ہیں
۔
جب
اُس
کے
جلنے
کا
دھُواں
دیکھیں
گے
تو
دُور
کھڑے
ہُوئے
چِلائیں
گے
اور
کہیں
گے
کَون
سا
شہر
اِس
بڑے
شہر
کی
مانِند
ہے
؟
اور
بربط
نوازوں
اور
مُطِربوں
اور
بانسلی
بجانے
والوں
اور
نرسِنگا
پھُونکنے
والوں
کی
آواز
پھِر
کبھی
تُجھ
میں
نہ
سُنائی
دے
گی
اور
کِسی
پیشہ
کا
کاریگر
تُجھ
میں
پھِر
کبھی
نہ
پایا
جائے
گا
اور
چکّی
کی
آواز
تُجھ
میں
پھِر
کبھی
نہ
سُنائی
دے
گی
۔
اور
یہ
باتیں
ہم
اس
لئے
لکھتے
ہیں
کہ
ہماری
خوشی
پوری
ہو
جائے
۔
کینیڈا
اب
تک
50
امن
مشنوں
میں
حصہ
لے
چکا
ہے
جس
میں
1989
سے
اب
تک
کے
تمام
بحالی
امن
کے
مشن
شامل
ہیں
۔
شیخ
شہاب
الدین
سہروردی
کی
عوارف
المعارف
اس
مضمون
کا
یہ
آخری
قطعہ
ابھی
کسی
ایسے
عالم
کا
منتظر
ہے
کہ
جو
اس
ب

In [12]:
# Words and Sentences

for sent in doc.sentences:
    for word in sent.words:
        print(word.text, '\t', word.lemma, '\t', word.upos)

ُس 	 ُس 	 PROPN
سے 	 سے 	 ADP
سُنکر 	 سُنکر 	 PROPN
جو 	 جو 	 PRON
پَیغام 	 پَیغام 	 NOUN
ہم 	 ہم 	 PRON
تُمہیں 	 تُمہ 	 NOUN
دیتے 	 دے 	 VERB
ہیں 	 ہے 	 AUX
وہ 	 وہ 	 PRON
یہ 	 یہ 	 PRON
ہے 	 ہے 	 AUX
کہ 	 کہ 	 SCONJ
خُدا 	 خُدا 	 NOUN
نُور 	 نُور 	 NOUN
ہے 	 ہے 	 AUX
اور 	 اور 	 CCONJ
اُس 	 وہ 	 PRON
میں 	 میں 	 ADP
ذرا 	 ذرا 	 PRON
بھی 	 بھی 	 PART
تارِیکی 	 تارِیکی 	 ADJ
نہیں 	 نہیں 	 PART
۔ 	 ۔ 	 PUNCT
اور 	 اور 	 CCONJ
کہیں 	 کہیں 	 PRON
گے 	 کر 	 VERB
افسوس 	 افسوس 	 X
! 	 ! 	 PUNCT
افسوس 	 افسوس 	 NOUN
! 	 ! 	 PUNCT
وہ 	 وہ 	 PRON
بڑا 	 بڑا 	 ADJ
شہر 	 شہر 	 NOUN
جو 	 جو 	 PRON
مہِین 	 مہِین 	 PROPN
کتانی 	 کتانی 	 ADJ
اور 	 اور 	 CCONJ
ارغوانی 	 ارغوانی 	 ADJ
اور 	 اور 	 CCONJ
قِرمزی 	 قِرمزی 	 ADJ
کپڑے 	 کپڑا 	 NOUN
پہنے 	 پہن 	 VERB
ہُوئے 	 ہُو 	 VERB
اور 	 اور 	 CCONJ
سونے 	 سو 	 VERB
اور 	 اور 	 CCONJ
جواہِر 	 جواہِر 	 NOUN
اور 	 اور 	 CCONJ
موتِیوں 	 موتِی 	 NOUN
سے 	 سے 	 ADP
آراستہ 	 آراستہ 	 ADJ
تھا 	 تھا 	 VERB
! 	 ! 	 PUNCT
گھڑی 	 گھڑی 	 NOUN
ہی 	 ہی 	 PART
بھر 	 بھر

In [13]:
# Sentiment
# 0- Negative
# 1- Neutral,
# 2- Positive

for sent in doc.sentences:
    print(sent.text, sent.sentiment)

ُس سے سُنکر جو پَیغام ہم تُمہیں دیتے ہیں وہ یہ ہے کہ خُدا نُور ہے اور اُس میں ذرا بھی تارِیکی نہیں ۔ None
اور کہیں گے افسوس ! افسوس ! وہ بڑا شہر جو مہِین کتانی اور ارغوانی اور قِرمزی کپڑے پہنے ہُوئے اور سونے اور جواہِر اور موتِیوں سے آراستہ تھا ! None
گھڑی ہی بھر میں اُس کی اِتنی بڑی دَولت برباد ہو گئی اور سب ناخُدا اور جہاز کے سب مُسافِر اور ملاح اور اَور جِتنے سمُندر کا کام کرتے ہیں ۔ None
جب اُس کے جلنے کا دھُواں دیکھیں گے تو دُور کھڑے ہُوئے چِلائیں گے اور کہیں گے کَون سا شہر اِس بڑے شہر کی مانِند ہے ؟ None
اور بربط نوازوں اور مُطِربوں اور بانسلی بجانے والوں اور نرسِنگا پھُونکنے والوں کی آواز پھِر کبھی تُجھ میں نہ سُنائی دے گی اور کِسی پیشہ کا کاریگر تُجھ میں پھِر کبھی نہ پایا جائے گا اور چکّی کی آواز تُجھ میں پھِر کبھی نہ سُنائی دے گی ۔ None
اور یہ باتیں ہم اس لئے لکھتے ہیں کہ ہماری خوشی پوری ہو جائے ۔ None
کینیڈا اب تک 50 امن مشنوں میں حصہ لے چکا ہے جس میں 1989 سے اب تک کے تمام بحالی امن کے مشن شامل ہیں۔ None
شیخ شہاب الدین سہروردی کی عوارف المعارف
اس مضمون کا یہ آخری قطعہ ابھی کس

## Tokenization and Sentence segmentation

In [14]:
nlp = stanza.Pipeline(lang='en', processors='tokenize')
for i, sentence in enumerate(doc.sentences):
    print(f'====== Sentence {i+1} tokens =======')
    print(*[f'id: {token.id}\ttext: {token.text}' for token in sentence.tokens], sep='\n')

2023-11-20 11:16:37 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json: 367kB [00:00, 4.20MB/s]
2023-11-20 11:16:38 INFO: Loading these models for language: en (English):
| Processor | Package  |
------------------------
| tokenize  | combined |

2023-11-20 11:16:38 INFO: Using device: cpu
2023-11-20 11:16:38 INFO: Loading: tokenize
2023-11-20 11:16:39 INFO: Done loading processors!


id: (1,)	text: ُس
id: (2,)	text: سے
id: (3,)	text: سُنکر
id: (4,)	text: جو
id: (5,)	text: پَیغام
id: (6,)	text: ہم
id: (7,)	text: تُمہیں
id: (8,)	text: دیتے
id: (9,)	text: ہیں
id: (10,)	text: وہ
id: (11,)	text: یہ
id: (12,)	text: ہے
id: (13,)	text: کہ
id: (14,)	text: خُدا
id: (15,)	text: نُور
id: (16,)	text: ہے
id: (17,)	text: اور
id: (18,)	text: اُس
id: (19,)	text: میں
id: (20,)	text: ذرا
id: (21,)	text: بھی
id: (22,)	text: تارِیکی
id: (23,)	text: نہیں
id: (24,)	text: ۔
id: (1,)	text: اور
id: (2,)	text: کہیں
id: (3,)	text: گے
id: (4,)	text: افسوس
id: (5,)	text: !
id: (6,)	text: افسوس
id: (7,)	text: !
id: (8,)	text: وہ
id: (9,)	text: بڑا
id: (10,)	text: شہر
id: (11,)	text: جو
id: (12,)	text: مہِین
id: (13,)	text: کتانی
id: (14,)	text: اور
id: (15,)	text: ارغوانی
id: (16,)	text: اور
id: (17,)	text: قِرمزی
id: (18,)	text: کپڑے
id: (19,)	text: پہنے
id: (20,)	text: ہُوئے
id: (21,)	text: اور
id: (22,)	text: سونے
id: (23,)	text: اور
id: (24,)	text: جواہِر
id: (25,)	text: اور
id: (26,)	text: 

In [15]:
# Access the tokenized words in the first sentence
for word in sentence1.words:
    print(word.text)

ُس
سے
سُنکر
جو
پَیغام
ہم
تُمہیں
دیتے
ہیں
وہ
یہ
ہے
کہ
خُدا
نُور
ہے
اور
اُس
میں
ذرا
بھی
تارِیکی
نہیں
۔


In [16]:
# Iterate through all sentences in the document
for sentence in doc.sentences:
    # Iterate through the tokenized words in each sentence
    for word in sentence.words:
        print(word.text)

ُس
سے
سُنکر
جو
پَیغام
ہم
تُمہیں
دیتے
ہیں
وہ
یہ
ہے
کہ
خُدا
نُور
ہے
اور
اُس
میں
ذرا
بھی
تارِیکی
نہیں
۔
اور
کہیں
گے
افسوس
!
افسوس
!
وہ
بڑا
شہر
جو
مہِین
کتانی
اور
ارغوانی
اور
قِرمزی
کپڑے
پہنے
ہُوئے
اور
سونے
اور
جواہِر
اور
موتِیوں
سے
آراستہ
تھا
!
گھڑی
ہی
بھر
میں
اُس
کی
اِتنی
بڑی
دَولت
برباد
ہو
گئی
اور
سب
ناخُدا
اور
جہاز
کے
سب
مُسافِر
اور
ملاح
اور
اَور
جِتنے
سمُندر
کا
کام
کرتے
ہیں
۔
جب
اُس
کے
جلنے
کا
دھُواں
دیکھیں
گے
تو
دُور
کھڑے
ہُوئے
چِلائیں
گے
اور
کہیں
گے
کَون
سا
شہر
اِس
بڑے
شہر
کی
مانِند
ہے
؟
اور
بربط
نوازوں
اور
مُطِربوں
اور
بانسلی
بجانے
والوں
اور
نرسِنگا
پھُونکنے
والوں
کی
آواز
پھِر
کبھی
تُجھ
میں
نہ
سُنائی
دے
گی
اور
کِسی
پیشہ
کا
کاریگر
تُجھ
میں
پھِر
کبھی
نہ
پایا
جائے
گا
اور
چکّی
کی
آواز
تُجھ
میں
پھِر
کبھی
نہ
سُنائی
دے
گی
۔
اور
یہ
باتیں
ہم
اس
لئے
لکھتے
ہیں
کہ
ہماری
خوشی
پوری
ہو
جائے
۔
کینیڈا
اب
تک
50
امن
مشنوں
میں
حصہ
لے
چکا
ہے
جس
میں
1989
سے
اب
تک
کے
تمام
بحالی
امن
کے
مشن
شامل
ہیں
۔
شیخ
شہاب
الدین
سہروردی
کی
عوارف
المعارف
اس
مضمون
کا
یہ
آخری
قطعہ
ابھی
کسی
ایسے
عالم
کا
منتظر
ہے
کہ
جو
اس
ب

In [17]:
# Tokenization and Sentence Segmentation

import stanza
nlp = stanza.Pipeline(lang='ur', processors='tokenize')

for i, sentence in enumerate(doc.sentences):
    print(f'==========Sentence {i+1} tokens=============')
    print(*[f'id: {token.id}\\ttext: {token.text}' for token in sentence.tokens], sep='\n')

2023-11-20 11:17:25 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json: 367kB [00:00, 3.88MB/s]
2023-11-20 11:17:26 INFO: Loading these models for language: ur (Urdu):
| Processor | Package |
-----------------------
| tokenize  | udtb    |

2023-11-20 11:17:26 INFO: Using device: cpu
2023-11-20 11:17:26 INFO: Loading: tokenize
2023-11-20 11:17:26 INFO: Done loading processors!


id: (1,)\ttext: ُس
id: (2,)\ttext: سے
id: (3,)\ttext: سُنکر
id: (4,)\ttext: جو
id: (5,)\ttext: پَیغام
id: (6,)\ttext: ہم
id: (7,)\ttext: تُمہیں
id: (8,)\ttext: دیتے
id: (9,)\ttext: ہیں
id: (10,)\ttext: وہ
id: (11,)\ttext: یہ
id: (12,)\ttext: ہے
id: (13,)\ttext: کہ
id: (14,)\ttext: خُدا
id: (15,)\ttext: نُور
id: (16,)\ttext: ہے
id: (17,)\ttext: اور
id: (18,)\ttext: اُس
id: (19,)\ttext: میں
id: (20,)\ttext: ذرا
id: (21,)\ttext: بھی
id: (22,)\ttext: تارِیکی
id: (23,)\ttext: نہیں
id: (24,)\ttext: ۔
id: (1,)\ttext: اور
id: (2,)\ttext: کہیں
id: (3,)\ttext: گے
id: (4,)\ttext: افسوس
id: (5,)\ttext: !
id: (6,)\ttext: افسوس
id: (7,)\ttext: !
id: (8,)\ttext: وہ
id: (9,)\ttext: بڑا
id: (10,)\ttext: شہر
id: (11,)\ttext: جو
id: (12,)\ttext: مہِین
id: (13,)\ttext: کتانی
id: (14,)\ttext: اور
id: (15,)\ttext: ارغوانی
id: (16,)\ttext: اور
id: (17,)\ttext: قِرمزی
id: (18,)\ttext: کپڑے
id: (19,)\ttext: پہنے
id: (20,)\ttext: ہُوئے
id: (21,)\ttext: اور
id: (22,)\ttext: سونے
id: (23,)\ttext: اور
id: (24,)\tt

In [18]:
# tokenize_pretokenized=True

import stanza
nlp = stanza.Pipeline(lang='ur', processors='tokenize', tokenize_pretokenized=True)

for i, sentence in enumerate(doc.sentences):
    print(f'==========Sentence {i+1} tokens=============')
    print(*[f'id: {token.id}\\ttext: {token.text}' for token in sentence.tokens], sep='\n')

2023-11-20 11:17:42 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json: 367kB [00:00, 2.27MB/s]
2023-11-20 11:17:42 INFO: Loading these models for language: ur (Urdu):
| Processor | Package |
-----------------------
| tokenize  | udtb    |

2023-11-20 11:17:42 INFO: Using device: cpu
2023-11-20 11:17:42 INFO: Loading: tokenize
2023-11-20 11:17:43 INFO: Done loading processors!


id: (1,)\ttext: ُس
id: (2,)\ttext: سے
id: (3,)\ttext: سُنکر
id: (4,)\ttext: جو
id: (5,)\ttext: پَیغام
id: (6,)\ttext: ہم
id: (7,)\ttext: تُمہیں
id: (8,)\ttext: دیتے
id: (9,)\ttext: ہیں
id: (10,)\ttext: وہ
id: (11,)\ttext: یہ
id: (12,)\ttext: ہے
id: (13,)\ttext: کہ
id: (14,)\ttext: خُدا
id: (15,)\ttext: نُور
id: (16,)\ttext: ہے
id: (17,)\ttext: اور
id: (18,)\ttext: اُس
id: (19,)\ttext: میں
id: (20,)\ttext: ذرا
id: (21,)\ttext: بھی
id: (22,)\ttext: تارِیکی
id: (23,)\ttext: نہیں
id: (24,)\ttext: ۔
id: (1,)\ttext: اور
id: (2,)\ttext: کہیں
id: (3,)\ttext: گے
id: (4,)\ttext: افسوس
id: (5,)\ttext: !
id: (6,)\ttext: افسوس
id: (7,)\ttext: !
id: (8,)\ttext: وہ
id: (9,)\ttext: بڑا
id: (10,)\ttext: شہر
id: (11,)\ttext: جو
id: (12,)\ttext: مہِین
id: (13,)\ttext: کتانی
id: (14,)\ttext: اور
id: (15,)\ttext: ارغوانی
id: (16,)\ttext: اور
id: (17,)\ttext: قِرمزی
id: (18,)\ttext: کپڑے
id: (19,)\ttext: پہنے
id: (20,)\ttext: ہُوئے
id: (21,)\ttext: اور
id: (22,)\ttext: سونے
id: (23,)\ttext: اور
id: (24,)\tt

In [19]:
# Tokenization without Sentence Segmentation
# tokenize_no_ssplit=False

import stanza
nlp = stanza.Pipeline(lang='ur', processors='tokenize', tokenize_no_ssplit=False)

for i, sentence in enumerate(doc.sentences):
    print(f'==========Sentence {i+1} tokens=============')
    print(*[f'id: {token.id}\\ttext: {token.text}' for token in sentence.tokens], sep='\n')

2023-11-20 11:17:59 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json: 367kB [00:00, 2.93MB/s]
2023-11-20 11:18:00 INFO: Loading these models for language: ur (Urdu):
| Processor | Package |
-----------------------
| tokenize  | udtb    |

2023-11-20 11:18:00 INFO: Using device: cpu
2023-11-20 11:18:00 INFO: Loading: tokenize
2023-11-20 11:18:00 INFO: Done loading processors!


id: (1,)\ttext: ُس
id: (2,)\ttext: سے
id: (3,)\ttext: سُنکر
id: (4,)\ttext: جو
id: (5,)\ttext: پَیغام
id: (6,)\ttext: ہم
id: (7,)\ttext: تُمہیں
id: (8,)\ttext: دیتے
id: (9,)\ttext: ہیں
id: (10,)\ttext: وہ
id: (11,)\ttext: یہ
id: (12,)\ttext: ہے
id: (13,)\ttext: کہ
id: (14,)\ttext: خُدا
id: (15,)\ttext: نُور
id: (16,)\ttext: ہے
id: (17,)\ttext: اور
id: (18,)\ttext: اُس
id: (19,)\ttext: میں
id: (20,)\ttext: ذرا
id: (21,)\ttext: بھی
id: (22,)\ttext: تارِیکی
id: (23,)\ttext: نہیں
id: (24,)\ttext: ۔
id: (1,)\ttext: اور
id: (2,)\ttext: کہیں
id: (3,)\ttext: گے
id: (4,)\ttext: افسوس
id: (5,)\ttext: !
id: (6,)\ttext: افسوس
id: (7,)\ttext: !
id: (8,)\ttext: وہ
id: (9,)\ttext: بڑا
id: (10,)\ttext: شہر
id: (11,)\ttext: جو
id: (12,)\ttext: مہِین
id: (13,)\ttext: کتانی
id: (14,)\ttext: اور
id: (15,)\ttext: ارغوانی
id: (16,)\ttext: اور
id: (17,)\ttext: قِرمزی
id: (18,)\ttext: کپڑے
id: (19,)\ttext: پہنے
id: (20,)\ttext: ہُوئے
id: (21,)\ttext: اور
id: (22,)\ttext: سونے
id: (23,)\ttext: اور
id: (24,)\tt

In [20]:
nlp = stanza.Pipeline(lang='ur', processors='tokenize')
for token in doc.sentences[0].tokens:
    print(f'token: {token.text}\twords: {", ".join([word.text for word in token.words])}')

2023-11-20 11:18:16 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json: 367kB [00:00, 3.91MB/s]
2023-11-20 11:18:16 INFO: Loading these models for language: ur (Urdu):
| Processor | Package |
-----------------------
| tokenize  | udtb    |

2023-11-20 11:18:16 INFO: Using device: cpu
2023-11-20 11:18:16 INFO: Loading: tokenize
2023-11-20 11:18:16 INFO: Done loading processors!


token: ُس	words: ُس
token: سے	words: سے
token: سُنکر	words: سُنکر
token: جو	words: جو
token: پَیغام	words: پَیغام
token: ہم	words: ہم
token: تُمہیں	words: تُمہیں
token: دیتے	words: دیتے
token: ہیں	words: ہیں
token: وہ	words: وہ
token: یہ	words: یہ
token: ہے	words: ہے
token: کہ	words: کہ
token: خُدا	words: خُدا
token: نُور	words: نُور
token: ہے	words: ہے
token: اور	words: اور
token: اُس	words: اُس
token: میں	words: میں
token: ذرا	words: ذرا
token: بھی	words: بھی
token: تارِیکی	words: تارِیکی
token: نہیں	words: نہیں
token: ۔	words: ۔


In [21]:
nlp = stanza.Pipeline(lang='ur', processors='tokenize, pos, lemma, depparse')
print(*[f'word: {word.text}\tupos: {word.upos}\txpos: {word.xpos}\tfeats: {word.feats if word.feats else "_"}'
        for sent in doc.sentences for word in sent.words], sep='\n')

2023-11-20 11:18:31 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json: 367kB [00:00, 3.91MB/s]
2023-11-20 11:18:32 INFO: Loading these models for language: ur (Urdu):
| Processor | Package       |
-----------------------------
| tokenize  | udtb          |
| pos       | udtb_nocharlm |
| lemma     | udtb_nocharlm |
| depparse  | udtb_nocharlm |

2023-11-20 11:18:32 INFO: Using device: cpu
2023-11-20 11:18:32 INFO: Loading: tokenize
2023-11-20 11:18:32 INFO: Loading: pos
2023-11-20 11:18:33 INFO: Loading: lemma
2023-11-20 11:18:33 INFO: Loading: depparse
2023-11-20 11:18:33 INFO: Done loading processors!


word: ُس	upos: PROPN	xpos: NNP	feats: Case=Acc|Gender=Masc|Number=Sing|Person=3
word: سے	upos: ADP	xpos: PSP	feats: AdpType=Post
word: سُنکر	upos: PROPN	xpos: NNP	feats: Case=Nom|Gender=Masc|Number=Sing|Person=3
word: جو	upos: PRON	xpos: PRP	feats: Case=Nom|Number=Sing|Person=3|PronType=Prs
word: پَیغام	upos: NOUN	xpos: NN	feats: Case=Nom|Gender=Masc|Number=Sing|Person=3
word: ہم	upos: PRON	xpos: PRP	feats: Case=Nom|Number=Plur|Person=1|PronType=Prs
word: تُمہیں	upos: NOUN	xpos: NN	feats: Case=Nom|Gender=Masc|Number=Plur|Person=3
word: دیتے	upos: VERB	xpos: VM	feats: Aspect=Imp|Gender=Masc|Number=Plur|VerbForm=Part|Voice=Act
word: ہیں	upos: AUX	xpos: VAUX	feats: Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin
word: وہ	upos: PRON	xpos: PRP	feats: Case=Nom|Number=Sing|Person=3|PronType=Prs
word: یہ	upos: PRON	xpos: PRP	feats: Case=Nom|Number=Sing|Person=3|PronType=Prs
word: ہے	upos: AUX	xpos: VM	feats: Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act
word: کہ	upos: S

## Lemmatization

In [22]:
# Iterate through all sentences in the document
for sentence in doc.sentences:
    # Iterate through the tokenized words in each sentence
    for word in sentence.words:
        print(f"Word: {word.text}\tLemma: {word.lemma}")

Word: ُس	Lemma: ُس
Word: سے	Lemma: سے
Word: سُنکر	Lemma: سُنکر
Word: جو	Lemma: جو
Word: پَیغام	Lemma: پَیغام
Word: ہم	Lemma: ہم
Word: تُمہیں	Lemma: تُمہ
Word: دیتے	Lemma: دے
Word: ہیں	Lemma: ہے
Word: وہ	Lemma: وہ
Word: یہ	Lemma: یہ
Word: ہے	Lemma: ہے
Word: کہ	Lemma: کہ
Word: خُدا	Lemma: خُدا
Word: نُور	Lemma: نُور
Word: ہے	Lemma: ہے
Word: اور	Lemma: اور
Word: اُس	Lemma: وہ
Word: میں	Lemma: میں
Word: ذرا	Lemma: ذرا
Word: بھی	Lemma: بھی
Word: تارِیکی	Lemma: تارِیکی
Word: نہیں	Lemma: نہیں
Word: ۔	Lemma: ۔
Word: اور	Lemma: اور
Word: کہیں	Lemma: کہیں
Word: گے	Lemma: کر
Word: افسوس	Lemma: افسوس
Word: !	Lemma: !
Word: افسوس	Lemma: افسوس
Word: !	Lemma: !
Word: وہ	Lemma: وہ
Word: بڑا	Lemma: بڑا
Word: شہر	Lemma: شہر
Word: جو	Lemma: جو
Word: مہِین	Lemma: مہِین
Word: کتانی	Lemma: کتانی
Word: اور	Lemma: اور
Word: ارغوانی	Lemma: ارغوانی
Word: اور	Lemma: اور
Word: قِرمزی	Lemma: قِرمزی
Word: کپڑے	Lemma: کپڑا
Word: پہنے	Lemma: پہن
Word: ہُوئے	Lemma: ہُو
Word: اور	Lemma: اور
Word: سونے	Lemma: سو
Word: ا

In [23]:
import stanza

nlp = stanza.Pipeline(lang='ur', processors='tokenize, pos, lemma')
# doc = nlp('Nous avons atteint la fin du sentier.')
print(*[f'id: {word.id}\tword: {word.text}\thead id: {word.head}\thead: {sent.words[word.head-1].text if word.head > 0 else "root"}\tdeprel: {word.deprel}'
        for sent in doc.sentences for word in sent.words], sep='\n')

2023-11-20 11:19:10 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json: 367kB [00:00, 1.54MB/s]
2023-11-20 11:19:11 INFO: Loading these models for language: ur (Urdu):
| Processor | Package       |
-----------------------------
| tokenize  | udtb          |
| pos       | udtb_nocharlm |
| lemma     | udtb_nocharlm |

2023-11-20 11:19:11 INFO: Using device: cpu
2023-11-20 11:19:11 INFO: Loading: tokenize
2023-11-20 11:19:11 INFO: Loading: pos
2023-11-20 11:19:11 INFO: Loading: lemma
2023-11-20 11:19:11 INFO: Done loading processors!


id: 1	word: ُس	head id: 8	head: دیتے	deprel: obl
id: 2	word: سے	head id: 1	head: ُس	deprel: case
id: 3	word: سُنکر	head id: 11	head: یہ	deprel: nsubj
id: 4	word: جو	head id: 8	head: دیتے	deprel: nsubj
id: 5	word: پَیغام	head id: 8	head: دیتے	deprel: obl
id: 6	word: ہم	head id: 7	head: تُمہیں	deprel: det
id: 7	word: تُمہیں	head id: 8	head: دیتے	deprel: obj
id: 8	word: دیتے	head id: 3	head: سُنکر	deprel: acl:relcl
id: 9	word: ہیں	head id: 8	head: دیتے	deprel: aux
id: 10	word: وہ	head id: 11	head: یہ	deprel: nsubj
id: 11	word: یہ	head id: 0	head: root	deprel: root
id: 12	word: ہے	head id: 11	head: یہ	deprel: cop
id: 13	word: کہ	head id: 15	head: نُور	deprel: mark
id: 14	word: خُدا	head id: 15	head: نُور	deprel: nsubj
id: 15	word: نُور	head id: 11	head: یہ	deprel: nmod
id: 16	word: ہے	head id: 15	head: نُور	deprel: cop
id: 17	word: اور	head id: 22	head: تارِیکی	deprel: cc
id: 18	word: اُس	head id: 22	head: تارِیکی	deprel: obl
id: 19	word: میں	head id: 18	head: اُس	deprel: case
id: 20	word:

In [24]:
for sentence in doc.sentences:
    for word in sentence.words:
        print(word.text, word.lemma, word.xpos)


ُس ُس NNP
سے سے PSP
سُنکر سُنکر NNP
جو جو PRP
پَیغام پَیغام NN
ہم ہم PRP
تُمہیں تُمہ NN
دیتے دے VM
ہیں ہے VAUX
وہ وہ PRP
یہ یہ PRP
ہے ہے VM
کہ کہ CC
خُدا خُدا NN
نُور نُور NN
ہے ہے VM
اور اور CC
اُس وہ PRP
میں میں PSP
ذرا ذرا PRP
بھی بھی RP
تارِیکی تارِیکی JJ
نہیں نہیں NEG
۔ ۔ SYM
اور اور CC
کہیں کہیں PRP
گے کر VM
افسوس افسوس INJ
! ! SYM
افسوس افسوس NN
! ! SYM
وہ وہ PRP
بڑا بڑا JJ
شہر شہر NN
جو جو PRP
مہِین مہِین NNP
کتانی کتانی JJ
اور اور CC
ارغوانی ارغوانی JJ
اور اور CC
قِرمزی قِرمزی JJ
کپڑے کپڑا NN
پہنے پہن VM
ہُوئے ہُو VAUX
اور اور CC
سونے سو VM
اور اور CC
جواہِر جواہِر NN
اور اور CC
موتِیوں موتِی NN
سے سے PSP
آراستہ آراستہ JJ
تھا تھا VM
! ! SYM
گھڑی گھڑی NN
ہی ہی RP
بھر بھر RP
میں میں PSP
اُس وہ PRP
کی کا PSP
اِتنی اِتنی NN
بڑی بڑی JJ
دَولت دَولت NN
برباد برباد JJ
ہو ہو VM
گئی جا VAUX
اور اور CC
سب سب PRP
ناخُدا ناخُدا JJ
اور اور CC
جہاز جہاز NN
کے کا PSP
سب سب QF
مُسافِر مُسافِر NN
اور اور CC
ملاح ملاح NN
اور اور CC
اَور اَور NN
جِتنے جِت VM
سمُندر سمُندر NN
کا کا PSP
کام کام NN


In [25]:
nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos,lemma')
print(*[f'word: {word.text+" "}\tlemma: {word.lemma}' for sent in doc.sentences for word in sent.words], sep='\n')

2023-11-20 11:22:16 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json: 367kB [00:00, 4.25MB/s]
2023-11-20 11:22:18 INFO: Loading these models for language: en (English):
| Processor | Package           |
---------------------------------
| tokenize  | combined          |
| pos       | combined_charlm   |
| lemma     | combined_nocharlm |

2023-11-20 11:22:18 INFO: Using device: cpu
2023-11-20 11:22:18 INFO: Loading: tokenize
2023-11-20 11:22:18 INFO: Loading: pos
2023-11-20 11:22:18 INFO: Loading: lemma
2023-11-20 11:22:19 INFO: Done loading processors!


word: ُس 	lemma: ُس
word: سے 	lemma: سے
word: سُنکر 	lemma: سُنکر
word: جو 	lemma: جو
word: پَیغام 	lemma: پَیغام
word: ہم 	lemma: ہم
word: تُمہیں 	lemma: تُمہ
word: دیتے 	lemma: دے
word: ہیں 	lemma: ہے
word: وہ 	lemma: وہ
word: یہ 	lemma: یہ
word: ہے 	lemma: ہے
word: کہ 	lemma: کہ
word: خُدا 	lemma: خُدا
word: نُور 	lemma: نُور
word: ہے 	lemma: ہے
word: اور 	lemma: اور
word: اُس 	lemma: وہ
word: میں 	lemma: میں
word: ذرا 	lemma: ذرا
word: بھی 	lemma: بھی
word: تارِیکی 	lemma: تارِیکی
word: نہیں 	lemma: نہیں
word: ۔ 	lemma: ۔
word: اور 	lemma: اور
word: کہیں 	lemma: کہیں
word: گے 	lemma: کر
word: افسوس 	lemma: افسوس
word: ! 	lemma: !
word: افسوس 	lemma: افسوس
word: ! 	lemma: !
word: وہ 	lemma: وہ
word: بڑا 	lemma: بڑا
word: شہر 	lemma: شہر
word: جو 	lemma: جو
word: مہِین 	lemma: مہِین
word: کتانی 	lemma: کتانی
word: اور 	lemma: اور
word: ارغوانی 	lemma: ارغوانی
word: اور 	lemma: اور
word: قِرمزی 	lemma: قِرمزی
word: کپڑے 	lemma: کپڑا
word: پہنے 	lemma: پہن
word: ہُوئے 	lemma: ہُو
word:

## Parts of Speech

In [26]:

nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos')
print(*[f'word: {word.text}\tupos: {word.upos}\txpos: {word.xpos}\tfeats: {word.feats if word.feats else "_"}' for sent in doc.sentences for word in sent.words], sep='\n')


2023-11-20 11:22:51 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json: 367kB [00:00, 2.30MB/s]
2023-11-20 11:22:53 INFO: Loading these models for language: en (English):
| Processor | Package         |
-------------------------------
| tokenize  | combined        |
| pos       | combined_charlm |

2023-11-20 11:22:53 INFO: Using device: cpu
2023-11-20 11:22:53 INFO: Loading: tokenize
2023-11-20 11:22:53 INFO: Loading: pos
2023-11-20 11:23:07 INFO: Done loading processors!


word: ُس	upos: PROPN	xpos: NNP	feats: Case=Acc|Gender=Masc|Number=Sing|Person=3
word: سے	upos: ADP	xpos: PSP	feats: AdpType=Post
word: سُنکر	upos: PROPN	xpos: NNP	feats: Case=Nom|Gender=Masc|Number=Sing|Person=3
word: جو	upos: PRON	xpos: PRP	feats: Case=Nom|Number=Sing|Person=3|PronType=Prs
word: پَیغام	upos: NOUN	xpos: NN	feats: Case=Nom|Gender=Masc|Number=Sing|Person=3
word: ہم	upos: PRON	xpos: PRP	feats: Case=Nom|Number=Plur|Person=1|PronType=Prs
word: تُمہیں	upos: NOUN	xpos: NN	feats: Case=Nom|Gender=Masc|Number=Plur|Person=3
word: دیتے	upos: VERB	xpos: VM	feats: Aspect=Imp|Gender=Masc|Number=Plur|VerbForm=Part|Voice=Act
word: ہیں	upos: AUX	xpos: VAUX	feats: Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin
word: وہ	upos: PRON	xpos: PRP	feats: Case=Nom|Number=Sing|Person=3|PronType=Prs
word: یہ	upos: PRON	xpos: PRP	feats: Case=Nom|Number=Sing|Person=3|PronType=Prs
word: ہے	upos: AUX	xpos: VM	feats: Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act
word: کہ	upos: S

## Stopwords

In [27]:
with open('urdu_stopwords.txt', 'r', encoding='utf-8') as stopword_file:
    urdu_stopwords = set(word.strip() for word in stopword_file)

In [28]:
print(urdu_stopwords)

{'آتی', 'ایک', 'تھے', 'جب', 'میرے', 'ہوئیں', 'لگیں', 'تک', 'دیتا', 'ایسے', 'میں', 'کرتی', 'رہنی', 'رکھتی', 'بے', 'پر', 'رہنا', 'تمھیں', 'اے', 'آگے', 'آنا', 'اگر', 'کو', 'سامنے', 'جیسی', 'ہوں', 'دینا', 'ہے', 'ہوتیں', 'لیتی', 'اپنا', 'و', 'والا', 'رکھا', 'جائیں', 'ہماری', 'رہتے', 'بڑے', 'گیا', 'میری', 'وہ', 'نا', 'مجھ', 'یعنی', 'ہوا', 'تم', 'لائے', 'نے', 'یا', 'ہمارے', 'کریں', 'کیسے', 'جانے', 'جنہوں', 'کرے', 'گئے', 'تیرے', 'رکھنا', 'ہر', 'وہی', 'یہاں', 'رکھے', 'بہت', 'ڈالنا', 'صرف', 'ڈالا', 'اب', 'کی', 'بڑا', 'ایسا', 'آئی', 'ہوتے', 'رہو', 'کروں', 'لگا', 'ہونگے', 'ہاں', 'رکھنی', 'بعد', 'کسے', 'سب', 'اپنی', 'رہنے', 'کرتے', 'جنہیں', 'لیتے', 'اپنے', 'اٹھا', 'دیا', 'کیونکہ', 'ہونا', 'حالاں', 'آتا', 'تھی', 'کس', 'کے', 'رہا', 'لاتا', 'آ', 'لگی', 'حالانکہ', 'لاتے', 'رہیں', 'اور', 'جیسوں', 'بعض', 'ہمارا', 'تو', 'رکھتے', 'گئی', 'دیں', 'اس', 'آنے', 'آئیں', 'تا', 'کرو', 'کچھ', 'لانی', 'لیں', 'انہیں', 'تمہاری', 'رہی', 'رہتا', 'طرف', 'تھا', 'کرتا', 'کوئی', 'کہا', 'نہ', 'ہونی', 'جن', 'سی', 'گے', 'چلا',

In [29]:
# Define a function to check if a word is not a stopword
def is_not_stopword(word):
    return word.text not in urdu_stopwords

# Iterate through all sentences in the document and filter out stopwords
for sentence in doc.sentences:
    filtered_words = [word for word in sentence.words if is_not_stopword(word)]
    filtered_sentence = ' '.join(word.text for word in filtered_words)
    print(filtered_sentence)

ُس سُنکر پَیغام تُمہیں خُدا نُور اُس تارِیکی ۔
کہیں افسوس ! افسوس ! شہر مہِین کتانی ارغوانی قِرمزی کپڑے پہنے ہُوئے سونے جواہِر موتِیوں آراستہ !
گھڑی بھر اُس اِتنی دَولت برباد ناخُدا جہاز مُسافِر ملاح اَور جِتنے سمُندر کام ۔
اُس جلنے دھُواں دیکھیں دُور کھڑے ہُوئے چِلائیں کہیں کَون شہر اِس شہر مانِند ؟
بربط نوازوں مُطِربوں بانسلی بجانے نرسِنگا پھُونکنے آواز پھِر تُجھ سُنائی کِسی پیشہ کاریگر تُجھ پھِر پایا چکّی آواز تُجھ پھِر سُنائی ۔
باتیں لکھتے خوشی پوری ۔
کینیڈا 50 امن مشنوں حصہ چکا 1989 بحالی امن مشن شامل ۔
شیخ شہاب الدین سہروردی عوارف المعارف مضمون آخری قطعہ عالم منتظر بات جواب فراھم کرسکے جھوٹے تصوف موجودگی معاشرتی برائیاں خود تصوف قربت تسلیم مطابق سچی تصوف اصل شریعت آخر بات تصوف قائم ؟
والدین ملاقات دوران طالب علمی ہوائی یونیورسٹی جہاں والد سکالرشپ پڑھنے ۔
باراک اوبامہ ہيلری کلنٹن شکست کاميابی اعلان ديا امريکہ سياہ فام صدر ۔
*
افغان حکمران ( شیر شاہ سوری جانشیں ) بحیرہ اوقیانوس آرکٹک سمندری پھیلا ۔
ابتدا نام تاریخی پس منظر 1950 نام ڈومین آف کینیڈا ۔
یورپی کینیڈا ساحل بحراوقیانوس کن

## Special Characters Handling

In [30]:
import string
import re
import nltk
nltk.download('punkt')

# prepare regex for char filtering
re_punc = re.compile('[%s]' % re.escape(string.punctuation))
print(re_punc)

re.compile('[!"\\#\\$%\\&\'\\(\\)\\*\\+,\\-\\./:;<=>\\?@\\[\\\\\\]\\^_`\\{\\|\\}\\~]')


[nltk_data] Downloading package punkt to C:\Users\Muhammad
[nltk_data]     Iqbal\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [31]:
import re
import string

# Your existing regular expression for character filtering
re_punc = re.compile('[%s]' % re.escape(string.punctuation))

# Define a string containing additional punctuation characters to be filtered
additional_punctuation = "!@#$%^&*()_+=-[]{};:'\"<>,.?/~`|\\"

# Update the regular expression pattern to include additional punctuation
re_punc = re.compile('[%s]' % re.escape(string.punctuation + additional_punctuation))

# Test the updated regular expression pattern
text = "کینیڈا باشندہ انگریزی فرانسیسی کم از کم زبان جاننا لازمی: !@#$%^&*"
filtered_text = re_punc.sub('', text)
print(filtered_text)

کینیڈا باشندہ انگریزی فرانسیسی کم از کم زبان جاننا لازمی 


In [32]:
# remove punctuation from each word
stripped = [re_punc.sub('', w) for w in tokens]
print(stripped)

NameError: name 'tokens' is not defined

Urdu language Sentiments analysis with Bag of Words & Tfidf Vectorizer - Part-1 - NLP - Urduhack

https://www.youtube.com/watch?v=0GG03IMUQJU&t=862s

In [1]:
import numpy as np
import pandas as pd
import nltk
import matplotlib.pyplot as plt
import re
from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction import text
import warnings
warnings.filterwarnings('ignore')

# Inspecting Dataset

In [2]:
# importing Dataset by using Pandas library
urdu_doc = pd.read_csv('data/my.en-ur1-clean.ur', sep='\t', encoding='utf-8', header=None)

In [3]:
# Add column name "Sentences"
urdu_doc.columns = ['Sentences']

In [4]:
print(urdu_doc)

                                             Sentences
0    ُس سے سُنکر جو پَیغام ہم تُمہیں دیتے ہیں وہ یہ...
1    اور کہیں گے افسوس ! افسوس ! وہ بڑا شہر جو مہِی...
2    گھڑی ہی بھر میں اُس کی اِتنی بڑی دَولت برباد ہ...
3    جب اُس کے جلنے کا دھُواں دیکھیں گے تو دُور کھڑ...
4    اور بربط نوازوں اور مُطِربوں اور بانسلی بجانے ...
..                                                 ...
107  یہاں ایک سوال یہ ذہن میں ابھرتا ہے کیا مذکورہ ...
108  کینیڈا زنک اور یورینیم کے علاوہ دیگر معدنیات ج...
109          موجودہ اندازہ بتیس اعشاریہ پانچ ملین (32.
110                         3% میں سے اکثریت مسلم ہیں۔
111  اسی طرح کینیڈا کا باشندہ ہونے کے لیے انگریزی ی...

[112 rows x 1 columns]


In [5]:
# Thesis tab delimited file

with open ('data/my.en-ur1-clean.ur', 'r', encoding='utf-8') as f:
    tt_dfile = f.read()

In [6]:
print(tt_dfile)

ُس سے سُنکر جو پَیغام ہم تُمہیں دیتے ہیں وہ یہ ہے کہ خُدا نُور ہے اور اُس میں ذرا بھی تارِیکی نہیں ۔
اور کہیں گے افسوس ! افسوس ! وہ بڑا شہر جو مہِین کتانی اور ارغوانی اور قِرمزی کپڑے پہنے ہُوئے اور سونے اور جواہِر اور موتِیوں سے آراستہ تھا !
گھڑی ہی بھر میں اُس کی اِتنی بڑی دَولت برباد ہو گئی اور سب ناخُدا اور جہاز کے سب مُسافِر اور ملاح اور اَور جِتنے سمُندر کا کام کرتے ہیں ۔
جب اُس کے جلنے کا دھُواں دیکھیں گے تو دُور کھڑے ہُوئے چِلائیں گے اور کہیں گے کَون سا شہر اِس بڑے شہر کی مانِند ہے ؟
اور بربط نوازوں اور مُطِربوں اور بانسلی بجانے والوں اور نرسِنگا پھُونکنے والوں کی آواز پھِر کبھی تُجھ میں نہ سُنائی دے گی اور کِسی پیشہ کا کاریگر تُجھ میں پھِر کبھی نہ پایا جائے گا اور چکّی کی آواز تُجھ میں پھِر کبھی نہ سُنائی دے گی ۔
اور یہ باتیں ہم اس لئے لکھتے ہیں کہ ہماری خوشی پوری ہو جائے ۔
کینیڈا اب تک 50 امن مشنوں میں حصہ لے چکا ہے جس میں 1989 سے اب تک کے تمام بحالی امن کے مشن شامل ہیں۔
شیخ شہاب الدین سہروردی کی عوارف المعارف
اس مضمون کا یہ آخری قطعہ ابھی کسی ایسے عالم کا منتظر ہے کہ جو اس با

In [7]:
urdu_doc = urdu_doc.dropna()
urdu_doc.shape

(112, 1)

In [8]:
urdu_doc.head()

Unnamed: 0,Sentences
0,ُس سے سُنکر جو پَیغام ہم تُمہیں دیتے ہیں وہ یہ...
1,اور کہیں گے افسوس ! افسوس ! وہ بڑا شہر جو مہِی...
2,گھڑی ہی بھر میں اُس کی اِتنی بڑی دَولت برباد ہ...
3,جب اُس کے جلنے کا دھُواں دیکھیں گے تو دُور کھڑ...
4,اور بربط نوازوں اور مُطِربوں اور بانسلی بجانے ...


### Urduhack

Urduhack is a NLP library for urdu language. It comes with a lot of battery included features to help you process Urdu data in the easiest way possible.
 
https://docs.urduhack.com/en/stable/



In [9]:
import urduhack
urduhack.download()
from urduhack.normalization import normalize
from urduhack.preprocessing import normalize_whitespace, remove_punctuation, remove_accents, replace_urls, replace_emails, replace_numbers, replace_currency_symbols, remove_english_alphabets

### Apply urduhack preprocessing
Now we will apply text cleaning modules from Urdu Hack Library

In [10]:
urdu_doc['Sentences'] = urdu_doc['Sentences'].apply(normalize) # To normalize some text, all you need to do pass unicode text. It will return a str with normalized characters both single and combined, proper spaces after digits and punctuations and diacritics(Zabar - Paish) removed.
# urdu_doc['Sentences'] = urdu_doc['Sentences'].apply(remove_punctuation) # Remove punctuation from text by removing all instances of marks. marks=',;:'
urdu_doc['Sentences'] = urdu_doc['Sentences'].apply(remove_accents) # Remove accents from any accented unicode characters in text str, either by transforming them into ascii equivalents or removing them entirely.
urdu_doc['Sentences'] = urdu_doc['Sentences'].apply(replace_urls) # Replace all URLs in text str with replace_with str.
urdu_doc['Sentences'] = urdu_doc['Sentences'].apply(replace_emails) # Replace all emails in text str with replace_with str.
# urdu_doc['Sentences'] = urdu_doc['Sentences'].apply(replace_numbers) # Replace all numbers in text str with replace_with str.
urdu_doc['Sentences'] = urdu_doc['Sentences'].apply(replace_currency_symbols) # Replace all currency symbols in text str with string specified by replace_with str.
# urdu_doc['Sentences'] = urdu_doc['Sentences'].apply(remove_english_alphabets) # Removes English words and digits from a text
urdu_doc['Sentences'] = urdu_doc['Sentences'].apply(normalize_whitespace) ## Given text str, replace one or more spacings with a single space, and one or more linebreaks with a single newline. Also strip leading/trailing whitespace.


Using publically available set of Urdu Text Stopwords we will remove stop words from our text.

In [11]:
# Remove stop words from text
from typing import FrozenSet

# Urdu Language Stop words list
STOP_WORDS: FrozenSet[str] = frozenset("""
 آ آئی آئیں آئے آتا آتی آتے آس آمدید آنا آنسہ آنی آنے آپ آگے آہ آہا آیا اب ابھی ابے
 ارے اس اسکا اسکی اسکے اسی اسے اف افوہ البتہ الف ان اندر انکا انکی انکے انہوں انہی انہیں اوئے اور اوپر
 اوہو اپ اپنا اپنوں اپنی اپنے اپنےآپ اکثر اگر اگرچہ اہاہا ایسا ایسی ایسے ایک بائیں بار بارے بالکل باوجود باہر
 بج بجے بخیر بشرطیکہ بعد بعض بغیر بلکہ بن بنا بناؤ بند بڑی بھر بھریں بھی بہت بہتر تاکہ تاہم تب تجھ
 تجھی تجھے ترا تری تلک تم تمام تمہارا تمہاروں تمہاری تمہارے تمہیں تو تک تھا تھی تھیں تھے تیرا تیری تیرے
 جا جاؤ جائیں جائے جاتا جاتی جاتے جانی جانے جب جبکہ جدھر جس جسے جن جناب جنہوں جنہیں جو جہاں جی جیسا
 جیسوں جیسی جیسے حالانکہ حالاں حصہ حضرت خاطر خالی خواہ خوب خود دائیں درمیان دریں دو دوران دوسرا دوسروں دوسری دوں
 دکھائیں دی دیئے دیا دیتا دیتی دیتے دیر دینا دینی دینے دیکھو دیں دیے دے ذریعے رکھا رکھتا رکھتی رکھتے رکھنا رکھنی
 رکھنے رکھو رکھی رکھے رہ رہا رہتا رہتی رہتے رہنا رہنی رہنے رہو رہی رہیں رہے ساتھ سامنے ساڑھے سب سبھی
 سراسر سمیت سوا سوائے سکا سکتا سکتے سہ سہی سی سے شاید شکریہ صاحب صاحبہ صرف ضرور طرح طرف طور علاوہ عین
 فقط فلاں فی قبل قطا لئے لائی لائے لاتا لاتی لاتے لانا لانی لانے لایا لو لوجی لوگوں لگ لگا لگتا
 لگتی لگی لگیں لگے لہذا لی لیا لیتا لیتی لیتے لیکن لیں لیے لے ماسوا مت مجھ مجھی مجھے محترم محترمہ محض
 مرا مرحبا مری مرے مزید مس مسز مسٹر مطابق مل مکرمی مگر مگھر مہربانی میرا میروں میری میرے میں نا نزدیک
 نما نہ نہیں نیز نیچے نے و وار واسطے واقعی والا والوں والی والے واہ وجہ ورنہ وغیرہ ولے وگرنہ وہ وہاں
 وہی وہیں ویسا ویسے ویں پاس پایا پر پس پلیز پون پونی پونے پھر پہ پہلا پہلی پہلے پیر پیچھے چاہئے
 چاہتے چاہیئے چاہے چلا چلو چلیں چلے چناچہ چند چونکہ چکی چکیں چکے ڈالنا ڈالنی ڈالنے ڈالے کئے کا کاش کب کبھی
 کدھر کر کرتا کرتی کرتے کرم کرنا کرنے کرو کریں کرے کس کسی کسے کم کن کنہیں کو کوئی کون کونسا
 کونسے کچھ کہ کہا کہاں کہہ کہی کہیں کہے کی کیا کیسا کیسے کیونکر کیونکہ کیوں کیے کے گئی گئے گا گنا
 گو گویا گی گیا ہائیں ہائے ہاں ہر ہرچند ہرگز ہم ہمارا ہماری ہمارے ہمی ہمیں ہو ہوئی ہوئیں ہوئے ہوا
 ہوبہو ہوتا ہوتی ہوتیں ہوتے ہونا ہونگے ہونی ہونے ہوں ہی ہیلو ہیں ہے یا یات یعنی یک یہ یہاں یہی یہیں
""".split())


def remove_stopwords(text: str):
    return " ".join(word for word in text.split() if word not in STOP_WORDS)

In [12]:
len(STOP_WORDS)

430

In [13]:
urdu_doc[['Sentences']].head(10)

Unnamed: 0,Sentences
0,س سے سنکر جو پیغام ہم تمہیں دیتے ہیں وہ یہ ہے ...
1,اور کہیں گے افسوس ! افسوس ! وہ بڑا شہر جو مہین...
2,گھڑی ہی بھر میں اس کی اتنی بڑی دولت برباد ہو گ...
3,جب اس کے جلنے کا دھواں دیکھیں گے تو دور کھڑے ہ...
4,اور بربط نوازوں اور مطربوں اور بانسلی بجانے وا...
5,اور یہ باتیں ہم اس لئے لکھتے ہیں کہ ہماری خوشی...
6,کینیڈا اب تک 50 امن مشنوں میں حصہ لے چکا ہے جس...
7,شیخ شہاب الدین سہروردی کی عوارف المعارف
8,اس مضمون کا یہ آخری قطعہ ابھی کسی ایسے عالم کا...
9,والدین کی ملاقات دوران طالب علمی ہوائی یونیورس...


In [14]:
from urduhack.models.lemmatizer import lemmatizer
def lemitizeStr(str):
    lemme_str = ""
    temp = lemmatizer.lemma_lookup(str)
    for t in temp:
        lemme_str += t[0] + " "
    
    return lemme_str

In [15]:
urdu_doc['Sentences'] =  urdu_doc['Sentences'].apply(remove_stopwords)

In [16]:
urdu_doc['lemmatized_text'] = urdu_doc['Sentences'].apply(lemitizeStr)

In [17]:
urdu_doc['Sentences'][2], urdu_doc['lemmatized_text'][2]

('گھڑی اتنی دولت برباد ناخدا جہاز مسافر ملاح جتنے سمندر کام ۔',
 'گھڑی اتنی دولت برباد ناخدا جہاز مسافر ملاح جتنے سمندر کام ۔ ')

In [18]:
urdu_doc[['Sentences', 'lemmatized_text']].head(10)

Unnamed: 0,Sentences,lemmatized_text
0,س سنکر پیغام خدا نور ذرا تاریکی ۔,س سنکر پیغام خدا نور ذرا تاریکی ۔
1,گے افسوس ! افسوس ! بڑا شہر مہین کتانی ارغوانی ...,گے افسوس ! افسوس ! بڑا شہر مہین کتانی ارغوانی ...
2,گھڑی اتنی دولت برباد ناخدا جہاز مسافر ملاح جتن...,گھڑی اتنی دولت برباد ناخدا جہاز مسافر ملاح جتن...
3,جلنے دھواں دیکھیں گے دور کھڑے چلائیں گے گے سا ...,جلنے دھواں دیکھیں گے دور کھڑے چلائیں گے گے سا ...
4,بربط نوازوں مطربوں بانسلی بجانے نرسنگا پھونکنے...,بربط نوازوں مطربوں بانسلی بجانے نرسنگا پھونکنے...
5,باتیں لکھتے خوشی پوری ۔,باتیں لکھتے خوشی پوری ۔
6,کینیڈا 50 امن مشنوں چکا 1989 بحالی امن مشن شام...,کینیڈا 50 امن مشنوں چکا 1989 بحالی امن مشن شام...
7,شیخ شہاب الدین سہروردی عوارف المعارف,شیخ شہاب الدین سہروردی عوارف المعارف
8,مضمون آخری قطعہ عالم منتظر بات جواب فراھم کرسک...,مضمون آخری قطعہ عالم منتظر بات جواب فراھم کرسک...
9,والدین ملاقات طالب علمی ہوائی یونیورسٹی والد س...,والدین ملاقات طالب علمی ہوائی یونیورسٹی والد س...


## Removing stop words

In [19]:
# !pip install urduhack

In [20]:
import urduhack

In [21]:
# Remove unwanted characters, stopwords, and format the text to create fewer nulls word embeddings

def removing_unwanted_data(text):
    
    # Format words and remove unwanted characters
    text = re.sub(r'https?:\/\/.*[\r\n]*', '', text, flags=re.MULTILINE)
    text = re.sub(r'\<a href', ' ', text)
    text = re.sub(r'&amp;', '', text)
    text = re.sub(r'[_"\-;%()|+&=*%.,!?:#$@\[\]/]', ' ', text)
    text = re.sub(r'<br />', ' ', text)
    text = re.sub(r'\'', ' ', text)
    
    # remove stop words
    # if remove_stopwords:
    #    text = text.split()
    #    stops = set(stopwords.words("english"))
    #    text = [w for w in text if not w in stops]
    #    text = " ".join(text)
    
    # Tokenize each word
    text = nltk.WordPunctTokenizer().tokenize(text)
    
    return text

In [22]:
urdu_doc['text_cleaned'] = list(map(removing_unwanted_data, urdu_doc.Sentences))

In [23]:
urdu_doc.head()

Unnamed: 0,Sentences,lemmatized_text,text_cleaned
0,س سنکر پیغام خدا نور ذرا تاریکی ۔,س سنکر پیغام خدا نور ذرا تاریکی ۔,"[س, سنکر, پیغام, خدا, نور, ذرا, تاریکی, ۔]"
1,گے افسوس ! افسوس ! بڑا شہر مہین کتانی ارغوانی ...,گے افسوس ! افسوس ! بڑا شہر مہین کتانی ارغوانی ...,"[گے, افسوس, افسوس, بڑا, شہر, مہین, کتانی, ارغو..."
2,گھڑی اتنی دولت برباد ناخدا جہاز مسافر ملاح جتن...,گھڑی اتنی دولت برباد ناخدا جہاز مسافر ملاح جتن...,"[گھڑی, اتنی, دولت, برباد, ناخدا, جہاز, مسافر, ..."
3,جلنے دھواں دیکھیں گے دور کھڑے چلائیں گے گے سا ...,جلنے دھواں دیکھیں گے دور کھڑے چلائیں گے گے سا ...,"[جلنے, دھواں, دیکھیں, گے, دور, کھڑے, چلائیں, گ..."
4,بربط نوازوں مطربوں بانسلی بجانے نرسنگا پھونکنے...,بربط نوازوں مطربوں بانسلی بجانے نرسنگا پھونکنے...,"[بربط, نوازوں, مطربوں, بانسلی, بجانے, نرسنگا, ..."


# Lemmatization

Get lemma of the word from lookup table

**Args:**

   text (str): Urdu tokenized text

   lookup_path (str): path to the lookup json file


**Returns:**

   list: A list containing tuple of word and its lemma

In [24]:
urdu_doc.head()

Unnamed: 0,Sentences,lemmatized_text,text_cleaned
0,س سنکر پیغام خدا نور ذرا تاریکی ۔,س سنکر پیغام خدا نور ذرا تاریکی ۔,"[س, سنکر, پیغام, خدا, نور, ذرا, تاریکی, ۔]"
1,گے افسوس ! افسوس ! بڑا شہر مہین کتانی ارغوانی ...,گے افسوس ! افسوس ! بڑا شہر مہین کتانی ارغوانی ...,"[گے, افسوس, افسوس, بڑا, شہر, مہین, کتانی, ارغو..."
2,گھڑی اتنی دولت برباد ناخدا جہاز مسافر ملاح جتن...,گھڑی اتنی دولت برباد ناخدا جہاز مسافر ملاح جتن...,"[گھڑی, اتنی, دولت, برباد, ناخدا, جہاز, مسافر, ..."
3,جلنے دھواں دیکھیں گے دور کھڑے چلائیں گے گے سا ...,جلنے دھواں دیکھیں گے دور کھڑے چلائیں گے گے سا ...,"[جلنے, دھواں, دیکھیں, گے, دور, کھڑے, چلائیں, گ..."
4,بربط نوازوں مطربوں بانسلی بجانے نرسنگا پھونکنے...,بربط نوازوں مطربوں بانسلی بجانے نرسنگا پھونکنے...,"[بربط, نوازوں, مطربوں, بانسلی, بجانے, نرسنگا, ..."


In [25]:
import json
import pandas as pd
from urduhack.config import LEMMA_LOOKUP_TABLE_PATH

_WORD2LEMMA = None

def lemma_lookup(text, lookup_path: str = LEMMA_LOOKUP_TABLE_PATH) -> list:
    tokens = text
    global _WORD2LEMMA
    if _WORD2LEMMA is None:
        with open(lookup_path, "r", encoding="utf-8") as file:
            _WORD2LEMMA = json.load(file)
    
    return [_WORD2LEMMA[word] if word in _WORD2LEMMA else word for word in tokens]

urdu_doc['Lemmatized'] = urdu_doc['text_cleaned'].apply(lambda x: lemma_lookup(x))


In [26]:
urdu_doc.head()

Unnamed: 0,Sentences,lemmatized_text,text_cleaned,Lemmatized
0,س سنکر پیغام خدا نور ذرا تاریکی ۔,س سنکر پیغام خدا نور ذرا تاریکی ۔,"[س, سنکر, پیغام, خدا, نور, ذرا, تاریکی, ۔]","[س, سنکر, پیغام, خدا, نور, ذرا, تاریکی, ۔]"
1,گے افسوس ! افسوس ! بڑا شہر مہین کتانی ارغوانی ...,گے افسوس ! افسوس ! بڑا شہر مہین کتانی ارغوانی ...,"[گے, افسوس, افسوس, بڑا, شہر, مہین, کتانی, ارغو...","[گے, افسوس, افسوس, بڑا, شہر, مہین, کتانی, ارغو..."
2,گھڑی اتنی دولت برباد ناخدا جہاز مسافر ملاح جتن...,گھڑی اتنی دولت برباد ناخدا جہاز مسافر ملاح جتن...,"[گھڑی, اتنی, دولت, برباد, ناخدا, جہاز, مسافر, ...","[گھڑی, اتنا, دولت, برباد, ناخدا, جہاز, مسافر, ..."
3,جلنے دھواں دیکھیں گے دور کھڑے چلائیں گے گے سا ...,جلنے دھواں دیکھیں گے دور کھڑے چلائیں گے گے سا ...,"[جلنے, دھواں, دیکھیں, گے, دور, کھڑے, چلائیں, گ...","[جلنا, دھواں, دیکھ, گے, دور, کھڑے, چلنا, گے, گ..."
4,بربط نوازوں مطربوں بانسلی بجانے نرسنگا پھونکنے...,بربط نوازوں مطربوں بانسلی بجانے نرسنگا پھونکنے...,"[بربط, نوازوں, مطربوں, بانسلی, بجانے, نرسنگا, ...","[بربط, نواز, مطربوں, بانسلی, بجنا, نرسنگا, پھو..."


# Feature Engineering

Since machine learning models do not accept the raw text as input data, we need to convert “Reviews” into vectors of numbers.
There are different ways of transforming text into numeric vectors.

In this analysis, I’ve applied first Bag of Words, followed by Bag-of-n-Grams, and later I’ve moved to Tf-Idf which is a more complex representation.

**Bag of word (BOW)**

**It is called a “bag” of words, because any information about the order or structure of words in the document is discarded. The model is only concerned with whether known words occur in the document, not where in the document.**

In [27]:
from sklearn.feature_extraction.text import CountVectorizer

BOW_convert = CountVectorizer(tokenizer=lambda doc: doc, lowercase=False)
x = BOW_convert.fit_transform(urdu_doc['text_cleaned'])

words = BOW_convert.get_feature_names_out()
print("The total number of columns are =", len(words))
print('Shape of arrays =', x.toarray().shape)


The total number of columns are = 893
Shape of arrays = (112, 893)


Since bag-of-words representation converts text into a “flat vector of numbers”, it does not remember any original textual sequence and it can destroy the semantic meaning of the text.

In other words, it only records how many times each word appears in the text and it does not give any importance to their order. Each word count becomes a dimension for that specific word.

In [28]:
import sklearn.model_selection

from sklearn.linear_model import LogisticRegression

train,test= sklearn.model_selection.train_test_split(urdu_doc, train_size = 0.8, random_state=42)

print('Training data set shape =',train.shape)

print('Testing data set shape =',test.shape)

Training data set shape = (89, 4)
Testing data set shape = (23, 4)


# BOW Transformation

Converting the training and testing data into BOW array

In [29]:
BOW_convert = CountVectorizer(tokenizer=lambda doc: doc, lowercase=False)

In [30]:
print(BOW_convert)

CountVectorizer(lowercase=False,
                tokenizer=<function <lambda> at 0x0000017F6346AEF0>)


In [None]:
BOW_convert = CountVectorizer(tokenizer=lambda doc: doc, lowercase=False)

X_train = BOW_convert.fit_transform(train['Lemmatized']) 

X_test=BOW_convert.transform(test['Lemmatized'])

y_train=train['Labels']
y_test=test['Labels']
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

# Tf-Idf Tranformation

In [31]:
tfidf_transform = text.TfidfTransformer(norm=None)

In [32]:
print(tfidf_transform)

TfidfTransformer(norm=None)
