# TP1 : NLP, Khadija MOKHTARI

## Tokenization

In [1]:
import nltk

nltk.download('punkt')  # for tokenization
nltk.download('stopwords')  # for stop words
nltk.download('wordnet')  # for lemmatization

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Khadi\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Khadi\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Khadi\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

##### Tokenization of text into sentences :

In [7]:
import nltk
tokenizer=nltk.data.load('tokenizers/punkt/english.pickle')
text=" Hello everyone. Hope all are fine and doing well. Hope you find the book interesting"
tokenizer.tokenize(text)

[' Hello everyone.',
 'Hope all are fine and doing well.',
 'Hope you find the book interesting']

In [12]:
## Tokenization of text in other languages :

In [13]:
import nltk
french_tokenizer=nltk.data.load('tokenizers/punkt/french.pickle')
french_tokenizer.tokenize('Deux agressions en quelques jours, voilà ce qui a motivé hier matin le débrayage collège franco-britannique de Levallois-Perret. Deux agressions en quelques jours, voilà ce qui a motivé hier matin le débrayage Levallois. L\'équipe pédagogique de ce collège de 750 élèves avait déjà été choquée par l\'agression, janvier , d\'un professeur d\'histoire. L\'équipepédagogique de ce collège de 750 élèves avait déjà été choquée par l\'agression, mercredi , d\'unprofesseur d\'histoire')

['Deux agressions en quelques jours, voilà ce qui a motivé hier matin le débrayage collège franco-britannique de Levallois-Perret.',
 'Deux agressions en quelques jours, voilà ce qui a motivé hier matin le débrayage Levallois.',
 "L'équipe pédagogique de ce collège de 750 élèves avait déjà été choquée par l'agression, janvier , d'un professeur d'histoire.",
 "L'équipepédagogique de ce collège de 750 élèves avait déjà été choquée par l'agression, mercredi , d'unprofesseur d'histoire"]

In [14]:
## Tokenization of sentences into words :

In [16]:
import nltk
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
tokenizer.tokenize("Have a nice day. I hope you find the book interesting")

## What we expect to have : ['Have', 'a', 'nice', 'day.', 'I', 'hope', 'you', 'find', 'the', 'book', 'interesting']

['Have',
 'a',
 'nice',
 'day.',
 'I',
 'hope',
 'you',
 'find',
 'the',
 'book',
 'interesting']

In [18]:
import nltk
text=nltk.word_tokenize(" Don't hesitate to ask questions")
print(text)

['Do', "n't", 'hesitate', 'to', 'ask', 'questions']


In [19]:
## Another word tokenizer is PunktWordTokenizer:

In [21]:
from nltk.tokenize import WordPunctTokenizer
tokenizer=WordPunctTokenizer()
tokenizer.tokenize(" Don't hesitate to ask questions")

['Don', "'", 't', 'hesitate', 'to', 'ask', 'questions']

In [22]:
## Tokenization using regular expressions(regex):

In [23]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")
tokenizer.tokenize("Don't hesitate to ask questions")

['Don', 't', 'hesitate', 'to', 'ask', 'questions']

In [24]:
## Instead of instantiating class, an alternative way of tokenization would be to use this function:

import nltk
from nltk.tokenize import regexp_tokenize
sent="Don't hesitate to ask questions"
print(regexp_tokenize(sent, pattern='\w+|\$[\d\.]+|\S+'))

['Don', "'t", 'hesitate', 'to', 'ask', 'questions']


In [29]:
## Instead of instantiating class, an alternative way of tokenization would be to use this function:

# import nltk
# from nltk.tokenize import regexp_tokenize
# sent="Don't hesitate to ask questions"
# print(regexp_tokenize(sent, pattern='\w+|\$[\d\.]+|\S+'))

## Same as previous one

In [28]:
## Conversion into lowercase and uppercase :

In [30]:
text='HARdWork IS KEy to SUCCESS'
print(text.lower())

hardwork is key to success


In [31]:
print(text.upper())

HARDWORK IS KEY TO SUCCESS


In [32]:
## Dealing with stop words :

In [33]:
import nltk
from nltk.corpus import stopwords
stops=set(stopwords.words('english'))
words=["Don't", 'hesitate','to','ask','questions']
[word for word in words if word not in stops]

["Don't", 'hesitate', 'ask', 'questions']

In [34]:
stopwords.fileids()

['arabic',
 'azerbaijani',
 'basque',
 'bengali',
 'catalan',
 'chinese',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hebrew',
 'hinglish',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

In [41]:
## Example of the replacement of a text with another text:

In [42]:
import re

replacement_patterns = [
  (r'won\'t', 'will not'),
	(r'can\'t', 'cannot'),
	(r'i\'m', 'i am'),
	(r'ain\'t', 'is not'),
	(r'(\w+)\'ll', '\g<1> will'),
	(r'(\w+)n\'t', '\g<1> not'),
	(r'(\w+)\'ve', '\g<1> have'),
	(r'(\w+)\'s', '\g<1> is'),
	(r'(\w+)\'re', '\g<1> are'),
	(r'(\w+)\'d', '\g<1> would'),
]

class RegexpReplacer(object):
   def __init__(self, patterns=replacement_patterns):
      self.patterns = [(re.compile(regex), repl) for (regex, repl) in patterns]

   def replace(self, text):
      s = text
      for (pattern, repl) in self.patterns:
           s = re.sub(pattern, repl, s)
      return s

In [44]:
import nltk

replacer= RegexpReplacer()
replacer.replace("Don't hesitate to ask questions")

'Do not hesitate to ask questions'

In [46]:
## Performing substitution before tokenization :

import nltk
from nltk.tokenize import word_tokenize
replacer=RegexpReplacer()
word_tokenize("Don't hesitate to ask questions")

['Do', "n't", 'hesitate', 'to', 'ask', 'questions']

In [47]:
word_tokenize(replacer.replace("Don't hesitate to ask questions"))

['Do', 'not', 'hesitate', 'to', 'ask', 'questions']

## Lemmatization

In [48]:
import nltk
from nltk.stem import WordNetLemmatizer
lemmatizer_output=WordNetLemmatizer()
lemmatizer_output.lemmatize('working')

'working'

In [49]:
lemmatizer_output.lemmatize('working',pos='v')

'work'

In [50]:
lemmatizer_output.lemmatize('works')

'work'

In [51]:
import nltk
from nltk.stem import PorterStemmer
stemmer_output=PorterStemmer()
stemmer_output.stem('happiness')

'happi'

In [52]:
from nltk.stem import WordNetLemmatizer
lemmatizer_output=WordNetLemmatizer()
lemmatizer_output.lemmatize('happiness')

'happiness'

## Similarity measure

In [53]:
import nltk
from nltk.metrics import *
edit_distance("relate","relation")

3

In [54]:
edit_distance("suggestion","calculation")

7

In [55]:
## Applying similarity measures using Jaccard's Coefficient.

In [56]:
import nltk

from nltk.metrics import *
X=set([10,20,30,40])
Y=set([20,30,60])
print(jaccard_distance(X,Y))

0.6


--------------------------------------------------------------------------------------------------------------------------------

## Practical work : two article about space and another one about the environment

In [11]:
from nltk.tokenize import sent_tokenize, word_tokenize

french_tokenizer=nltk.data.load('tokenizers/punkt/french.pickle')
text = "Deux fois plus grande que la Terre. Les exoplanètes sont des planètes situées hors du système solaire et orbitant autour d’une étoile. Mais contrairement à la plupart d’entre elles, HD88986b possède une température relativement faible de 190 °C."
french_tokenizer.tokenize(text)

['Deux fois plus grande que la Terre.',
 'Les exoplanètes sont des planètes situées hors du système solaire et orbitant autour d’une étoile.',
 'Mais contrairement à la plupart d’entre elles, HD88986b possède une température relativement faible de 190\u2009°C.']

In [13]:
sentences = sent_tokenize(text)  # sentence tokenization
words = word_tokenize(text)  # word tokenization

In [15]:
sentences

['Deux fois plus grande que la Terre.',
 'Les exoplanètes sont des planètes situées hors du système solaire et orbitant autour d’une étoile.',
 'Mais contrairement à la plupart d’entre elles, HD88986b possède une température relativement faible de 190\u2009°C.']

In [16]:
words

['Deux',
 'fois',
 'plus',
 'grande',
 'que',
 'la',
 'Terre',
 '.',
 'Les',
 'exoplanètes',
 'sont',
 'des',
 'planètes',
 'situées',
 'hors',
 'du',
 'système',
 'solaire',
 'et',
 'orbitant',
 'autour',
 'd',
 '’',
 'une',
 'étoile',
 '.',
 'Mais',
 'contrairement',
 'à',
 'la',
 'plupart',
 'd',
 '’',
 'entre',
 'elles',
 ',',
 'HD88986b',
 'possède',
 'une',
 'température',
 'relativement',
 'faible',
 'de',
 '190',
 '°C',
 '.']

### Normalisation

In [5]:
text_lower = text.lower()
text_lower

'deux fois plus grande que la terre. les exoplanètes sont des planètes situées hors du système solaire et orbitant autour d’une étoile. mais contrairement à la plupart d’entre elles, hd88986b possède une température relativement faible de 190\u2009°c.'

In [18]:
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
words_filtered = [word for word in words if word.lower() not in stop_words]

In [19]:
words_filtered

['Deux',
 'fois',
 'plus',
 'grande',
 'que',
 'la',
 'Terre',
 '.',
 'Les',
 'exoplanètes',
 'sont',
 'des',
 'planètes',
 'situées',
 'hors',
 'du',
 'système',
 'solaire',
 'et',
 'orbitant',
 'autour',
 '’',
 'une',
 'étoile',
 '.',
 'Mais',
 'contrairement',
 'à',
 'la',
 'plupart',
 '’',
 'entre',
 'elles',
 ',',
 'HD88986b',
 'possède',
 'une',
 'température',
 'relativement',
 'faible',
 'de',
 '190',
 '°C',
 '.']

In [20]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in words_filtered]

In [21]:
lemmatized_words

['Deux',
 'fois',
 'plus',
 'grande',
 'que',
 'la',
 'Terre',
 '.',
 'Les',
 'exoplanètes',
 'sont',
 'de',
 'planètes',
 'situées',
 'hors',
 'du',
 'système',
 'solaire',
 'et',
 'orbitant',
 'autour',
 '’',
 'une',
 'étoile',
 '.',
 'Mais',
 'contrairement',
 'à',
 'la',
 'plupart',
 '’',
 'entre',
 'elles',
 ',',
 'HD88986b',
 'possède',
 'une',
 'température',
 'relativement',
 'faible',
 'de',
 '190',
 '°C',
 '.']

### Jaccard distance score

##### Test

In [62]:
from nltk.metrics import edit_distance, jaccard_distance

# Example of using edit distance and Jaccard's distance
distance_edit = edit_distance("word1", "word2")
set1, set2 = set(['a', 'b', 'c']), set(['b', 'c', 'd'])
distance_jaccard = jaccard_distance(set1, set2)

In [63]:
distance_jaccard

0.5

### Between two sentences of the two articles that have the same topic, the space topic

In [64]:
from nltk.tokenize import word_tokenize

# Sentences from each text file about space
sentence1 = "Bien qu’elle soit considérée comme un astre de petite taille, elle est deux fois plus grande et dix-sept fois plus lourde que la Terre."
sentence2 = "L’appareil se trouve actuellement sur une trajectoire entre la Terre et la Lune et Astrobotic avait indiqué tout mettre en œuvre pour allonger sa durée de vie au maximum et permettre à ses instruments embarqués de collecter et transmettre des données."

# Tokenization and normalization (convert to lowercase)
words1 = word_tokenize(sentence1.lower())
words2 = word_tokenize(sentence2.lower())


In [65]:
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))
filtered_words1 = [word for word in words1 if word not in stop_words]
filtered_words2 = [word for word in words2 if word not in stop_words]

In [66]:
from nltk.metrics import jaccard_distance

set1 = set(filtered_words1)
set2 = set(filtered_words2)

# Calculate Jaccard distance
distance = jaccard_distance(set1, set2)
print(f"The Jaccard distance between the sentences is: {distance}")


The Jaccard distance between the sentences is: 0.896551724137931


It actually works pretty well !