# Data Preparation Lesson

28 February 2023, afternoon

In [1]:
#imports
import unicodedata
import re
import json

import nltk
from nltk.tokenize.toktok import ToktokTokenizer
from nltk.corpus import stopwords

import pandas as pd


In [2]:
# original text

ori = "« Comme les richesses de ce monde sont périssables, il n’y a rien de solide que la vertu et le bonheur. » (Cette citation tirée de \
Candide nous en dit long sur la pensée idéaliste et épicurienne de Voltaire, qui démantèle les fondements d’une utopie basée sur le matérialisme… Une citation à ressortir !)"

In [3]:
# lowercase everything : must do this, 
# otherwise 'remove special chars' step further down will drop capitalised letters

ori = ori.lower()
ori

'« comme les richesses de ce monde sont périssables, il n’y a rien de solide que la vertu et le bonheur. » (cette citation tirée de candide nous en dit long sur la pensée idéaliste et épicurienne de voltaire, qui démantèle les fondements d’une utopie basée sur le matérialisme… une citation à ressortir !)'

In [4]:
# change anyting special about the text, including accents

import unicodedata

ori = unicodedata.normalize('NFKD', ori).encode('ascii', 'ignore').decode('utf-8')
ori

' comme les richesses de ce monde sont perissables, il ny a rien de solide que la vertu et le bonheur.  (cette citation tiree de candide nous en dit long sur la pensee idealiste et epicurienne de voltaire, qui demantele les fondements dune utopie basee sur le materialisme... une citation a ressortir !)'

### remove special characters 

In [5]:
# remove special characters (punctuation)

import re

ori = re.sub(r'[^a-z0-9\s]','',ori)
ori

' comme les richesses de ce monde sont perissables il ny a rien de solide que la vertu et le bonheur  cette citation tiree de candide nous en dit long sur la pensee idealiste et epicurienne de voltaire qui demantele les fondements dune utopie basee sur le materialisme une citation a ressortir '

### tokenize

In [6]:
import nltk

In [7]:
# #tokeniser object

# breaks things up more, into tokens (single pieces)
# allows them to be fed into stemmers / lemmatisers

tok = nltk.tokenize.ToktokTokenizer()
tok

<nltk.tokenize.toktok.ToktokTokenizer at 0x1422c85b0>

In [8]:
# each token

ori = tok.tokenize(ori)
ori

['comme',
 'les',
 'richesses',
 'de',
 'ce',
 'monde',
 'sont',
 'perissables',
 'il',
 'ny',
 'a',
 'rien',
 'de',
 'solide',
 'que',
 'la',
 'vertu',
 'et',
 'le',
 'bonheur',
 'cette',
 'citation',
 'tiree',
 'de',
 'candide',
 'nous',
 'en',
 'dit',
 'long',
 'sur',
 'la',
 'pensee',
 'idealiste',
 'et',
 'epicurienne',
 'de',
 'voltaire',
 'qui',
 'demantele',
 'les',
 'fondements',
 'dune',
 'utopie',
 'basee',
 'sur',
 'le',
 'materialisme',
 'une',
 'citation',
 'a',
 'ressortir']

### stemming and lemmatising

Don't do both to the same piece of text.

### stemming

In [9]:
ps = nltk.porter.PorterStemmer()
ps

<PorterStemmer>

In [10]:
ps.stem('materialisme'), ps.stem('materialiste'), ps.stem('material')

# an aggressive stemmer

('materialism', 'materialist', 'materi')

In [11]:
ps.stem('building'), ps.stem('built'), ps.stem('builder')

('build', 'built', 'builder')

In [12]:
[ps.stem(word) for word in ori]

['comm',
 'le',
 'richess',
 'de',
 'ce',
 'mond',
 'sont',
 'periss',
 'il',
 'ny',
 'a',
 'rien',
 'de',
 'solid',
 'que',
 'la',
 'vertu',
 'et',
 'le',
 'bonheur',
 'cett',
 'citat',
 'tire',
 'de',
 'candid',
 'nou',
 'en',
 'dit',
 'long',
 'sur',
 'la',
 'pense',
 'idealist',
 'et',
 'epicurienn',
 'de',
 'voltair',
 'qui',
 'demantel',
 'le',
 'fondement',
 'dune',
 'utopi',
 'base',
 'sur',
 'le',
 'materialism',
 'une',
 'citat',
 'a',
 'ressortir']

In [13]:
# stemming the original phrase as a phrase

stems = [ps.stem(word) for word in ori]
' '.join(stems)

'comm le richess de ce mond sont periss il ny a rien de solid que la vertu et le bonheur cett citat tire de candid nou en dit long sur la pense idealist et epicurienn de voltair qui demantel le fondement dune utopi base sur le materialism une citat a ressortir'

### lemmatise

In [14]:
# run this once then never again : provides standardised vocab

# nltk.download('all')

In [15]:
# lemmatiser obj
wln = nltk.stem.WordNetLemmatizer()
wln

<WordNetLemmatizer>

In [16]:
wln.lemmatize('materialisme'), wln.lemmatize('materialiste'), wln.lemmatize('material')

('materialisme', 'materialiste', 'material')

In [17]:
wln.lemmatize('builder'), wln.lemmatize('built'), wln.lemmatize('building')

('builder', 'built', 'building')

In [18]:
ps.stem('mouse'), ps.stem('mice')

('mous', 'mice')

In [19]:
wln.lemmatize('mouse'), wln.lemmatize('mice')

('mouse', 'mouse')

In [20]:
# lemmatise the words and join and as phrase

lemmas = [wln.lemmatize(word) for word in ori]
' '.join(lemmas)

'comme le riches de ce monde sont perissables il ny a rien de solide que la vertu et le bonheur cette citation tiree de candide nous en dit long sur la pensee idealiste et epicurienne de voltaire qui demantele le fondements dune utopie basee sur le materialisme une citation a ressortir'

In [21]:
#### look at nlp entity recognition : gives context to words in nlp

### remove stopwords

In [22]:
from nltk.corpus import stopwords

In [23]:
# do this once
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/magdalenarahn/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [24]:
# stopwords 

stopwords_eng = stopwords.words('french')
stopwords_eng

['au',
 'aux',
 'avec',
 'ce',
 'ces',
 'dans',
 'de',
 'des',
 'du',
 'elle',
 'en',
 'et',
 'eux',
 'il',
 'ils',
 'je',
 'la',
 'le',
 'les',
 'leur',
 'lui',
 'ma',
 'mais',
 'me',
 'même',
 'mes',
 'moi',
 'mon',
 'ne',
 'nos',
 'notre',
 'nous',
 'on',
 'ou',
 'par',
 'pas',
 'pour',
 'qu',
 'que',
 'qui',
 'sa',
 'se',
 'ses',
 'son',
 'sur',
 'ta',
 'te',
 'tes',
 'toi',
 'ton',
 'tu',
 'un',
 'une',
 'vos',
 'votre',
 'vous',
 'c',
 'd',
 'j',
 'l',
 'à',
 'm',
 'n',
 's',
 't',
 'y',
 'été',
 'étée',
 'étées',
 'étés',
 'étant',
 'étante',
 'étants',
 'étantes',
 'suis',
 'es',
 'est',
 'sommes',
 'êtes',
 'sont',
 'serai',
 'seras',
 'sera',
 'serons',
 'serez',
 'seront',
 'serais',
 'serait',
 'serions',
 'seriez',
 'seraient',
 'étais',
 'était',
 'étions',
 'étiez',
 'étaient',
 'fus',
 'fut',
 'fûmes',
 'fûtes',
 'furent',
 'sois',
 'soit',
 'soyons',
 'soyez',
 'soient',
 'fusse',
 'fusses',
 'fût',
 'fussions',
 'fussiez',
 'fussent',
 'ayant',
 'ayante',
 'ayantes',


In [25]:
# length of stopwords

len(stopwords_eng)

157

In [26]:
# appending to variable list

stopwords_eng.append('o')


In [27]:
# checking to see that it's been added to variable list

stopwords_eng[-1]

'o'

In [28]:
# if punctuation hadn't been removed...

stopwords_eng.append("'")

In [29]:
ori_w_stopwords_removed = [word for word in ori if word not in stopwords_eng]
' '.join(ori_w_stopwords_removed)

'comme richesses monde perissables ny a rien solide vertu bonheur cette citation tiree candide dit long pensee idealiste epicurienne voltaire demantele fondements dune utopie basee materialisme citation a ressortir'

In [30]:
len(ori)

51