# TP - Work with text data
---

## Imports

In [19]:
import pandas as pd

## Load data

In [20]:
data = pd.read_csv("scrapping_and_api_data_only_description.csv",
                   header=None, names=['description'])
df = data

In [21]:
data.head()

Unnamed: 0,description
0,"Paolo Rumiz, né le 20 décembre 1947 à Trieste,..."
1,Saverio Tomasella est un psychanalyste et écri...
2,"Annelise Heurtier, née en 1979 à Villefranche-..."
3,"Erik Orsenna, pseudonyme d’Éric Arnoult, est u..."
4,Christophe Tison est un journaliste et écrivai...


## Feature extraction

### Number of words

In [24]:
df['description'][0]

'Paolo Rumiz, né le 20 décembre 1947 à Trieste, est un journaliste et un écrivain voyageur italien.'

In [25]:
df['description'].apply(lambda x: len(x.split(' ')))

0       17
1       15
2       16
3       20
4       13
      ... 
134     37
135     27
136     20
137    174
138    617
Name: description, Length: 139, dtype: int64

In [22]:
df['wordCount'] = df['description'].apply(lambda x: len(x.split(' ')))
df.head()

Unnamed: 0,description,wordCount
0,"Paolo Rumiz, né le 20 décembre 1947 à Trieste,...",17
1,Saverio Tomasella est un psychanalyste et écri...,15
2,"Annelise Heurtier, née en 1979 à Villefranche-...",16
3,"Erik Orsenna, pseudonyme d’Éric Arnoult, est u...",20
4,Christophe Tison est un journaliste et écrivai...,13


Or another method

In [11]:
df['wordCount'] = df['description'].str.split().str.len()
df.head()

Unnamed: 0,description,wordCount
0,"Paolo Rumiz, né le 20 décembre 1947 à Trieste,...",17
1,Saverio Tomasella est un psychanalyste et écri...,15
2,"Annelise Heurtier, née en 1979 à Villefranche-...",16
3,"Erik Orsenna, pseudonyme d’Éric Arnoult, est u...",21
4,Christophe Tison est un journaliste et écrivai...,13


### Number of  characters

In [23]:
df['characterCount'] = df['description'].str.len()

In [29]:
df.head()

Unnamed: 0,description,wordCount,characterCount
0,"Paolo Rumiz, né le 20 décembre 1947 à Trieste,...",17,98
1,Saverio Tomasella est un psychanalyste et écri...,15,96
2,"Annelise Heurtier, née en 1979 à Villefranche-...",16,122
3,"Erik Orsenna, pseudonyme d’Éric Arnoult, est u...",20,125
4,Christophe Tison est un journaliste et écrivai...,13,77


### Number of numerics

**Tips:** 
- Use `isdigit` function

In [50]:
df['description'].apply(lambda x: sum(c.isdigit() for c in x.split(' ')))

0      2
1      1
2      1
3      2
4      0
      ..
134    4
135    2
136    2
137    3
138    8
Name: description, Length: 139, dtype: int64

In [46]:
df['description'].apply(lambda x: sum(c.isdigit() for c in x)) #checks for every character in the string

0       6
1       6
2       4
3       6
4       4
       ..
134    13
135     6
136     5
137    15
138    39
Name: description, Length: 139, dtype: int64

In [54]:
df['description'].apply(lambda x: [w.isdigit() for w in x.split(' ')])

0      [False, False, False, False, True, False, True...
1      [False, False, False, False, False, False, Fal...
2      [False, False, False, False, True, False, Fals...
3      [False, False, False, False, False, False, Fal...
4      [False, False, False, False, False, False, Fal...
                             ...                        
134    [False, False, False, False, False, False, Fal...
135    [False, False, False, False, True, False, True...
136    [False, False, False, False, True, False, True...
137    [False, False, False, False, False, False, Fal...
138    [False, False, False, False, False, False, Fal...
Name: description, Length: 139, dtype: object

In [24]:
df['numericCount'] = df['description'].apply(lambda x: sum(w.isdigit() for w in x.split(' ')))
df.head()

Unnamed: 0,description,wordCount,characterCount,numericCount
0,"Paolo Rumiz, né le 20 décembre 1947 à Trieste,...",17,98,2
1,Saverio Tomasella est un psychanalyste et écri...,15,96,1
2,"Annelise Heurtier, née en 1979 à Villefranche-...",16,122,1
3,"Erik Orsenna, pseudonyme d’Éric Arnoult, est u...",20,125,2
4,Christophe Tison est un journaliste et écrivai...,13,77,0


### Number of Uppercase words

In [25]:
df['isUpperCase'] = df['description'].apply(lambda x: sum(w.isupper() for w in x.split(' ')))
df

Unnamed: 0,description,wordCount,characterCount,numericCount,isUpperCase
0,"Paolo Rumiz, né le 20 décembre 1947 à Trieste,...",17,98,2,0
1,Saverio Tomasella est un psychanalyste et écri...,15,96,1,0
2,"Annelise Heurtier, née en 1979 à Villefranche-...",16,122,1,0
3,"Erik Orsenna, pseudonyme d’Éric Arnoult, est u...",20,125,2,0
4,Christophe Tison est un journaliste et écrivai...,13,77,0,0
5,"Sylvain Prudhomme, né en 1979 à La Seyne-sur-M...",32,201,1,0
6,Sally Nicholls (née le 22 juin 1983 à Stockton...,19,121,2,0
7,"Maxime Drouot, connu sous les pseudonymes de M...",38,235,2,0
8,"Ivan Jablonka, né le 23 octobre 1973 à Paris, ...",21,147,2,0
9,"Jean-Pierre Cabanes, né le 31 juillet 1949 à M...",15,93,2,0


## Text pre-processing

### Lowercase

**Tips:** 
- Use `description` column
- Use Pandas Series functions

In [26]:
df['lowercase'] = df['description'].str.lower()
df

Unnamed: 0,description,wordCount,characterCount,numericCount,isUpperCase,lowercase
0,"Paolo Rumiz, né le 20 décembre 1947 à Trieste,...",17,98,2,0,"paolo rumiz, né le 20 décembre 1947 à trieste,..."
1,Saverio Tomasella est un psychanalyste et écri...,15,96,1,0,saverio tomasella est un psychanalyste et écri...
2,"Annelise Heurtier, née en 1979 à Villefranche-...",16,122,1,0,"annelise heurtier, née en 1979 à villefranche-..."
3,"Erik Orsenna, pseudonyme d’Éric Arnoult, est u...",20,125,2,0,"erik orsenna, pseudonyme d’éric arnoult, est u..."
4,Christophe Tison est un journaliste et écrivai...,13,77,0,0,christophe tison est un journaliste et écrivai...
5,"Sylvain Prudhomme, né en 1979 à La Seyne-sur-M...",32,201,1,0,"sylvain prudhomme, né en 1979 à la seyne-sur-m..."
6,Sally Nicholls (née le 22 juin 1983 à Stockton...,19,121,2,0,sally nicholls (née le 22 juin 1983 à stockton...
7,"Maxime Drouot, connu sous les pseudonymes de M...",38,235,2,0,"maxime drouot, connu sous les pseudonymes de m..."
8,"Ivan Jablonka, né le 23 octobre 1973 à Paris, ...",21,147,2,0,"ivan jablonka, né le 23 octobre 1973 à paris, ..."
9,"Jean-Pierre Cabanes, né le 31 juillet 1949 à M...",15,93,2,0,"jean-pierre cabanes, né le 31 juillet 1949 à m..."


### Replace Line Return (\n) by whitespace

** Tips :** Use `lowercase` column

In [27]:
df['withoutLineReturn'] = df['lowercase'].str.replace('\n',' ')
df

Unnamed: 0,description,wordCount,characterCount,numericCount,isUpperCase,lowercase,withoutLineReturn
0,"Paolo Rumiz, né le 20 décembre 1947 à Trieste,...",17,98,2,0,"paolo rumiz, né le 20 décembre 1947 à trieste,...","paolo rumiz, né le 20 décembre 1947 à trieste,..."
1,Saverio Tomasella est un psychanalyste et écri...,15,96,1,0,saverio tomasella est un psychanalyste et écri...,saverio tomasella est un psychanalyste et écri...
2,"Annelise Heurtier, née en 1979 à Villefranche-...",16,122,1,0,"annelise heurtier, née en 1979 à villefranche-...","annelise heurtier, née en 1979 à villefranche-..."
3,"Erik Orsenna, pseudonyme d’Éric Arnoult, est u...",20,125,2,0,"erik orsenna, pseudonyme d’éric arnoult, est u...","erik orsenna, pseudonyme d’éric arnoult, est u..."
4,Christophe Tison est un journaliste et écrivai...,13,77,0,0,christophe tison est un journaliste et écrivai...,christophe tison est un journaliste et écrivai...
5,"Sylvain Prudhomme, né en 1979 à La Seyne-sur-M...",32,201,1,0,"sylvain prudhomme, né en 1979 à la seyne-sur-m...","sylvain prudhomme, né en 1979 à la seyne-sur-m..."
6,Sally Nicholls (née le 22 juin 1983 à Stockton...,19,121,2,0,sally nicholls (née le 22 juin 1983 à stockton...,sally nicholls (née le 22 juin 1983 à stockton...
7,"Maxime Drouot, connu sous les pseudonymes de M...",38,235,2,0,"maxime drouot, connu sous les pseudonymes de m...","maxime drouot, connu sous les pseudonymes de m..."
8,"Ivan Jablonka, né le 23 octobre 1973 à Paris, ...",21,147,2,0,"ivan jablonka, né le 23 octobre 1973 à paris, ...","ivan jablonka, né le 23 octobre 1973 à paris, ..."
9,"Jean-Pierre Cabanes, né le 31 juillet 1949 à M...",15,93,2,0,"jean-pierre cabanes, né le 31 juillet 1949 à m...","jean-pierre cabanes, né le 31 juillet 1949 à m..."


### Removing Punctuation & Special Characters

**Tips :** 
- Use withoutLineReturn column
- Use `regex` to keep words : `[^\w\s]` If you need to test regex, use http://regex101.com

In [81]:
df["withoutLineReturn"].str.replace('[^\w\s]','') # replace any character that is not a word by nothing

0      paolo rumiz né le 20 décembre 1947 à trieste e...
1      saverio tomasella est un psychanalyste et écri...
2      annelise heurtier née en 1979 à villefranchesu...
3      erik orsenna pseudonyme déric arnoult est un é...
4      christophe tison est un journaliste et écrivai...
                             ...                        
134    gaston leroux est un romancier français né  le...
135    philip pullman né le 19 octobre 1946 à norwich...
136    ken follett né le 5 juin 1949 à cardiff est un...
137    émile zola est un écrivain et journaliste fran...
138    honoré de balzac né honoré balzac à tours le 2...
Name: withoutLineReturn, Length: 139, dtype: object

In [29]:
df['withoutPunctuation'] = df["withoutLineReturn"].str.replace('[^\w\s]','')
df.head()

Unnamed: 0,description,wordCount,characterCount,numericCount,isUpperCase,lowercase,withoutLineReturn,withoutPunctuation
0,"Paolo Rumiz, né le 20 décembre 1947 à Trieste,...",17,98,2,0,"paolo rumiz, né le 20 décembre 1947 à trieste,...","paolo rumiz, né le 20 décembre 1947 à trieste,...",paolo rumiz né le 20 décembre 1947 à trieste e...
1,Saverio Tomasella est un psychanalyste et écri...,15,96,1,0,saverio tomasella est un psychanalyste et écri...,saverio tomasella est un psychanalyste et écri...,saverio tomasella est un psychanalyste et écri...
2,"Annelise Heurtier, née en 1979 à Villefranche-...",16,122,1,0,"annelise heurtier, née en 1979 à villefranche-...","annelise heurtier, née en 1979 à villefranche-...",annelise heurtier née en 1979 à villefranchesu...
3,"Erik Orsenna, pseudonyme d’Éric Arnoult, est u...",20,125,2,0,"erik orsenna, pseudonyme d’éric arnoult, est u...","erik orsenna, pseudonyme d’éric arnoult, est u...",erik orsenna pseudonyme déric arnoult est un é...
4,Christophe Tison est un journaliste et écrivai...,13,77,0,0,christophe tison est un journaliste et écrivai...,christophe tison est un journaliste et écrivai...,christophe tison est un journaliste et écrivai...


### Remove stopwords

In [30]:
import nltk
from nltk.corpus import stopwords
#nltk.download('stopwords')
stop = stopwords.words('french')

In [31]:
stop

['au',
 'aux',
 'avec',
 'ce',
 'ces',
 'dans',
 'de',
 'des',
 'du',
 'elle',
 'en',
 'et',
 'eux',
 'il',
 'ils',
 'je',
 'la',
 'le',
 'les',
 'leur',
 'lui',
 'ma',
 'mais',
 'me',
 'même',
 'mes',
 'moi',
 'mon',
 'ne',
 'nos',
 'notre',
 'nous',
 'on',
 'ou',
 'par',
 'pas',
 'pour',
 'qu',
 'que',
 'qui',
 'sa',
 'se',
 'ses',
 'son',
 'sur',
 'ta',
 'te',
 'tes',
 'toi',
 'ton',
 'tu',
 'un',
 'une',
 'vos',
 'votre',
 'vous',
 'c',
 'd',
 'j',
 'l',
 'à',
 'm',
 'n',
 's',
 't',
 'y',
 'été',
 'étée',
 'étées',
 'étés',
 'étant',
 'étante',
 'étants',
 'étantes',
 'suis',
 'es',
 'est',
 'sommes',
 'êtes',
 'sont',
 'serai',
 'seras',
 'sera',
 'serons',
 'serez',
 'seront',
 'serais',
 'serait',
 'serions',
 'seriez',
 'seraient',
 'étais',
 'était',
 'étions',
 'étiez',
 'étaient',
 'fus',
 'fut',
 'fûmes',
 'fûtes',
 'furent',
 'sois',
 'soit',
 'soyons',
 'soyez',
 'soient',
 'fusse',
 'fusses',
 'fût',
 'fussions',
 'fussiez',
 'fussent',
 'ayant',
 'ayante',
 'ayantes',


**Tips :** Use `withoutPunctuaction` column

In [42]:
df['withoutStopwords'] = df['withoutPunctuation'].apply(lambda x: ' '.join([item for item in x.split(' ') if item not in stop]))
df.head()

Unnamed: 0,description,wordCount,characterCount,numericCount,isUpperCase,lowercase,withoutLineReturn,withoutPunctuation,withoutStopwords
0,"Paolo Rumiz, né le 20 décembre 1947 à Trieste,...",17,98,2,0,"paolo rumiz, né le 20 décembre 1947 à trieste,...","paolo rumiz, né le 20 décembre 1947 à trieste,...",paolo rumiz né le 20 décembre 1947 à trieste e...,paolo rumiz né 20 décembre 1947 trieste journa...
1,Saverio Tomasella est un psychanalyste et écri...,15,96,1,0,saverio tomasella est un psychanalyste et écri...,saverio tomasella est un psychanalyste et écri...,saverio tomasella est un psychanalyste et écri...,saverio tomasella psychanalyste écrivain franç...
2,"Annelise Heurtier, née en 1979 à Villefranche-...",16,122,1,0,"annelise heurtier, née en 1979 à villefranche-...","annelise heurtier, née en 1979 à villefranche-...",annelise heurtier née en 1979 à villefranchesu...,annelise heurtier née 1979 villefranchesursaôn...
3,"Erik Orsenna, pseudonyme d’Éric Arnoult, est u...",20,125,2,0,"erik orsenna, pseudonyme d’éric arnoult, est u...","erik orsenna, pseudonyme d’éric arnoult, est u...",erik orsenna pseudonyme déric arnoult est un é...,erik orsenna pseudonyme déric arnoult écrivain...
4,Christophe Tison est un journaliste et écrivai...,13,77,0,0,christophe tison est un journaliste et écrivai...,christophe tison est un journaliste et écrivai...,christophe tison est un journaliste et écrivai...,christophe tison journaliste écrivain français...


### Tokenization

In [43]:
from nltk import tokenize
tokenizer = tokenize.SpaceTokenizer()

**Tips :** Use `withoutStopwords` column

Unnamed: 0,description,wordCount,characterCount,numericCount,isUppercase,lowercase,withoutLineReturn,withoutPunctuaction,withoutStopwords,tokenized
0,"Paolo Rumiz, né le 20 décembre 1947 à Trieste,...",17,98,2,0,"paolo rumiz, né le 20 décembre 1947 à trieste,...","paolo rumiz, né le 20 décembre 1947 à trieste,...",paolo rumiz né le 20 décembre 1947 à trieste e...,paolo rumiz né 20 décembre 1947 trieste journa...,"[paolo, rumiz, né, 20, décembre, 1947, trieste..."
1,Saverio Tomasella est un psychanalyste et écri...,15,96,1,0,saverio tomasella est un psychanalyste et écri...,saverio tomasella est un psychanalyste et écri...,saverio tomasella est un psychanalyste et écri...,saverio tomasella psychanalyste écrivain franç...,"[saverio, tomasella, psychanalyste, écrivain, ..."
2,"Annelise Heurtier, née en 1979 à Villefranche-...",16,122,1,0,"annelise heurtier, née en 1979 à villefranche-...","annelise heurtier, née en 1979 à villefranche-...",annelise heurtier née en 1979 à villefranchesu...,annelise heurtier née 1979 villefranchesursaôn...,"[annelise, heurtier, née, 1979, villefranchesu..."
3,"Erik Orsenna, pseudonyme d’Éric Arnoult, est u...",21,125,2,0,"erik orsenna, pseudonyme d’éric arnoult, est u...","erik orsenna, pseudonyme d’éric arnoult, est u...",erik orsenna pseudonyme déric arnoult est un é...,erik orsenna pseudonyme déric arnoult écrivain...,"[erik, orsenna, pseudonyme, déric, arnoult, éc..."
4,Christophe Tison est un journaliste et écrivai...,13,77,0,0,christophe tison est un journaliste et écrivai...,christophe tison est un journaliste et écrivai...,christophe tison est un journaliste et écrivai...,christophe tison journaliste écrivain français...,"[christophe, tison, journaliste, écrivain, fra..."
5,"Sylvain Prudhomme, né en 1979 à La Seyne-sur-M...",33,201,1,0,"sylvain prudhomme, né en 1979 à la seyne-sur-m...","sylvain prudhomme, né en 1979 à la seyne-sur-m...",sylvain prudhomme né en 1979 à la seynesurmer ...,sylvain prudhomme né 1979 seynesurmer écrivain...,"[sylvain, prudhomme, né, 1979, seynesurmer, éc..."
6,Sally Nicholls (née le 22 juin 1983 à Stockton...,19,121,2,0,sally nicholls (née le 22 juin 1983 à stockton...,sally nicholls (née le 22 juin 1983 à stockton...,sally nicholls née le 22 juin 1983 à stocktono...,sally nicholls née 22 juin 1983 stocktonontees...,"[sally, nicholls, née, 22, juin, 1983, stockto..."
7,"Maxime Drouot, connu sous les pseudonymes de M...",37,235,2,0,"maxime drouot, connu sous les pseudonymes de m...","maxime drouot, connu sous les pseudonymes de m...",maxime drouot connu sous les pseudonymes de ma...,maxime drouot connu sous les pseudonymes maxim...,"[maxime, drouot, connu, sous, les, pseudonymes..."
8,"Ivan Jablonka, né le 23 octobre 1973 à Paris, ...",21,147,2,0,"ivan jablonka, né le 23 octobre 1973 à paris, ...","ivan jablonka, né le 23 octobre 1973 à paris, ...",ivan jablonka né le 23 octobre 1973 à paris es...,ivan jablonka né 23 octobre 1973 paris histori...,"[ivan, jablonka, né, 23, octobre, 1973, paris,..."
9,"Jean-Pierre Cabanes, né le 31 juillet 1949 à M...",15,93,2,0,"jean-pierre cabanes, né le 31 juillet 1949 à m...","jean-pierre cabanes, né le 31 juillet 1949 à m...",jeanpierre cabanes né le 31 juillet 1949 à mon...,jeanpierre cabanes né 31 juillet 1949 montpell...,"[jeanpierre, cabanes, né, 31, juillet, 1949, m..."


### Stemming

In [16]:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer("french", ignore_stopwords=True)

**Tips :** 
- Use `withoutStopwords` column
- If you want to transform a list of string into a string, you can use `' '.join([])`

Unnamed: 0,description,wordCount,characterCount,numericCount,isUppercase,lowercase,withoutLineReturn,withoutPunctuaction,withoutStopwords,tokenized,stemming
0,"Paolo Rumiz, né le 20 décembre 1947 à Trieste,...",17,98,2,0,"paolo rumiz, né le 20 décembre 1947 à trieste,...","paolo rumiz, né le 20 décembre 1947 à trieste,...",paolo rumiz né le 20 décembre 1947 à trieste e...,paolo rumiz né 20 décembre 1947 trieste journa...,"[paolo, rumiz, né, 20, décembre, 1947, trieste...",paolo rumiz né 20 décembr 1947 triest journal ...
1,Saverio Tomasella est un psychanalyste et écri...,15,96,1,0,saverio tomasella est un psychanalyste et écri...,saverio tomasella est un psychanalyste et écri...,saverio tomasella est un psychanalyste et écri...,saverio tomasella psychanalyste écrivain franç...,"[saverio, tomasella, psychanalyste, écrivain, ...",saverio tomasel psychanalyst écrivain franc né...
2,"Annelise Heurtier, née en 1979 à Villefranche-...",16,122,1,0,"annelise heurtier, née en 1979 à villefranche-...","annelise heurtier, née en 1979 à villefranche-...",annelise heurtier née en 1979 à villefranchesu...,annelise heurtier née 1979 villefranchesursaôn...,"[annelise, heurtier, née, 1979, villefranchesu...",annelis heurti né 1979 villefranchesursaôn écr...
3,"Erik Orsenna, pseudonyme d’Éric Arnoult, est u...",21,125,2,0,"erik orsenna, pseudonyme d’éric arnoult, est u...","erik orsenna, pseudonyme d’éric arnoult, est u...",erik orsenna pseudonyme déric arnoult est un é...,erik orsenna pseudonyme déric arnoult écrivain...,"[erik, orsenna, pseudonyme, déric, arnoult, éc...",erik orsen pseudonym déric arnoult écrivain né...
4,Christophe Tison est un journaliste et écrivai...,13,77,0,0,christophe tison est un journaliste et écrivai...,christophe tison est un journaliste et écrivai...,christophe tison est un journaliste et écrivai...,christophe tison journaliste écrivain français...,"[christophe, tison, journaliste, écrivain, fra...",christoph tison journal écrivain franc né amie...
5,"Sylvain Prudhomme, né en 1979 à La Seyne-sur-M...",33,201,1,0,"sylvain prudhomme, né en 1979 à la seyne-sur-m...","sylvain prudhomme, né en 1979 à la seyne-sur-m...",sylvain prudhomme né en 1979 à la seynesurmer ...,sylvain prudhomme né 1979 seynesurmer écrivain...,"[sylvain, prudhomme, né, 1979, seynesurmer, éc...",sylvain prudhomm né 1979 seynesurm écrivain fr...
6,Sally Nicholls (née le 22 juin 1983 à Stockton...,19,121,2,0,sally nicholls (née le 22 juin 1983 à stockton...,sally nicholls (née le 22 juin 1983 à stockton...,sally nicholls née le 22 juin 1983 à stocktono...,sally nicholls née 22 juin 1983 stocktonontees...,"[sally, nicholls, née, 22, juin, 1983, stockto...",sally nicholl né 22 juin 1983 stocktononte ang...
7,"Maxime Drouot, connu sous les pseudonymes de M...",37,235,2,0,"maxime drouot, connu sous les pseudonymes de m...","maxime drouot, connu sous les pseudonymes de m...",maxime drouot connu sous les pseudonymes de ma...,maxime drouot connu sous les pseudonymes maxim...,"[maxime, drouot, connu, sous, les, pseudonymes...",maxim drouot connu sous le pseudonym maxim cha...
8,"Ivan Jablonka, né le 23 octobre 1973 à Paris, ...",21,147,2,0,"ivan jablonka, né le 23 octobre 1973 à paris, ...","ivan jablonka, né le 23 octobre 1973 à paris, ...",ivan jablonka né le 23 octobre 1973 à paris es...,ivan jablonka né 23 octobre 1973 paris histori...,"[ivan, jablonka, né, 23, octobre, 1973, paris,...",ivan jablonk né 23 octobr 1973 paris historien...
9,"Jean-Pierre Cabanes, né le 31 juillet 1949 à M...",15,93,2,0,"jean-pierre cabanes, né le 31 juillet 1949 à m...","jean-pierre cabanes, né le 31 juillet 1949 à m...",jeanpierre cabanes né le 31 juillet 1949 à mon...,jeanpierre cabanes né 31 juillet 1949 montpell...,"[jeanpierre, cabanes, né, 31, juillet, 1949, m...",jeanpierr caban né 31 juillet 1949 montpelli a...


## Advanced text processing

### N-grams

In [18]:
from nltk.util import ngrams

**Tips :** Use `tokenized` column

0      [(paolo, rumiz), (rumiz, né), (né, 20), (20, d...
1      [(saverio, tomasella), (tomasella, psychanalys...
2      [(annelise, heurtier), (heurtier, née), (née, ...
3      [(erik, orsenna), (orsenna, pseudonyme), (pseu...
4      [(christophe, tison), (tison, journaliste), (j...
5      [(sylvain, prudhomme), (prudhomme, né), (né, 1...
6      [(sally, nicholls), (nicholls, née), (née, 22)...
7      [(maxime, drouot), (drouot, connu), (connu, so...
8      [(ivan, jablonka), (jablonka, né), (né, 23), (...
9      [(jeanpierre, cabanes), (cabanes, né), (né, 31...
10     [(alain, ayroles), (ayroles, scénariste), (scé...
11     [(martha, wells), (wells, née), (née, 1er), (1...
12     [(amélie, nothomb), (nothomb, ameli), (ameli, ...
13     [(florence, hinckel), (hinckel, autrice), (aut...
14     [(karine, tuil), (tuil, née), (née, 3), (3, ma...
15     [(jérémie, kisling), (kisling, né), (né, jérém...
16     [(née, 3), (3, janvier), (janvier, 1969), (196...
17     [(léonora, miano), (mian

### Term Frequency (TF)

In [20]:
tokenized_description = data[data['wordCount'] == 409]['tokenized'][63]

In [21]:
tokenized_description

['victor',
 'hugo',
 'poète',
 'dramaturge',
 'écrivain',
 'romancier',
 'dessinateur',
 'romantique',
 'français',
 'né',
 '26',
 'février',
 '1802',
 '7',
 'ventôse',
 'an',
 'x',
 'selon',
 'calendrier',
 'républicain',
 'encore',
 'vigueur',
 'besançon',
 'mort',
 '22',
 'mai',
 '1885',
 'paris',
 'considéré',
 'comme',
 'lun',
 'plus',
 'importants',
 'écrivains',
 'langue',
 'française',
 'aussi',
 'personnalité',
 'politique',
 'intellectuel',
 'engagé',
 'a',
 'rôle',
 'idéologique',
 'majeur',
 'occupe',
 'place',
 'marquante',
 'lhistoire',
 'lettres',
 'françaises',
 'xixe',
 'siècle',
 'genres',
 'domaines',
 'dune',
 'remarquable',
 'variété',
 'théâtre',
 'victor',
 'hugo',
 'manifeste',
 'comme',
 'chefs',
 'file',
 'romantisme',
 'français',
 'lorsquil',
 'expose',
 'théorie',
 'drame',
 'romantique',
 'les',
 'préfaces',
 'introduisent',
 'cromwell',
 '1827',
 'puis',
 'hernani',
 '1830',
 'véritables',
 'manifestes',
 'puis',
 'autres',
 'œuvres',
 'dramatiques',
 'ru

**Tips :** 
- Build a dictionnay `{word:count, word1:count1, ...}` 

- **/!\\** take care to not override already existing keys

{'1802': 1,
 '1826': 1,
 '1827': 1,
 '1830': 1,
 '1831': 2,
 '1838': 1,
 '1842': 1,
 '1853': 1,
 '1856': 1,
 '1859': 1,
 '1862': 1,
 '1877': 1,
 '1885': 2,
 '1887': 1,
 '1890': 1,
 '1er': 1,
 '22': 1,
 '26': 1,
 '7': 1,
 'a': 6,
 'abondante': 1,
 'accompagné': 1,
 'admiré': 1,
 'ainsi': 1,
 'an': 1,
 'ans': 1,
 'après': 1,
 'aussi': 6,
 'auteurs': 1,
 'autres': 1,
 'ballades': 1,
 'besançon': 1,
 'blas': 1,
 'borgia': 1,
 'calendrier': 1,
 'certains': 1,
 'chambre': 1,
 'chefs': 1,
 'choisissant': 1,
 'choix': 1,
 'choses': 1,
 'châtiments': 1,
 'comme': 3,
 'commun': 1,
 'comprend': 1,
 'considéré': 1,
 'constituante': 1,
 'contemplations': 1,
 'contemporains': 1,
 'contesté': 1,
 'contre': 1,
 'contribué': 1,
 'correspondance': 1,
 'cromwell': 1,
 'croquis': 1,
 'dautomne': 1,
 'dessinateur': 1,
 'dessins': 1,
 'deuxième': 1,
 'discours': 1,
 'dix': 1,
 'domaines': 1,
 'dramatiques': 1,
 'dramaturge': 1,
 'drame': 1,
 'dune': 1,
 'durant': 1,
 'dépouille': 1,
 'développer': 1,
 'embl

In [23]:
advanced_processing_df = pd.DataFrame.from_dict(
    words, orient='index', columns=['wordCount']).reset_index()
advanced_processing_df.columns = ['word', 'wordCount']
advanced_processing_df

Unnamed: 0,word,wordCount
0,victor,4
1,hugo,4
2,poète,4
3,dramaturge,1
4,écrivain,1
5,romancier,1
6,dessinateur,1
7,romantique,2
8,français,2
9,né,1


**Tips :** use `advanced_processing_df`

**Reminder :** Term Frequency is `wordCount` divided by total number of words

Unnamed: 0,word,wordCount,tf
0,victor,4,0.019512
1,hugo,4,0.019512
2,poète,4,0.019512
3,dramaturge,1,0.004878
4,écrivain,1,0.004878
5,romancier,1,0.004878
6,dessinateur,1,0.004878
7,romantique,2,0.009756
8,français,2,0.009756
9,né,1,0.004878


### Inverse Document Frequency (IDF)

**Reminder :** IDF (**I**nverse **D**ocument **F**requency) is 1 divided by number of row in `data` that contains the word you want to calculate IDF score.

Unnamed: 0,word,wordCount,tf,idf
0,victor,4,0.019512,0.250000
1,hugo,4,0.019512,0.090909
2,poète,4,0.019512,0.100000
3,dramaturge,1,0.004878,0.058824
4,écrivain,1,0.004878,0.011628
5,romancier,1,0.004878,0.041667
6,dessinateur,1,0.004878,0.500000
7,romantique,2,0.009756,0.200000
8,français,2,0.009756,0.011111
9,né,1,0.004878,0.007353


### TF-IDF

**Reminder :** TF-IDF formula is ```tf * idf```

Unnamed: 0,word,wordCount,tf,idf,tf-idf
0,victor,4,0.019512,0.250000,0.004878
1,hugo,4,0.019512,0.090909,0.001774
2,poète,4,0.019512,0.100000,0.001951
3,dramaturge,1,0.004878,0.058824,0.000287
4,écrivain,1,0.004878,0.011628,0.000057
5,romancier,1,0.004878,0.041667,0.000203
6,dessinateur,1,0.004878,0.500000,0.002439
7,romantique,2,0.009756,0.200000,0.001951
8,français,2,0.009756,0.011111,0.000108
9,né,1,0.004878,0.007353,0.000036


### Bag of words

In [28]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()

In [29]:
descriptions = data['withoutStopwords'].values.tolist()

**Tips :** Use cv method to fit and transform cv on description to get countVectorizer result

In [30]:
trained_cv = 

In [31]:
pd.DataFrame(trained_cv.A, columns=cv.vocabulary_)

Unnamed: 0,paolo,rumiz,né,20,décembre,1947,trieste,journaliste,écrivain,voyageur,...,empreints,philip,pullman,norwich,norfolk,ken,follett,cardiff,gallois,despionnage
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
