# Stemming 

In this notebook, we perform word stemming. 

In [1]:
import nltk
from nltk.corpus import stopwords
StopWords = stopwords.words('french')
from nltk.stem.snowball import FrenchStemmer
stemmer = FrenchStemmer()

In [2]:
import numpy as np
import pandas as pd

In [3]:
pd.set_option('display.max_rows', 100)

### Reading cleaned files

In [24]:
df_all = pd.read_csv('cleaned_all.csv', index_col = 0, lineterminator='\n').reset_index(drop=True)

In [25]:
df_train = pd.read_csv('cleaned_train.csv', index_col = 0, lineterminator='\n').reset_index(drop=True)

In [26]:
df_test = pd.read_csv('cleaned_test.csv', index_col = 0, lineterminator='\n').reset_index(drop=True)

In [27]:
df_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13807 entries, 0 to 13806
Data columns (total 6 columns):
title              13807 non-null object
content            13807 non-null object
link               13807 non-null object
category           13807 non-null object
news_length        13807 non-null int64
cleaned_content    13807 non-null object
dtypes: int64(1), object(5)
memory usage: 647.3+ KB


In [28]:
df_all.head(5)

Unnamed: 0,title,content,link,category,news_length,cleaned_content
0,"Oui, Marie-Josée Lord est une chanteuse d'opéra!",«Je ne suis pas une chanteuse d'opéra.» Marie-...,https://www.lapresse.ca/arts/festivals/montrea...,culture,3137,chanteuse opéra mariejosée lord laissé t...
1,Une vallée sans foi ni loi,C'était une paisible vallée agricole où les po...,https://www.lapresse.ca/international/amerique...,international,7051,paisible vallée agricole où policiers régla...
2,Les profs dénoncent la hausse artificielle des...,Les cibles de réussite que le ministère de l'É...,https://www.lapresse.ca/actualites/education/2...,actualites,5624,cibles réussite ministère éducation impos...
3,18 millions pour l'ambassade et des résidences...,Bien avant que le gouvernement conservateur de...,https://www.lapresse.ca/actualites/dossiers/le...,actualites,3431,bien avant gouvernement conservateur stephe...
4,La semaine s'annonce explosive à l'Hôtel de Ville,"Le vérificateur remettra au conseil municipal,...",https://www.lapresse.ca/actualites/grand-montr...,actualites,2983,vérificateur remettra conseil municipal soi...


In [29]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12335 entries, 0 to 12334
Data columns (total 6 columns):
title              12335 non-null object
content            12335 non-null object
link               12335 non-null object
category           12335 non-null object
news_length        12335 non-null int64
cleaned_content    12335 non-null object
dtypes: int64(1), object(5)
memory usage: 578.3+ KB


In [30]:
df_train.head(5)

Unnamed: 0,title,content,link,category,news_length,cleaned_content
0,"Oui, Marie-Josée Lord est une chanteuse d'opéra!",«Je ne suis pas une chanteuse d'opéra.» Marie-...,https://www.lapresse.ca/arts/festivals/montrea...,culture,3137,chanteuse opéra mariejosée lord laissé t...
1,Une vallée sans foi ni loi,C'était une paisible vallée agricole où les po...,https://www.lapresse.ca/international/amerique...,international,7051,paisible vallée agricole où policiers régla...
2,Les profs dénoncent la hausse artificielle des...,Les cibles de réussite que le ministère de l'É...,https://www.lapresse.ca/actualites/education/2...,actualites,5624,cibles réussite ministère éducation impos...
3,18 millions pour l'ambassade et des résidences...,Bien avant que le gouvernement conservateur de...,https://www.lapresse.ca/actualites/dossiers/le...,actualites,3431,bien avant gouvernement conservateur stephe...
4,La semaine s'annonce explosive à l'Hôtel de Ville,"Le vérificateur remettra au conseil municipal,...",https://www.lapresse.ca/actualites/grand-montr...,actualites,2983,vérificateur remettra conseil municipal soi...


In [31]:
df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1472 entries, 0 to 1471
Data columns (total 6 columns):
title              1472 non-null object
content            1472 non-null object
link               1472 non-null object
category           1472 non-null object
news_length        1472 non-null int64
cleaned_content    1472 non-null object
dtypes: int64(1), object(5)
memory usage: 69.1+ KB


In [32]:
df_test.head()

Unnamed: 0,title,content,link,category,news_length,cleaned_content
0,Destruction de l'Amazonie: Ottawa appelé à aba...,(Ottawa) Le gouvernement fédéral a été interpe...,https://www.lapresse.ca/actualites/national/20...,actualites,3734,ottawa gouvernement fédéral interpellé sus...
1,Explosion à Beyrouth: Ottawa facilitera la ven...,(Ottawa) Un mois après la tragédie de Beyrouth...,https://www.lapresse.ca/actualites/national/20...,actualites,1820,ottawa mois après tragédie beyrouth canada...
2,"L'enfance au Canada est en crise, selon deux r...",(Montréal) Un rapport publié mercredi par l’UN...,https://www.lapresse.ca/actualites/national/20...,actualites,2659,montréal rapport publié mercredi ’unicef aff...
3,La création des pensionnats autochtones reconn...,Ils ont détruit la vie des Autochtones pendant...,https://www.lapresse.ca/actualites/national/20...,actualites,3005,détruit vie autochtones pendant plus ’ siè...
4,L'affluence dans les transports en commun en c...,(Ottawa) De nouvelles statistiques montrent qu...,https://www.lapresse.ca/actualites/national/20...,actualites,1161,ottawa nouvelles statistiques montrent syst...


### Stemming

In [50]:
def stemming(df):
    nrows = len(df)
    stemmed_text_list = []

    for row in range(0, nrows):
    
        # Create an empty list containing stemmed words
        stemmed_list = []
    
        # Save the text and its words into an object
        #print(row)
        text = df.loc[row]['cleaned_content']
        text_words = text.split(" ")
        #print('ok')

        # Iterate through every word to lemmatize
        for word in text_words:
            stemmed_list.append(stemmer.stem(word))
        
        #Join the list
        stemmed_text = " ".join(stemmed_list)
    
        # Append to the list containing the texts
        stemmed_text_list.append(stemmed_text)
    return stemmed_text_list

In [52]:
df_all['cleaned_content'] = stemming(df_all)

In [54]:
df_all.loc[0]['cleaned_content']

'     chanteux oper mariejos lord  laiss tomb cet phras malheur hi soir  cour   spectacl    comprend  encor    voulu dir si  soprano montréalais origin haïtien    chanteux oper   demand bien     voulu  cet confident plair  public populair accouru entendr   parterr  maisonneuv  combl     pâm  écout chant  starmani  autr platitud si tel   cas   grand dommag  laiss  ceux   délectent  quelqu chanson   programm dont ignor jusau nom  auteur    tout  vid accabl  plan  text    musiqu   réjou    réserv  amateur oper cel  sembl vouloir  détach  cet univer   réjou aut plus  cet auditoir  auss vibr  verd   autr immortel  programm cet fois encor montréal  lumi rest  obscur    concern  piec chant  programm rem   port  conten   moindr titr   fall  remettr  présent non toujour clair   chanteux  micro mariejos lord  chant  bon demidouzain  grand air  plus célebr  théâtr lyriqu   chacun  don  interpret plein convainc  tous égard  prit  voix sombr  mezzo  esquiss  gest appropri   haban decarmen color   r

In [55]:
df_train['cleaned_content'] = stemming(df_train)

In [58]:
df_test['cleaned_content'] = stemming(df_test)

We see that stemming is not a perfect solution, as for example, it changed 'mariejose into 'mariejos'. However, there is no good library for French lemmatization, as far as I know, so we resorted to that. 

In [59]:
df_train.loc[42]['cleaned_content']

' foresti tembec ttmb ferm  scier  taschereau  abitibitémiscamingu invoqu  manqu approvision  bois  install  inact depuis octobr 2009  indiqu entrepris québécois  communiqu  fermetur  devenu nécessair  assur  rentabl  long term  scier  béarn    sarr  expliqu den rounsvill président  group  produit foresti  tembec  survivr   march  plus  plus concurrentiel  scier doivent compt   approvision  bois suffis  ajout tembec esper  québec  permettr  transfer   autr scier abitibitémiscamingu  volum  bois   rattach   scier  taschereau entrepris promet aid  emploi touch  explor not  possibil  mut certain ver autr usin  fond adapt  collect  égal mis  pied   concour   municipal  taschereau  fermetur   scier  taschereau  traduir   charg non récurrent  2 million  tembec   trimestr  prendr fin  mois prochain'

In [60]:
df_test.loc[42]['cleaned_content']

' gouvern legault entend réalis  premi tronçon   vast réseau métropolitain  voi réserv rmvr ’ic  fin  mandat  cour   2022 aucun voi  circul   supprim   processus promet québec  faut  ’automobil voit bien ’delà  cet annonc   capabl  livr  marchandis ’    offre additionnel  martel  ministr  transport françois bonnardel mercred plus tôt  press rével  québec lanc  premi appel ’offr  implant  nouvel voi réserv'

#### More character cleaning

The examples made us see more characters to delete, so we proceed to doing that before saving the files. 

In [61]:
df_all.loc[:,'cleaned_content'] = df_all.loc[:,'cleaned_content'].str.replace("_", "").copy()
df_all.loc[:,'cleaned_content'] = df_all.loc[:,'cleaned_content'].str.replace("’", "").copy()

In [62]:
df_all.loc[0]['cleaned_content']

'     chanteux oper mariejos lord  laiss tomb cet phras malheur hi soir  cour   spectacl    comprend  encor    voulu dir si  soprano montréalais origin haïtien    chanteux oper   demand bien     voulu  cet confident plair  public populair accouru entendr   parterr  maisonneuv  combl     pâm  écout chant  starmani  autr platitud si tel   cas   grand dommag  laiss  ceux   délectent  quelqu chanson   programm dont ignor jusau nom  auteur    tout  vid accabl  plan  text    musiqu   réjou    réserv  amateur oper cel  sembl vouloir  détach  cet univer   réjou aut plus  cet auditoir  auss vibr  verd   autr immortel  programm cet fois encor montréal  lumi rest  obscur    concern  piec chant  programm rem   port  conten   moindr titr   fall  remettr  présent non toujour clair   chanteux  micro mariejos lord  chant  bon demidouzain  grand air  plus célebr  théâtr lyriqu   chacun  don  interpret plein convainc  tous égard  prit  voix sombr  mezzo  esquiss  gest appropri   haban decarmen color   r

In [63]:
df_train.loc[:,'cleaned_content'] = df_train.loc[:,'cleaned_content'].str.replace("_", "").copy()
df_train.loc[:,'cleaned_content'] = df_train.loc[:,'cleaned_content'].str.replace("’", "").copy()
df_test.loc[:,'cleaned_content'] = df_test.loc[:,'cleaned_content'].str.replace("_", "").copy()
df_test.loc[:,'cleaned_content'] = df_test.loc[:,'cleaned_content'].str.replace("’", "").copy()

In [64]:
df_test.loc[42]['cleaned_content']

' gouvern legault entend réalis  premi tronçon   vast réseau métropolitain  voi réserv rmvr ic  fin  mandat  cour   2022 aucun voi  circul   supprim   processus promet québec  faut  automobil voit bien delà  cet annonc   capabl  livr  marchandis     offre additionnel  martel  ministr  transport françois bonnardel mercred plus tôt  press rével  québec lanc  premi appel offr  implant  nouvel voi réserv'

#### Saving the files

In [66]:
df_all.to_csv('stem_all.csv', header=True, index = True)

In [67]:
df_train.to_csv('stem_train.csv', header=True, index = True)

In [68]:
df_test.to_csv('stem_test.csv', header=True, index=True)