In [1]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk import word_tokenize
from nltk.stem import SnowballStemmer

In [2]:
df = pd.read_csv('df_clean_2')

In [3]:
stop_word = stopwords.words('french')
stop_word += stopwords.words('english')
stop_word

['au',
 'aux',
 'avec',
 'ce',
 'ces',
 'dans',
 'de',
 'des',
 'du',
 'elle',
 'en',
 'et',
 'eux',
 'il',
 'ils',
 'je',
 'la',
 'le',
 'les',
 'leur',
 'lui',
 'ma',
 'mais',
 'me',
 'même',
 'mes',
 'moi',
 'mon',
 'ne',
 'nos',
 'notre',
 'nous',
 'on',
 'ou',
 'par',
 'pas',
 'pour',
 'qu',
 'que',
 'qui',
 'sa',
 'se',
 'ses',
 'son',
 'sur',
 'ta',
 'te',
 'tes',
 'toi',
 'ton',
 'tu',
 'un',
 'une',
 'vos',
 'votre',
 'vous',
 'c',
 'd',
 'j',
 'l',
 'à',
 'm',
 'n',
 's',
 't',
 'y',
 'été',
 'étée',
 'étées',
 'étés',
 'étant',
 'étante',
 'étants',
 'étantes',
 'suis',
 'es',
 'est',
 'sommes',
 'êtes',
 'sont',
 'serai',
 'seras',
 'sera',
 'serons',
 'serez',
 'seront',
 'serais',
 'serait',
 'serions',
 'seriez',
 'seraient',
 'étais',
 'était',
 'étions',
 'étiez',
 'étaient',
 'fus',
 'fut',
 'fûmes',
 'fûtes',
 'furent',
 'sois',
 'soit',
 'soyons',
 'soyez',
 'soient',
 'fusse',
 'fusses',
 'fût',
 'fussions',
 'fussiez',
 'fussent',
 'ayant',
 'ayante',
 'ayantes',


In [4]:
def tok(sentence):
    return nltk.word_tokenize(sentence.lower())

def no_stop(tokens):
    return [token for token in tokens if (token not in stop_word)]

def stem(tokens, language= 'french'):
    stemmizer = SnowballStemmer(language=language)
    return [stemmizer.stem(token) for token in tokens]

def preprocess(sentence, stemm= True, stop=True):
    if stemm:
        return ' '.join(stem(no_stop(tok(sentence)), language='english'))
    else:
        return ' '.join(no_stop(tok(sentence)))
    


In [6]:
# S'assurer que les colonnes sony de type string, en convertissant même les NaN
df['Genre_musique'] = df['Genre_musique'].astype(str)
df['Spectacle_vivant'] = df['Spectacle_vivant'].astype(str)
df['Cinema_audiovisuel'] = df['Cinema_audiovisuel'].astype(str)
df['Art'] = df['Art'].astype(str)
df['Livre_litterature'] = df['Livre_litterature'].astype(str)

In [None]:
# Filtrer les lignes qui contient des chiffres ou de -
#df = df[~df['Genre_musique'].str.contains(r'[0-9-]', regex=True)]
#df = df[~df['Spectacle_vivante'].str.contains(r'[0-9-]', regex=True)]
#df = df[~df['Cinema_audiovisuel'].str.contains(r'[0-9-]', regex=True)]
#df = df[~df['Art'].str.contains(r'[0-9-]', regex=True)]
#df = df[~df['Livre_litterature'].str.contains(r'[0-9-]', regex=True)]

In [7]:
# Preprocessing

df["Processed_nom_festival"] = df["Nom_festival"].apply(lambda x: preprocess(x, stemm=False))

df["Processed_Type"] = df["Type"].apply(lambda x: preprocess(x, stemm=False))


df["Processed_Region"] = df["Region"].apply(lambda x: preprocess(x, stemm=False))

df["Processed_Ville"] = df["Ville"].apply(lambda x: preprocess(x, stemm=False))

df["Procced_musique"] = df["Genre_musique"].apply(lambda x: preprocess(x, stemm=False))

df["Processed_Spectacle_vivant"] = df["Spectacle_vivant"].apply(lambda x: preprocess(x, stemm=False))

df["Processed_Art"] = df["Art"].apply(lambda x: preprocess(x, stemm=False))

df["Processed_Cinema_audiovisuel"] = df["Cinema_audiovisuel"].apply(lambda x: preprocess(x, stemm=False))

df["Processed_Livre_litterature"] = df["Livre_litterature"].apply(lambda x: preprocess(x, stemm=False))


In [9]:
df.columns

Index(['Id', 'Nom_festival', 'Type', 'Region', 'Ville', 'Geocode', 'Annee',
       'Site_internet', 'Genre_musique', 'Spectacle_vivant',
       'Cinema_audiovisuel', 'Art', 'Livre_litterature',
       'Processed_nom_festival', 'Processed_Type', 'Processed_Region',
       'Processed_Ville', 'Procced_musique', 'Processed_Spectacle_vivant',
       'Processed_Art', 'Processed_Cinema_audiovisuel',
       'Processed_Livre_litterature'],
      dtype='object')

In [11]:
df.to_csv('Preprocessed_NLP_df_festival.csv', columns= ['Id','Geocode', 'Annee','Site_internet',
       'Processed_nom_festival', 'Processed_Type', 'Processed_Region',
       'Processed_Ville', 'Procced_musique', 'Processed_Spectacle_vivant',
       'Processed_Art', 'Processed_Cinema_audiovisuel',
       'Processed_Livre_litterature'], index=False)

In [12]:
dfp = pd.read_csv('Preprocessed_NLP_df_festival.csv')

In [13]:
# Changer l'ordre des colonnes
ordre = ['Id','Processed_nom_festival', 'Processed_Type', 'Processed_Region',
         'Processed_Ville', 'Annee','Procced_musique', 'Processed_Spectacle_vivant',
                      'Processed_Cinema_audiovisuel', 'Processed_Livre_litterature',
                      'Geocode', 'Site_internet']
dfp = dfp[ordre]

In [14]:
dfp.to_csv('Ordered_NLP_preprocessed_df.csv', index=False)