## Liste de candidats finale
#### Data wrangling
Liste finale de candidats reçues en format *.csv de Olivier Leclère - valable au 19 mars 2018

In [15]:
# import pandas
import pandas as pd
import numpy as np

In [16]:
# import raw file
df_raw = pd.read_csv('../candidateList_Final.csv', sep=';')
df_raw.head()

Unnamed: 0,ELECTION.TYPE ELECTION,LEL.NUM DEPOT,LEL.SIGLE,LEL.LIBELLE COURT,LEL.LIBELLE LONG,CND.CIVILITE,CND.NOM,CND.PRENOM,CND.NOM PSEUDO,CND.PRENOM PSEUDO
0,GC,1,EAG,ENSEMBLE À GAUCHE,ENSEMBLE À GAUCHE,Monsieur,PAGANI,Rémy,-,-
1,GC,1,EAG,ENSEMBLE À GAUCHE,ENSEMBLE À GAUCHE,Madame,WENGER,Saliha,-,Salika
2,GC,1,EAG,ENSEMBLE À GAUCHE,ENSEMBLE À GAUCHE,Monsieur,ZAUGG,Christian,-,-
3,GC,1,EAG,ENSEMBLE À GAUCHE,ENSEMBLE À GAUCHE,Madame,HALLER,Jocelyne,-,-
4,GC,1,EAG,ENSEMBLE À GAUCHE,ENSEMBLE À GAUCHE,Monsieur,ENILINE,Alexander,-,-


In [17]:
# edit dataframe to extract required info only
# Entities format: entity,value,synonyms
df_edt = df_raw.drop(['LEL.NUM DEPOT', 'LEL.SIGLE', 'LEL.LIBELLE COURT','LEL.LIBELLE LONG','CND.CIVILITE'], axis=1)
df_edt.head()

Unnamed: 0,ELECTION.TYPE ELECTION,CND.NOM,CND.PRENOM,CND.NOM PSEUDO,CND.PRENOM PSEUDO
0,GC,PAGANI,Rémy,-,-
1,GC,WENGER,Saliha,-,Salika
2,GC,ZAUGG,Christian,-,-
3,GC,HALLER,Jocelyne,-,-
4,GC,ENILINE,Alexander,-,-


In [18]:
# replace GC by 'Député-e' and CE by 'Conseiller-ère d'Etat'
df_edt['entity'] = np.where(df_edt['ELECTION.TYPE ELECTION'] == 'GC', 'Député-e', "Conseiller-ère d'Etat")

In [19]:
# check GC
df_edt.head()

Unnamed: 0,ELECTION.TYPE ELECTION,CND.NOM,CND.PRENOM,CND.NOM PSEUDO,CND.PRENOM PSEUDO,entity
0,GC,PAGANI,Rémy,-,-,Député-e
1,GC,WENGER,Saliha,-,Salika,Député-e
2,GC,ZAUGG,Christian,-,-,Député-e
3,GC,HALLER,Jocelyne,-,-,Député-e
4,GC,ENILINE,Alexander,-,-,Député-e


In [20]:
# check CE
df_edt.tail()

Unnamed: 0,ELECTION.TYPE ELECTION,CND.NOM,CND.PRENOM,CND.NOM PSEUDO,CND.PRENOM PSEUDO,entity
649,CE,ZACHARIAS,Ronald,-,-,Conseiller-ère d'Etat
650,CE,VIDONNE,Thierry,-,-,Conseiller-ère d'Etat
651,CE,LEITNER,André,-,-,Conseiller-ère d'Etat
652,CE,FONTANA,Jérôme,-,-,Conseiller-ère d'Etat
653,CE,AMSLER,Susanne,-,-,Conseiller-ère d'Etat


In [21]:
# concatenate CND.NOM + CND.PRENOM
df_edt['value'] = df_edt["CND.NOM"] + " " + df_edt["CND.PRENOM"]
df_edt.head()

Unnamed: 0,ELECTION.TYPE ELECTION,CND.NOM,CND.PRENOM,CND.NOM PSEUDO,CND.PRENOM PSEUDO,entity,value
0,GC,PAGANI,Rémy,-,-,Député-e,PAGANI Rémy
1,GC,WENGER,Saliha,-,Salika,Député-e,WENGER Saliha
2,GC,ZAUGG,Christian,-,-,Député-e,ZAUGG Christian
3,GC,HALLER,Jocelyne,-,-,Député-e,HALLER Jocelyne
4,GC,ENILINE,Alexander,-,-,Député-e,ENILINE Alexander


In [22]:
# remove '-' from '--PSEUDO' columns
df_edt['CND.NOM PSEUDO'] = np.where(df_edt['CND.NOM PSEUDO'] == '-', '', df_edt['CND.NOM PSEUDO'])
df_edt['CND.PRENOM PSEUDO'] = np.where(df_edt['CND.PRENOM PSEUDO'] == '-', '', df_edt['CND.PRENOM PSEUDO'])
df_edt.head()

Unnamed: 0,ELECTION.TYPE ELECTION,CND.NOM,CND.PRENOM,CND.NOM PSEUDO,CND.PRENOM PSEUDO,entity,value
0,GC,PAGANI,Rémy,,,Député-e,PAGANI Rémy
1,GC,WENGER,Saliha,,Salika,Député-e,WENGER Saliha
2,GC,ZAUGG,Christian,,,Député-e,ZAUGG Christian
3,GC,HALLER,Jocelyne,,,Député-e,HALLER Jocelyne
4,GC,ENILINE,Alexander,,,Député-e,ENILINE Alexander


In [23]:
# add synonyms
df_edt['synonyms'] = df_edt['CND.NOM'] + ":" + df_edt['CND.PRENOM'] + ":" + df_edt['CND.NOM PSEUDO'] + ":" + df_edt['CND.PRENOM PSEUDO']
# remove double ':'
df_edt['synonyms'].replace(regex=True,inplace=True,to_replace='::',value=':')
# remove final ':'
df_edt['synonyms'] = df_edt['synonyms'].str.rstrip('\:')
# remove spaces
df_edt['synonyms'].replace(regex=True,inplace=True,to_replace=' ',value=':')
# remove accents from entity
df_edt['entity'].replace(regex=True,inplace=True,to_replace='é',value='e')
df_edt['entity'].replace(regex=True,inplace=True,to_replace='è',value='e')
# remove spec chars from entity
df_edt['entity'].replace(regex=True,inplace=True,to_replace="'",value='_')
df_edt['entity'].replace(regex=True,inplace=True,to_replace="-",value='_')
df_edt['entity'].replace(regex=True,inplace=True,to_replace=" ",value='_')
df_edt.head()

Unnamed: 0,ELECTION.TYPE ELECTION,CND.NOM,CND.PRENOM,CND.NOM PSEUDO,CND.PRENOM PSEUDO,entity,value,synonyms
0,GC,PAGANI,Rémy,,,Depute_e,PAGANI Rémy,PAGANI:Rémy
1,GC,WENGER,Saliha,,Salika,Depute_e,WENGER Saliha,WENGER:Saliha:Salika
2,GC,ZAUGG,Christian,,,Depute_e,ZAUGG Christian,ZAUGG:Christian
3,GC,HALLER,Jocelyne,,,Depute_e,HALLER Jocelyne,HALLER:Jocelyne
4,GC,ENILINE,Alexander,,,Depute_e,ENILINE Alexander,ENILINE:Alexander


In [24]:
# extract final data
df_final = df_edt.drop(['ELECTION.TYPE ELECTION', 'CND.NOM', 'CND.PRENOM','CND.NOM PSEUDO','CND.PRENOM PSEUDO'], axis=1)
df_final.head()

Unnamed: 0,entity,value,synonyms
0,Depute_e,PAGANI Rémy,PAGANI:Rémy
1,Depute_e,WENGER Saliha,WENGER:Saliha:Salika
2,Depute_e,ZAUGG Christian,ZAUGG:Christian
3,Depute_e,HALLER Jocelyne,HALLER:Jocelyne
4,Depute_e,ENILINE Alexander,ENILINE:Alexander


In [25]:
# export *.csv
df_final.to_csv('./candidats-Final-Entities.csv',index=False)