# Normaliser les données pour de meilleures analyses

Il est très rare que les ensembles de données que vous aurez à manipuler soient impeccables. En effet, même lors les données sont produites automatiquement par des systèmes informatiques, il est possible que ces données contiennent des erreurs. Ces erreurs peuvent être causées par une défaillance du système, par une interruption du réseau, etc.

Imaginez alors les erreurs qui peuvent s'introduirent lorsque l'humain est en cause! Même dans le cas idéal où un seul individu s'occupe de la saisie des données, il n'est pas exclus que cet individu introduisent (sic) des erreurs. Cela augmente de façon très rapide lorsque plusieurs individus s'occupent de la saisie.

La normalisation des données est donc souvent nécessaire pour une analyse adéquate. Nous allons maintenant explorer comment les approches de normalisation peuvent être mise en application. Pour appliquer ces approches, nous utiliserons les données contenues dans le fichier `Connections.csv`, contenant un exemple de données provenant de LinkedIn, afin d'explorer quelques-unes des situations courantes que vous pouvez rencontrer pendant le traitement des données.

## Lecture d'un fichier de données

Mais avant de procéder à la normalisation des données, il faut extraire ces données du fichier source et les placer en mémoire dans un format adéquat pour l'analyse. L'objectif final est d'avoir une collection de liste, chaque liste correspondant à une caractéristique d'un contact LinkedIn. C'est comme avoir une feuille de travail Excel où les données sont organisés en tableau individu x caractéristiques:

- les individus sont les lignes du chiffrier Excel,
- les caractéristiques sont les colonnes.

Pour produire une structure de données similaire en Python, on utilisera une collection de liste, chaque liste correspondant à une colonne. Les données sur un individu spécifique se retrouvera à la même position dans chacune des listes. On dira que ces listes sont des __listes parallèles__.

Dans un premier temps, nous allons simplement lire toutes les lignes du fichier de telle façon que chaque ligne soit un élément de la liste `connexions`. Pour voir à quoi ces données ressemblent, nous afficherons les 5 premières et les 5 dernières lignes de la liste ainsi obtenue.

In [6]:
# Création d'une liste vide
connexions = []

# Ouverture du fichier "Connections.csv"
# encoding="utf-8" : puisque les données contiennent des caractères spéciaux (à, è, ù, etc.)
with open("Connections.csv", "r", encoding="utf-8") as file: #file represent les variables
    
    # Lecture des lignes et assignation à la liste 'connexions'
    connexions = file.readlines()
    
    print(connexions) #back the \n
    connexions #avec \n

['"First Name","Last Name","Email Address","Company","Position","Connected On"\n', '"Mélanie","Dénommée","","Essilor Canada","Chef Partenariat d\'affaires RH/HRBP Manager","17-sept-18"\n', '"Justine","Authier, MSc","","HEC Montréal","Lecturer | Database Management Course","28-mars-18"\n', '"Elodie","Champoux","","CBC","Première Analyste Intelligence d\'Affaires | Senior Business Intelligence Analyst ","27-mars-18"\n', '"Jean","Talbot","","HEC Montreal","Professeur titulaire / Full Professor","19-juin-17"\n', '"Karsten","Herr","","Darling Ingredients Germany Holding GmbH","Technical Director Germany/CTO","15-juin-16"\n', '"Mina","Rohani","","Key Lime Interactive","UX Researcher @ Google + Senior Quantitative Researcher @ KLI","07-janv-15"\n', '"Markos","Zachariadis","","Ivey Business School at Western University","Visiting Professor/Faculty in Financial Technologies (FinTech)","09 May 2014"\n', '"Anne","Chartier","","Université Laval","Associate professor / Professeure agrégée","30-janv

Avons-nous réussi à lire correctement le fichier texte et à stocker les données dans la variable liste `connexions` ?

In [5]:
# impression des 5 premières lignes
for i in range(0, 5):
    print(connexions[i])

# Impression de ...
print("...")
print()
# Impression des 5 dernières lignes
for i in range(-5, 0 ):
    print(connexions[i])

"First Name","Last Name","Email Address","Company","Position","Connected On"

"Mélanie","Dénommée","","Essilor Canada","Chef Partenariat d'affaires RH/HRBP Manager","17-sept-18"

"Justine","Authier, MSc","","HEC Montréal","Lecturer | Database Management Course","28-mars-18"

"Elodie","Champoux","","CBC","Première Analyste Intelligence d'Affaires | Senior Business Intelligence Analyst ","27-mars-18"

"Jean","Talbot","","HEC Montreal","Professeur titulaire / Full Professor","19-juin-17"

...

"Albina","Shapiro","","SAP Labs","Product Owner","17 Feb 2007"

"Sydney","Vasseur","","Gemini Data Inc.","Business Development Representative EMEA","24-nov-16"

"Brian","Lack","","Simply Voting Inc.","President","15 Dec 2011"

"Nolwen","Mahé","","Alsago Inc.","Consultant, Agile governance","02 Dec 2011"

"Marlene","Newton","","Informatique Newton Inc.","Senior Project Manager","11-juin-09"



__En regardant le contenu de chaque ligne, on constate que__ :

1. Chaque ligne se termine par le caractère spécial `\n`. Ceci se voit parce qu'il y a une ligne vide entre chaque exécution de la commande `print()`. On pourrait mieux le voir si on affichait une *slice* des 5 premiers éléments. On verra alors à la fin de chaque élément le caractère de fin de ligne (`\n`).

In [27]:
# Impression des 5 premiers éléments de la liste 'connexions'
print(connexions[0:5])

['\ufeff"First Name","Last Name","Email Address","Company","Position","Connected On"\n', '"Mélanie","Dénommée","","Essilor Canada","Chef Partenariat d\'affaires RH/HRBP Manager","17-sept-18"\n', '"Justine","Authier, MSc","","HEC Montréal","Lecturer | Database Management Course","28-mars-18"\n', '"Elodie","Champoux","","CBC","Première Analyste Intelligence d\'Affaires | Senior Business Intelligence Analyst ","27-mars-18"\n', '"Jean","Talbot","","HEC Montreal","Professeur titulaire / Full Professor","19-juin-17"\n']


2. Chaque ligne contient les données correspondant à un contact.
3. Il y a des blocs de texte séparés par des virgules. Par exemple `"Mélanie","Dénommée","","Essilor Canada ",` etc. Chaque bloc correspond à une caractéristique d'un contact.
4. La première ligne (`connexions[0]`) contient les noms de ces caractéristiques: *First Name*, *Last Name*, *Email Address*, *Company*, *Position* et *Connected On*.

In [28]:
# Impression du premier élément de la liste 'connexions'
print(connexions[0])

﻿"First Name","Last Name","Email Address","Company","Position","Connected On"



Comme nous l'avons indiqué précédemment, on voudra que chacun de ces blocs de données soit mémorisé dans une liste, un peu comme chaque caractéristique serait dans une colonne séparée dans Excel. Voyons donc à quoi nos données ressemblerait si on séparait le contenu des lignes à chaque virgule.

- On utilisera la méthode `strip()` pour supprimer les caractères invisibles (les espaces, les tabulations `\t` et les fins de ligne `\n`) aux extrémités de la ligne.
- On suivra par la commande `split()` pour obtenir la liste des blocs contenus dans une ligne.

Comme il y a 6 noms de blocs dans la première ligne (`"First Name", "Last Name", "Email Address", "Company", "Position", "Connected On"`), on s'attend donc à ce que chaque liste ainsi produite ait aussi 6 éléments. Voyons ce qui se produit si nous effectuons cette transformation et validons que le résultat est une liste de 6 éléments. Pour cette validation nous n'afficherons que l'index des lignes où le nombre de colonnes n'est pas 6.

In [16]:
# On découpe chaque ligne, ***sauf la première*** qui se trouve à l'index 0
for i in range(1, len(connexions)):
    
    # On enlève les caractères superflus et on découpe autour des virgules
    data = connexions[i].strip().split("\",\"") #on put faire '","' aussi mais pas "",""
    #strip: get rid of \n
    #split: pour ,
    
    # Si la liste 'data' ne contient pas 6 éléments, on affiche le nombre d'éléments
    # et l'index de la ligne
    if (len(data) != 6):
        print("{0} colonnes : index {1}".format(len(data), i))
        
data[0][1:]
data [5][:-1]

'11-juin-09'

On voit donc que la séparation sur la virgule `split(",")` ne donne pas le bon résultat, car __plusieurs lignes produisent plus de 6 colonnes__. Pourquoi est-ce le cas ?

Observons plus en détails une des lignes donnant le mauvais résultat.

In [30]:
# On imprime la première ligne qui n'a pas 6 éléments
print(connexions[2])

"Justine","Authier, MSc","","HEC Montréal","Lecturer | Database Management Course","28-mars-18"



On constate que le deuxième bloc de texte contient lui-même une virgule! On ne pourra donc pas simplement utiliser la virgule comme séparateur. Par contre, en observant les données un peu plus en détails, on voit que chaque bloc est encadré par un guillemet (`"`). Il serait donc plus robuste de faire la séparation avec la séquence `","`.

In [31]:
# On découpe chaque ligne, ***sauf la première*** qui se trouve à l'index 0
for i in range(1, len(connexions)):
    
    # On enlève les caractères superflus et on découpe autour de la séquence de caractères ","
    data = connexions[i].strip().split('","')
    
    # Si la liste ne contient pas 6 éléments, on affiche le nombre d'éléments et l'index de la ligne
    if (len(data) != 6):
        print("{0} colonnes : index {1}".format(len(data), i))

Effectivement, cela règle le problème du nombre de blocs. Cependant, cela ne règle pas tous les problèmes. Regardons en détails le contenu de chaque liste (correspondant à chaque ligne du fichier).

In [32]:
# On découpe chaque ligne, ***sauf la première*** qui se trouve à l'index 0
for i in range(1, len(connexions)):
    
    # On enlève les caractères superflus et on découpe autour de la séquence de caractères ","
    data = connexions[i].strip().split('","')
    
    # On affiche la liste résultante
    print(data)

['"Mélanie', 'Dénommée', '', 'Essilor Canada', "Chef Partenariat d'affaires RH/HRBP Manager", '17-sept-18"']
['"Justine', 'Authier, MSc', '', 'HEC Montréal', 'Lecturer | Database Management Course', '28-mars-18"']
['"Elodie', 'Champoux', '', 'CBC', "Première Analyste Intelligence d'Affaires | Senior Business Intelligence Analyst ", '27-mars-18"']
['"Jean', 'Talbot', '', 'HEC Montreal', 'Professeur titulaire / Full Professor', '19-juin-17"']
['"Karsten', 'Herr', '', 'Darling Ingredients Germany Holding GmbH', 'Technical Director Germany/CTO', '15-juin-16"']
['"Mina', 'Rohani', '', 'Key Lime Interactive', 'UX Researcher @ Google + Senior Quantitative Researcher @ KLI', '07-janv-15"']
['"Markos', 'Zachariadis', '', 'Ivey Business School at Western University', 'Visiting Professor/Faculty in Financial Technologies (FinTech)', '09 May 2014"']
['"Anne', 'Chartier', '', 'Université Laval', 'Associate professor / Professeure agrégée', '30-janv-14"']
['"Jean-François', 'Brodeur', '', 'Collège d

Bien que chaque liste contienne exactement 6 éléments, on observe que le premier élément contient un guillement superflu au début (par exemple, `'"Mélanie'`) et que le dernier élément contient un guillement superflu à la fin (par exemple, `'17-sept-18"'`). On voudra donc retirer ces éléments. Pour ce faire, nous utiliserons des *slices* dans les valeurs textuelles:

- La *slice* `[1:]` pour retirer le premier guillement, préservant tous les caractères partant de l'index 1 (le 2e caractère) jusqu'à la fin du texte.
- La *slice* `[:-1]` pour retirer le deuxième guillement, préservant tous les caractères du début du texte au caractère à l'index -1 (l'avant-dernier index).

En appliquant ces transformations, on constate que les données sont dans le format désiré.

In [9]:
# On découpe chaque ligne, sauf la première qui se trouve à l'index 0
for i in range(1, len(connexions)):
    
    # On enlève les caractères superflus et on découpe autour de la séquence de caractères ","
    data = connexions[i].strip().split('","')
    
    # On modifie le premier élément en retirant le premier caractère
    # data : liste contenant les six détails d’un contact
    # data[0] : isole le premier détail d’un contact (par ex., "Mélanie)
    # [1: ] : coupe ce premier détail et génère une tranche à partir de son 2ieme caractère 
                # jusqu’à la fin (par ex., Mélanie)
    # data[0] = data[0][1:] : j’assigne la chaine de caractères ainsi traité (par ex., Mélanie)
                # à mon premier détail d’un contact, « overwriting » son ancienne valeur qui était "Mélanie
    data[0] = data[0][1:]
    
    # On modifie le dernier élément en retirant le dernier caractère
    # data[-1] : isole le dernier détail d’un contact (par ex., 17-sept-18")
    # [ :-1] : coupe ce dernier détail et génère une tranche à partir de son 1er caractère 
                # jusqu’à son avant-dernier caractère (par ex., 17-sept-18)
    # data[-1] = data[-1][ :-1] : j’assigne la chaine de caractères ainsi traité (par ex., 17-sept-18)
                # à mon dernier détail d’un contact, « overwriting » son ancienne valeur qui était 17-sept-18"    
    data[-1] = data[-1][:-1]
    
    # On affiche le résultat
    print(data)

['Mélanie', 'Dénommée', '', 'Essilor Canada', "Chef Partenariat d'affaires RH/HRBP Manager", '17-sept-18']
['Justine', 'Authier, MSc', '', 'HEC Montréal', 'Lecturer | Database Management Course', '28-mars-18']
['Elodie', 'Champoux', '', 'CBC', "Première Analyste Intelligence d'Affaires | Senior Business Intelligence Analyst ", '27-mars-18']
['Jean', 'Talbot', '', 'HEC Montreal', 'Professeur titulaire / Full Professor', '19-juin-17']
['Karsten', 'Herr', '', 'Darling Ingredients Germany Holding GmbH', 'Technical Director Germany/CTO', '15-juin-16']
['Mina', 'Rohani', '', 'Key Lime Interactive', 'UX Researcher @ Google + Senior Quantitative Researcher @ KLI', '07-janv-15']
['Markos', 'Zachariadis', '', 'Ivey Business School at Western University', 'Visiting Professor/Faculty in Financial Technologies (FinTech)', '09 May 2014']
['Anne', 'Chartier', '', 'Université Laval', 'Associate professor / Professeure agrégée', '30-janv-14']
['Jean-François', 'Brodeur', '', 'Collège de Bois-de-Boulogn

Mettons tous ces éléments ensemble pour créer nos 6 listes, une par caractéristique. On voudra bien sûr passer par-dessus la première ligne qui contient le nom des caractéristiques ! On validera le tout en affichant le nombre d'éléments dans chaque liste, qui devrait selon tout vraisemblance être le même.

In [20]:
# Création de listes vides pour chaque colonne
first_name = []
last_name = []
email = []
company = []
position = []
connected_on = []

# On découpe chaque ligne, sauf la première qui se trouve à l'index 0
for i in range(1, len(connexions)):
    # On enlève les caractères superflus et on découpe autour de la séquence de caractères ","
    data = connexions[i].strip().split('","')
    
    # On modifie le premier élément en retirant le premier caractère #debarasse les guillumes au debut
    data[0] = data[0][1:]
    
    # On modifie le dernier élément en retirant le dernier caractère #debarasse les guillumes a la fin
    data[-1] = data[-1][:-1]
    
    # On ajoute les données dans la liste correspondant à la bonne colonne
    first_name.append(data[0])
    last_name.append(data[1])
    email.append(data[2])
    company.append(data[3])
    position.append(data[4])
    connected_on.append(data[5])

# On affiche la longueur des listes pour s'assurer que chacune contient le même nombre d'éléments.
print(len(first_name))
print(len(last_name))
print(len(email))
print(len(company))
print(len(position))
print(len(connected_on))

292
292
292
292
292
292


## Normaliser et compter les noms d’entreprise

Nous voulons maintenant produire des statistiques sur le nombre de contacts provenant des mêmes organisations. Comme le nom des organisations est saisie par les utilisateurs, il est possible que des erreurs ou incohérences se soient introduites lors de la saisie. Il sera donc nécessaire de faire un peu de normalisation.

- Par exemple, pour cette analyse des noms d’entreprise, nous voudrions :

    - supprimer les suffixes possibles (p.ex., Inc./Inc/LLC/LLP/Corp./Corp);
    - compter le nombre de contacts par organisation;
    - afficher les organisations avec plus d'un contact.
    
La liste des noms de compagnies se trouve dans la liste `company` que nous venons de construire.

Nous voulons réaliser de façon systématique un certain nombre de transformations, soit  :

1. supprimer les éléments non significatifs du nom des organisations,
2. effacer les données non significatives,
3. uniformiser l'orthographe de termes importants.

Pour faciliter ce travail, on définira une fonction `filter_company` effectuant ces substitutions. Cette fonction appliquera l'ensemble des substitutions, spécifiées dans une liste, comme nous l'avons illustré à la __séance 4__ (sur les fonctions).

Pour que cette fonction soit appliquée à toutes les valeurs d'une liste, on utilisera une boucle.

In [17]:
def filter_company(name): #clean (parce que on ne filte pas vraiment)
    
    # supprimer les espaces au début et à la fin du nom d'une entreprise
    string = name.strip()

    # Liste des transformations possibles du nom de l'entreprise
    transforms = [(', Inc.', ''), (', Inc', ''), (' Inc.', ''), (' Inc', ''),
                  (', inc.', ''), (', inc', ''), (' inc.', ''), (' inc', ''),
                  (', Corp.', ''), (', Corp', ''), (' Corp.', ''), (' Corp', ''),
                  (', LLC', ''), (', LLP', ''), (' LLC', ''), (' LLP', ''),
                  ('Montreal', 'Montréal')]

    for transform in transforms:
        
        # *transform : nous passons en paramètre la valeur à remplacer (p.ex. ', Inc.' )
        # et la valeur de remplacement (p.ex. '' )
        name = name.replace(*transform)
    
    return name

On applique ensuite ce filtre à tous les éléments de la liste. Pour faciliter le travail, nous allons créer une nouvelle liste contenant les données nettoyées.

In [21]:
# Initialisation de la liste
company_clean = []

# On applique la transformation à chaque nom de compagnie dans la liste 'company'
for item in company:
    
    # On applique le filtre en appelant la fonction filter_company(), précédemment définie
    filtered_c = filter_company(item)
    
    # On stocke la donnée nettoyée dans la nouvelle liste
    company_clean.append(filtered_c)

# On affiche la longueur du résultat pour s'assurer qu'on a le même nombre d'éléments
# entre la liste originale de compagnies et la liste nettoyée de compagnies
print(len(company_clean))


copmanies = [filter_company(comp) for comp in company]

292


Une première analyse est de __compter le nombre de contacts provenant des diverses organisations__ mentionnées dans la liste des connexions. Pour y arriver, on doit d'abord compter le nombre de fois que chaque compagnie est mentionnée.

Pour ce faire, nous allons construire un dictionnaire dont la clé sera le nom de la compagnie et la valeur, le nombre de fois que cette compagnie a été trouvée. Pour valider le résultat, nous allons faire la somme des décomptes. Cette somme devrait être égale au nombre d'éléments de la liste originale.

__Attention!__ :

- Il faut s'assurer que le nom existe déjà dans le dictionnaire. Lorsqu'on le trouve pour la première fois, on va __initialiser__ (c.-à-d., donner une valeur initiale) le compteur à 0. 
- Lorsqu'on rencontre un nom déjà présent, il faut __incrémenter__ (c.-à-dire, augmenter de 1) le nombre d'occurences.

In [23]:
# Création du dictionnaire vide
company_count = {}

# On traite chaque nom de compagnie se trouvant dans la liste company_clean
for name in company_clean:
    
    # On vérifie que cette compagnie est déjà présente ou non dans le dictionnaire
    # Attention ! Il faut utiliser la fonction get() sinon il y a une erreur d'exécution
    # La valeur n'est pas présente si get() retourne la valeur None
    if company_count.get(name) == None:
        
        # On crée une entrée dans le dictionnaire avec une clé item et, comme valeur, 
        # le décompte 0. On va l'incrémenter tout de suite après !
        company_count[name] = 0 

    # On incrémente le décompte dans notre dictionnaire, company_count {}:
    # nouveau décompte = ancien décompte + 1
    # pour chaque compagnie, la première fois, l'ancien décompte est 0 !
    company_count[name] = company_count[name] + 1

    
# juste de la vérification du nombre d'entreprises traitées
decompte = 0

for item in company_count:
    decompte = decompte + company_count[item]

print(decompte)
print(len(company))

292
292


In [14]:
# Qu'est-ce que j'ai dans mon dictionnaire company_count {} ?
# Clés : noms des compagnies
# Valeurs : nombre des gens qui y travaillent
print(company_count)

{'Essilor Canada': 1, 'HEC Montréal': 20, 'CBC': 1, 'Darling Ingredients Germany Holding GmbH': 1, 'Key Lime Interactive': 1, 'Ivey Business School at Western University': 1, 'Université Laval': 4, 'Collège de Bois-de-Boulogne': 1, "CIUSSS de l'Estrie - CHUS": 1, 'Why-What-How Consulting': 1, 'Banque Nationale': 2, 'Amgen': 1, 'Warwick Business School': 4, 'National Research Council Canada / Conseil national de recherches Canada': 1, 'University of Wales Trinity Saint David': 1, 'Toulouse School of Economics': 1, 'ProdamSam.com': 1, 'Creative Destruction Lab - Montréal': 1, 'Breathe Life': 1, 'TELUS Business': 1, 'IBM Client Innovation Center Montréal': 1, 'Olam': 1, 'Lumesse': 1, 'Highways England': 1, 'University of Warwick - Warwick Business School': 1, 'Microsoft': 1, 'EM Lyon': 1, 'PlayStation Europe': 1, 'VALUE RETAIL MANAGEMENT LIMITED': 1, 'Transport for London': 1, 'Mehdi Lahlou': 1, 'Atos': 1, 'Ubisoft Montréal': 1, 'University of Virginia': 1, "O'Connor Notaire et conseiller

Pour afficher les données, on voudra trier les données du dictionnaire que nous venons de produire.

__Attention!__ On ne peut pas garantir l'ordre des clés d'un dictionnaire. On peut par contre trier la liste des clés et accéder au dictionnaire dans l'ordre désiré. Il faut donc trouver une façon de trier les clés, mais en utilisant les valeurs du dictionnaire pour faire le tri. La solution est d'utiliser le paramètre `key` qui indique la fonction à utiliser pour effectuer le tri.

De plus, on ne voudra afficher que les organisations avec __au moins 2 contacts__ et ne pas afficher lorsque la compagnie n'est pas mentionnée.

In [25]:
# On veut trier les clés du dictionnaire, company_count {}, par ordre décroissant de la
# valeur (nombre de gens qui y travaillent) associée à la clé (nom d'une compagnie) !

# sorted : les valeurs dans company_count {} ne sont pas triées par défaut, donc il faudra les trier
# company_count : le dictionnaire contenant les données
# __getitem__ : retourne la valeur associé à une clé dans le dictionnaire
# key : donne la fonction utilisée pour la clé de tri
# reverse=True : on veut en ordre du plus grand au plus petit
for item in sorted(company_count, key=company_count.__getitem__, reverse=True):
    #reverse= True --> descendre
    #key --> the variable that I want to sort for
    
    # s'il y a une clé (compagnie nommée) et que plus de deux personnes y travaillent, imprimez-la
    if item != '' and company_count[item] > 5:
        print("{0} : {1}".format(item,company_count[item]))

HEC Montréal : 20
McGill University : 19


## Normaliser et compter les noms de postes

La même approche que celle utilisée pour normaliser les noms d’entreprises peut être utilisée pour normaliser les noms de postes. Cependant, cette normalisation est plus complexe que la normalisation des noms d’entreprises en raison du __caractère variable de la nomenclature des titres de poste__. Par exemple, observez les noms de postes suivants :

- __Software engineer__, aussi connu sous le nom : _software architect_, _system engineer_. ...
- __Application programmer__, aussi connu sous le nom : _system programmer_. ...
- __Technical support__, aussi connu sous le nom : _IT support_, _technical consultant_. ...
- etc.

Bien qu'il soit possible de définir une liste d'alias ou d'abréviations associant des noms de postes tels "system engineer" à "software engineer", il peut ne pas être pratique de toujours définir ces listes, dans un cas général pour tous les domaines possibles.

Cependant, il ne devrait pas être trop difficile de mettre en œuvre une solution qui traite les données au point où un expert puisse les examiner relativement facilement. Ce programme peut alors appliquer les règles de la même manière que l'expert l'aurait fait.

Reprenons les mêmes concepts de normalisation des noms d’entreprise pour normaliser les noms de postes, puis effectuons une analyse de la fréquence à laquelle les noms de postes apparaissent.


Dans un premier temps, __affichons la liste des postes__ de nos contacts dans la liste `position`.

In [16]:
for p in position:
    print(p)

Chef Partenariat d'affaires RH/HRBP Manager
Lecturer | Database Management Course
Première Analyste Intelligence d'Affaires | Senior Business Intelligence Analyst 
Professeur titulaire / Full Professor
Technical Director Germany/CTO
UX Researcher @ Google + Senior Quantitative Researcher @ KLI
Visiting Professor/Faculty in Financial Technologies (FinTech)
Associate professor / Professeure agrégée
Enseignant département d'informatique / Teacher
Resident Physician / Médecin Résident
Independent Consultant/Owner
Senior Analyst / Developer IBM WebSphere Portal
Executive Biopharmaceutical Representative - Rheumatology/Dermatology
Group Coordinator
Doctoral Candidate
Data Scientist
Chargée de cours - Management Interculturel
Visiting Lecturer
Phd Candidate
Web Strategist, Partner
Venture Recruiter
Projet supervisé de maîtrise - science des données
Product Manager
Business Transformation Consultant: Talent & Mobilisation
Head of Legal, Europe
Head of Business Transformation
Director, Departme

On constate que certains de ces postes sont en fait une liste de postes, séparés par une barre verticale `|`, une barre oblique `/` ou un plus `+`. On voudrait donc modifier notre liste pour que ces différents titres soient associés au contact correspondant. On utilisera une liste de liste que l'on appellera `position_matrix`! Chaque élément de la liste `position_matrix` contiendra la liste des postes associés à un contact donné.

L'idée ici est de découper le titre en une liste de titres lorsque les caractères `|`, `/` ou `+` sont présents. Si aucun de ces caractères n'est présent, la liste ne contiendra qu'un seul élément.

Voici la recette à utiliser pour faire cette transformation.

Tout d'abord, on veut créer une nouvelle liste qui contiendra la valeur actuelle, mais à l'intérieur d'une liste.

In [17]:
# On crée la liste des listes de postes
position_matrix = []

# On ajoute un élément pour le texte des postes associés à chaque contact
for item in position:
    # La valeur ajoutée est l'ancien texte, placé dans une liste!
    position_matrix.append( [ item.strip() ])

# On affiche le premier élément et le nombre d'éléments de la liste originale
print(position[0])
print(len(position))

# On affiche le premier élément et le nombre d'éléments de la nouvelle liste
print(position_matrix[0])
print(len(position_matrix))

Chef Partenariat d'affaires RH/HRBP Manager
292
["Chef Partenariat d'affaires RH/HRBP Manager"]
292


Définissons une fonction qui pourra faire l'expension sur un caractère quelconque. Par exemple en prenant `"Chef Partenariat d'affaires RH / HRBP Manager"` et le séparer en `'Chef Partenariat d'affaires RH', 'HRBP Manager'`.

In [18]:
def expand_on_char(matrice, char):
    # On crée une liste temporaire
    temp = []

    # On traite toutes les listes de poste dans la liste position_matrix
    for plist in matrice:
        # On crée une sous-liste temporaire
        temp2 = []
        # On traite chaque élément de plist
        for p in plist:
            # On traite chaque élément obtenu en faisant la séparation sur le caractère de séparation
            for x in p.split(char):
                temp2.append( x.strip() )

        temp.append(temp2)
    
    return temp

Commençons la transformation avec le caractère `|`. On veut faire le découpage de chaque élément de la liste de poste sur le caractère `|`. On appelle notre méthode avec ce caractère.

In [19]:
# On fait l'expension de la liste avec la fonction expand_on_char
position_matrix = expand_on_char(position_matrix, "|")

# On affiche les premiers éléments qui contiennent un |, / ou + et le nombre d'éléments de la liste originale
print(position[0])
print(position[1])
print(position[5])
print(len(position))

# On affiche les premiers éléments qui contiennent un |, / ou + et le nombre d'éléments de la nouvelle liste
print(position_matrix[0])
print(position_matrix[1])
print(position_matrix[5])
print(len(position_matrix))

Chef Partenariat d'affaires RH/HRBP Manager
Lecturer | Database Management Course
UX Researcher @ Google + Senior Quantitative Researcher @ KLI
292
["Chef Partenariat d'affaires RH/HRBP Manager"]
['Lecturer', 'Database Management Course']
['UX Researcher @ Google + Senior Quantitative Researcher @ KLI']
292


Poursuivons avec la transformation avec les caractères `/` et `+`.

In [20]:
# On fait l'expension de la liste avec la fonction expand_on_char
position_matrix = expand_on_char(position_matrix, "/")
position_matrix = expand_on_char(position_matrix, "+")

# On affiche les premiers éléments qui contiennent un |, / ou + et le nombre d'éléments de la liste originale
print(position[0])
print(position[1])
print(position[5])
print(len(position))

# On affiche les premiers éléments qui contiennent un |, / ou + et le nombre d'éléments de la nouvelle liste
print(position_matrix[0])
print(position_matrix[1])
print(position_matrix[5])
print(len(position_matrix))

Chef Partenariat d'affaires RH/HRBP Manager
Lecturer | Database Management Course
UX Researcher @ Google + Senior Quantitative Researcher @ KLI
292
["Chef Partenariat d'affaires RH", 'HRBP Manager']
['Lecturer', 'Database Management Course']
['UX Researcher @ Google', 'Senior Quantitative Researcher @ KLI']
292


Maintenant que la liste des postes est obtenue, on peut en faire l'affichage avec le nom de la personne qui occupe ses postes.

In [21]:
# On passe à travers tous les éléments des deux listes.
for i in range(0,len(first_name)):
    # On affiche les données pour un contact
    # La fonction join permet de faire un bel affichage de la liste de poste associée à un contact
    print("{0} {1} : {2}".format(first_name[i], last_name[i], ", ".join(position_matrix[i])))

Mélanie Dénommée : Chef Partenariat d'affaires RH, HRBP Manager
Justine Authier, MSc : Lecturer, Database Management Course
Elodie Champoux : Première Analyste Intelligence d'Affaires, Senior Business Intelligence Analyst
Jean Talbot : Professeur titulaire, Full Professor
Karsten Herr : Technical Director Germany, CTO
Mina Rohani : UX Researcher @ Google, Senior Quantitative Researcher @ KLI
Markos Zachariadis : Visiting Professor, Faculty in Financial Technologies (FinTech)
Anne Chartier : Associate professor, Professeure agrégée
Jean-François Brodeur : Enseignant département d'informatique, Teacher
Eric Segal, MD, MSc, BCom, BSc : Resident Physician, Médecin Résident
Razvan Radulian : Independent Consultant, Owner
Augustin Bilolo : Senior Analyst, Developer IBM WebSphere Portal
Ben Breiner : Executive Biopharmaceutical Representative - Rheumatology, Dermatology
Nita Hayre : Group Coordinator
Don MacLean : Doctoral Candidate
Karim Emond : Data Scientist
Charlotte Blanche : Chargée de 

Nous pouvons maintenant effectuer __le même genre de nettoyage et d'analyse de fréquence__ que celle réalisée pour les organisations. Ici, nous devrons normaliser les titres plutôt que les noms de compagnie. On se rappellera que la liste des titres est en fait une liste de listes de titres.

Définissons d'abord une fonction pour filter les titres de poste.

In [22]:
def filter_position(x):

    # supprimer les espaces au début et à la fin du nom d'un poste
    string = x.strip()

    # Liste des transformations possibles dans le nom d'un poste
    transforms = [
        ('Sr.', 'Senior'), ('Sr', 'Senior'),
        ('Jr.', 'Junior'), ('Jr', 'Junior'),
        ('CEO', 'Chief Executive Officer'),
        ('COO', 'Chief Operating Officer'),
        ('CTO', 'Chief Technology Officer'),
        ('CFO', 'Chief Finance Officer'),
        ('AVP', 'Associate Vice President'),
        ('PHD', 'PhD'),
        ('Phd', 'PhD'),
        ('nan', ''),
        ('VP', 'Vice President'),
        ('Software architect','Software engineer'), ('System engineer','Software engineer'),
        ('System programmer','Application programmer'),
        ('professor', 'Professor'),
    ]

    # *transform : nous passons en paramètre la valeur à remplacer (p.ex. ', Sr.' )
    # et la valeur de remplacement (p.ex. 'Senior' )
    for transform in transforms:
        string = string.replace(*transform)
    
    return string

On peut maintenant appliquer cette méthode à l'ensemble des titres.

In [23]:
# Initialisation de la liste
position_clean = []

# On applique la transformation à chaque liste de titres
for plist in position_matrix:
    # On applique la transformation à chaque titre d'une liste
    
    plist_clean = []
    for p in plist:
        # On applique le filtre
        filtered_p = filter_company(p)

        # On stocke la donnée filtrée dans la nouvelle liste
        plist_clean.append(filtered_p)
        
    # On ajoute cette liste à la liste globale
    position_clean.append(plist_clean)

# On affiche la longueur du résultat pour s'assurer qu'on a le même nombre d'éléments
print(len(position_clean))

292


Nous déterminons la fréquence des noms de poste de façon similaire à la fréquence des noms de compagnies, tout en considérant que nous avons une liste de listes! Ici par contre, nous ne pourront pas valider que notre processus fonctionne en calculant le décompte du nombre de postes. __Pourquoi est-ce le cas ?__

In [24]:
# Création du dictionnaire vide
position_count = {}

# On traite toutes les listes de titres de postes
for plist in position_matrix:

    # On traite chaque poste
    for p in plist:

        # On vérifie que ce titre est déjà présent ou non dans le dict
        # Attention! Il faut utiliser la fonction get() sinon il y a une erreur d'exécution
        # La valeur n'est pas présente si get() retourne la valeur None
        if position_count.get(p) == None:
            # On crée une entrée dans le dict avec le décompte à 0
            # On va l'incrémenter tout de suite après!
            position_count[p] = 0

        # On incrémente le décompte : nouveau décompte = ancien décompte + 1
        # La première fois, l'ancien décompte est 0!
        position_count[p] = position_count[p] + 1

# On veut trier les clés du dict par ordre décroissant de la valeur associée à la clé!
# le paramètre reverse=True indique qu'on veut en ordre du plus grand au plus petit.
# le paramètre key donne la fonction utilisée pour la clé de tri
# la fonction __getitem__ utilisée ici retourne l'item associé à une clé dans le dict
for p in sorted(position_count, key=position_count.__getitem__, reverse=True):
    print("{0} : {1}".format(p, position_count[p]))

Assistant Professor : 23
Associate Professor : 12
 : 10
Professor : 7
Assistant Professor of Information Systems : 3
Lecturer : 2
Full Professor : 2
Owner : 2
Senior Analyst : 2
Postdoctoral Researcher : 2
Lecturer (Assistant Professor) in Information Systems : 2
Director : 2
Managing Director : 2
Manager : 2
Senior Project Manager : 2
President : 2
Chef Partenariat d'affaires RH : 1
HRBP Manager : 1
Database Management Course : 1
Première Analyste Intelligence d'Affaires : 1
Senior Business Intelligence Analyst : 1
Professeur titulaire : 1
Technical Director Germany : 1
CTO : 1
UX Researcher @ Google : 1
Senior Quantitative Researcher @ KLI : 1
Visiting Professor : 1
Faculty in Financial Technologies (FinTech) : 1
Associate professor : 1
Professeure agrégée : 1
Enseignant département d'informatique : 1
Teacher : 1
Resident Physician : 1
Médecin Résident : 1
Independent Consultant : 1
Developer IBM WebSphere Portal : 1
Executive Biopharmaceutical Representative - Rheumatology : 1
Derma

__Question__ : Sur la base de ces résultats, comment ajusteriez-vous la liste des alias et des abréviations dans la fonction `filter_position` afin que le programme génère un résultat précis et plus concis?