In [1]:
import numpy as np
import pandas as pd
import re

data = pd.read_csv('datasets/personnes.csv')
data

Unnamed: 0,prenom,email,date_naissance,pays,taille
0,Leila,leila@example.com,23/01/1990,France,1.49m
1,Samuel,samuel_329@example.com,20/09/2001,,1.67m
2,Radia,choupipoune@supermail.eu,12 sept. 1984,Côte d'ivoire,153cm
3,Marc,"marco23@example.com, mc23@supermail.eu",10/02/1978,France,1.65m
4,Heri,helloworld@supermail.eu,05/03/2008,Madagascar,1.34m
5,Hanna,hanna2019@supermail.eu,01/01/1970,24,3.45m
6,samuël,samuel_329@example.com,,Bénin,1.45m


In [2]:
# string en entrée, output une string lowercase.
def lower_case(value):
    return value.lower()

# verifie que la valeur de pays est valide.
VALID_COUNTRIES = ['France', 'Côte d\'ivoire', 'Madagascar', 'Bénin', 'Allemagne', 'USA']
def check_valid_countries(value):
    if value not in VALID_COUNTRIES:
        return np.NaN
    else:
        return value

# recupere que le premier email si plusieurs
def first_email(value):
    # separe les differentes addresses si plusieurs.
    parts = value.split(sep=', ')
    return parts[0]

# converti string en decimale
def convert_height(value):
    # vérifie si la taille est bien formatée : un chiffre, suivi d'un point, puis 2 chiffres, puis un "m".
    found = re.search('\d\.\d{2}m', value)
    if found:
        # converti en nb (supp le "m")
        return float(value[:-1])
    else: # si pas au format return NaN
        return np.NaN

#repmplace valeurs manquantes par moyenne echantillon
def fill_height(value, moy):
    if pd.isnull(value): # si (None, NaN ou Nat)
        return moy
    else:
        return value

In [3]:
data['prenom'] = data['prenom'].apply(lower_case)
data['pays'] = data['pays'].apply(check_valid_countries)
data['email'] = data['email'].apply(first_email)
data['taille'] = data['taille'].apply(convert_height)
data['taille'] = [t if t<3 else np.NaN for t in data['taille']]

moy = data['taille'].mean()
data['taille'] = [fill_height(t,moy) for t in data['taille']]
data['date_naissance'] = pd.to_datetime(data['date_naissance'], format='%d/%m/%Y', errors='coerce')

In [4]:
data

Unnamed: 0,prenom,email,date_naissance,pays,taille
0,leila,leila@example.com,1990-01-23,France,1.49
1,samuel,samuel_329@example.com,2001-09-20,,1.67
2,radia,choupipoune@supermail.eu,NaT,Côte d'ivoire,1.52
3,marc,marco23@example.com,1978-02-10,France,1.65
4,heri,helloworld@supermail.eu,2008-03-05,Madagascar,1.34
5,hanna,hanna2019@supermail.eu,1970-01-01,,1.52
6,samuël,samuel_329@example.com,NaT,Bénin,1.45
