<br>
<div align="right">Enseignant : Aric Wizenberg</div>
<div align="right">E-mail : icarwiz@yahoo.fr</div>
<div align="right">Année : 2018/2019</div><br><br><br>
<div align="center"><span style="font-family:Lucida Caligraphy;font-size:32px;color:darkgreen">Master 2 MASERATI - Cours de Python</span></div><br><br>
<div align="center"><span style="font-family:Lucida Caligraphy;font-size:24px;color:#e60000">Traitement de données</span></div><br><br>
<hr>

# Initialisation

Chargeons d'abord les modules ainsi qu'un jeu de données

In [1]:
import pandas as pd
import numpy as np

In [2]:
df_gflight = pd.read_csv('../data/Googleflights.csv', sep=';', decimal=',')

Jettons un coup d'oeil à la table

In [3]:
df_gflight.sample(5)

Unnamed: 0,id,respid,extrtime,origin,destination,company,depdate,arrdate,duration,flighttype,price,stopover,stopovertime
693,6,2,15/01/2016 10:12:52,SXB,NTE,HOP!,2016-03-15T14:50:00,2016-03-15T16:15:00,1.416667,aller simple,61.0,Sans escale,
626,5,79,15/01/2016 10:12:46,MRS,NTE,Air France-Air France,2016-03-15T20:00:00,2016-03-16T10:30:00,14.5,aller simple,107.0,1 escale,12h 00min à ORY
5792,67,54,15/01/2016 10:18:56,LRT,NCE,Air France-Air France,2016-03-15T18:00:00,2016-03-16T14:40:00,20.666667,aller simple,172.0,1 escale,17h 45min à CDG
2822,33,55,15/01/2016 10:15:33,ORY,RNS,Air France-HOP!,2016-03-15T09:55:00,2016-03-16T09:30:00,23.583333,aller simple,129.0,1 escale,21h 15min à TLS
5913,72,3,15/01/2016 10:19:24,UIP,MRS,Air France-Air France,2016-03-15T18:15:00,2016-03-15T21:55:00,3.666667,aller simple,86.0,1 escale,55min à ORY


In [4]:
df_gflight.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6815 entries, 0 to 6814
Data columns (total 13 columns):
id              6815 non-null int64
respid          6815 non-null int64
extrtime        6815 non-null object
origin          6815 non-null object
destination     6815 non-null object
company         6815 non-null object
depdate         6815 non-null object
arrdate         6815 non-null object
duration        6813 non-null float64
flighttype      6815 non-null object
price           6805 non-null float64
stopover        6815 non-null object
stopovertime    6672 non-null object
dtypes: float64(2), int64(2), object(9)
memory usage: 692.2+ KB


# Chaines de caractères

## Modifier une série de manière systématique grâce à map

### Sur la base d'un dictionnaire

La méthode **Series.map()** permet, en utilisant un dictionnaire de "correspondance" de convertir des modalités en d'autres modalités

In [5]:
df_gflight['stopover'].unique()

array(['Sans escale', '1 escale'], dtype=object)

In [6]:
dict_escales = {
    'Sans escale' : 0,
    '1 escale' : 1,
}

In [7]:
df_gflight['stopover'] = df_gflight['stopover'].map(dict_escales)

In [8]:
df_gflight['stopover'].sample(5)

5559    1
2039    1
6441    1
4956    1
5335    1
Name: stopover, dtype: int64

### Sur la base d'une fonction

La méthode **Series.map()** permet aussi d'appliquer une fonction à chaque élément d'une Series

In [9]:
df_gflight['stopovertime'].unique()

array([nan, '45min à LYS', '1h 40min à LYS', ..., '21h 55min à MRS',
       '11h 50min à MRS', '23h 50min à NCE'], dtype=object)

On peut par exemple appliquer la fonction suivante pour transformer nos ids en chaines de caractères en index

In [10]:
def conv_func(val):
    if val is np.nan:
        return np.nan
    else:
        if 'h ' in val:
            heures = int(val.split('h ')[0]) #Decoupe selon 'h ' et après le convertir en entier.
            minutes = int(val.split('h ')[1].split('min')[0]) #Decoupe en plus selon 'Min' maintenant.
            return heures + minutes/60
        elif 'min' in val:
            return int(val.split('min')[0])/60
        else:
            raise BaseException('Problème')

In [11]:
df_gflight['stop_time'] = df_gflight['stopovertime'].map(conv_func)

In [12]:
df_gflight[['stopovertime', 'stop_time']].sample(5)

Unnamed: 0,stopovertime,stop_time
1672,8h 05min à CDG,8.083333
3902,11h 55min à AMS,11.916667
401,6h 50min à ORY,6.833333
4928,12h 50min à ORY,12.833333
2639,10h 55min à ORY,10.916667


On peut faire de même pour extraire les aéroports de correspondance. Ici, c'est une fonction lambda qui est utilisée :

In [15]:
def ma_fonc(x):
    if x is np.nan:
        return ''
    else:
        return x.split(' à ')[l]

In [13]:
df_gflight['stop_place'] = df_gflight['stopovertime'].map(lambda x: '' if x is np.nan else x.split(' à ')[1])

In [14]:
df_gflight[['stopovertime', 'stop_place']].sample(5)

Unnamed: 0,stopovertime,stop_place
1506,9h 25min à ORY,ORY
5384,7h 50min à CDG,CDG
5947,26h 00min à CDG,CDG
1469,23h 25min à ORY,ORY
2404,22h 15min à ORY,ORY


<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> <a href=https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.map.html> Doc officielle Pandas sur la <b>méthode map</b></a></div>

## Objet .str

Une autre manière aurait été de prendre les 3 derniers caractères de la chaine de caractères, pour faire des opérations de type méthode de **str** sur une Serie **object**, on peut utiliser l'objet **.str**

In [None]:
df_gflight['stopovertime'].str[-3:].sample(5)

La plupart des méthodes aprises dans le cadre des chaines de caractères peuvent être utilisées avec l'objet **.str** :

In [None]:
df_gflight['stopovertime'].str.split().sample(5)

In [None]:
df_gflight['stopovertime'].str.upper().sample(5)

<div class="alert alert-block alert-info">
<b>Pour aller plus loin:</b> <a href=https://pandas.pydata.org/pandas-docs/stable/text.html> Tutoriel sur le <b>traitement de chaines de caractères </b></a>
</div>

# Valeurs manquantes

Remarque :

les **object** et **floatXX** contenir des **numpy.nan** (**valeur manquante** dans une **numpy.ndarray**, et par héritage **pandas.Series** et **pandas.DataFrame**), pas les **intXX**

## Savoir quelles cases sont nulles

In [None]:
df_gflight.isnull().head()

Ou l'inverse :

In [None]:
df_gflight.notnull().head()

On peut les compter ainsi (car True est considéré = 1 et False = 0):

In [None]:
df_gflight.isnull().sum()

## Supprimer les lignes où il y a des valeurs manquantes

C'est typiquement ce qu'on voudra faire avec les valeurs manquantes sur notre variable expliquée

In [None]:
df_gflight = df_gflight.dropna(subset=['price'])

In [None]:
df_gflight.isnull().sum()

## Initialiser les valeurs manquantes d'une variable explicative à la valeur moyenne

In [None]:
df_gflight['duration'] = df_gflight['duration'].fillna(df_gflight['duration'].mean())

In [None]:
df_gflight.isnull().sum()

## Initialiser les valeurs manquantes d'une variable explicative à une modalité

In [None]:
df_gflight['stop_time'] = df_gflight['stop_time'].fillna(0)

In [None]:
df_gflight.isnull().sum()

<div class="alert alert-block alert-info">
<b>Pour aller plus loin:</b> <a href=https://pandas.pydata.org/pandas-docs/stable/missing_data.html> Tutoriel sur le <b>traitement des valeurs manquantes</b></a>
</div>

# Ajout/suppression de colonnes

## Ajouter une colonne

Ajoutons la Series représentant le temps en vol, qui est la différence entre la durée totale et le temps en correspondance :

In [None]:
df_gflight['inflight'] = df_gflight['duration'] - df_gflight['stop_time']

## Supprimer une colonne

Lorsqu'il y a des Series avec une seule modalité, elles sont généralement inutiles

In [None]:
df_gflight['flighttype'].unique()

Profitons-en pour supprimer quelques Series inutiles

In [None]:
df_gflight = df_gflight.drop(['flighttype', 'stopovertime', 'id', 'respid', 'extrtime'], axis=1)

**axis=1** car on veut supprimer des colonnes et que l'axe 0, ce sont les lignes

# Séries temporelles

## Conversion en format date

Les variables temporelles en format texte sont aussi très difficiles à exploiter. On va **a minima** les transformer en objet **Timestamp** (l'objet de la librairie pandas permettant de donner une valeur temporelle précise)

In [None]:
for elem in ['depdate', 'arrdate']:
    df_gflight[elem] = pd.to_datetime(df_gflight[elem])

Normalement, to_datetime() fonctionne bien (surtout quand on lui demande de travailler sur un grand nombre de cas possibles, car il a alors moins de chance de se tromper en déterminant automatiquement un format de date/heure)

Mais on peut le forcer à adopter un format précis pour éviter toute erreur :

In [None]:
pd.to_datetime(df_gflight['depdate'], format='%Y-%m-%dT%H:%M:%S').head()

## Conversion en float

Le format de séries temporelles que nous avons utilisé ne va pas nous convenir pour les régressions et les algotithmes de Data Science (il nous... On peut ajouter des colonnes calculant des timedelta, un nombre d'unité de temps (des jours par exemple, **D**) depuis une date de référence. Une bonne idée peut être de prendre la plus ancienne des dates des colonnes concernées...

In [None]:
df_gflight['depdate'].min()

In [None]:
df_gflight['depdate'].max()

In [None]:
df_gflight['time'] = (df_gflight['depdate'] - df_gflight['depdate'].min()) / np.timedelta64(1,'D')

<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> <a href=https://docs.scipy.org/doc/numpy/reference/arrays.datetime.html> Doc officielle Numpy sur les <b>objets datetime</b></a></div>

## Objet .dt

Comme pour les Series de chaines de caractères, pour lesquelles il existe un objet **.str**, pour les Series de dates, il existe un objet **.dt** qui permet de faire appel aux méthode des objets **datetime.datetime**

In [None]:
df_gflight['depdate'].dt.hour.sample(5)

In [None]:
df_gflight['depdate'].dt.dayofweek.sample(5)

In [None]:
df_gflight['depdate'].dt.time.sample(5)

<div class="alert alert-block alert-info">
<b>Pour aller plus loin:</b> <a href=https://pandas.pydata.org/pandas-docs/stable/timeseries.html> Tutoriel sur le <b>traitement des séries temporelles</b></a>
</div>

# Catégories

## Object ou Category

Généralement, on essaie de faire en sorte d'avoir le moins de colonnes de type **object** (**str**) dans nos DataFrame, c'est le type que pandas assigne par défaut aux données qui ont l'air d'être des chaines de caractères.

Ce type pose deux problèmes:
- Il prend beaucoup de place en mémoire
- Il est le plus difficile à traiter dans le cadre de l'analyse

Et c'est rare qu'une colonne ait de bonnes raisons d'être de ce type (à part les trucs du genre colonne de commentaires). On va généralement convertir le plus de colonnes possible en types standardisés, plus faciles à exploiter ou retransformer

A l'inverse, dans les Data Science, on aime les nombres à virgule, les **float** qui sont utilisables par les algorithmes.

In [None]:
df_gflight.info()

## Générer des catégories

On peut convertir les colonnes en utilisant la méthode **pandas.Series.astype('category')**

In [None]:
for elem in ['origin', 'destination', 'stopover', 'company', 'stop_place']:
    df_gflight[elem] = df_gflight[elem].astype('category')

In [None]:
df_gflight.info()

## Objet .cat

De même que les chaines de caractères ont **.str** et les dates ont **.dt**, les catégories ont **.cat**

In [None]:
df_gflight['origin'].sample(5)

In [None]:
df_gflight['origin'].cat.codes.sample(5)

In [None]:
df_gflight['origin'].cat.categories

<div class="alert alert-block alert-info">
<b>Pour aller plus loin:</b> <a href=https://pandas.pydata.org/pandas-docs/stable/categorical.html> Tutoriel sur le <b>traitement des catégories</b></a>
</div>

## Génération de variables muettes

Les variables catégorielles posent encore plus de problèmes, auxquels on peut apporter plusieurs solutions:
- transformer les variables en dummies à deux modalités en choix 0 / 1
- transformer les variables multimodales :
    - soit en équivalent numérique si ça a un sens, si l'on pense que la distance numérique entre deux modalités correspond à ce que l'on au modélise... (par exemple : 1, 2 ou 3 chambres ? Est-ce que la distance entre 1 et 2 chambres est bien égale à la distance entre 2 et 3 chambres? Souvent ce ne sera pas un bon choix en termes de modèle)
    - soit en une série de variables oui / non (souvent un meilleur choix lorsque l'on peut se permettre de perdre le nombre de degrés de liberté correspondant au nombre de modalités - 1), en retirant toujours une modalité de référence
    - soit en une valeur numérique "représentant" la modalité (centre de gravité ou autre)

Une solution est de générer automatiquement des dummies à partir de catégories de type chaine de caractère en utilisant la fonction **pandas.get_dummies(series)** (**conseil :** utilisez-là avec l'option **drop_first=True** ou supprimez manuelement la serie qui servira de référence, pour éviter d'avoir un problème de **multicolinéarité parfaite** lors d'une régression) 

In [None]:
df_dummies = pd.get_dummies(df_gflight['destination'], drop_first=True)
df_dummies.sample(5)

On peut ensuite ajouter ces nouvelles variables en faisant une concaténation

# Ecriture dans un fichier

Stockons cette base de données modifiée, sous format Excel (pour visualiser facilement les données

In [None]:
df_gflight.to_excel('../output/Output_GFLT.xlsx')

Sous format **Pickle** (le format pure Python) juste pour pouvoir récupérer les données dans un autre notebook à **100% identique au DataFrame que nous avons ici**.

Les **catégories** en particulier sont un type qu'Excel ne sait pas gérer contrairement à Python... On perdrait donc cela en rechargeant depuis le fichier Excel)

In [None]:
df_gflight.to_pickle('../output/Output_GFLT.pickle')

# Jointures et concatenations

## Concaténation

On peut facilement ajouter des lignes à un DataFrame en utilisant la fonction **pandas.concat()**. 

Elle prend comme seul argument obligatoire un **tuple** ou une **list** de **DataFrame** (on peut en concatener plusieurs d'un coup)

In [None]:
df_gflight_avec_dummies = pd.concat([df_gflight, df_dummies], axis=1)

df_gflight_avec_dummies.sample(5)

Attention, ici il faut concatener des DataFrame dans le sens des colonnes, pas dans le sens des lignes, il faut alors spécifier le paramètre **axis=1**

<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> <a href=https://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html> Doc officielle sur la méthode <b> .concat()</b></a></div>

## Jointure

In [None]:
df_aero = pd.read_csv('../data/airports.csv', sep=';')

In [None]:
df_aero.head()

In [None]:
assert len(df_aero) == len(df_aero['Code'].unique())
df_aero = df_aero.set_index('Code')

In [None]:
df_aero.head()

In [None]:
df_gflight.head()

In [None]:
new_df = pd.merge(
    df_gflight, # table de gauche
    df_aero[['Name']], # table de droite
    how='inner', # mode de jointure : inner, outer, left, right
    left_on='origin', # colonne utilisée pour la jointure dans la table de gauche
    right_index=True,  # au lieu d'une colonne on utilise l'index de la table de droite
)
# on utilise le paramètre on='col_name' lorsque le nom de colonne est le même
# dans les deux dataframe, dans ce cas, ça remplace les paramètres
# left_on, right_on, left_index, right_index

new_df = new_df.rename({'Name': 'name_orig'}, axis=1)

In [None]:
new_df.head()

In [None]:
new_df = pd.merge(
    new_df,
    df_aero[['Name']],
    how='inner',
    left_on='destination',
    right_index=True,
)

new_df = new_df.rename({'Name': 'name_dest'}, axis=1)

In [None]:
assert len(new_df) == len(df_gflight)

In [None]:
new_df.sample(3).T

<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> <a href=https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html> Doc officielle sur la méthode <b>.merge()</b></a></div>

---

<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> <a href=https://pandas.pydata.org/pandas-docs/stable/merging.html>Tutoriel sur les <b> jointures et concatenations </b></a></div>