## Exemple d'utilisation de pandas

In [14]:
import pandas as pd

In [15]:
liste_nom = ["Marwa",
"Samy",
"Matthis",
"Saleh",
"Gaëtan",
"Nabil",
"Loïc",
"Chaima",
"Emese",
"Fadilatou",
"Thibaud",
"Kyrylo"]

trip = {
    'nom': liste_nom,
    'destination': ['Montpellier', 'Paris', 'Bordeaux', 'Toulouse', 'Paris', 'Montpellier', 'Bordeaux', 'Paris', 'Montpellier', 'Bordeaux', 'Paris', "Montpellier"],
    'duree': [10, 7, 12, 5, 14, 6, 10, 11, 2, 3, 10, 15],
    'transport': ['train', 'voiture', 'covoiturage', 'bus', 'bus', 'train', 'covoiturage', 'voiture', "covoiturage", "voiture", "voiture", "voiture"]
}

df = pd.DataFrame(trip)

# Définition de la colonne nom pour l'index - sinon index défini par défault 0 --> n (n=nombre de lignes)
df.set_index("nom", inplace=True)

In [16]:
df

Unnamed: 0_level_0,destination,duree,transport
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Marwa,Montpellier,10,train
Samy,Paris,7,voiture
Matthis,Bordeaux,12,covoiturage
Saleh,Toulouse,5,bus
Gaëtan,Paris,14,bus
Nabil,Montpellier,6,train
Loïc,Bordeaux,10,covoiturage
Chaima,Paris,11,voiture
Emese,Montpellier,2,covoiturage
Fadilatou,Bordeaux,3,voiture


**dataframe** : Tableau qui contient des colonnes, des lignes, un index 

### 1. Accès aux données

In [17]:
# liste des colonnes
df.columns

Index(['destination', 'duree', 'transport'], dtype='object')

In [18]:
# liste des index
df.index

Index(['Marwa', 'Samy', 'Matthis', 'Saleh', 'Gaëtan', 'Nabil', 'Loïc',
       'Chaima', 'Emese', 'Fadilatou', 'Thibaud', 'Kyrylo'],
      dtype='object', name='nom')

In [19]:
# accès à une colonne
df["destination"]

nom
Marwa        Montpellier
Samy               Paris
Matthis         Bordeaux
Saleh           Toulouse
Gaëtan             Paris
Nabil        Montpellier
Loïc            Bordeaux
Chaima             Paris
Emese        Montpellier
Fadilatou       Bordeaux
Thibaud            Paris
Kyrylo       Montpellier
Name: destination, dtype: object

In [20]:
type(df["destination"])

pandas.core.series.Series

.loc[ligne, colonne] : accès aux données via les noms d'index / noms de colonnes

Syntaxe :

`df.loc[ligne, colonne] avec les noms des index et des colonnes`

In [21]:
df.loc["Emese"]

destination    Montpellier
duree                    2
transport      covoiturage
Name: Emese, dtype: object

In [22]:
df.loc[["Loïc", "Emese"], ["destination", "duree"]]

Unnamed: 0_level_0,destination,duree
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Loïc,Bordeaux,10
Emese,Montpellier,2


.iloc[ligne, colonne] : accès aux données via les indexes (**ATTENTION** : _Deprecated since version 2.2.0_ --> utiliser plutôt le .loc)

In [23]:
df.iloc[:, [1,2]]

Unnamed: 0_level_0,duree,transport
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Marwa,10,train
Samy,7,voiture
Matthis,12,covoiturage
Saleh,5,bus
Gaëtan,14,bus
Nabil,6,train
Loïc,10,covoiturage
Chaima,11,voiture
Emese,2,covoiturage
Fadilatou,3,voiture


### 2. Calcul moyenne, min, max etc sur une colonne

In [24]:
# moyenne de la colonne
df["duree"].mean()
# somme de la colonne
df["duree"].sum()
# médiane de la colonne
df["duree"].median()
# nb de valeur de la colonne
df["duree"].count()

np.int64(12)

### 3. Tri des valeurs

In [25]:
df.sort_values(by="duree")

Unnamed: 0_level_0,destination,duree,transport
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Emese,Montpellier,2,covoiturage
Fadilatou,Bordeaux,3,voiture
Saleh,Toulouse,5,bus
Nabil,Montpellier,6,train
Samy,Paris,7,voiture
Marwa,Montpellier,10,train
Loïc,Bordeaux,10,covoiturage
Thibaud,Paris,10,voiture
Chaima,Paris,11,voiture
Matthis,Bordeaux,12,covoiturage


In [26]:
# paramètre ascending pour inverser l'ordre
df.sort_values(["duree"], ascending=False)

Unnamed: 0_level_0,destination,duree,transport
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kyrylo,Montpellier,15,voiture
Gaëtan,Paris,14,bus
Matthis,Bordeaux,12,covoiturage
Chaima,Paris,11,voiture
Marwa,Montpellier,10,train
Loïc,Bordeaux,10,covoiturage
Thibaud,Paris,10,voiture
Samy,Paris,7,voiture
Nabil,Montpellier,6,train
Saleh,Toulouse,5,bus


### 4. Conditions sur les données et sélection basées sur les conditions

In [27]:
# condition sur df[colonne] retourne une Serie de boolean
df["court_sejour"] = df["duree"] < 6
df

Unnamed: 0_level_0,destination,duree,transport,court_sejour
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Marwa,Montpellier,10,train,False
Samy,Paris,7,voiture,False
Matthis,Bordeaux,12,covoiturage,False
Saleh,Toulouse,5,bus,True
Gaëtan,Paris,14,bus,False
Nabil,Montpellier,6,train,False
Loïc,Bordeaux,10,covoiturage,False
Chaima,Paris,11,voiture,False
Emese,Montpellier,2,covoiturage,True
Fadilatou,Bordeaux,3,voiture,True


Sélection des données basées sur des conditions.

.loc accepte une Serie de booléens comme paramètres, et récupère les lignes où la valeur est True.

In [28]:
# sélection des lignes pour lesquelles la duree > 10 jours
df.loc[df['duree'] > 10]

Unnamed: 0_level_0,destination,duree,transport,court_sejour
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Matthis,Bordeaux,12,covoiturage,False
Gaëtan,Paris,14,bus,False
Chaima,Paris,11,voiture,False
Kyrylo,Montpellier,15,voiture,False


In [29]:
# sélection des lignes pour lesquelles la duree > 10 jours et transport est "bus"
df.loc[(df["duree"] > 10) & (df["transport"]=="bus")]

Unnamed: 0_level_0,destination,duree,transport,court_sejour
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Gaëtan,Paris,14,bus,False


### 5. Regroupement des valeurs du dataframe

Calcul de la somme de la durée pour chacune des destinations.

In [30]:
df.groupby(["destination", "transport"])["duree"].sum()

destination  transport  
Bordeaux     covoiturage    22
             voiture         3
Montpellier  covoiturage     2
             train          16
             voiture        15
Paris        bus            14
             voiture        28
Toulouse     bus             5
Name: duree, dtype: int64

### 6. Application d'une fonction aux éléments d'une colonne

Transformation de la colonne destination : on enlève les majuscules aux noms des villes.

Plusieurs possibilités listées ci-dessous.

In [31]:
def minuscule(element):
    return element.lower()

df["destination"].apply(minuscule)

nom
Marwa        montpellier
Samy               paris
Matthis         bordeaux
Saleh           toulouse
Gaëtan             paris
Nabil        montpellier
Loïc            bordeaux
Chaima             paris
Emese        montpellier
Fadilatou       bordeaux
Thibaud            paris
Kyrylo       montpellier
Name: destination, dtype: object

In [32]:
df["destination"].apply(lambda x : x.lower())

nom
Marwa        montpellier
Samy               paris
Matthis         bordeaux
Saleh           toulouse
Gaëtan             paris
Nabil        montpellier
Loïc            bordeaux
Chaima             paris
Emese        montpellier
Fadilatou       bordeaux
Thibaud            paris
Kyrylo       montpellier
Name: destination, dtype: object

In [33]:
df["destination"].str.lower()

nom
Marwa        montpellier
Samy               paris
Matthis         bordeaux
Saleh           toulouse
Gaëtan             paris
Nabil        montpellier
Loïc            bordeaux
Chaima             paris
Emese        montpellier
Fadilatou       bordeaux
Thibaud            paris
Kyrylo       montpellier
Name: destination, dtype: object

Modification de la colonne transport.

On souhaite "transport_collectif" si ["train", "covoiturage", "bus"] et "transport_individuel" si "voiture".

In [34]:
def transport(element):
    if element in ["train", "covoiturage", "bus"]:
        return "transport_collectif"
    else:
        return "transport_individuel"
    
df["transport"] = df["transport"].apply(transport)
df

Unnamed: 0_level_0,destination,duree,transport,court_sejour
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Marwa,Montpellier,10,transport_collectif,False
Samy,Paris,7,transport_individuel,False
Matthis,Bordeaux,12,transport_collectif,False
Saleh,Toulouse,5,transport_collectif,True
Gaëtan,Paris,14,transport_collectif,False
Nabil,Montpellier,6,transport_collectif,False
Loïc,Bordeaux,10,transport_collectif,False
Chaima,Paris,11,transport_individuel,False
Emese,Montpellier,2,transport_collectif,True
Fadilatou,Bordeaux,3,transport_individuel,True
