In [1]:
import pandas as pd
import numpy as np

In [2]:
# Famille pandas

famille_panda =[
    [100, 5, 20, 80], #maman
    [50, 2.5, 10, 40], #bébé
    [110, 6, 22, 80] #papa
]

famille_panda_numpy = np.array(famille_panda)
print(type(famille_panda_numpy))
famille_panda_numpy

<class 'numpy.ndarray'>


array([[100. ,   5. ,  20. ,  80. ],
       [ 50. ,   2.5,  10. ,  40. ],
       [110. ,   6. ,  22. ,  80. ]])

# Le module Pandas

In [3]:
# Création d'une dataframe à partir d'un tableau Numpy
famille_panda_df = pd.DataFrame(famille_panda_numpy)
famille_panda_df

Unnamed: 0,0,1,2,3
0,100.0,5.0,20.0,80.0
1,50.0,2.5,10.0,40.0
2,110.0,6.0,22.0,80.0


On peut mieux faire

In [4]:
famille_panda_df = pd.DataFrame(famille_panda_numpy,
                                      columns=['Pattes','Poils','Queue','Ventre'],
                                      index=['Maman','Bébé','Papa'])
famille_panda_df

Unnamed: 0,Pattes,Poils,Queue,Ventre
Maman,100.0,5.0,20.0,80.0
Bébé,50.0,2.5,10.0,40.0
Papa,110.0,6.0,22.0,80.0


Le nom des lignes est appelé index. Un index peut être une chaîne de caractères ou un nombre entier. Quand aucun index n'est spécifié à la création du dataframe, il est initialisé par défaut avec une suite continue d'entiers commençant par 0.


L'objet DataFrame est très similaire à certains concepts que l'on trouve en dehors du cadre du langage Python. Il est similaire :

- aux tables des bases de données relationnelles (type MySQL, PostgreSQL, etc.) que l'on manipule grâce au langage SQL

- à l'objet dataframe sur lequel se base tout le langage R, langage destiné aux statisticiens et aux Data Analysts

- aux tableaux excel


Voici quelques petites fonctionnalités des Dataframes.

Tout d'abord, accédons à la colonne *ventre* de notre table. Il y a deux syntaxes possibles, qui renvoient exactement le même résultat :

In [5]:
# premiere syntaxe
famille_panda_df['Ventre']

Maman    80.0
Bébé     40.0
Papa     80.0
Name: Ventre, dtype: float64

L'objet que renvoie famille_panda_df["ventre"] est de type pandas.Series. Pour obtenir les valeurs de la colonne ventre au format numpy, il faut saisir : *famille_panda_df["ventre"].values*.

In [6]:
# deuxieme syntaxe
famille_panda_df['Ventre'].values

array([80., 40., 80.])

Accédons maintenant au papa panda : d'abord par sa position (position 2), puis par son nom "papa". Le résultat retourné est exactement le même dans les 2 cas.

In [7]:
# Avec iloc(), indexation positionnelle
famille_panda_df.iloc[2]

Pattes    110.0
Poils       6.0
Queue      22.0
Ventre     80.0
Name: Papa, dtype: float64

In [8]:
# Avec loc(), indexation par label
famille_panda_df.loc['Papa']

Pattes    110.0
Poils       6.0
Queue      22.0
Ventre     80.0
Name: Papa, dtype: float64

Déterminons les pandas dont le diamètre du ventre est de 80cm (Filtration de données) :

In [9]:
mask = famille_panda_df['Ventre'] == 80
mask

Maman     True
Bébé     False
Papa      True
Name: Ventre, dtype: bool

Ici, on teste chaque élément de la colonne "ventre" en demandant s'il est égal à 80. On obtient la réponse suivante : "maman" : True, "bebe" : False, "papa" : True.


Le résultat de cette opération est très pratique pour filtrer des lignes ! Par exemple, pour sélectionner uniquement les pandas dont le ventre est de 80cm, il suffit d'intégrer ce précédent résultat en tant que masque, comme ceci :

In [10]:
famille_panda_df[mask]

# On écrit plus souvent cela de cette manière :
# pandas_80 = famille_panda_df[famille_panda_df["ventre"] == 80]

Unnamed: 0,Pattes,Poils,Queue,Ventre
Maman,100.0,5.0,20.0,80.0
Papa,110.0,6.0,22.0,80.0


Pour inverser le masque, il suffit d'utiliser l'opérateur ~, et nous sélectionnons les pandas qui n'ont pas un ventre de 80cm :

In [11]:
famille_panda_df[~mask]

Unnamed: 0,Pattes,Poils,Queue,Ventre
Bébé,50.0,2.5,10.0,40.0


Maintenant, ajoutons des lignes à notre dataframe. Il y a plusieurs méthodes pour cela, mais voyons ici la plus simple : assemblons ensemble deux dataframes.

In [12]:
# deux nouveaux pandas
quelques_pandas = pd.DataFrame([[105, 4, 19, 80], [100, 5, 20, 80]],
                              columns = famille_panda_df.columns,
                              index = ['Oncle','Tante'])
quelques_pandas

Unnamed: 0,Pattes,Poils,Queue,Ventre
Oncle,105,4,19,80
Tante,100,5,20,80


In [13]:
tous_les_pandas = famille_panda_df.append(quelques_pandas)
tous_les_pandas

Unnamed: 0,Pattes,Poils,Queue,Ventre
Maman,100.0,5.0,20.0,80.0
Bébé,50.0,2.5,10.0,40.0
Papa,110.0,6.0,22.0,80.0
Oncle,105.0,4.0,19.0,80.0
Tante,100.0,5.0,20.0,80.0


Dans le dataframe tous_les_pandas, il y a des doublons. En effet, le premier panda (maman) et le dernier panda (dont l'index est tante) ont exactement les mêmes mesures. Si nous souhaitions dédoublonner, nous ferions ceci :

In [14]:
tous_les_pandas.drop_duplicates()

Unnamed: 0,Pattes,Poils,Queue,Ventre
Maman,100.0,5.0,20.0,80.0
Bébé,50.0,2.5,10.0,40.0
Papa,110.0,6.0,22.0,80.0
Oncle,105.0,4.0,19.0,80.0


In [15]:
tous_les_pandas

Unnamed: 0,Pattes,Poils,Queue,Ventre
Maman,100.0,5.0,20.0,80.0
Bébé,50.0,2.5,10.0,40.0
Papa,110.0,6.0,22.0,80.0
Oncle,105.0,4.0,19.0,80.0
Tante,100.0,5.0,20.0,80.0


Dans le dataframe tous_les_pandas, il y a des doublons. En effet, le premier panda (maman) et le dernier panda (dont l'index est 1) ont exactement les mêmes mesures. Si nous souhaitions dédoublonner, nous ferions ceci :

In [16]:
pandas_unique = tous_les_pandas.drop_duplicates()
pandas_unique

Unnamed: 0,Pattes,Poils,Queue,Ventre
Maman,100.0,5.0,20.0,80.0
Bébé,50.0,2.5,10.0,40.0
Papa,110.0,6.0,22.0,80.0
Oncle,105.0,4.0,19.0,80.0


 ... soit remplacer la variable tous_les_pandas par ce nouveau dataframe dédoublonné :

In [17]:
tous_les_pandas = tous_les_pandas.drop_duplicates()
tous_les_pandas

Unnamed: 0,Pattes,Poils,Queue,Ventre
Maman,100.0,5.0,20.0,80.0
Bébé,50.0,2.5,10.0,40.0
Papa,110.0,6.0,22.0,80.0
Oncle,105.0,4.0,19.0,80.0


Voici quelques autres fonctionnalités en vrac :


In [19]:
# créer une nouvelle colonne, composée de chaînes de caractères
# la maman et le bébé sont des femelles, le papa est un mâle
famille_panda_df["Sexe"] = ['f', 'f', 'm']

# accéder aux noms des colonnes
print(famille_panda_df.columns)

# obtenir le nombre de lignes et de colonnes de la dataframe
print(famille_panda_df.shape)

Index(['Pattes', 'Poils', 'Queue', 'Ventre', 'Sexe'], dtype='object')
(3, 5)


In [20]:
famille_panda_df

Unnamed: 0,Pattes,Poils,Queue,Ventre,Sexe
Maman,100.0,5.0,20.0,80.0,f
Bébé,50.0,2.5,10.0,40.0,f
Papa,110.0,6.0,22.0,80.0,m


La dataframe a trois lignes et cing colonnes. Il y a une méthode applicable sur les dataframes qui retourne plusieurs informations d'un seul coup : la méthode ***.info()***

In [21]:
famille_panda_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, Maman to Papa
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Pattes  3 non-null      float64
 1   Poils   3 non-null      float64
 2   Queue   3 non-null      float64
 3   Ventre  3 non-null      float64
 4   Sexe    3 non-null      object 
dtypes: float64(4), object(1)
memory usage: 252.0+ bytes


Le résultat ci-dessus nous renseigne sur les noms des colonnes, le nombre de valeurs non manquantes par colonne (implicitement le nombre de valeurs manquantes par colonne), le type des valeurs dans chaque colonne, la mémoire utilisée par ces données, le nombre de lignes et de colonnes, etc.       

In [22]:
# obtenir les valeurs distinctes d'une colonne :
# pour la colonne ventre, il y a deux valeurs distinctes : 40 et 
famille_panda_df['Sexe'].unique()

array(['f', 'm'], dtype=object)

In [23]:
famille_panda_df['Ventre'].unique()

array([80., 40.])