# Cours d'introduction  à Pandas

Pandas est une bibliothèque Python dédiée à : 

    La manipulation de donnees 
    L'analyse de donnees
    Le nettoyage et la transformation
 Elle s'appuie sur Numpy et offre des structures très rapides et flexibles, similaire aux tables Excel ou SQL

In [2]:
# installation
! pip install pandas



In [5]:
# importation de pandas
import pandas as pd

In [4]:
# Creation d'une serie pandas
s = pd.Series([10, 20, 30, 40])
print(s)

0    10
1    20
2    30
3    40
dtype: int64


Les Series pandas possèdent un système d'indexiation qui sur les valeurs. On peut accéder aux valeurs par leurs index : s[2] --> 30

# DataFrame

un DataFrame est un tableau à deux dimensions (lignes x colonnes)

In [12]:
 data = {
     "Nom": ["Ali", "Fatou", "Moussa"],
     "Age": [23, 19, 30],
     "Ville": ["Dakar", "Thiès", "Ziguinchor"]
 }
df = pd.DataFrame(data)
df

Unnamed: 0,Nom,Age,Ville
0,Ali,23,Dakar
1,Fatou,19,Thiès
2,Moussa,30,Ziguinchor


*Importation de données*

Pandas permet d'importer presque tous les formats de fichiers :

CSV -----> pd.read_csv()

Excel----> pd.read_excel()

JSON-----> pd.read_json()

SQL------> pd.read_sql()

In [9]:
df.head()            # 5 premieres lignes
df.tail()            # 5 dernieres lignes
df.info()            # informations sur types et colonnes
df.describe()        # statistiques
df.shape             # (Lignes, Colonnes)
df.columns           # noms des colonnes

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nom     3 non-null      object
 1   AGE     3 non-null      int64 
 2   Ville   3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


Index(['Nom', 'AGE', 'Ville'], dtype='object')

In [13]:
# la selection de donnees par colonnes se fait par les noms de colonnes
print(df["Nom"])             # selectionner une seul colonne
print(df[['Nom', 'Age']])    # selectionner plusieurs colonnes

0       Ali
1     Fatou
2    Moussa
Name: Nom, dtype: object
      Nom  Age
0     Ali   23
1   Fatou   19
2  Moussa   30


In [16]:
# la selection de données par ligne se fait soit par label soit par index
df.loc[0]          # par label 
df.iloc[0]         # par index

Nom        Ali
Age         23
Ville    Dakar
Name: 0, dtype: object

In [19]:
# On peut aussi faire une selection conditionnelle
df[df["Age"] > 20]
df[(df["Age"]>20)  & (df["Ville"] == "Dakar")]

Unnamed: 0,Nom,Age,Ville
0,Ali,23,Dakar


# Modifier les données 

In [28]:
# Ajouter une colonne
df["Score"] = df["Age"] * 2

In [21]:
# Supprimer une colonne
df.drop("Score", axis=1, inplace=True)

In [24]:
# Renommer des colonnes
df.rename(columns={"Nom" : "Name"}, inplace = True)

# Nettoyer les données

In [25]:
df.isna().sum()                 # compter
df.fillna(0)                    # remplacer
df.dropna()                     # supprimer les ligne incomplètes

Unnamed: 0,Name,Age,Ville
0,Ali,23,Dakar
1,Fatou,19,Thiès
2,Moussa,30,Ziguinchor


In [30]:
# Gestion des doublons
df.duplicated()             # affiche les lignes avec des doublons
df.drop_duplicates(inplace=True)        # supprime les doublons


# Fonction Statistique

Pandas possède beaucoup de fonctions utiles :

In [None]:
df["Age"].mean()           # moyenne
df["Age"].median()         # mediane
df["Age"].min()            # minimum
df["Age"].max()            # maximum
df["Age"].sum()            # somme
df["Age"].value_counts()

# GroupBy : analyser par groupe 

Premet d'agréger les données comme en SQL.

In [32]:
df.groupby("Ville")["Age"].mean()

Ville
Dakar         23.0
Thiès         19.0
Ziguinchor    30.0
Name: Age, dtype: float64

In [33]:
# Mettre plusieurs aggregations
df.groupby("Ville").agg({"Age" : ["mean", "max", "count"]})

Unnamed: 0_level_0,Age,Age,Age
Unnamed: 0_level_1,mean,max,count
Ville,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Dakar,23.0,23,1
Thiès,19.0,19,1
Ziguinchor,30.0,30,1


# Fusionner des DataFrames

Comme SQL JOIN, on a pd.merge(df1, df2, on="ID", how="inner")

Types de jointures : inner, left, right, outer.

# Exporter des données 

df.to_csv("sortie.csv", index=False)

df.to_csv("resultat.xlsx", index=False)

df.to_csv("donnees.json")