# Pandas pour l'Analyse des Données


## Introduction
`Pandas` est une bibliothèque open-source en Python offrant des structures de données flexibles et performantes pour l'analyse des données. Elle repose sur deux structures principales : les `Series` et les `DataFrames`. Pandas est largement utilisé dans le domaine de la science des données en raison de sa simplicité et de sa puissance.



## Les Series
Une `Series` est un tableau unidimensionnel capable de stocker n'importe quel type de données. Elle est munie d'une étiquette associée à chaque élément, appelée `index`. Créons une Series simple :

In [3]:
import pandas as pd
import numpy as np


# Création d'une Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])

# Affichage de la Series
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [13]:
import pandas as pd
pd.Series([1,3,np.nan]) 


0    1.0
1    3.0
2    NaN
dtype: float64

In [14]:
pd.Series([1,3,5], index=['a','b','c'])


a    1
b    3
c    5
dtype: int64

In [15]:
pd.Series({'a' : 1, 'b': 2, 'c': 3 }) 


a    1
b    2
c    3
dtype: int64

In [16]:
pd.Series({'a' : 1, 'b': 2, 'c': 3 }, index = ['b', 'c', 'd']) 

b    2.0
c    3.0
d    NaN
dtype: float64

In [18]:
a = pd.Series({'John' : 1000, 'Mary': 2000, 'Andre': 3000 })
b = pd.Series({'John' : 100, 'Andre': 200, 'Cecilia': 300 })
a + b

Andre      3200.0
Cecilia       NaN
John       1100.0
Mary          NaN
dtype: float64

##  Les DataFrames

Un `DataFrame` est une structure de données bidimensionnelle, similaire à une table dans une base de données relationnelle. Il est composé de Series alignées le long d'un même index. Créons un DataFrame :



In [5]:
import pandas as pd
import numpy as np

# Création d'un DataFrame avec un index personnalisé
dates = pd.date_range('20220101', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

# Affichage du DataFrame
print(df)


                   A         B         C         D
2022-01-01  0.459572 -0.265237 -1.056807 -0.093476
2022-01-02 -0.209118  1.626959 -0.598835 -0.142243
2022-01-03  0.020777  1.090397  1.401526  1.254832
2022-01-04 -0.527812  0.861080 -2.303418 -0.393297
2022-01-05 -0.459026 -1.639215 -0.531742 -0.443718
2022-01-06 -0.755391 -0.848334  0.207046 -0.156427


In [19]:
data = {'state': ['Ohio', 'Ohio', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2001, 2002],
'pop': [1.5, 1.7, 2.4, 2.9]}
pd.DataFrame(data)
pd.DataFrame(data, columns=['year', 'state', 'pop', 'color']) 

Unnamed: 0,year,state,pop,color
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2001,Nevada,2.4,
3,2002,Nevada,2.9,


In [20]:
dates = pd.date_range('20130101',periods=4)
df = pd.DataFrame(np.random.randn(4,4),index=dates,columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,0.23102,-0.588933,0.250437,-0.942759
2013-01-02,-0.470619,0.921444,1.785604,-0.247845
2013-01-03,-1.477846,0.204761,-0.719447,0.854672
2013-01-04,0.152724,1.835982,0.14609,0.260882


In [21]:
df.index
df.columns
df.values

array([[ 0.23101972, -0.58893335,  0.25043721, -0.94275859],
       [-0.47061902,  0.92144412,  1.78560442, -0.24784529],
       [-1.47784617,  0.20476083, -0.71944687,  0.85467181],
       [ 0.15272393,  1.83598178,  0.14609042,  0.26088161]])

In [22]:
df.to_csv('data.csv', index=False) # Don't export the row index
dfs = pd.read_csv('data.csv')
dfs
dfs.at[0, 'A'] = 10 # Set value in row 0, column 'A' to '10'
dfs.to_csv('data.csv', index=False)

## Exploration des Données avec Pandas
Pandas offre de nombreuses fonctionnalités pour explorer et manipuler les données :

### Sélection de Colonnes

In [23]:
# Sélection d'une colonne par son nom

column_A = df['A']
print(column_A)

2013-01-01    0.231020
2013-01-02   -0.470619
2013-01-03   -1.477846
2013-01-04    0.152724
Freq: D, Name: A, dtype: float64


## Simple operations

In [None]:
df.head() # First 5 rows
df.tail() # Last 5 rows

### Sélection de lignes par Index

In [7]:

# Sélection d'une ligne par son index
row_one = df.loc['20220102']
print(row_one)

A   -0.209118
B    1.626959
C   -0.598835
D   -0.142243
Name: 2022-01-02 00:00:00, dtype: float64


In [None]:
df[0:2]          # Obtenir les lignes par numéro d'index
df.iloc[0:2, 0:2] # Obtenir les lignes et colonnes par numéro d'index
df['20130102':'20130103']                # ou par libellé de ligne
df.loc['20130101':'20130103', ['A','B']] # ou par libellé de ligne et de colonne


# Transpose

In [None]:
# Transpose
df.T

In [None]:
df
df.sort_index(axis=1, ascending=False) # Sort by index labels
df.sort_values(by='B') # Sort by values

### Filtrage des Données


In [8]:
# Filtrage des données basé sur une condition
filtered_data = df[df['A'] > 0]
print(filtered_data)

                   A         B         C         D
2022-01-01  0.459572 -0.265237 -1.056807 -0.093476
2022-01-03  0.020777  1.090397  1.401526  1.254832


### Statistiques Sommaires


In [9]:
# Calcul des statistiques sommaires
summary_stats = df.describe()
print(summary_stats)

              A         B         C         D
count  6.000000  6.000000  6.000000  6.000000
mean  -0.245166  0.137608 -0.480372  0.004278
std    0.436952  1.260226  1.239882  0.629206
min   -0.755391 -1.639215 -2.303418 -0.443718
25%   -0.510616 -0.702560 -0.942314 -0.334080
50%   -0.334072  0.297921 -0.565289 -0.149335
75%   -0.036697  1.033067  0.022349 -0.105668
max    0.459572  1.626959  1.401526  1.254832


In [None]:
df.mean()       # Moyenne de toutes les valeurs par colonne
df.mean(axis=1) # Autre axe : moyennes par ligne


### Manipulation des Données avec Pandas
Pandas offre également des fonctionnalités puissantes pour manipuler les données, notamment la fusion, le regroupement, et la gestion des valeurs manquantes.


### Fusion de DataFrames

In [27]:
df = pd.DataFrame(np.random.randn(2, 4))
s = pd.DataFrame(np.random.randn(1,4))
df = pd.concat([df,s], ignore_index=True)

In [28]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a'], 'data1': range(3)}) 
df2 = pd.DataFrame({'key': ['a', 'b'], 'data2': range(2)})
df1
df2
pd.merge(df1, df2)

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,a,2,0


In [10]:
# Fusion de deux DataFrames
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})
merged_df = pd.merge(df1, df2, on='key')
print(merged_df)

  key  value_x  value_y
0   B        2        5
1   D        4        6



### Regroupement de Données


In [11]:
# Regroupement des données par une colonne
grouped_data = df.groupby('A').sum()
print(grouped_data)

                  B         C         D
A                                      
-0.755391 -0.848334  0.207046 -0.156427
-0.527812  0.861080 -2.303418 -0.393297
-0.459026 -1.639215 -0.531742 -0.443718
-0.209118  1.626959 -0.598835 -0.142243
 0.020777  1.090397  1.401526  1.254832
 0.459572 -0.265237 -1.056807 -0.093476


In [25]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar'], 'B' : ['one', 'one', 'two', 'three'],
                   'C' : np.random.randn(4), 'D' : np.random.randn(4)})


df.groupby('A').sum()


Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,onethree,0.247963,-1.615668
foo,onetwo,0.430341,-0.062749


In [26]:
df.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.051324,-1.150392
bar,three,0.196639,-0.465276
foo,one,0.053124,-0.651643
foo,two,0.377217,0.588894


### Gestion des Valeurs Manquantes


In [12]:
# Suppression des lignes contenant des valeurs manquantes
cleaned_df = df.dropna()
print(cleaned_df)

                   A         B         C         D
2022-01-01  0.459572 -0.265237 -1.056807 -0.093476
2022-01-02 -0.209118  1.626959 -0.598835 -0.142243
2022-01-03  0.020777  1.090397  1.401526  1.254832
2022-01-04 -0.527812  0.861080 -2.303418 -0.393297
2022-01-05 -0.459026 -1.639215 -0.531742 -0.443718
2022-01-06 -0.755391 -0.848334  0.207046 -0.156427
