## Qu'est-ce que Pandas?

Pandas est une bibliothèque Python spécialisée dans le traitement et l'analyse de données. Son nom provient de "Panel Data", indiquant son utilisation pour manipuler des tableaux de données. Contrairement à l'animal panda, cette bibliothèque n'a rien à voir avec la faune, mais elle est plutôt dédiée à la manipulation et à l'analyse de données.

### Pourquoi Utiliser Pandas?

Pandas est devenue la bibliothèque la plus populaire pour le traitement des données en Python. Les raisons de sa popularité sont nombreuses :
- Pandas est construit sur la bibliothèque NumPy, ce qui le rend puissant et efficace.
- Il offre des outils pour lire, nettoyer et manipuler facilement des données.
- Pandas est essentiel pour l'ingénierie des caractéristiques, une étape cruciale avant l'application de techniques avancées d'apprentissage machine.

## Structures de Données de Pandas

Pandas offre deux principales structures de données : les **Séries** et les **DataFrames**.

### Séries Pandas

Une Série est un tableau unidimensionnel qui peut contenir n'importe quel type de données. Elle est similaire à une colonne dans une feuille de calcul ou à un vecteur dans une opération mathématique. La principale différence entre une liste Python et une Série Pandas est que la Série peut être indexée par un libellé.

### DataFrames Pandas

Un DataFrame est une structure bidimensionnelle, similaire à une feuille de calcul ou à une table de base de données. Il est composé de Séries alignées, ce qui signifie que les données partagent un index commun.

In [2]:
import numpy as np
import pandas as pd

In [7]:
serie = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print(serie)
print(serie['a'])

a    10
b    20
c    30
d    40
dtype: int64
10


In [1]:
import numpy as np 
import pandas as pd
columns = ['W', 'X', 'Y', 'Z']
index = ['A', 'B', 'C', 'D', 'E']
np.random.seed(42)
data = np.random.randint(-100, 100, (5, 4))
data

array([[  2,  79,  -8, -86],
       [  6, -29,  88, -80],
       [  2,  21, -26, -13],
       [ 16,  -1,   3,  51],
       [ 30,  49, -48, -99]])

**Création du DataFrame/tableau**

In [6]:
df = pd.DataFrame(data, index, columns)
df

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
B,6,-29,88,-80
C,2,21,-26,-13
D,16,-1,3,51
E,30,49,-48,-99


**Afficher une ou plusieurs colonnes/rows**

In [32]:
print(df['W']) # => colonnes
df[['W', 'Z']] # => colonnes

A     2
B     6
C     2
D    16
E    30
Name: W, dtype: int32


Unnamed: 0,W,Z
A,2,-86
B,6,-80
C,2,-13
D,16,51
E,30,-99


In [34]:
print(df.loc["A"])
df.loc[['A', 'B', 'C']] # ou df.iloc[0:3]


W     2
X    79
Y    -8
Z   -86
Name: A, dtype: int32


Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
B,6,-29,88,-80
C,2,21,-26,-13


In [35]:
df.loc['A', 'W'] # ligne 1 et column W

2

In [36]:
df.loc[['A', 'C'], ['W', 'Y']]

Unnamed: 0,W,Y
A,2,-8
C,2,-26


**Ajouter une colonne/row**

In [24]:
df["new"] = df["W"] + df ["Y"]
df

Unnamed: 0,W,X,Y,Z,new
A,2,79,-8,-86,-6
B,6,-29,88,-80,94
C,2,21,-26,-13,-24
D,16,-1,3,51,19
E,30,49,-48,-99,-18


**Supprimer une colonne/row**

In [25]:
df = df.drop('new', axis=1) # axis=1 => supprimer par rapport aux colonnes et 0 pour les row 
df

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
B,6,-29,88,-80
C,2,21,-26,-13
D,16,-1,3,51
E,30,49,-48,-99


**Conditions**

In [37]:
df[df > 0]

Unnamed: 0,W,X,Y,Z
A,2,79.0,,
B,6,,88.0,
C,2,21.0,,
D,16,,3.0,51.0
E,30,49.0,,


In [39]:
df[df['X'] > 0] # uniquement les lignes ou la colonne X est supérieur à 0

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
C,2,21,-26,-13
E,30,49,-48,-99


In [46]:
# "&" => "and" et "|" pour "or"
df[(df['W'] > 0) & (df['Y'] > 1)] # colonne "W" supérieur à 0 et colonne "Z" supérieur à 1

Unnamed: 0,W,X,Y,Z
B,6,-29,88,-80
D,16,-1,3,51


**Missing Data**

In [48]:
df = pd.DataFrame({'A':[1,2,np.nan,4],
                  'B':[5,np.nan,np.nan,8],
                  'C':[10,20,30,40]})
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


In [49]:
#supprimer les données manquantes 
df.dropna(axis=1) # axis=1 => supprimer par rapport aux colonnes et 0 pour les row  

Unnamed: 0,A,B,C
0,1.0,5.0,10
3,4.0,8.0,40


In [50]:
df.fillna(value=0) # remplacer les données manquantes

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,0.0,20
2,0.0,0.0,30
3,4.0,8.0,40


**Group by**

| Statistique | Description                                       |
| ------------| ------------------------------------------------- |
| count       | Nombre d'observations non nulles                  |
| sum         | Somme des valeurs                                 |
| mean        | Moyenne des valeurs                               |
| mad         | Déviation moyenne absolue                         |
| median      | Médiane arithmétique des valeurs                  |
| min         | Minimum                                           |
| max         | Maximum                                           |
| mode        | Mode                                              |
| abs         | Valeur absolue                                    |
| prod        | Produit des valeurs                               |
| std         | Écart type non biaisé                             |
| var         | Variance non biaisée                              |
| sem         | Erreur standard de la moyenne non biaisée         |
| skew        | Asymétrie non biaisée (3e moment)                 |
| kurt        | Kurtosis non biaisée (4e moment)                  |
| quantile    | Quantile d'échantillon (valeur à %)               |
| cumsum      | Somme cumulative                                  |
| cumprod     | Produit cumulatif                                 |
| cummax      | Maximum cumulatif                                 |
| cummin      | Minimum cumulatif                                 |

In [64]:
df = pd.read_csv("Universities.csv")
df.head() # Show first N rows (N=5 by default)

Unnamed: 0,Sector,University,Year,Completions,Geography
0,"Private for-profit, 2-year",Pima Medical Institute-Las Vegas,2016,591,Nevada
1,"Private for-profit, less-than 2-year",Healthcare Preparatory Institute,2016,28,Nevada
2,"Private for-profit, less-than 2-year",Milan Institute-Las Vegas,2016,408,Nevada
3,"Private for-profit, less-than 2-year",Utah College of Massage Therapy-Vegas,2016,240,Nevada
4,"Public, 4-year or above",Western Nevada College,2016,960,Nevada


In [82]:
# Utiliser groupby pour regrouper par année et sum pour obtenir la somme des complétions
df.groupby('Year')['Completions'].sum()

In [102]:
df.groupby('Year')['Completions'].sum()

Year
2012    20333
2013    21046
2014    24730
2015    26279
2016    26224
Name: Completions, dtype: int64

In [103]:
df.groupby(['Year', 'Sector'])['Completions'].sum()


Year  Sector                                 
2012  Private for-profit, 2-year                  3072
      Private for-profit, 4-year or above          632
      Private for-profit, less-than 2-year        1327
      Private not-for-profit, 2-year               665
      Private not-for-profit, 4-year or above     1059
      Public, 2-year                              1170
      Public, 4-year or above                    12408
2013  Private for-profit, 2-year                  3053
      Private for-profit, 4-year or above          775
      Private for-profit, less-than 2-year        1281
      Private not-for-profit, 2-year               471
      Private not-for-profit, 4-year or above     1016
      Public, 2-year                              1633
      Public, 4-year or above                    12817
2014  Private for-profit, 2-year                  2957
      Private for-profit, 4-year or above         1506
      Private for-profit, less-than 2-year        1328
      Private not-f

In [108]:
# Effectuer un groupement par année ('Year') et calculer des statistiques descriptives pour la colonne 'Completions'
grouped_stats = df.groupby('Year')['Completions'].describe()

# Transposer le DataFrame pour avoir les années en index et les statistiques descriptives en colonnes
grouped_stats.transpose()

Year,2012,2013,2014,2015,2016
count,38.0,40.0,42.0,44.0,43.0
mean,535.078947,526.15,588.809524,597.25,609.860465
std,1036.433239,1040.474782,1150.355857,1183.371791,1235.952796
min,13.0,0.0,0.0,0.0,0.0
25%,114.25,98.5,104.5,87.75,90.0
50%,229.5,189.0,203.5,191.0,208.0
75%,420.5,413.0,371.75,405.75,414.0
max,5388.0,5278.0,5093.0,5335.0,5367.0


In [116]:
df = pd.DataFrame({'k1':['A','A','B','B','C','C'],
                      'col1':[100,200,300,300,400,500],
                      'col2':['NY','CA','WA','WA','AK','NV']})

df

Unnamed: 0,k1,col1,col2
0,A,100,NY
1,A,200,CA
2,B,300,WA
3,B,300,WA
4,C,400,AK
5,C,500,NV


In [120]:
def grab_first_letter(state):
    # Given a state, return the first letter
    return state[0]

df["first_letter"] = df['col2'].apply(grab_first_letter)
df

Unnamed: 0,k1,col1,col2,first_letter
0,A,100,NY,N
1,A,200,CA,C
2,B,300,WA,W
3,B,300,WA,W
4,C,400,AK,A
5,C,500,NV,N
