## Manipulation des données avec PANDAS

### EXERCICE

Inspection d'un DataFrame
Lorsque vous travaillez avec un nouveau DataFrame, la première chose à faire est de l'explorer et de voir ce qu'il contient. Il existe plusieurs méthodes et attributs utiles à cet effet.

.head() renvoie les premières lignes (« l’en-tête » du DataFrame).
.info() affiche des informations sur chacune des colonnes, telles que le type de données et le nombre de valeurs manquantes.
.shape renvoie le nombre de lignes et de colonnes du DataFrame.
.describe() calcule quelques statistiques récapitulatives pour chaque colonne.
homelessness est un DataFrame contenant les estimations du nombre de sans-abri dans chacun des États américains en 2018. La colonne individual représente le nombre de personnes sans domicile ne faisant pas partie d'une famille avec enfants. La colonne family_members indique le nombre de personnes sans domicile faisant partie d'une famille avec enfants. La colonne state_pop représente la population totale de l'État.

### Afficher les entêtes

In [6]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# from sklearn.linear_model import LinearRegression
# from sklearn.model_selection import train_test_split

# Load the homelessness data
homelessness = pd.read_csv('../../data/performance-economique-du-secteur-reel-de-2010-a-2023.csv')

# Print the head of the homelessness data
print(homelessness.head())

                Indicateurs  Années  fluctuations en pourcentage
0  Croissance du PIB réel %    2023                          7.2
1  Croissance du PIB réel %    2022                          6.9
2  Croissance du PIB réel %    2021                          7.4
3  Croissance du PIB réel %    2020                          2.0
4  Croissance du PIB réel %    2019                          6.2


### Affichez des informations sur les types de colonnes et les valeurs manquantes dans homelessness

In [None]:
print(homelessness.describe()) # Statistiques descriptives
print(homelessness.info()) # Informations sur les types de colonnes et les valeurs manquantes

            Années  fluctuations en pourcentage
count    43.000000                    43.000000
mean   2016.674419                     9.139535
std       4.190243                     8.324352
min    2010.000000                    -4.200000
25%    2013.000000                     2.200000
50%    2017.000000                     7.200000
75%    2020.000000                    14.850000
max    2024.000000                    27.400000
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43 entries, 0 to 42
Data columns (total 3 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Indicateurs                  43 non-null     object 
 1   Années                       43 non-null     int64  
 2   fluctuations en pourcentage  43 non-null     float64
dtypes: float64(1), int64(1), object(1)
memory usage: 1.1+ KB
None


### Afficher le nombre de lignes

In [9]:
print(homelessness.shape)

(43, 3)


### Affichez quelques statistiques récapitulatives décrivant le DataFrame homelessness

In [10]:
print(homelessness.describe()) # Statistiques récapitulatives

            Années  fluctuations en pourcentage
count    43.000000                    43.000000
mean   2016.674419                     9.139535
std       4.190243                     8.324352
min    2010.000000                    -4.200000
25%    2013.000000                     2.200000
50%    2017.000000                     7.200000
75%    2020.000000                    14.850000
max    2024.000000                    27.400000


### Afficher les entêtes

In [13]:
print(homelessness.columns) # Afficher les entêtes

Index(['Indicateurs', 'Années', 'fluctuations en pourcentage'], dtype='object')


### EXERCICE: 
Tri des lignes
Il est souvent plus facile de trouver des données intéressantes dans un DataFrame en modifiant l'ordre des lignes. Vous pouvez trier les lignes en passant un nom de colonne à .sort_values().

Dans les cas où des lignes ont la même valeur (ce qui est fréquent si vous triez sur une variable catégorielle), vous pouvez souhaiter briser les égalités en triant sur une autre colonne. Vous pouvez ainsi trier sur plusieurs colonnes en passant une liste de noms de colonnes.

Trier sur…	Syntaxe
une colonne	df.sort_values("breed")
plusieurs colonnes	df.sort_values(["breed", "weight_kg"])
En combinant .sort_values() et .head(), vous pouvez répondre à des questions du type « Quels sont les principaux cas où… ? ».

homelessness est disponible et pandas est chargé en tant que pd.

### Instructions 1/3

- Triez homelessness par le nombre de sans-abri dans la colonne individuals, du plus petit au plus grand, et enregistrez ce résultat sous homelessness_ind.
Affichez l’en-tête du DataFrame trié.

- Triez homelessness par ordre décroissant du nombre de membres de la famille family_members des sans-abri et enregistrez ce résultat sous homelessness_fam.

- Triez homelessness d'abord par région (ordre croissant), puis par nombre de membres de la famille (ordre décroissant). Enregistrez-la sous homelessness_reg_fam.

### Utilisez sort_values pour trier par la colonne 'individuals'

In [15]:
homelessness_ind = homelessness.sort_values('fluctuations en pourcentage')
print(homelessness_ind)### Afficher les entêtes

                                    Indicateurs  Années  \
12                     Croissance du PIB réel %    2011   
34  Prix à la Consommation (Taux d'inflation) %    2018   
38  Prix à la Consommation (Taux d'inflation) %    2014   
36  Prix à la Consommation (Taux d'inflation) %    2016   
35  Prix à la Consommation (Taux d'inflation) %    2017   
33  Prix à la Consommation (Taux d'inflation) %    2019   
42  Prix à la Consommation (Taux d'inflation) %    2010   
40  Prix à la Consommation (Taux d'inflation) %    2012   
37  Prix à la Consommation (Taux d'inflation) %    2015   
3                      Croissance du PIB réel %    2020   
13                     Croissance du PIB réel %    2010   
32  Prix à la Consommation (Taux d'inflation) %    2020   
39  Prix à la Consommation (Taux d'inflation) %    2013   
28  Prix à la Consommation (Taux d'inflation) %    2024   
31  Prix à la Consommation (Taux d'inflation) %    2021   
29  Prix à la Consommation (Taux d'inflation) %    2023 

### Afficher les premières lignes du DataFrame trié

In [16]:
print(homelessness_ind.head())

                                    Indicateurs  Années  \
12                     Croissance du PIB réel %    2011   
34  Prix à la Consommation (Taux d'inflation) %    2018   
38  Prix à la Consommation (Taux d'inflation) %    2014   
36  Prix à la Consommation (Taux d'inflation) %    2016   
35  Prix à la Consommation (Taux d'inflation) %    2017   

    fluctuations en pourcentage  
12                         -4.2  
34                          0.4  
38                          0.4  
36                          0.7  
35                          0.7  


## Tri des lignes
- Il est souvent plus facile de trouver des données intéressantes dans un DataFrame en modifiant l'ordre des lignes. Vous pouvez trier les lignes en passant un nom de colonne à .sort_values().

- Dans les cas où des lignes ont la même valeur (ce qui est fréquent si vous triez sur une variable catégorielle), vous pouvez souhaiter briser les égalités en triant sur une autre colonne. Vous pouvez ainsi trier sur plusieurs colonnes en passant une liste de noms de colonnes.

- Trier sur…	Syntaxe
une colonne	df.sort_values("breed")
plusieurs colonnes	df.sort_values(["breed", "weight_kg"])
En combinant .sort_values() et .head(), vous pouvez répondre à des questions du type « Quels sont les principaux cas où… ? ».

homelessness est disponible et pandas est chargé en tant que pd.

### Instructions 2/3

- 1/ Triez homelessness par le nombre de sans-abri dans la colonne individuals, du plus petit au plus grand, et enregistrez ce résultat sous homelessness_ind.
Affichez l’en-tête du DataFrame trié.

- 2/ Triez homelessness par ordre décroissant du nombre de membres de la famille family_members des sans-abri et enregistrez ce résultat sous homelessness_fam.

- 3/ Triez homelessness d'abord par région (ordre croissant), puis par nombre de membres de la famille (ordre décroissant). Enregistrez-la sous homelessness_reg_fam.

In [18]:
# Trie du plus petit au plus grand
homelessness_fam = homelessness.sort_values('fluctuations en pourcentage', ascending=True)
print(homelessness_fam.head())### Afficher les entêtes 

                                    Indicateurs  Années  \
12                     Croissance du PIB réel %    2011   
34  Prix à la Consommation (Taux d'inflation) %    2018   
38  Prix à la Consommation (Taux d'inflation) %    2014   
36  Prix à la Consommation (Taux d'inflation) %    2016   
35  Prix à la Consommation (Taux d'inflation) %    2017   

    fluctuations en pourcentage  
12                         -4.2  
34                          0.4  
38                          0.4  
36                          0.7  
35                          0.7  


### Triez homelessness par ordre décroissant du nombre de membres de la famille family_members des sans-abri et enregistrez ce résultat sous homelessness_fam.

In [26]:
homelessness_fam = homelessness.sort_values('Années', ascending=False)
print(homelessness_fam.head())### Afficher les entêtes

homelessness_ind = homelessness.sort_values('fluctuations en pourcentage', ascending=True)
print(homelessness.head())

                                    Indicateurs  Années  \
28  Prix à la Consommation (Taux d'inflation) %    2024   
14              Taux d'investissements % du PIB    2023   
0                      Croissance du PIB réel %    2023   
29  Prix à la Consommation (Taux d'inflation) %    2023   
15              Taux d'investissements % du PIB    2022   

    fluctuations en pourcentage  
28                          3.5  
14                         27.4  
0                           7.2  
29                          4.4  
15                         23.7  
                Indicateurs  Années  fluctuations en pourcentage
0  Croissance du PIB réel %    2023                          7.2
1  Croissance du PIB réel %    2022                          6.9
2  Croissance du PIB réel %    2021                          7.4
3  Croissance du PIB réel %    2020                          2.0
4  Croissance du PIB réel %    2019                          6.2
