# 4 Listes et Data frames

## 4.1 Listes

Une liste est très proche d’un vecteur, à la différence près qu’une liste
peut contenir des éléments de types différents. 
<br>
En Python, une liste se crée à l’aide de **crochets**.

In [47]:
malist = [5, "cinq", False]
malist

[5, 'cinq', False]

Pour accéder à un élément d'une liste, on utilise **les crochets**.

In [48]:
print(malist[0])
print(malist[1])
print(malist[2])

5
cinq
False


**Attention :** En Python, la numérotation commence à 0 et non à 1 ! 

Il est possible de modifier un élément d'une liste à l'aide de la commande **=**.

In [49]:
malist[1] = "six"
malist

[5, 'six', False]

Il est possible d'ajouter un élément à une liste à l'aide de la commande **.append()**.

In [50]:
malist.append("hihi")
malist

[5, 'six', False, 'hihi']

## 4.2 Data frames

En Python, le package principale pour créer et gérer les dataframes est **pandas**.

In [52]:
import pandas as pd

### 4.2.1 Créer un Data frame

Pour créer un dataframe en Python, une des manières les plus simple est d'utiliser **un dictionnaire**.
<br>
**Un dictionnaire** en Python est **une collection de liste de mêmes taille**.

In [55]:
d = {'c1': [1, 2, 3, 4, 5], 'c2': [6, 7, 8, 9, 10], 'c3': [11, 12, 13, 14, 15]}
type(d)

dict

La commande **DataFrame()** de pandas permet de convertir un dictionnaire en dataframe.

In [56]:
df = pd.DataFrame(d)
df

Unnamed: 0,c1,c2,c3
0,1,6,11
1,2,7,12
2,3,8,13
3,4,9,14
4,5,10,15


Chanque entrée du dictionnaire correspond à **une colonne** du dataframe.
<br>
Les éléments des listes forment **les lignes** du dataframe.

Les dataframes peuvent contenir des informations de différents types. 
<br>
Il faut juste que chaque liste contienne le même nombre d'éléments.

In [57]:
d = {"nom": ["Louis", "Jeanne", "Marc", "Lucie", "Constance"], "age": [18, 22, 27, 19, 24], "canton": ["vs", "be", "vs", "ti", "vd"]}
df = pd.DataFrame(d)
df

Unnamed: 0,nom,age,canton
0,Louis,18,vs
1,Jeanne,22,be
2,Marc,27,vs
3,Lucie,19,ti
4,Constance,24,vd


### 4.2.2 Manipuler un Data frame

Pour avoir un aperçu d'un dataframe, on peut utiliser la commande **head()**.

In [77]:
df.head()

Unnamed: 0,nom,age,canton
0,Louis,18,vs
1,Jeanne,22,be
2,Marc,27,vs
3,Lucie,19,ti
4,Constance,24,vd


Le nombre de ligne et de colonne d'un dataframe peut être obtenu à l'aide de la commande **shape**.

In [59]:
df.shape

(5, 3)

Pour accéder à **une colonne** en particulier, on écrit le nom de la colonne **entre crochets [ ]**.

In [60]:
df["age"]

0    18
1    22
2    27
3    19
4    24
Name: age, dtype: int64

De manière similaire, on peut utiliser **.nom_de_colonne**.

In [61]:
df.age

0    18
1    22
2    27
3    19
4    24
Name: age, dtype: int64

Pour accéder à **une ligne** en particulier, on utilise la commande **loc[ ]**.

In [62]:
df.loc[1]

nom       Jeanne
age           22
canton        be
Name: 1, dtype: object

La commande **loc[ ]** permet aussi d'avoir certaines ligne d'une certaine colonne.

In [69]:
df.loc[0:3, "nom"]

0     Louis
1    Jeanne
2      Marc
3     Lucie
Name: nom, dtype: object

La commande **iloc[ ]** permet d'obtenir certaines **lignes** et certaines **colonnes** d'un dataframe.

In [68]:
df.iloc[0:4,0:2]

Unnamed: 0,nom,age
0,Louis,18
1,Jeanne,22
2,Marc,27
3,Lucie,19


Pour trier un dataframe selon une certaine colonne, on utilise la commande **sort_values**.

In [70]:
df.sort_values(by=['age'], ascending=True)

Unnamed: 0,nom,age,canton
0,Louis,18,vs
3,Lucie,19,ti
1,Jeanne,22,be
4,Constance,24,vd
2,Marc,27,vs


On peut aussi trier un dataframe à l'aide d'opérateurs logiques.

In [71]:
df[df["age"] > 21]

Unnamed: 0,nom,age,canton
1,Jeanne,22,be
2,Marc,27,vs
4,Constance,24,vd


In [72]:
df[df["canton"] == "vs"]

Unnamed: 0,nom,age,canton
0,Louis,18,vs
2,Marc,27,vs


In [73]:
df[df.canton == "vd"]

Unnamed: 0,nom,age,canton
4,Constance,24,vd


### 4.2.3 Importer un fichier .csv en Data Frame

Pour importer un fichier **.csv** en Python, on utilise la commande **read_csv()** de pandas.
<br>
Il faut faire particulièrement attention **au séparateur** et **au sybole des décimales**.

In [74]:
data = pd.read_csv("forestfires.csv")
data

Unnamed: 0,Unnamed: 1,iso;umd_tree_cover_loss__year;umd_tree_cover_loss__ha;umd_tree_cover_loss_from_fires__ha
AUS;2001;218816,3021;154497,154
ESP;2001;32811,05352;7521,44567
FRA;2001;34420,96339;1602,153341
SWZ;2001;6734,853711;44,10780785
USA;2001;1943080,844;294588,3313
...,...,...
AUS;2021;261043,5535;132480,9961
ESP;2021;85791,95758;16094,52825
FRA;2021;112886,0348;3507,696494
SWZ;2021;3160,017833;64,2724195


In [78]:
data = pd.read_csv("forestfires.csv", sep=';')
data.head()

Unnamed: 0,iso,umd_tree_cover_loss__year,umd_tree_cover_loss__ha,umd_tree_cover_loss_from_fires__ha
0,AUS,2001,2188163021,154497154
1,ESP,2001,3281105352,752144567
2,FRA,2001,3442096339,1602153341
3,SWZ,2001,6734853711,4410780785
4,USA,2001,1943080844,2945883313


In [79]:
data = pd.read_csv("forestfires.csv", sep=';',decimal=',')
data.head()

Unnamed: 0,iso,umd_tree_cover_loss__year,umd_tree_cover_loss__ha,umd_tree_cover_loss_from_fires__ha
0,AUS,2001,218816.3,154497.154
1,ESP,2001,32811.05,7521.44567
2,FRA,2001,34420.96,1602.153341
3,SWZ,2001,6734.854,44.107808
4,USA,2001,1943081.0,294588.3313


On peut ensuite traîter le dataframe comme vu plus haut.

In [80]:
data_FRA = data[data["iso"] == "FRA"]
data_FRA

Unnamed: 0,iso,umd_tree_cover_loss__year,umd_tree_cover_loss__ha,umd_tree_cover_loss_from_fires__ha
2,FRA,2001,34420.96339,1602.153341
7,FRA,2002,33888.39717,1917.373592
12,FRA,2003,26393.33418,3576.5194
17,FRA,2004,76134.34456,5940.708768
22,FRA,2005,46390.59105,1977.7202
27,FRA,2006,55049.47436,1222.918781
32,FRA,2007,49246.17317,1193.650199
37,FRA,2008,86955.39993,1354.842189
42,FRA,2009,67053.59918,1382.878727
47,FRA,2010,143265.2096,3041.590746
