<a href="https://colab.research.google.com/github/annefrancine/ML_2022-2023/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Pandas est une librairie python qui permet de manipuler facilement des données à analyser :
* manipuler des tableaux de données avec des étiquettes de variables (colonnes) et d'individus (lignes).
* ces tableaux sont appelés DataFrames, similaires aux dataframes sous R.
on peut facilement lire et écrire ces dataframes à partir ou vers un fichier tabulé.
* on peut faciler tracer des graphes à partir de ces DataFrames grâce à matplotlib

L’objet central dans la logique pandas est le DataFrame. La Dataframe est une structure de données qui organise les données en lignes et en colonnes, ce qui en fait une structure de données bidimensionnelle.
## Caractéristiques de DataFrame

* Les colonnes peuvent être de types différents
* Taille - Mutable
* Axes étiquetés (lignes et colonnes)
* Peut effectuer des opérations arithmétiques sur les lignes et les colonnes.

On peut toute proportion gardée comparer un DataFrame à une feuille excel avec des lignes et des colonnes.

Un DataFrame est composé des éléments suivants:

* l’indice de la ligne ;
* le nom de la colonne ;
* la valeur de la donnée ;

Les trois règles sont les suivantes:

* Chaque variable possède sa propre colonne
* Chaque observation possède sa propre ligne
* Une valeur, matérialisant la valeur d’une observation d’une variable, se trouve sur une unique cellule.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html


In [None]:
import pandas as pd # charger le package
import numpy as np

In [None]:
#Création d'un DataFrame vide
df = pd.DataFrame()
df

In [None]:
# Création d'un DataFrame de 2 lignes sur 2 colonnes
dfa = pd.DataFrame(np.array([[10, 11], [20, 21]]))
dfa

Unnamed: 0,0,1
0,10,11
1,20,21


In [None]:
# Création d'un tableau de 2 lignes sur 5 colonnes
dfa = pd.DataFrame([pd.Series(np.arange(0, 5)),pd.Series(np.arange(10, 15))])
dfa

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,10,11,12,13,14


In [None]:
data = [['Jean',10],['Arno',12],['Anne',13]]
df = pd.DataFrame(data,columns=['Prénom','Age'])
df

Unnamed: 0,Prénom,Age
0,Jean,10
1,Arno,12
2,Anne,13


In [None]:
#Utilisation d'un dictionnaire de Liste / ndarrays
data = {'Prénom':['Anne', 'Pierre', 'jack', 'Steven'],'Age':[65,31,23,48]}
df = pd.DataFrame(data)
df

Unnamed: 0,Prénom,Age
0,Anne,65
1,Pierre,31
2,jack,23
3,Steven,48


## **Slice**

À présent, regardons différentes manières d’extraire des données depuis un dataframe. Créons deux dataframes en exemple, l’une avec un index numérique ; une autre avec un index textuel :

In [None]:
dico = {"height" :
               [58, 59, 60, 61, 62,
                63, 64, 65, 66, 67,
                68, 69, 70, 71, 72],
        "weight":
               [115, 117, 120, 123, 126,
                129, 132, 135, 139, 142,
                146, 150, 154, 159, 164]
       }
df = pd.DataFrame(dico)
print(df)

    height  weight
0       58     115
1       59     117
2       60     120
3       61     123
4       62     126
5       63     129
6       64     132
7       65     135
8       66     139
9       67     142
10      68     146
11      69     150
12      70     154
13      71     159
14      72     164


Pour faire simple, lorsqu’on veut effectuer une extraction avec les attributs iloc, la syntaxe est la suivante :

df.iloc[selection_lignes, selection_colonnes]

avec selection_lignes :

- une valeur unique : 1 (seconde ligne) ;
- une liste de valeurs : [2, 1, 3] (3e ligne, 2e ligne et 4e ligne) ;
- un découpage : [2:4] (de la 3e ligne à la 4e ligne (non incluse)).
    
pour selection_colonnes :
- une valeur unique : 1 (seconde colonne) ;
- une liste de valeurs : [2, 1, 3] (3e colonne, 2e colonne et 4e colonne) ;
- un découpage : [2:4] (de la 3e colonne à la 4e colonne (non incluse)).

In [None]:
print("Colonnes de la position 0 à 2 (non incluse) :\n",
      df.iloc[:1])

Colonnes de la position 0 à 2 (non incluse) :
    height  weight
0      58     115


In [None]:
#nommer une colonne
df.rename(index=str, columns={"height": "taille", "weight": "masse"}, inplace=True)
print(df)

    taille  masse
0       58    115
1       59    117
2       60    120
3       61    123
4       62    126
5       63    129
6       64    132
7       65    135
8       66    139
9       67    142
10      68    146
11      69    150
12      70    154
13      71    159
14      72    164


In [None]:
# Filtrage
masque = df["masse"] < 164
print(masque)

0      True
1      True
2      True
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13     True
14    False
Name: masse, dtype: bool


## Charger un fichier

Un fichier CSV est un type de fichier texte brut qui utilise une structure spécifique pour organiser les données tabulaires. CSV est un format courant pour l'échange de données, car il est compact, simple et général. De nombreux services en ligne permettent à ses utilisateurs d'exporter des données tabulaires du site Web dans un fichier CSV. Les fichiers CSV s'ouvriront dans Excel, et presque toutes les bases de données ont un outil pour permettre l'importation à partir d'un fichier CSV.

Documentation : https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html


In [None]:
# charger un fichier depouis la mémoire de votre ordinateur sur google colab
from google.colab import files
files.upload()

Saving california_housing_train.csv to california_housing_train.csv


{'california_housing_train.csv': b'"longitude","latitude","housing_median_age","total_rooms","total_bedrooms","population","households","median_income","median_house_value"\n-114.310000,34.190000,15.000000,5612.000000,1283.000000,1015.000000,472.000000,1.493600,66900.000000\n-114.470000,34.400000,19.000000,7650.000000,1901.000000,1129.000000,463.000000,1.820000,80100.000000\n-114.560000,33.690000,17.000000,720.000000,174.000000,333.000000,117.000000,1.650900,85700.000000\n-114.570000,33.640000,14.000000,1501.000000,337.000000,515.000000,226.000000,3.191700,73400.000000\n-114.570000,33.570000,20.000000,1454.000000,326.000000,624.000000,262.000000,1.925000,65500.000000\n-114.580000,33.630000,29.000000,1387.000000,236.000000,671.000000,239.000000,3.343800,74000.000000\n-114.580000,33.610000,25.000000,2907.000000,680.000000,1841.000000,633.000000,2.676800,82400.000000\n-114.590000,34.830000,41.000000,812.000000,168.000000,375.000000,158.000000,1.708300,48500.000000\n-114.590000,33.610000,3

In [None]:
df = pd.read_csv("california_housing_train.csv")# lire le fichier en format dataframe
df.head()# charger les 5 lignes du dataset

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0


In [None]:
import zipfile

In [None]:
"# charger un fichier depouis la mémoire de votre ordinateur sur google colab
from google.colab import files
files.upload()"

Saving teste.zip to teste.zip


{'teste.zip': b'PK\x03\x04\x14\x00\x00\x00\x08\x00pP\x11Wh1\xae\x04\xa3\xaa\x05\x00\xbe\t\x1a\x00\x1c\x00\x00\x00california_housing_train.csv\x94\xbd\xd9\xb2\xed\xccr\x9dw\xef\xc7\xe0\xf56\x02\xd5\x03O\xa3\xa0M\x86\xa4\x08\x8aGaS~~W\x87\x1a\x1f\x90\xc0\xdc\xd4\xb99\xf3_{-\x8c\x89j\xb2\xcf\x91\xff\xf4o\xff\xf8\xf7\xff\xfa\xdf\xff\xe3\x7f\xfd\xcb\xbf\xfe\xd3\x9f\x7f\xfa\xb7\x7f\xfe\x8f\xeb\xe3\x7f\xfb\xc7\xff\xfa\x7f\xff\xfb\xbf\xff\xd7\xff\xf2?\xfe\xf5_\xfe\xfb?\xff\xfb\x7f\xf9\xe7\xff\xda~\xf8\x1f\xff\xf8\x8f\x7f\xfe\xb7\xff\xf2\xff\xfc\xe3\x1f\xff\xe3\xff]\xff\xf5\x7f\xfd\xeb\xbf\\?\xf8\x9f\xff\xf8\x9f\xff\xab=\xe2\x1f\xff>\x1f\xf0\xaf\xff\xed\x1f\xff\xf6/\xed_\xe6S\xfe\xfb\xbf\xff\xdf\xff\xf8\x1f\xff\xaa\xff\xee\xbf\xf3_\xfe\xbf\x7f\xfe\xb7\xff\xf5\xaf\xff\xf4\x7f\xfc\x9f\xce\xc5-\xb8\xbd\xfe\xefO\x88\x9b;\xfb\'\x97\xb6\xbd\xff\xefO\xca\xce_\x9f\x9d?\xc2\xfa\xbc\xebwb\xd1\xafl\xf1\x0c\xb9~\xc8\xb9>i\xfet\x80\xc4r\x81\xc4\xf9\xbb\xe7\xf5W%\xa7}=\xe1\xdc\xdd\xfa\xec\xfc\xfa\x9d\x98\x85

In [None]:
# lire le jeu de données en utilisant le zip de compression
zip = pd.read_csv('teste.zip',compression='zip')

In [None]:
print(zip.head())

   longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0    -114.31     34.19                15.0       5612.0          1283.0   
1    -114.47     34.40                19.0       7650.0          1901.0   
2    -114.56     33.69                17.0        720.0           174.0   
3    -114.57     33.64                14.0       1501.0           337.0   
4    -114.57     33.57                20.0       1454.0           326.0   

   population  households  median_income  median_house_value  
0      1015.0       472.0         1.4936             66900.0  
1      1129.0       463.0         1.8200             80100.0  
2       333.0       117.0         1.6509             85700.0  
3       515.0       226.0         3.1917             73400.0  
4       624.0       262.0         1.9250             65500.0  
