# Exploration des données de base
Chargez et comprenez vos données.

## Utiliser Pandas pour se familiariser avec vos données
La première étape dans tout projet d'apprentissage automatique consiste à se familiariser avec les données. Vous utiliserez la bibliothèque **Pandas** pour cela. Pandas est l'outil principal utilisé par les data scientists pour explorer et manipuler les données. La plupart des gens abrègent **pandas** dans leur code en pd. Nous faisons cela avec la commande suivante :

In [8]:
import pandas as pd

La partie la plus importante de la bibliothèque Pandas est le **DataFrame**. Un DataFrame contient un type de données que l'on peut imaginer comme un tableau. Cela ressemble à une feuille dans Excel ou à une table dans une base de données SQL.

Pandas propose des méthodes puissantes pour la plupart des opérations que vous souhaitez effectuer avec ce type de données.

## Exemple : Données sur les prix des maisons à Melbourne
À titre d'exemple, nous examinerons des données sur les prix des maisons à Melbourne, en Australie. Dans les exercices pratiques, vous appliquerez les mêmes processus à un nouveau jeu de données contenant des prix de maisons en Iowa.

Les données d'exemple (Melbourne) se trouvent dans le fichier suivant :
../input/melbourne-housing-snapshot/melb_data.csv.

Nous chargeons et explorons ces données avec les commandes suivantes :

In [20]:
# Vérifier l'existance du fichier

import os
melbourne_file_path = 'melb_data.csv'

if os.path.exists(melbourne_file_path):
    melbourne_data = pd.read_csv(melbourne_file_path)
    print("Fichier chargé avec succès.")
else:
    print(f"Le fichier n'existe pas à cet emplacement : {melbourne_file_path}")


Fichier chargé avec succès.


In [22]:
# Lire les données et les stocker dans un DataFrame nommé melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,3150.0,...,2.0,2.0,652.0,,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0
13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,3016.0,...,2.0,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0
13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,3016.0,...,2.0,4.0,436.0,,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0
13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,3016.0,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0


In [24]:
# Afficher un résumé des données dans melbourne_data
melbourne_data.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


### Interprétation des descriptions des données
Les résultats montrent 8 chiffres pour chaque colonne de votre jeu de données original :

**Count** : le nombre de lignes ayant des valeurs non manquantes.
Les valeurs manquantes peuvent apparaître pour plusieurs raisons. Par exemple, la taille de la deuxième chambre ne serait pas collectée pour une maison avec une seule chambre. Nous reviendrons sur la gestion des données manquantes plus tard.

**Mean** : la moyenne des valeurs.
C'est la valeur moyenne pour la colonne.

**Std** : l'écart type (standard deviation).
Cela mesure la dispersion numérique des valeurs.

**Min et Max** : les valeurs minimale et maximale de la colonne.

**25%, 50% (médiane) et 75%** : les percentiles.
Ces valeurs sont obtenues en triant les données de la colonne de la plus petite à la plus grande valeur :

25% : une valeur supérieure à 25 % des données et inférieure à 75 %.
50% : une valeur supérieure à 50 % des données (la médiane).
75% : une valeur supérieure à 75 % des données et inférieure à 25 %.


# EXERCICE

Confert Kaggle ! FAIT