# Exploration et analyse de données via Pandas

![Alt text](./images/pandas.png)

Ce notebook offre une introduction pratique à la bibliothèque pandas en Python. Il couvre les concepts fondamentaux de la manipulation et de l'analyse de données à l'aide de pandas, incluant le chargement de données, l'exploration et les statistiques descriptives. Nous utiliserons un jeu de données sur les diamants pour illustrer ces fonctionnalités essentielles.

<hr style="border: 2px solid black;">

## step 1: Download the data : 
The datasets used here can be found in https://github.com/TrainingByPackt/Interactive-Data-Visualization-with-Python/tree/master/datasets.

documentation on pandas can be found here: https://pandas.pydata.org/docs/
seaborn documentation can be found here: https://seaborn.pydata.org/

<hr style="border: 2px solid black;">

## Step 2: Import needed libraries



In [1]:
# import pandas libraries and visualization library seeborn
import pandas as pd
import seaborn as sns

<hr style="border: 2px solid black;">

## Step 3  Describing data with pandas : 

<hr style="border: 2px solid black;">

La bibliothèque pandas est un outil open source extrêmement puissant pour gérer, manipuler et analyser des données structurées. Les tableaux de données peuvent être stockés dans l'objet DataFrame disponible dans pandas, et des données dans divers formats (par exemple, .csv, .tsv, .xlsx, et .json) peuvent être lues directement dans un DataFrame. En utilisant des fonctions intégrées, les DataFrames peuvent être manipulés efficacement (par exemple, convertir des tableaux entre différentes vues, comme longues/larges ; regrouper par une colonne/caractéristique spécifique ; résumer les données ; et plus encore).

In [10]:
# you can either read the data directly from github or you can download it and 
# include its path, the dataset is also available in seaborn which means 
# you can read it via: diamonds_df = sns.load_dataset('diamonds')

#URL of the dataset: Download the dataset 
#diamonds_url = "./diamonds.csv"
#diamonds_df = pd.read_csv(diamonds_url)
#diamonds_df

diamonds_url = "https://raw.githubusercontent.com/TrainingByPackt/Interactive-Data-Visualization-with-Python/master/datasets/diamonds.csv"
diamonds_df = pd.read_csv(diamonds_url)
diamonds_df

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.20,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
...,...,...,...,...,...,...,...,...,...,...
53935,0.72,Ideal,D,SI1,60.8,57.0,2757,5.75,5.76,3.50
53936,0.72,Good,D,SI1,63.1,55.0,2757,5.69,5.75,3.61
53937,0.70,Very Good,D,SI1,62.8,60.0,2757,5.66,5.68,3.56
53938,0.86,Premium,H,SI2,61.0,58.0,2757,6.15,6.12,3.74


### 3.1 Observing and Describing Data

Pour observer et décrire les données d'un dataset en utilisant pandas , une méthode très utile est la fonction head(). Cette fonction permet d'afficher les premières lignes du DataFrame, ce qui est pratique pour avoir un aperçu rapide des données. Par défaut, elle affiche 5 lignes. Pour ajuster cela, nous pouvons utiliser l'argument n ; par exemple, head(n=5). Voici quelques points clés à retenir :

In [6]:
diamonds_df.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [7]:
diamonds_df.head(10)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
5,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48
6,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47
7,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53
8,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
9,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39


<font color="#008000">  **Pourriez-vous spécifier les différents types de données dans toutes les colonnes ?** <\font> 

Les données contiennent différentes caractéristiques des diamants, telles que **carat** , **cut quality** , **color**, et **price** , sous forme de colonnes. Maintenant, **cut** , **clarity** , et **color** sont des variables catégorielles, tandis que x , y , z , depth , table , et price sont des variables continues. Alors que les variables catégorielles prennent des catégories/noms uniques comme valeurs, les variables continues prennent des nombres réels comme valeurs.

cut , color , et clarity sont des variables ordinales avec respectivement 5, 7 et 8 valeurs uniques (cela peut être obtenu en utilisant diamonds_df.cut.nunique() , diamonds_df.color.nunique() , diamonds_df.clarity.nunique() – essayez !). cut représente la qualité de la taille, décrite comme Fair (Passable), Good (Bon), Very Good (Très bon), Premium (Premium), ou Ideal (Idéal) ; color décrit la couleur du diamant de J (pire) à D (meilleur). Il y a aussi clarity , qui mesure la clarté du diamant – les degrés vont de I1 (pire), SI1, SI2, VS1, VS2, VVS1, VVS2, à IF (meilleur).

<font color="#008000">  **Comptez le nombre de lignes et de colonnes dans le DataFrame en utilisant la fonction**

In [15]:
diamonds_df.shape

(53940, 10)

Résumez les colonnes en utilisant describe() pour obtenir la distribution des variables, incluant la moyenne, la médiane, le minimum, le maximum et les différents quartiles :

In [9]:
# the describe function as is will only describe numeric values 
# to include categorical use diamonds_df.describe(include=object)
diamonds_df.describe()

Unnamed: 0,carat,depth,table,price,x,y,z
count,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0
mean,0.79794,61.749405,57.457184,3932.799722,5.731157,5.734526,3.538734
std,0.474011,1.432621,2.234491,3989.439738,1.121761,1.142135,0.705699
min,0.2,43.0,43.0,326.0,0.0,0.0,0.0
25%,0.4,61.0,56.0,950.0,4.71,4.72,2.91
50%,0.7,61.8,57.0,2401.0,5.7,5.71,3.53
75%,1.04,62.5,59.0,5324.25,6.54,6.54,4.04
max,5.01,79.0,95.0,18823.0,10.74,58.9,31.8


In [11]:
diamonds_df.describe(include=object)

Unnamed: 0,cut,color,clarity
count,53940,53940,53940
unique,5,7,8
top,Ideal,G,SI1
freq,21551,11292,13065


<font color="#008000"> **Sélectionner des colonnes d'un DataFrame. **</font>


Pour sélectionner des colonnes spécifiques d'un jeu de données (DataFrame) Pandas, deux méthodes principales sont disponibles : l'opérateur point (`.`) et l'opérateur crochets (`[]`).

**Accès simple :**

Par exemple, pour accéder à la colonne nommée `cut` du DataFrame `diamonds_df`, vous pouvez utiliser :

```python
diamonds_df.cut

# ou 
diamonds_df['cut']
```

Cas où l'opérateur point (.) ne peut pas être utilisé :

L'opérateur point est pratique, mais il présente des limitations dans certains cas :

Noms de colonnes contenant des espaces : Si un nom de colonne inclut des espaces (par exemple, 'prix au carat'), vous devez impérativement utiliser la notation avec les crochets :

```python
diamonds_df['prix au carat']
```

Noms de colonnes entiers : Lorsque le nom d'une colonne est un nombre entier (par exemple, 2023), l'accès via l'opérateur point n'est pas valide. Utilisez les crochets :

```python
diamonds_df[2023]
```

Création de nouvelles colonnes : Pour ajouter une nouvelle colonne au DataFrame, la notation avec les crochets est la méthode standard :

```python
diamonds_df['nouvelle_colonne'] = ...
diamonds_df['une autre colonne'] = ...
```



Maintenant, nous allons examiner l'ajout conditionnel de colonnes. Essayons d'ajouter une colonne basée sur la valeur de `price_per_carat`. Disons que toute valeur supérieure à 3500 sera considérée comme "élevée" (codée par 1) et toute valeur inférieure à 3500 sera considérée comme "faible" (codée par 0).

In [16]:
#Operations on Dataframes: 

import numpy as np
diamonds_df['price_per_carat'] = diamonds_df['price']/diamonds_df['carat']

np.where(diamonds_df['price_per_carat']>3500,1,0)
diamonds_df.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z,price_per_carat_is_high,price_per_carat
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43,1417.391304,1417.391304
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31,1552.380952,1552.380952
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31,1421.73913,1421.73913
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63,1151.724138,1151.724138
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75,1080.645161,1080.645161


<hr style="border: 2px solid black;">