Ce notebook offre une introduction pratique à la bibliothèque pandas en Python. Il couvre les concepts fondamentaux de la manipulation et de l'analyse de données à l'aide de pandas, incluant le chargement de données, l'exploration et les statistiques descriptives. Nous utiliserons un jeu de données sur les diamants pour illustrer ces fonctionnalités essentielles.

<hr style="border: 2px solid black;">

## step 1: Download the data : 
The datasets used here can be found in https://github.com/TrainingByPackt/Interactive-Data-Visualization-with-Python/tree/master/datasets.

documentation on pandas can be found here: https://pandas.pydata.org/docs/
seaborn documentation can be found here: https://seaborn.pydata.org/

<hr style="border: 2px solid black;">

## Step 2: Import needed libraries



In [None]:
# import pandas libraries and visualization library seeborn
import pandas as pd
import seaborn as sns

<hr style="border: 2px solid black;">

## Step 3  Describing data with pandas : 

<hr style="border: 2px solid black;">

La bibliothèque pandas est un outil open source extrêmement puissant pour gérer, manipuler et analyser des données structurées. Les tableaux de données peuvent être stockés dans l'objet DataFrame disponible dans pandas, et des données dans divers formats (par exemple, .csv, .tsv, .xlsx, et .json) peuvent être lues directement dans un DataFrame. En utilisant des fonctions intégrées, les DataFrames peuvent être manipulés efficacement (par exemple, convertir des tableaux entre différentes vues, comme longues/larges ; regrouper par une colonne/caractéristique spécifique ; résumer les données ; et plus encore).

In [None]:
# you can either read the data directly from github or you can download it and 
# include its path, the dataset is also available in seaborn which means 
# you can read it via: diamonds_df = sns.load_dataset('diamonds')

#URL of the dataset: Download the dataset 
#diamonds_url = "./diamonds.csv"
#diamonds_df = pd.read_csv(diamonds_url)
#diamonds_df

diamonds_url = "https://raw.githubusercontent.com/TrainingByPackt/Interactive-Data-Visualization-with-Python/master/datasets/diamonds.csv"
diamonds_df = pd.read_csv(diamonds_url)
diamonds_df

### 3.1 Observing and Describing Data

Pour observer et décrire les données d'un dataset en utilisant pandas , une méthode très utile est la fonction head(). Cette fonction permet d'afficher les premières lignes du DataFrame, ce qui est pratique pour avoir un aperçu rapide des données. Par défaut, elle affiche 5 lignes. Pour ajuster cela, nous pouvons utiliser l'argument n ; par exemple, head(n=5). Voici quelques points clés à retenir :

In [None]:
diamonds_df.head()

In [None]:
diamonds_df.head(10)

<font color="#008000">  **Pourriez-vous spécifier les différents types de données dans toutes les colonnes ?** <\font> 

Les données contiennent différentes caractéristiques des diamants, telles que **carat** , **cut quality** , **color**, et **price** , sous forme de colonnes. Maintenant, **cut** , **clarity** , et **color** sont des variables catégorielles, tandis que x , y , z , depth , table , et price sont des variables continues. Alors que les variables catégorielles prennent des catégories/noms uniques comme valeurs, les variables continues prennent des nombres réels comme valeurs.

cut , color , et clarity sont des variables ordinales avec respectivement 5, 7 et 8 valeurs uniques (cela peut être obtenu en utilisant diamonds_df.cut.nunique() , diamonds_df.color.nunique() , diamonds_df.clarity.nunique() – essayez !). cut représente la qualité de la taille, décrite comme Fair (Passable), Good (Bon), Very Good (Très bon), Premium (Premium), ou Ideal (Idéal) ; color décrit la couleur du diamant de J (pire) à D (meilleur). Il y a aussi clarity , qui mesure la clarté du diamant – les degrés vont de I1 (pire), SI1, SI2, VS1, VS2, VVS1, VVS2, à IF (meilleur).

<font color="#008000">  **Comptez le nombre de lignes et de colonnes dans le DataFrame en utilisant la fonction**

In [None]:
diamonds_df.shape

Résumez les colonnes en utilisant describe() pour obtenir la distribution des variables, incluant la moyenne, la médiane, le minimum, le maximum et les différents quartiles :

In [None]:
# the describe function as is will only describe numeric values 
# to include categorical use diamonds_df.describe(include=object)
diamonds_df.describe()

In [None]:
diamonds_df.describe(include=object)

<font color="#008000"> **Sélectionner des colonnes d'un DataFrame. **</font>


Pour sélectionner des colonnes spécifiques d'un jeu de données (DataFrame) Pandas, deux méthodes principales sont disponibles : l'opérateur point (`.`) et l'opérateur crochets (`[]`).

**Accès simple :**

Par exemple, pour accéder à la colonne nommée `cut` du DataFrame `diamonds_df`, vous pouvez utiliser :

```python
diamonds_df.cut

# ou 
diamonds_df['cut']
```

Cas où l'opérateur point (.) ne peut pas être utilisé :

L'opérateur point est pratique, mais il présente des limitations dans certains cas :

Noms de colonnes contenant des espaces : Si un nom de colonne inclut des espaces (par exemple, 'prix au carat'), vous devez impérativement utiliser la notation avec les crochets :

```python
diamonds_df['prix au carat']
```

Noms de colonnes entiers : Lorsque le nom d'une colonne est un nombre entier (par exemple, 2023), l'accès via l'opérateur point n'est pas valide. Utilisez les crochets :

```python
diamonds_df[2023]
```

Création de nouvelles colonnes : Pour ajouter une nouvelle colonne au DataFrame, la notation avec les crochets est la méthode standard :

```python
diamonds_df['nouvelle_colonne'] = ...
diamonds_df['une autre colonne'] = ...
```



Maintenant, nous allons examiner l'ajout conditionnel de colonnes. Essayons d'ajouter une colonne basée sur la valeur de `price_per_carat`. Disons que toute valeur supérieure à 3500 sera considérée comme "élevée" (codée par 1) et toute valeur inférieure à 3500 sera considérée comme "faible" (codée par 0).

In [None]:
#Operations on Dataframes: 

import numpy as np
diamonds_df['price_per_carat'] = diamonds_df['price']/diamonds_df['carat']

np.where(diamonds_df['price_per_carat']>3500,1,0)
diamonds_df.head()

<hr style="border: 2px solid black;">


 ##                         Exercice de laboratoire : Tracer et analyser un histogramme


**Objectif** : Dans cet exercice, vous allez créer et analyser des histogrammes pour comprendre la distribution du poids en carats dans le jeu de données des diamants.

**Matplotlib**
- est une bibliothèque de traçage (plotting) disponible dans la plupart des distributions Python et constitue la base de plusieurs packages de traçage.
- matplotlib compris la fonctionnalité de traçage intégrée de pandas et seaborn. 
- Matplotlib permet de contrôler chaque aspect d'une figure et est connu pour être verbeux. Les fonctions de visualisation de seaborn et pandas sont toutes deux construites sur matplotlib. 


**Pandas**
pandas est une bibliothèque puissante d'analyse et de manipulation de données. Elle fournit des structures de données comme le DataFrame, qui est essentiel pour travailler avec des données structurées. L'outil de traçage intégré de pandas est un outil exploratoire utile pour générer des figures qui ne sont pas prêtes pour une présentation finale mais utiles pour comprendre l'ensemble de données sur lequel vous travaillez. 


**Seaborn**
- Seaborn, possède des API pour dessiner une grande variété de tracés esthétiquement agréables.seaborn est une bibliothèque de visualisation de données Python basée sur Matplotlib. Elle fournit une interface de haut niveau pour1 créer des graphiques statistiques attrayants et informatifs



**Pour illustrer certains concepts clés et explorer l'ensemble de données diamonds, nous commencerons par deux visualisations simples dans ce chapitre : les histogrammes et les diagrammes à barres.**

1. Pour cet exercice, créez un histogramme de la fréquence des diamants dans le jeu de données, en utilisant leurs spécifications de carat respectives sur l'axe des x
2.  Modifier le nombre de bins :
3. Comment l'augmentation du nombre de classes affecte-t-elle l'apparence de l'histogramme ?
4. Tracer un histogramme à l'aide de Seaborn :
5. Quelles sont les deux différences clés entre les histogrammes générés par la fonction .hist() de pandas et la fonction sns.distplot() de Seaborn ?
6. Qu'est-ce qu'une estimation de la densité du noyau (KDE) ? Que montre-t-elle ?
7. Appliquer une transformation logarithmique :



In [None]:
import pandas as pd
import matplotlib.pyplot as plt

plt.hist(diamonds_df['carat'], bins=30)
plt.title('Histogramme des spécifications de carat des diamants')
plt.xlabel('Carat')
plt.ylabel('Fréquence')
plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

plt.hist(diamonds_df['carat'], bins=300)
plt.title('Histogramme des spécifications de carat des diamants')
plt.xlabel('Carat')
plt.ylabel('Fréquence')
plt.show()

l'augmentation du nombre de classes rend le diagramme plus precis.

In [None]:
import seaborn as sns

plt.figure(figsize=(10, 6))
sns.histplot(diamonds_df['carat'], bins=30)
plt.title('Histogramme des spécifications de carat avec Seaborn')
plt.xlabel('Carat')
plt.ylabel('Fréquence')
plt.show()

<hr style="border: 2px solid black;">


In [None]:
import seaborn as sns
import pandas as pd
diamonds_df = sns.load_dataset('diamonds')
diamonds_df.hist(column='carat')

In [None]:
diamonds_df.hist(column='carat', bins=50)

L'augmentation du nombre de classes rend l'histogramme plus détaillé ou granulaire. Il montre davantage de fluctuations et de motifs plus fins dans la distribution des données.

In [None]:
sns.distplot(diamonds_df.carat)


In [None]:
sns.distplot(diamonds_df.carat, kde=False)


In [None]:
sns.distplot(diamonds_df.carat, kde=False, bins=100)


In [None]:
import numpy as np
sns.distplot(np.log(diamonds_df.price), kde=True)

<hr style="border: 2px solid black;">


- **Pourquoi une transformation logarithmique est-elle appliquée à la variable 'price' ?**
Une transformation logarithmique est souvent appliquée aux données asymétriques comme 'price' pour rendre la distribution plus symétrique et plus facile à analyser. Elle peut également aider à révéler des motifs qui ne sont pas apparents à l'échelle d'origine.
- **Quelles nouvelles informations l'histogramme transformé par logarithme révèle-t-il sur la distribution des prix des diamants ?**
L'histogramme transformé par logarithme révèle des pics distincts, suggérant des regroupements ou des catégories de prix potentiels pour les diamants. Cela pourrait indiquer différents segments de marché ou niveaux de qualité.
- **Identifiez les pics approximatifs dans la distribution des prix transformée par logarithme. Que pourraient suggérer ces pics sur le marché des diamants ?**
Le texte mentionne des concentration/groupment autour de 6,8 et entre 8,5 et 9 (sur l'échelle logarithmique). Ces groupment pourraient suggérer : Un group représente des diamants plus courants et moins chers. Un autre group représente un groupe de diamants plus chers, peut-être de meilleure qualité.

**Analyse et discussion :**

Sur la base de vos observations des histogrammes, répondez aux questions suivantes :

**Quelles sont les trois principales caractéristiques d'une distribution qui peuvent être identifiées à partir d'un histogramme ?**
- Forme : Asymétrie (symétrie), modalité (nombre de group) et forme générale.
- Centre : Où les données sont concentrées (par exemple, moyenne, médiane).
- Dispersion : Dans quelle mesure les données varient (par exemple, étendue, écart type).

**Expliquez comment le choix de la taille des bins peut influencer l'interprétation d'un histogramme.**
- Trop peu de bins peuvent simplifier excessivement les données, masquant des motifs importants. 
- Trop de classes peuvent rendre l'histogramme bruité et difficile à interpréter. La bonne taille de classe révèle la distribution sous-jacente.


<hr style="border: 2px solid black;">


<center> <h1> **Repeat the visualizations but with plotly**

<table>
<tr>
    <td><img src="./images/pandas.png" alt="Pandas Logo" width="400"/></td>
    <td><img src="./images/Plotly-logo.png" alt="plotly Logo" width="400"/></td>
</tr>
</table>

In [None]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

In [None]:
diamonds_url = "https://raw.githubusercontent.com/TrainingByPackt/Interactive-Data-Visualization-with-Python/master/datasets/diamonds.csv"
diamonds_df = pd.read_csv(diamonds_url)

diamonds_df.head()

In [None]:
fig = px.histogram(diamonds_df, x="carat", title="Histogramme des spécifications de carat des diamants")
fig.update_layout( xaxis_title="Carat", yaxis_title="Fréquence")
fig.show()

In [None]:
fig = px.histogram(diamonds_df, x="carat", nbins=30, title="Histogramme avec 30 bins")
fig.show()

fig = px.histogram(diamonds_df, x="carat", nbins=300, title="Histogramme avec 300 bins")
fig.show()

In [None]:
fig = px.histogram(diamonds_df, x="carat", marginal="box", title="Histogramme avec boîte à moustaches en marge")
fig.show()

fig = px.histogram(diamonds_df, x="carat", marginal="violin", title="Histogramme avec diagramme en violon en marge")
fig.show()

In [None]:
fig = px.histogram(diamonds_df, x="carat", histnorm="probability density", title="Densité de probabilité des carats")
fig.show()

In [None]:
fig = px.histogram(diamonds_df, x="price", log_x=True, title="Histogramme des prix avec axe X logarithmique")
fig.show()

In [None]:
fig = px.histogram(diamonds_df, x="carat", color="cut", barmode="overlay", opacity=0.7, title="Distribution des carats selon la qualité de la taille")
fig.show()


In [None]:
import numpy as np
from scipy import stats

x_range = np.linspace(min(diamonds_df.carat), max(diamonds_df.carat), 1000)
kde = stats.gaussian_kde(diamonds_df.carat)
y_kde = kde(x_range)

fig = go.Figure()
fig.add_trace(go.Histogram(x=diamonds_df.carat, name="Histogramme", opacity=0.7, histnorm="probability density"))

fig.add_trace(go.Scatter( x=x_range, y=y_kde, mode="lines", name="KDE", line=dict(color="red", width=2)))

fig.update_layout(title="Histogramme avec courbe KDE", xaxis_title="Carat", yaxis_title="Densité de probabilité")
fig.show()