# Analyse de la variable 'cut' dans le dataset Diamonds
Ce notebook explore les différentes bibliothèques de visualisation Python pour tracer des diagrammes à barres représentant le nombre de diamants par qualité de coupe ('cut').

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import altair as alt

In [2]:
url = "https://raw.githubusercontent.com/TrainingByPackt/Interactive-Data-Visualization-with-Python/master/datasets/diamonds.csv"
df = pd.read_csv(url)

# Affiche les 5 premières lignes
print(df.head())

# Affiche les noms de colonnes et types
print(df.dtypes)

# Affiche les 10 premières lignes
print(df.head(10))

   carat      cut color clarity  depth  table  price     x     y     z
0   0.23    Ideal     E     SI2   61.5   55.0    326  3.95  3.98  2.43
1   0.21  Premium     E     SI1   59.8   61.0    326  3.89  3.84  2.31
2   0.23     Good     E     VS1   56.9   65.0    327  4.05  4.07  2.31
3   0.29  Premium     I     VS2   62.4   58.0    334  4.20  4.23  2.63
4   0.31     Good     J     SI2   63.3   58.0    335  4.34  4.35  2.75
carat      float64
cut         object
color       object
clarity     object
depth      float64
table      float64
price        int64
x          float64
y          float64
z          float64
dtype: object
   carat        cut color clarity  depth  table  price     x     y     z
0   0.23      Ideal     E     SI2   61.5   55.0    326  3.95  3.98  2.43
1   0.21    Premium     E     SI1   59.8   61.0    326  3.89  3.84  2.31
2   0.23       Good     E     VS1   56.9   65.0    327  4.05  4.07  2.31
3   0.29    Premium     I     VS2   62.4   58.0    334  4.20  4.23  2.63
4   0

In [None]:
# Chargement des données
df = pd.read_csv('diamonds')
cut_counts = df['cut'].value_counts().sort_index()
cut_df = cut_counts.reset_index()
cut_df.columns = ['cut', 'count']

FileNotFoundError: [Errno 2] No such file or directory: 'diamonds.csv'

## 1. Diagramme à barres avec Matplotlib

In [None]:
plt.figure(figsize=(8,5))
plt.bar(cut_df['cut'], cut_df['count'], color='skyblue')
plt.xlabel('Type de coupe')
plt.ylabel('Nombre de diamants')
plt.title('Répartition des diamants selon la qualité de coupe (Matplotlib)')
plt.show()

# Matplotlib est très personnalisable mais demande plus de code.
# Il faut spécifier manuellement les couleurs, labels, tailles, etc.
# Moins pratique pour une visualisation rapide, mais idéal pour un contrôle total.

NameError: name 'plt' is not defined

## 2. Diagramme à barres avec Seaborn

In [None]:
plt.figure(figsize=(8,5))
sns.barplot(x='cut', y='count', data=cut_df, palette='Blues_d')
plt.xlabel('Type de coupe')
plt.ylabel('Nombre de diamants')
plt.title('Répartition des diamants selon la qualité de coupe (Seaborn)')
plt.show()

# Seaborn offre une syntaxe plus simple et des graphismes plus jolis par défaut.
# Facile à personnaliser et à intégrer dans des visualisations statistiques.

NameError: name 'plt' is not defined

## 3. Diagramme à barres interactif avec Plotly

In [None]:
fig = px.bar(cut_df, x='cut', y='count',
             labels={'cut': 'Type de coupe', 'count': 'Nombre de diamants'},
             title='Répartition des diamants selon la qualité de coupe (Plotly)')
fig.show()

# Plotly génère des graphiques interactifs par défaut (hover, zoom, etc.).
# Idéal pour les dashboards ou présentations web.

NameError: name 'px' is not defined

## 4. Diagramme à barres interactif avec Altair

In [None]:
fig_altair = alt.Chart(cut_df).mark_bar().encode(
    x=alt.X('cut', title='Type de coupe'),
    y=alt.Y('count', title='Nombre de diamants'),
    tooltip=['cut', 'count']
).properties(
    title='Répartition des diamants selon la qualité de coupe (Altair)',
    width=600,
    height=400
)
fig_altair

NameError: name 'alt' is not defined