In [None]:
!pip install -r requirements.txt

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [4]:
%matplotlib inline
file_path = "data/winemag.csv"  # Modifier avec le chemin correct
df = pd.read_csv(file_path)

In [None]:
df.head()

In [None]:
df.info()

In [None]:
missing_values = df.isnull().sum()
print("Valeurs manquantes par colonne :\n", missing_values)

In [None]:
df.describe()

In [None]:
duplicates = df.duplicated().sum()
print(f"Nombre de doublons : {duplicates}")

In [None]:
plt.figure(figsize=(8,5))
sns.histplot(df["points"], bins=20, kde=True, color="blue")
plt.title("Distribution des scores des vins")
plt.xlabel("Points")
plt.ylabel("Fréquence")
plt.show()

In [None]:
plt.figure(figsize=(8,5))
sns.boxplot(x=df["price"])
plt.xlim(0, df["price"].quantile(0.95))  # Limite pour exclure les valeurs extrêmes
plt.title("Distribution des prix des vins")
plt.show()

In [None]:
top_countries = df["country"].value_counts().head(10)
plt.figure(figsize=(10,5))
sns.barplot(x=top_countries.index, y=top_countries.values, palette="viridis")
plt.title("Top 10 des pays avec le plus de vins")
plt.ylabel("Nombre de vins")
plt.xticks(rotation=45)
plt.show()

In [None]:
avg_price_country = df.groupby("country")["price"].mean().sort_values(ascending=False).head(10)
plt.figure(figsize=(10,5))
sns.barplot(x=avg_price_country.index, y=avg_price_country.values, palette="coolwarm")
plt.title("Prix moyen des vins par pays (Top 10)")
plt.ylabel("Prix moyen ($)")
plt.xticks(rotation=45)
plt.show()

In [None]:
top_varieties = df["variety"].value_counts().head(10)
plt.figure(figsize=(10,5))
sns.barplot(x=top_varieties.index, y=top_varieties.values, palette="magma")
plt.title("Top 10 des variétés de vin les plus populaires")
plt.ylabel("Nombre de vins")
plt.xticks(rotation=45)
plt.show()

In [None]:
# Select only numerical columns
numerical_df = df.select_dtypes(include=[np.number])

plt.figure(figsize=(8,6))
sns.heatmap(numerical_df.corr(), annot=True, cmap="coolwarm", linewidths=0.5)
plt.title("Matrice de corrélation")
plt.show()

In [None]:
plt.figure(figsize=(8,5))
sns.scatterplot(x=df["price"], y=df["points"], alpha=0.5)
plt.xlim(0, df["price"].quantile(0.95))  # Exclure les valeurs extrêmes
plt.title("Relation entre le prix et le score du vin")
plt.xlabel("Prix ($)")
plt.ylabel("Points")
plt.show()