# Analyse Exploratoire des Données sur le Vin
Dans ce notebook, nous allons effectuer une analyse exploratoire des données (EDA) sur un jeu de données de vins. L'objectif est de comprendre la distribution des variables, les relations entre elles et d'identifier des patterns potentiels.

## Importer les librairies

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Charger les données

Nous chargeons le jeu de données depuis le fichier CSV.

In [None]:
# Charger les données
data = pd.read_csv("../../data/raw/vin.csv")

## Aperçu des données

Affichons les premières lignes du jeu de données pour avoir un aperçu rapide.

In [None]:
# Afficher les premières lignes
data.head()

## Informations sur les données

Obtenons des informations détaillées sur les colonnes, y compris les types de données et les valeurs manquantes.

In [None]:
# Afficher les informations sur les colonnes
data.info()

## Statistiques descriptives

Calculons des statistiques descriptives pour chaque variable numérique afin de comprendre leur distribution.

In [None]:
# Statistiques descriptives
data.describe()

## Visualisation des données
### Histogrammes des variables numériques

Visualisons la distribution de chaque variable numérique à l'aide d'histogrammes.

In [None]:
# Histogrammes des variables numériques
data.hist(figsize=(12, 8))
plt.tight_layout()
plt.show()

### Nuage de points entre deux variables

Examinons la relation entre l'acidité fixe et l'acidité volatile.

In [None]:
# Nuage de points entre deux variables
plt.scatter(data['fixed acidity'], data['volatile acidity'])
plt.xlabel('Acidité Fixe')
plt.ylabel('Acidité Volatile')
plt.title('Relation entre l\'Acidité Fixe et l\'Acidité Volatile')
plt.show()

### Matrice de corrélation

Calculons la matrice de corrélation et visualisons-la à l'aide d'une carte thermique.

In [None]:
# Matrice de corrélation
corr_matrix = data.corr()

# Visualisation de la matrice de corrélation
plt.figure(figsize=(12, 10))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Matrice de Corrélation')
plt.show()

## Conclusion

Cette analyse exploratoire nous a permis de :

* Comprendre la structure générale du jeu de données.
* Identifier les distributions des variables individuelles.
* Examiner les relations potentielles entre les variables.

Ces informations seront précieuses pour les étapes ultérieures de modélisation et d'analyse.