# 2 - Analyse Exploratoire des données (EDA approfondie)

🎯 **Objectif** : Approfondir l’exploration du dataset `Vinho Verde` **sans dupliquer les étapes déjà réalisées dans le notebook 1** (nettoyage, normalisation, PCA brute, regroupement `quality`, SMOTE).

---

### ✅ Déjà fait dans le Notebook 1
- Chargement des données
- Suppression des valeurs manquantes et doublons
- Normalisation des variables quantitatives
- Regroupement de la variable `quality` en 3 classes (`faible`, `moyenne`, `bonne`)
- Application de SMOTE pour équilibrer les classes
- PCA simple (visualisation 2D avant/après SMOTE)
- Sauvegarde des jeux de données :
  - `WineQT_normalized.csv`
  - `WineQT_SMOTE.csv`

---

### 🧠 À faire – EDA à approfondir

### 📚 Renseignements sur le contexte
- [Joséphine] TO DO **Informations générales sur les propriétés chimiques du vin** : recherches sur le sujet  
  - [Joséphine] À FINIR **Sens des variables** : différence entre les acides, les ordres de grandeurs de taux d'alcool, de sucre
- **Informations générales sur la source de notre jeu de nos données** :  
Notre dataset est un extrait d'un dataset plus global qui a réalisé une étude sur une modélisation des préférences de vins en fonction de leurs propriétés physico-chimiques "P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547-553, 2009". Ce dataset emblématique est aussi disponible sur Kaggle (cf. https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009). Il a aussi été trouvé sur le site de dépôt de jeux de données de Machine Learning d'une université américaine (UC Irvine) (cf. https://archive.ics.uci.edu/dataset/186/wine+quality).  
Et disponible à l'origine sur la page des auteurs http://www3.dsi.uminho.pt/pcortez/wine/. Ils y détaillent beaucoup plus leur travail.
  - **Informations sur la couleur du vin** :  
  L'analyse globale issue de l'étude Cortez et al. a porté sur des vins blancs et rouges. Notre dataset est un extrait : il ne comporte que des échantillons de vin ROUGES.  (cf. Wine Quality Datasets, http://www3.dsi.uminho.pt/pcortez/wine/)  
  Cela peut être confirmé par la répartition des valeurs analytiques (i. e. les caractristiques physico-chimiques des échantillons) (cf. page 29, Fig. 4, http://www3.dsi.uminho.pt/pcortez/wine5.pdf) ainsi que par la répartition des valeurs sensorielles (i. e. la note de qualité) (cf. page 26, Fig. 1, http://www3.dsi.uminho.pt/pcortez/wine5.pdf) et le nombre d'échantillons (i. e. le nombre d'entrée pour les vins rouges dans le dataset Cortez et al. est de 1599 contre 1143 dans le nôtre avec des valeurs d'id comprises entre 0 et 1597) (cf. page 6, section 2 "Materials and methods",  http://www3.dsi.uminho.pt/pcortez/wine5.pdf).
  - **Informations sur la qualité obtenue du vin** :  
  Les données de qualité ont été recueillies de la manière suivante : par l'organisme CRVV (*Comissão de Viticultura da Região dos Vinhos Verdes* ou la comission de viticulture des régions du *vinho verde*) entre mai 2004 et février 2007 (les tests de qualités ne font partie d'aucune accréditation contrairement aux tests analytiques sur les propriétés chimiques). C'est-à-dire qu'un groupe de 3 évaluateurs a testé la saveur et l'arôme des vins à l'aveugle par test organoleptique (ou sensoriel) basés sur l'odorat (pour l'arôme) et le goût (pour la saveur) ; méthode MI051 (cf. https://portal.vinhoverde.pt/pt/tabela-de-precos-das-analises-do-laboratorio). Le score final inclus dans la variable qualité est la médiane de l'ensemble des scores attribués (cf. pages 6 et 7, section 2 "Materials and methods",  http://www3.dsi.uminho.pt/pcortez/wine5.pdf).
  - Quelques informations supplémentaires sur la catégorie des vins et les notes qualifiée de "bonnes" (6 et 7) pour la qualité.  
  Cela reste une analyse un peu ANACHRONIQUE car l'ordonnance régissant la qualité date de 2010 alors que notre étude a été réalisée entre 2004 et 2007 (en plus, un rapport a été publié en 2019 mettant à jour les exigences des tests sensoriels).
  #VVTGE ; #vvtsur sont garantis d'une qualité de 6 minimum ; #VVTcs et #VVTscs ; #VVTGEn ; #VVTPRE et #vvtprs (et beaucoup d'autres d'ailleurs) de 7 minimum (cf. la section *Vinhos Verdes Vinhos Tintos (#GVVT)*,  https://portal.vinhoverde.pt/pt/produtos-regras-de-conformidade).


#### 📊 Analyse univariée et bivariée
- **Matrice de corrélation** : `data.corr()` + `sns.heatmap`
- **Scatterplots** entre les paires de variables les plus corrélées
- **Boxplots / Violin plots** des variables explicatives **par `quality_cat`**
- **Analyse des moyennes / variances** des variables par groupe de qualité (via `groupby("quality_cat").mean()`)

#### 📈 Distribution et transformation
- Étude de la **distribution de chaque variable** (histplot, skewness, kurtosis)
- Identifier les variables fortement asymétriques → envisager une **transformation log ou sqrt**
- Comparaison fine des distributions **par catégorie de qualité**

#### 📐 Analyse multivariée
- **PCA approfondie** :
  - Inertie cumulée (explained variance ratio)
  - Cercle des corrélations (variables sur les deux premières composantes)
  - Projection des individus colorés par `quality_cat`
- **Clustering exploratoire** :
  - K-means : choix optimal de *k* (courbe du coude)
  - CAH (Classification Ascendante Hiérarchique) + dendrogramme
  - Comparaison des clusters aux labels `quality_cat` (via crosstab)

#### 🎯 Focus sur la cible (quality)
- Étude détaillée de la distribution brute de `quality` (valeurs 3 à 8)
- Moyennes des variables par niveau de qualité
- Test statistique d’égalité des moyennes (ANOVA, Kruskal-Wallis)
- Essai de **stratégies alternatives de regroupement de quality** (optionnel)

#### ✅ Recommandations
- Ne pas refaire ce qui a été déjà visualisé dans le Notebook 1.
- Privilégier les visualisations explicatives de structure (variabilité, dépendance, lien avec la cible).
- Bonus : intégrer des interprétations (ce qu’on apprend sur les variables).
