# Analyse de la Qualit√© du Vin

## 1. Contexte et Probl√©matique

### Domaine m√©tier
Ce projet porte sur l'analyse de la qualit√© du vin, sp√©cifiquement les vins portugais "Vinho Verde" (vin vert).

### Probl√©matique
- **Objectif principal** : Mod√©liser les pr√©f√©rences du vin en utilisant les propri√©t√©s physicochimiques
- **Approche** : R√©gression et classification bas√©es sur les donn√©es d'analyse sensorielle
- **Enjeu** : Pr√©dire la qualit√© d'un vin √† partir de ses caract√©ristiques physico-chimiques (sans information sur la vari√©t√© de raisin, la marque, le prix, etc.)

### Origine des donn√©es
- **Source** : Dataset public de recherche (Cortez et al., 2009)
- **Cr√©ation** : Paulo Cortez et al. - Universit√© du Minho (Braga, Portugal) en 2009
- **Publication** : Decision Support Systems, Elsevier

### Variantes disponibles
- Vin rouge ("Vinho Verde" rouge)
- Vin blanc ("Vinho Verde" blanc)

In [1]:
import pandas as pd

df = pd.read_csv("../data/winequality-red.csv", sep=";")
df.head()


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


## 2. Compr√©hension des Donn√©es

### 2.1 Structure g√©n√©rale
Les donn√©es sont organis√©es dans **2 fichiers CSV distincts** (s√©par√©s par des points-virgules):

In [2]:
import pandas as pd
import numpy as np

# Chargement des donn√©es
df_red = pd.read_csv("../data/winequality-red.csv", sep=";")
df_white = pd.read_csv("../data/winequality-white.csv", sep=";")

print("=" * 80)
print("DONN√âES - VIN ROUGE")
print("=" * 80)
print(f"Dimensions : {df_red.shape[0]} observations √ó {df_red.shape[1]} variables")
print(f"\nPremi√®res lignes :")
print(df_red.head())

print("\n" + "=" * 80)
print("DONN√âES - VIN BLANC")
print("=" * 80)
print(f"Dimensions : {df_white.shape[0]} observations √ó {df_white.shape[1]} variables")
print(f"\nPremi√®res lignes :")
print(df_white.head())

DONN√âES - VIN ROUGE
Dimensions : 1599 observations √ó 12 variables

Premi√®res lignes :
   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.4              0.70         0.00             1.9      0.076   
1            7.8              0.88         0.00             2.6      0.098   
2            7.8              0.76         0.04             2.3      0.092   
3           11.2              0.28         0.56             1.9      0.075   
4            7.4              0.70         0.00             1.9      0.076   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0.56   
1                 25.0                  67.0   0.9968  3.20       0.68   
2                 15.0                  54.0   0.9970  3.26       0.65   
3                 17.0                  60.0   0.9980  3.16       0.58   
4                 11.0                  34.0   0.9978  3.51       0.56  

### 2.2 Variables et Descriptions

In [3]:
# Noms et descriptions des variables
variables_description = {
    "fixed acidity": "Acidit√© fixe (acides qui ne s'√©vaporent pas facilement)",
    "volatile acidity": "Acidit√© volatile (acides responsables du go√ªt de vinaigre)",
    "citric acid": "Acide citrique (ajoute de la fra√Æcheur et du go√ªt)",
    "residual sugar": "Sucre r√©siduel (sucre restant apr√®s fermentation)",
    "chlorides": "Chlorures (sel dans le vin)",
    "free sulfur dioxide": "Dioxyde de soufre libre (agent conservateur)",
    "total sulfur dioxide": "Dioxyde de soufre total",
    "density": "Densit√© (poids du vin par unit√© de volume)",
    "pH": "Acidit√© (√©chelle 0-14, < 7 = acide)",
    "sulphates": "Sulfates (additif antimicrobien)",
    "alcohol": "Alcool (% d'alcool)",
    "quality": "Qualit√© (score 0-10, bas√© sur √©valuation sensorielle)"
}

print("=" * 80)
print("VARIABLES DU DATASET")
print("=" * 80)
for i, (var, desc) in enumerate(variables_description.items(), 1):
    print(f"{i:2d}. {var:25s} ‚Üí {desc}")

print("\n" + "=" * 80)
print("CLASSIFICATION DES VARIABLES")
print("=" * 80)
print("\nüìä VARIABLES D'ENTR√âE (Features) - 11 variables physicochimiques:")
print("   ‚Ä¢ Acidit√© : fixed acidity, volatile acidity, citric acid, pH")
print("   ‚Ä¢ Sucres : residual sugar")
print("   ‚Ä¢ Min√©raux : chlorides, sulphates")
print("   ‚Ä¢ Conservateurs : free sulfur dioxide, total sulfur dioxide")
print("   ‚Ä¢ Propri√©t√©s physiques : density, alcohol")
print("\nüéØ VARIABLE DE SORTIE (Target) - 1 variable sensorielle:")
print("   ‚Ä¢ quality : Score de qualit√© (0 = tr√®s mauvais, 10 = excellent)")

VARIABLES DU DATASET
 1. fixed acidity             ‚Üí Acidit√© fixe (acides qui ne s'√©vaporent pas facilement)
 2. volatile acidity          ‚Üí Acidit√© volatile (acides responsables du go√ªt de vinaigre)
 3. citric acid               ‚Üí Acide citrique (ajoute de la fra√Æcheur et du go√ªt)
 4. residual sugar            ‚Üí Sucre r√©siduel (sucre restant apr√®s fermentation)
 5. chlorides                 ‚Üí Chlorures (sel dans le vin)
 6. free sulfur dioxide       ‚Üí Dioxyde de soufre libre (agent conservateur)
 7. total sulfur dioxide      ‚Üí Dioxyde de soufre total
 8. density                   ‚Üí Densit√© (poids du vin par unit√© de volume)
 9. pH                        ‚Üí Acidit√© (√©chelle 0-14, < 7 = acide)
10. sulphates                 ‚Üí Sulfates (additif antimicrobien)
11. alcohol                   ‚Üí Alcool (% d'alcool)
12. quality                   ‚Üí Qualit√© (score 0-10, bas√© sur √©valuation sensorielle)

CLASSIFICATION DES VARIABLES

üìä VARIABLES D'ENTR√âE (

### 2.3 Types de Donn√©es et Caract√©ristiques

In [4]:
print("=" * 80)
print("TYPES DE DONN√âES")
print("=" * 80)
print("\nVin Rouge:")
print(df_red.dtypes)
print("\nVin Blanc:")
print(df_white.dtypes)

print("\n" + "=" * 80)
print("STATISTIQUES DESCRIPTIVES - VIN ROUGE")
print("=" * 80)
print(df_red.describe().T)

print("\n" + "=" * 80)
print("STATISTIQUES DESCRIPTIVES - VIN BLANC")
print("=" * 80)
print(df_white.describe().T)

TYPES DE DONN√âES

Vin Rouge:
fixed acidity           float64
volatile acidity        float64
citric acid             float64
residual sugar          float64
chlorides               float64
free sulfur dioxide     float64
total sulfur dioxide    float64
density                 float64
pH                      float64
sulphates               float64
alcohol                 float64
quality                   int64
dtype: object

Vin Blanc:
fixed acidity           float64
volatile acidity        float64
citric acid             float64
residual sugar          float64
chlorides               float64
free sulfur dioxide     float64
total sulfur dioxide    float64
density                 float64
pH                      float64
sulphates               float64
alcohol                 float64
quality                   int64
dtype: object

STATISTIQUES DESCRIPTIVES - VIN ROUGE
                       count       mean        std      min      25%  \
fixed acidity         1599.0   8.319637   1.741096 

## 3. Mode de Collecte des Donn√©es

### 3.1 Processus de collecte
- **Variables d'entr√©e** : Tests **objectifs et mesurables** en laboratoire (physicochimiques)
- **Variable de sortie** : Donn√©es **sensorielles** (qualit√© bas√©e sur d√©gustation)
  - Chaque vin a √©t√© √©valu√© par **au moins 3 experts** en d√©gustation
  - Score final = **m√©diane des √©valuations** des experts
  - √âchelle : 0 (tr√®s mauvais) √† 10 (excellent)

### 3.2 Limitations et particularit√©s
- ‚úÖ **Donn√©es compl√®tes** : Aucune valeur manquante
- ‚ùå **Donn√©es partielles** : Informations limit√©es pour pr√©server la confidentialit√©
  - Pas de donn√©es sur : vari√©t√© de raisins, marque, prix de vente, r√©gion pr√©cise, etc.
- ‚ö†Ô∏è **Donn√©es d√©s√©quilibr√©es** : 
  - Beaucoup plus de vins ¬´ normaux ¬ª que de vins ¬´ excellents ¬ª ou ¬´ tr√®s mauvais ¬ª
  - Distribution des scores de qualit√© est asym√©trique

### 3.3 Potentiel du dataset
- üî¨ Test√© avec succ√®s en machine learning (SVM donne les meilleurs r√©sultats)
- üìä Peut √™tre trait√© comme un probl√®me de **r√©gression** (pr√©dire la note exacte) ou de **classification** (pr√©dire une cat√©gorie)
- üéØ Bon candidat pour : 
  - S√©lection de variables (feature selection) - certaines variables sont corr√©l√©es
  - D√©tection d'anomalies (identifier les rares vins excellents ou mauvais)

In [5]:
print("=" * 80)
print("ANALYSE D√âTAILL√âE DE LA QUALIT√â")
print("=" * 80)

print("\nüìå VIN ROUGE - Distribution de la Qualit√©:")
print(df_red['quality'].value_counts().sort_index())
print(f"\nMoyenne : {df_red['quality'].mean():.2f} | M√©diane : {df_red['quality'].median():.0f} | Mode : {df_red['quality'].mode()[0]:.0f}")

print("\nüìå VIN BLANC - Distribution de la Qualit√©:")
print(df_white['quality'].value_counts().sort_index())
print(f"\nMoyenne : {df_white['quality'].mean():.2f} | M√©diane : {df_white['quality'].median():.0f} | Mode : {df_white['quality'].mode()[0]:.0f}")

print("\n" + "=" * 80)
print("D√âTECTION DE VALEURS MANQUANTES")
print("=" * 80)
print(f"\nVin Rouge - Valeurs manquantes : {df_red.isnull().sum().sum()} (Confirm√© : ‚úÖ Pas de donn√©es manquantes)")
print(f"Vin Blanc - Valeurs manquantes : {df_white.isnull().sum().sum()} (Confirm√© : ‚úÖ Pas de donn√©es manquantes)")

print("\n" + "=" * 80)
print("COMPARAISON ROUGE vs BLANC")
print("=" * 80)
comparison_data = {
    "M√©trique": ["Nb observations", "Alcool (moy %)", "Densit√© (moy)", "Acidit√© pH (moy)", "Qualit√© (moy)"],
    "Vin Rouge": [
        f"{df_red.shape[0]}",
        f"{df_red['alcohol'].mean():.2f}",
        f"{df_red['density'].mean():.5f}",
        f"{df_red['pH'].mean():.2f}",
        f"{df_red['quality'].mean():.2f}"
    ],
    "Vin Blanc": [
        f"{df_white.shape[0]}",
        f"{df_white['alcohol'].mean():.2f}",
        f"{df_white['density'].mean():.5f}",
        f"{df_white['pH'].mean():.2f}",
        f"{df_white['quality'].mean():.2f}"
    ]
}
comparison_df = pd.DataFrame(comparison_data)
print(comparison_df.to_string(index=False))

ANALYSE D√âTAILL√âE DE LA QUALIT√â

üìå VIN ROUGE - Distribution de la Qualit√©:
quality
3     10
4     53
5    681
6    638
7    199
8     18
Name: count, dtype: int64

Moyenne : 5.64 | M√©diane : 6 | Mode : 5

üìå VIN BLANC - Distribution de la Qualit√©:
quality
3      20
4     163
5    1457
6    2198
7     880
8     175
9       5
Name: count, dtype: int64

Moyenne : 5.88 | M√©diane : 6 | Mode : 6

D√âTECTION DE VALEURS MANQUANTES

Vin Rouge - Valeurs manquantes : 0 (Confirm√© : ‚úÖ Pas de donn√©es manquantes)
Vin Blanc - Valeurs manquantes : 0 (Confirm√© : ‚úÖ Pas de donn√©es manquantes)

COMPARAISON ROUGE vs BLANC
        M√©trique Vin Rouge Vin Blanc
 Nb observations      1599      4898
  Alcool (moy %)     10.42     10.51
   Densit√© (moy)   0.99675   0.99403
Acidit√© pH (moy)      3.31      3.19
   Qualit√© (moy)      5.64      5.88


## 4. R√©sum√© Ex√©cutif

| Aspect | D√©tails |
|--------|---------|
| **Domaine** | Analyse sensorielle et pr√©diction de qualit√© de vin |
| **Datasets** | 2 datasets : vin rouge (1599 obs) + vin blanc (4898 obs) = **6497 observations** |
| **Variables** | 11 variables d'entr√©e + 1 variable cible = **12 variables totales** |
| **Types** | Toutes les variables sont **num√©riques (float/int)** |
| **Donn√©es manquantes** | ‚úÖ **Aucune** |
| **Collecte** | Tests physicochimiques en labo + √âvaluations sensorielles (‚â•3 experts) |
| **Cible (Quality)** | Score ordinal 0-10 bas√© sur consensus d'experts |
| **D√©s√©quilibre** | Peu de vins excellents (9-10) et mauvais (3 ou moins) |
| **Format** | CSV s√©par√© par **point-virgule (;)** |
| **Qualit√© donn√©es** | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê Excellente (publique, cit√©e 1000+ fois, bien document√©e) |