**Lilian JAOUANNE**

**Bastian GARÇON**

Mecatro 3A FISA Promo 2026

# Base de Données sur la Qualité des Vins de Vinho Verde

## Origine des données

Les données sont extraites de l'[UCI Machine Learning Repository](https://archive.ics.uci.edu) et se rapportent spécifiquement aux variantes rouge et blanche des vins de Vinho Verde, une région notable du Portugal.

## Composition de la Base de Données

La base de données se divise en deux ensembles distincts, l'un pour les vins rouges et l'autre pour les vins blancs. Chaque ensemble comprend plusieurs variables qui mesurent les caractéristiques physicochimiques des vins ainsi que leur qualité sensorielle évaluée :
- Fixed Acidity: Acidité totale du vin, incluant les acides fixes et volatils.
- Volatile Acidity: Concentration en acide acétique, influant sur le goût vinaigré du vin.
- Citric Acid: Acidité apportée par l'ajout d'acide citrique, ajustant l'acidité des vins.
- Residual Sugar: Quantité de sucre restant post-fermentation.
- Chlorides: Teneur en chlorures, ou sel, du vin.
- Free Sulfur Dioxide: Quantité de dioxyde de soufre libre, prévenant l'oxydation et la croissance microbienne.
- Total Sulfur Dioxide: Totalité du dioxyde de soufre présent dans le vin.
- Density: Densité du vin, souvent liée à sa teneur en alcool.
- pH: Indice de l'acidité ou basicité du vin.
- Sulphates: Taux de sulfates ajoutés, augmentant le SO2 et aidant à la conservation du vin.
- Alcohol: Pourcentage d'alcool contenu dans le vin.
- Quality: Note de qualité attribuée par des dégustateurs, sur une échelle de 0 à 10.

## Problématiques Principales

### 1. Identification des Variables Influant sur la Densité

- **Objectif** : Détecter les variables physicochimiques qui influencent significativement la densité du vin, pour les vins rouges et blancs.
- **Approche** : Sélection de variables pertinentes à travers des techniques statistiques pour minimiser le bruit et se concentrer sur les contributeurs clés à la densité du vin.

### 2. Modélisation de la Densité du Vin

- **Objectif** : Construire un modèle de régression linéaire multiple pour prédire la densité du vin à partir des variables sélectionnées, et comparer les modèles pour les vins rouges contre les vins blancs.
- **Approche** : Développement et validation d'un modèle de régression, évaluation de la précision et des performances du modèle, et analyse des interactions entre les variables.

### 3. Comparaison des Distributions de Variables Spécifiques

- **Objectif** : Examiner comment les distributions des variables telles que le pH, la densité, et l'acidité volatile varient entre les vins rouges et blancs.
- **Approche** : Utilisation de tests de normalité et d'analyse de variance (ANOVA) pour évaluer les différences statistiques entre les deux types de vin.

### 4. Analyse des Associations entre Qualité du Vin et Autres Variables Catégorielles

- **Objectif** : Investiguer s'il existe des associations significatives entre les catégories de qualité du vin et d'autres variables catégorielles.
- **Approche** : Utilisation de tests statistiques pour évaluer l'association entre variables catégorielles et la qualité perçue du vin.

# Mise en pratique

## Librairies à importer

Avant toute chose, nous devons importer ces librairies :
- _Pandas_ : pour la partie dataframes
- _numpy_ : pour les tableaux
- _pyplot_ de _matplotlib_ : pour une visualisation graphique
- _seaborn_ : pour la visualisation de données
- _statmodels.api_ : pour le test ANOVA
- _shapiro_ de _scipy.stats_ : pour le test Shapiro puis _scipy.stats_ pour les fonctions statistiques.

In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
from scipy.stats import shapiro
import scipy.stats as stats

## Importation des bases de données

On importe les deux base de données grâce à _pandas_

In [35]:
RED_WINE = pd.read_csv("Bases de données/winequality-red.csv", sep=';', decimal='.')
WHITE_WINE = pd.read_csv("Bases de données/winequality-white.csv", sep=';', decimal='.')

# 1. Identification des Variables Influant sur la Densité

On commence par vérifier quelles sont les variables corrélées à la densité. Pour cela on utilise la fonction suivante qui va prendre un jeu de données et supprimer les variables n'étant pas corrélées à la densité avec un risque de 5%. Pour cela on utilise la valeur **p** produite par le Test de **Pearson**. Si la valeur **p** est inférieur à 0.05 et la valeur absolue de la corrélation supérieur à 0.15, on garde la variable pour la régression linéaire multiple qui suivra.

In [36]:
def corr_data(data_set, variable:str):
    # Calculer les coefficients de corrélation et les valeurs p pour chaque variable par rapport à 'variable'
    correlations = {}
    p_values = {}
    variables_to_exclude = []

    for column in data_set.columns:
        if column != variable:  # éviter de comparer la varaible à corréler avec elle-même
            corr, p_val = stats.pearsonr(data_set[column], data_set[variable])
            correlations[column] = corr
            p_values[column] = p_val
        
            if abs(corr) < 0.15 or p_val > 0.05:
                variables_to_exclude.append(column)
    
    return data_set.drop(columns = variables_to_exclude)

A présent, nous pouvons appeler la fonction pour le vin rouge et blanc. On oublie d'y enlever la variable de **qualité** qui n'est pas continue. De ce fait, elle est considérée comme une variable catégorielle. On y enlève aussi la **densité** puisque c'est la variable que l'on cherche à prédire.

In [42]:
X_density_RED = corr_data(RED_WINE, 'density')
X_density_RED.drop(columns = ['quality', 'density'], inplace=True)

X_density_WHITE = corr_data(WHITE_WINE, 'density')
X_density_WHITE.drop(columns = ['quality', 'density'], inplace=True)

Maintenant, nous avons notre jeu de donnée avec les variables qui influent le plus sur la densité. On les affiche grâce à la fonction suivante.

In [43]:
print('Variables retenues pour la régression linéaire de la densité du :\nVIN ROUGE :')
print(X_density_RED.keys())
print('\nVIN BLANC :')
print(X_density_WHITE.keys())

Variables retenues pour la régression linéaire de la densité du :
VIN ROUGE :
Index(['fixed acidity', 'citric acid', 'residual sugar', 'chlorides', 'pH',
       'alcohol'],
      dtype='object')

VIN BLANC :
Index(['fixed acidity', 'residual sugar', 'chlorides', 'free sulfur dioxide',
       'total sulfur dioxide', 'alcohol'],
      dtype='object')


On voit que pour le vin rouge comme pour le vin blanc, les variables concervées pour expliquer la dentité sont :
- fixed acidity
- residual sugar
- chlorides
- alcohol

En revanche les varaibles :
- citric acid
- pH

Ne sont présentent que dans dans les variables expliquatives de la dentité du <span style="color: red;">vin rouge</span> et celle :
- free sulfur dioxide
- total sulfur dioxide

Que dans dans les variables expliquatives de la dentité du vin blanc.