Ce projet vise à prédire la qualité d’un vin à partir de ses caractéristiques physico-chimiques (acidité, pH, teneur en alcool, sucre résiduel, etc.).
C'est un projet supervisé de type régression basé sur le dataset public Wine Quality (UCI).
Objectifs :
- Explorer les données (EDA) pour comprendre les facteurs influençant la qualité.
- Entraîner et comparer plusieurs modèles de régression.
- Évaluer la performance via la RMSE.
- Sélectionner et interpréter le meilleur modèle.
wine-quality-ml/
│
├── data/ # Données brutes et nettoyées
│ ├── raw/
│ └── processed/
│
├── notebooks/ # Notebooks Jupyter (EDA, entraînement)
│ ├── 01_eda.ipynb
│ └── 02_model_training.ipynb
│
├── src/ # Scripts Python
│ ├── data_preprocessing.py
│ └── model_training.py
│
├── models/ # modèles sauvegardés (.pkl, .joblib, ...)
├── tests/ # tests unitaires / smoke
├── docs/ # notes, rapports
├── README.md
└── .gitignore
git clone https://github.com/<ton_nom_utilisateur>/wine-quality-ml.git
cd wine-quality-mlpython -m venv venv
# Windows
venv\Scripts\activate
# macOS/Linux
source venv/bin/activatepip install -r requirements.txtSources (UCI) :
- Wine Quality – Red: https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv
- Wine Quality – White: https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv
Chaque ligne = un échantillon de vin ; la colonne cible est quality (note généralement entre 0 et 10).
- EDA : statistiques descriptives, corrélations, visualisations.
- Prétraitement : nettoyage, traitement des valeurs manquantes, normalisation.
- Modélisation : régression linéaire, Ridge/Lasso, RandomForest, éventuellement XGBoost/LightGBM.
- Évaluation : RMSE (principal), MAE, analyse d’erreurs.
- Optimisation : recherche d’hyperparamètres (Grid/Random/Optuna).
- Packaging : script d’inférence
predict.py, sauvegarde du modèle, README + Model Card.
- Python 3.9+
- pandas, numpy, scikit-learn
- matplotlib, seaborn
- (optionnel) xgboost / lightgbm, optuna
- Jupyter Notebook
Projet réalisé par Louis Quibeuf / premier projet pratique en Machine Learning.
MIT : réutilisation permise avec attribution.