# [Red Wine Quality Prediction Using Regression Modeling and Machine Learning](https://towardsdatascience.com/red-wine-quality-prediction-using-regression-modeling-and-machine-learning-7a3e2c3e1f46)

<img src = 'https://miro.medium.com/max/1050/1*oXOppV_n4hv-tf8Y96QHxQ.png'> 

La industria del vino tinto muestra un crecimiento exponencial reciente a medida que aumenta el consumo social. 

Hoy en día, los actores de la industria están utilizando certificaciones de calidad de productos para promocionar sus productos. 

Este es un proceso que requiere mucho tiempo y requiere la evaluación de expertos humanos, lo que hace que este proceso sea muy costoso. 

Además, el precio del vino tinto depende de un concepto bastante abstracto de la apreciación del vino por parte de los catadores, cuya opinión puede tener un alto grado de variabilidad. 

Otro factor vital en la certificación y evaluación de la calidad del vino tinto son las pruebas fisicoquímicas, que se realizan en laboratorio y consideran factores como la acidez, el nivel de pH, el azúcar y otras propiedades químicas. 

El mercado del vino tinto sería de interés si la calidad humana de la degustación se puede relacionar con las propiedades químicas del vino para que los procesos de certificación y evaluación y aseguramiento de la calidad estén más controlados. 

Este proyecto tiene como objetivo determinar qué características son los mejores indicadores de calidad del vino tinto y generar información sobre cada uno de estos factores para la calidad del vino tinto de nuestro modelo.

## Comprensión de datos

Mi análisis utilizará el conjunto de datos de calidad del vino tinto, disponible en el repositorio de aprendizaje automático de UCI (https://archive.ics.uci.edu/ml/datasets/wine+quality). 

Obtuve las muestras de vino tinto del norte de Portugal para modelar la calidad del vino tinto en base a pruebas fisicoquímicas. 

El conjunto de datos contiene un total de 12 variables, que se registraron para 1599 observaciones. 

Estos datos nos permitirán crear diferentes modelos de regresión para determinar cómo diferentes variables independientes ayudan a predecir nuestra variable dependiente, la calidad. 

Saber cómo afectará cada variable a la calidad del vino tinto ayudará a los productores, distribuidores y empresas de la industria del vino tinto a evaluar mejor su estrategia de producción, distribución y fijación de precios.

## Preparación de datos

### Limpieza de datos

Mi primer paso fue limpiar y preparar los datos para el análisis. 

Pasé por diferentes pasos de limpieza de datos. 

Primero, verifiqué los tipos de datos centrándome en numéricos y categóricos para simplificar el cálculo y la visualización de la correlación. 

En segundo lugar, traté de identificar los valores faltantes existentes en nuestro conjunto de datos. 

Por último, investigué el resumen estadístico de cada columna/característica para detectar cualquier problema como valores atípicos y distribuciones anormales.

In [6]:
import numpy as np 
import pandas as pd 

v = pd.read_csv('vino.csv') 

In [7]:
v.head() 

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [8]:
v.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         1599 non-null   float64
 1   volatile acidity      1599 non-null   float64
 2   citric acid           1599 non-null   float64
 3   residual sugar        1599 non-null   float64
 4   chlorides             1599 non-null   float64
 5   free sulfur dioxide   1599 non-null   float64
 6   total sulfur dioxide  1599 non-null   float64
 7   density               1599 non-null   float64
 8   pH                    1599 non-null   float64
 9   sulphates             1599 non-null   float64
 10  alcohol               1599 non-null   float64
 11  quality               1599 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 150.0 KB


## Exploración y transformación de datos

Para ver qué variables es probable que afecten más la calidad del vino tinto, realicé un análisis de correlación de nuestras variables independientes con nuestra variable dependiente, la calidad. 

Este análisis terminó con una lista de variables de interés que tenían las correlaciones más altas con la calidad.

## Referencias  

 * https://towardsdatascience.com/red-wine-quality-prediction-using-regression-modeling-and-machine-learning-7a3e2c3e1f46  
 
 * https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009 