<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/edo/blob/main/clases/class_3/class_3_ODE.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# [Predicción de la calidad del vino tinto utilizando modelos de regresión y aprendizaje automático](https://towardsdatascience.com/red-wine-quality-prediction-using-regression-modeling-and-machine-learning-7a3e2c3e1f46)

## [Video de apoyo]()

<img src = 'https://miro.medium.com/max/1050/1*oXOppV_n4hv-tf8Y96QHxQ.png'> 

La industria del vino tinto muestra un crecimiento exponencial reciente a medida que aumenta el consumo social. 

Hoy en día, los actores de la industria están utilizando certificaciones de calidad de productos para promocionar sus productos. 

Este es un proceso que requiere mucho tiempo y requiere la evaluación de expertos humanos, lo que hace que este proceso sea muy costoso. 

Además, el precio del vino tinto depende de un concepto bastante abstracto de la apreciación del vino por parte de los catadores, cuya opinión puede tener un alto grado de variabilidad. 

Otro factor vital en la certificación y evaluación de la calidad del vino tinto son las pruebas fisicoquímicas, que se realizan en laboratorio y consideran factores como la acidez, el nivel de pH, el azúcar y otras propiedades químicas. 

El mercado del vino tinto sería de interés si la calidad humana de la degustación se puede relacionar con las propiedades químicas del vino para que los procesos de certificación y evaluación y aseguramiento de la calidad estén más controlados. 

Este proyecto tiene como objetivo determinar qué características son los mejores indicadores de calidad del vino tinto y generar información sobre cada uno de estos factores para la calidad del vino tinto de nuestro modelo.

## Comprensión de datos

Mi análisis utilizará el conjunto de datos de calidad del vino tinto, disponible en el repositorio de aprendizaje automático de UCI (https://archive.ics.uci.edu/ml/datasets/wine+quality). 

Obtuve las muestras de vino tinto del norte de Portugal para modelar la calidad del vino tinto en base a pruebas fisicoquímicas. 

El conjunto de datos contiene un total de 12 variables, que se registraron para 1599 observaciones. 

Estos datos nos permitirán crear diferentes modelos de regresión para determinar cómo diferentes variables independientes ayudan a predecir nuestra variable dependiente, la calidad. 

Saber cómo afectará cada variable a la calidad del vino tinto ayudará a los productores, distribuidores y empresas de la industria del vino tinto a evaluar mejor su estrategia de producción, distribución y fijación de precios.

## Preparación de datos

### Limpieza de datos

Mi primer paso fue limpiar y preparar los datos para el análisis. 

Pasé por diferentes pasos de limpieza de datos. 

Primero, verifiqué los tipos de datos centrándome en numéricos y categóricos para simplificar el cálculo y la visualización de la correlación. 

En segundo lugar, traté de identificar los valores faltantes existentes en nuestro conjunto de datos. 

Por último, investigué el resumen estadístico de cada columna/característica para detectar cualquier problema como valores atípicos y distribuciones anormales.

In [None]:
import numpy as np 
import pandas as pd 

v = pd.read_csv('vino.csv') 

In [None]:
v.head() 

In [None]:
v.info() 

In [None]:
v.describe() 

## Exploración y transformación de datos

Para ver qué variables es probable que afecten más la calidad del vino tinto, realicé un análisis de correlación de nuestras variables independientes con nuestra variable dependiente, la calidad. 

Este análisis terminó con una lista de variables de interés que tenían las correlaciones más altas con la calidad.

In [None]:
v.corr()

In [None]:
v.corr().quality.sort_values(ascending = False)  

In [None]:
import matplotlib.pyplot as plt 

plt.matshow(v.corr())

En orden de mayor correlación, estas variables son:

1. Alcohol: the amount of alcohol in wine

2. Volatile acidity: are high acetic acid in wine which leads to an unpleasant vinegar taste

3. Sulphates: a wine additive that contributes to SO2 levels and acts as an antimicrobial and antioxidant

4. Citric Acid: acts as a preservative to increase acidity (small quantities add freshness and flavor to wines)

5. Total Sulfur Dioxide: is the amount of free + bound forms of SO2

6. Density: sweeter wines have a higher density

7. Chlorides: the amount of salt in the wine

8. Fixed acidity: are non-volatile acids that do not evaporate readily

9. pH: the level of acidity

10. Free Sulfur Dioxide: it prevents microbial growth and the oxidation of wine

11. Residual sugar: is the amount of sugar remaining after fermentation stops. The key is to have a perfect balance between — sweetness and sourness (wines > 45g/ltrs are sweet)

Starting with our dependent variable, quality, I found the popularity of the medium/average values of quality: 5 and 6. 

Considering the dependent variable’s transformation, I found out that our data is normally distributed. 

This conclusion can be verified by running a QQ plot, which shows no need to transform our data.

aquí va diagrama de barras de la variable calidad(quality).

Next, for independent numerical variables, the first step to further analyze the relationship with our dependent variable was to create density plots visualizing the spread of the data.

## Referencias  

 * https://towardsdatascience.com/red-wine-quality-prediction-using-regression-modeling-and-machine-learning-7a3e2c3e1f46  
 
 * https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009 