
<div align="center">
    <img src="image/foto_portada.jpg" alt="Tres personas catando vinos." style="width: 600px; height: 300px; border-radius: 10px;">
    <h1 style="font-family: Arial, sans-serif; font-size: 32px; font-weight: bold; margin-top: 20px; text-align: center;">Explorando la calidad del vino</h1>
    <h2 style="font-family: Arial, sans-serif; font-size: 20px; font-weight: normal; text-align: center;">Una aproximación a través de técnicas de procesamiento de datos</h2>
</div>


<br>El objetivo de este trabajo es establecer, por medio de técnicas de procesamiento de datos, las variables más influyentes en la calidad sensorial del vino.<br> 
Se analiza una variable dependiente (calidad) y diez variables independientes: acidez volátil, ácido cítrico, azúcar residual, cloruros, dióxido de azufre libre, dióxido de azufre total, densidad, pH, sulfatos, y alcohol.<br>
Utilizaremos dos datasets enfocados en la calidad de vinos. Ambos se relacionan a las variantes de vino blanco y vino rojo del vino portugués "Vinho Verde".
La fuente de los mismos son del Machine Learning Repository de UCI. Puedes conocer más de ellos [aquí](https://archive.ics.uci.edu/dataset/186/wine+quality).

 # 1.  Recolección y preparación de datos
### Limpieza, integración y transformación necesarias para preparar los datos para el análisis

 - Carga de datos

In [None]:
import pandas as pd


In [None]:
#importacion
tablas = ['winequality-red.csv',
          'winequality-white.csv']

archivos = []

ruta_data = 'data'  # Ruta relativa a la carpeta "data"

for t in tablas:
    ruta_archivo = f'{ruta_data}/{t}'
    datos = pd.read_csv(ruta_archivo,
                        sep = ';',
                        encoding='latin-1',
                        low_memory=False)
    archivos.append(datos)

vino_tinto,vino_blanco = archivos[:2]


- Exploración inicial para preparar los datos

In [None]:
#cuantas filas y columnas tienen?
vino_tinto.shape,vino_blanco.shape

In [None]:
#primeros diez registros data set tinto
vino_tinto.head(10)


In [None]:
#primeros diez registros data set blanco
vino_blanco.head(10)

In [None]:
#resumen del dataset: variables,tipo,estadisticos descriptivos,etc
vino_tinto.info()
vino_tinto.describe()


In [None]:
vino_blanco.info()
vino_blanco.describe()

- Integración y transformación de los datos

In [None]:
# Inclusion variable categoria a cada DataFrame que indica si el vino es rojo (red) o blanco (white). 
vino_tinto['categoria'] = 'rojo'
vino_blanco['categoria'] = 'blanco'


In [None]:
df_vinos = vino_tinto.merge(vino_blanco, how='outer') #full join

# Validación
filas_esperadas = vino_tinto.shape[0] + vino_blanco.shape[0]
columnas_esperadas = vino_tinto.shape[1]
filas_df_vinos = df_vinos.shape[0]
columnas_df_vinos = df_vinos.shape[1]

 
if filas_df_vinos == filas_esperadas and columnas_df_vinos == columnas_esperadas:
    print("La unión fue exitosa")
else:
    print("La unión no se realizó correctamente")

In [None]:
df_vinos


In [None]:
df_vinos.info()

In [None]:
nuevos_nombres_col ={"fixed acidity":"acidez_fija",
                    "volatile acidity":"acidez_volatil",
                    "citric acid":"acido_citrico",
                     "residual sugar":"azucar_residual",
                     "chlorides":"cloruros",
                     "free sulfur dioxide":"dioxido_azufre_libre",
                     "total sulfur dioxide":"dioxido_azufre_total",
                     "density":"densidad",
                     "sulphates":"sulfatos",
                     "quality":"calidad"
                    }
df_vinos= df_vinos.rename(columns=nuevos_nombres_col)

In [None]:
#dataset listo para usar
df_vinos


## 2. Análisis exploratorio de datos

In [None]:
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

In [None]:
df_vinos.dtypes

In [None]:
df_vinos.describe()

In [None]:
#Histogramas con respecto a cada una de las variables
df_vinos.hist(figsize=(20,20))
plt.show()

In [None]:
sns.boxplot(df_vinos, x='categoria', y='acidez_fija')
plt.show()
sns.boxplot(df_vinos, x='categoria', y='acidez_volatil')
plt.show()
sns.boxplot(df_vinos, x='categoria', y='acido_citrico')
plt.show()
sns.boxplot(df_vinos, x='categoria', y='azucar_residual')
plt.show()
sns.boxplot(df_vinos, x='categoria', y='cloruros')
plt.show()
sns.boxplot(df_vinos, x='categoria', y='dioxido_azufre_libre')
plt.show()
sns.boxplot(df_vinos, x='categoria', y='dioxido_azufre_total')
plt.show()
sns.boxplot(df_vinos, x='categoria', y='densidad')
plt.show()
sns.boxplot(df_vinos, x='categoria', y='pH')
plt.show()
sns.boxplot(df_vinos, x='categoria', y='sulfatos')
plt.show()
sns.boxplot(df_vinos, x='categoria', y='alcohol')
plt.show()

In [None]:
calidad = df_vinos['calidad']
calidad

In [None]:
cantidad_por_calidad = df_vinos['calidad'].value_counts()
cantidad_por_calidad

In [None]:
sns.countplot(data=df_vinos, x='calidad')
plt.xlabel('Calidad')
plt.ylabel('Count')
plt.show()

In [None]:
sns.displot(df_vinos, x="calidad", hue="categoria", kind="kde")
plt.show()

### Otras visualizaciones de interés

In [None]:
# histograma para visualizar la dispersion de una variable
sns.histplot(df_vinos, x='pH', hue='categoria')
plt.show()

De allí, vemos que la distribución del 'pH' de los vinos Blancos está sesgada a la izquierda, mientras que la de los vinos rojos está Centrada.

In [None]:
#scatterplot para visualizar si hay relacion lineal entre las variables
sns.scatterplot(df_vinos, x='alcohol', y='pH', hue='categoria')
plt.show()

In [None]:
#boxplots para visualizar valores extremos
sns.boxplot(df_vinos, x='calidad', y='pH', hue='categoria')
plt.show()

In [None]:
sns.pairplot(data=df_vinos, hue='categoria')
plt.show()

In [None]:
# matriz de correlacions
vinos_corr = df_vinos.corr()
vinos_corr

In [None]:
#Gráfico de correlaciones
plt.figure(figsize=(10,6))
sns.heatmap(vinos_corr, cmap='RdBu_r', annot=True)
plt.show()

# 3. Procesamiento y análisis de datos

Teniendo en cuenta la calidad, podemos definir las categorías de los vinos en 3 segmentos:
- Bajo
- Medio
- Alto

Luego aplicamos la categorización y agregamos una nueva columna al dataframe.

In [None]:
df_vinos['categoria_calidad'] = df_vinos['calidad'].apply(lambda x: 'Bajo' if x <= 4 else 'Medio' if 5 <= x <= 7 else 'Alto')
df_vinos.head()

In [None]:
df_vinos.describe(include='object')

# 4. Visualización de datos

In [None]:
# Comparación por calidad entre vino rojo y blanco
sns.countplot(df_vinos, x='categoria_calidad', hue='categoria')
plt.show()

# 5. Comunicación efectiva de resultados