
<div align="center">
    <img src="image/foto_portada.jpg" alt="Tres personas catando vinos." style="width: 600px; height: 300px; border-radius: 10px;">
    <h1 style="font-family: Arial, sans-serif; font-size: 32px; font-weight: bold; margin-top: 20px; text-align: center;">Explorando la calidad del vino</h1>
    <h2 style="font-family: Arial, sans-serif; font-size: 20px; font-weight: normal; text-align: center;">Una aproximación a través de técnicas de procesamiento de datos</h2>
</div>


<br>El objetivo de este trabajo es establecer, por medio de técnicas de procesamiento de datos, las variables más influyentes en la calidad sensorial del vino.<br> 
Se analiza una variable dependiente (calidad) y diez variables independientes: acidez volátil, ácido cítrico, azúcar residual, cloruros, dióxido de azufre libre, dióxido de azufre total, densidad, pH, sulfatos, y alcohol.<br>
Utilizaremos dos datasets enfocados en la calidad de vinos. Ambos se relacionan a las variantes de vino blanco y vino rojo del vino portugués "Vinho Verde".
La fuente de de los mismos son del Machine Learning Repository de UCI. Puedes conocer más de ellos [aquí](https://archive.ics.uci.edu/dataset/186/wine+quality).

 # Tareas preliminares: 
 ## limpieza, integración y transformación necesarias para preparar los datos para el análisis

## carga de datos

In [2]:
import pandas as pd


In [None]:
#importacion
tablas = ['winequality-red.csv',
          'winequality-white.csv']

archivos = []

ruta_data = 'data'  # Ruta relativa a la carpeta "data"

for t in tablas:
    ruta_archivo = f'{ruta_data}/{t}'
    datos = pd.read_csv(ruta_archivo,
                        sep = ';',
                        encoding='latin-1',
                        low_memory=False)
    archivos.append(datos)

vino_tinto,vino_blanco = archivos[:2]


## exploracion inicial para preparar los datos

In [None]:
#cuantas filas y columnas tienen?
vino_tinto.shape,vino_blanco.shape

In [None]:
#primeros diez registros data set tinto
vino_tinto.head(10)


    

In [None]:
#primeros diez registros data set blanco
vino_blanco.head(10)

In [None]:
#resumen del dataset: variables,tipo,estadisticosdescriptivos,etc
vino_tinto.info()
vino_tinto.describe()


In [None]:
vino_blanco.info()
vino_blanco.describe()

## integracion y transformacion de los datos

In [None]:
# Inclusion variable categoria a cada DataFrame que indica si el vino es rojo (red) o blanco (white). 
vino_tinto['categoria'] = 'rojo'
vino_blanco['categoria'] = 'blanco'


In [None]:
df_vinos = vino_tinto.merge(vino_blanco, how='outer') #full join

# Validación
filas_esperadas = vino_tinto.shape[0] + vino_blanco.shape[0]
columnas_esperadas = vino_tinto.shape[1]
filas_df_vinos = df_vinos.shape[0]
columnas_df_vinos = df_vinos.shape[1]

 
if filas_df_vinos == filas_esperadas and columnas_df_vinos == columnas_esperadas:
    print("La unión fue exitosa")
else:
    print("La unión no se realizó correctamente")

In [None]:
df_vinos


In [None]:
df_vinos.info()

In [None]:
nuevos_nombres_col ={"fixed acidity":"acidez_fija",
                    "volatile acidity":"acidez_volatil",
                    "citric acid":"acido_citrico",
                     "residual sugar":"azucar_residual",
                     "chlorides":"cloruros",
                     "free sulfur dioxide":"dioxido_azufre_libre",
                     "total sulfur dioxide":"dioxido_azufre_total",
                     "density":"densidad",
                     "sulphates":"sulfatos",
                     "quality":"calidad"
                    }
df_vinos= df_vinos.rename(columns=nuevos_nombres_col)

In [None]:
#dataset listo para usar
df_vinos
