
<div align="center">
    <img src="image/foto_portada.jpg" alt="Tres personas catando vinos." style="width: 600px; height: 300px; border-radius: 10px;">
    <h1 style="font-family: Arial, sans-serif; font-size: 32px; font-weight: bold; margin-top: 20px; text-align: center;">Explorando la calidad del vino</h1>
    <h2 style="font-family: Arial, sans-serif; font-size: 20px; font-weight: normal; text-align: center;">Una aproximación a través de técnicas de procesamiento de datos</h2>
</div>


<br>El objetivo de este trabajo es establecer, por medio de técnicas de procesamiento de datos, las variables más influyentes en la calidad sensorial del vino.<br> 
Se analiza una variable dependiente (calidad) y diez variables independientes: acidez volátil, ácido cítrico, azúcar residual, cloruros, dióxido de azufre libre, dióxido de azufre total, densidad, pH, sulfatos, y alcohol.<br>
Utilizaremos dos datasets enfocados en la calidad de vinos. Ambos se relacionan a las variantes de vino blanco y vino tinto del vino portugués "Vinho Verde".
Los conjuntos de datos utilizados en este proyecto son provenientes del Machine Learning Repository de UCI. Si deseas obtener más información acerca de estos conjuntos de datos, puedes consultar el siguiente enlace: [UCI Wine Quality Dataset](https://archive.ics.uci.edu/dataset/186/wine+quality).

 # Data  wrangling

## Importacion de datos

In [1]:
#librerias..
import pandas as pd

In [2]:
#tablas a importar
tablas = ['winequality-red.csv',
          'winequality-white.csv']

archivos = []

ruta_data = 'data'  # Ruta relativa a la carpeta "data"

#Importar los archivos CSV y guardarlos en una lista
for t in tablas:
    ruta_archivo = f'{ruta_data}/{t}'
    datos = pd.read_csv(ruta_archivo,
                        sep = ';',
                        encoding='latin-1',
                        low_memory=False)
    archivos.append(datos)

#Desempaquetado de archivos importados
vino_tinto,vino_blanco = archivos[:2]


## Descubrimiento de datos

In [3]:
# Cuántas filas y columnas tienen los conjuntos de datos
print("Información sobre las filas y columnas de los conjuntos de datos:")
print(f"--> Vino tinto\nFilas: {vino_tinto.shape[0]}\nColumnas: {vino_tinto.shape[1]}")
print("----------------------")
print(f"--> Vino blanco\nFilas: {vino_blanco.shape[0]}\nColumnas: {vino_blanco.shape[1]}")

Información sobre las filas y columnas de los conjuntos de datos:
--> Vino tinto
Filas: 1599
Columnas: 12
----------------------
--> Vino blanco
Filas: 4898
Columnas: 12


In [4]:
#primeros diez registros data set tinto
vino_tinto.head(10)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
5,7.4,0.66,0.0,1.8,0.075,13.0,40.0,0.9978,3.51,0.56,9.4,5
6,7.9,0.6,0.06,1.6,0.069,15.0,59.0,0.9964,3.3,0.46,9.4,5
7,7.3,0.65,0.0,1.2,0.065,15.0,21.0,0.9946,3.39,0.47,10.0,7
8,7.8,0.58,0.02,2.0,0.073,9.0,18.0,0.9968,3.36,0.57,9.5,7
9,7.5,0.5,0.36,6.1,0.071,17.0,102.0,0.9978,3.35,0.8,10.5,5


In [5]:
#primeros diez registros data set blanco
vino_blanco.head(10)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
5,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
6,6.2,0.32,0.16,7.0,0.045,30.0,136.0,0.9949,3.18,0.47,9.6,6
7,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
8,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
9,8.1,0.22,0.43,1.5,0.044,28.0,129.0,0.9938,3.22,0.45,11.0,6


In [6]:
# Resumen del dataset de vino tinto
vino_tinto.info()
vino_tinto.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         1599 non-null   float64
 1   volatile acidity      1599 non-null   float64
 2   citric acid           1599 non-null   float64
 3   residual sugar        1599 non-null   float64
 4   chlorides             1599 non-null   float64
 5   free sulfur dioxide   1599 non-null   float64
 6   total sulfur dioxide  1599 non-null   float64
 7   density               1599 non-null   float64
 8   pH                    1599 non-null   float64
 9   sulphates             1599 non-null   float64
 10  alcohol               1599 non-null   float64
 11  quality               1599 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 150.0 KB


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
count,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0
mean,8.319637,0.527821,0.270976,2.538806,0.087467,15.874922,46.467792,0.996747,3.311113,0.658149,10.422983,5.636023
std,1.741096,0.17906,0.194801,1.409928,0.047065,10.460157,32.895324,0.001887,0.154386,0.169507,1.065668,0.807569
min,4.6,0.12,0.0,0.9,0.012,1.0,6.0,0.99007,2.74,0.33,8.4,3.0
25%,7.1,0.39,0.09,1.9,0.07,7.0,22.0,0.9956,3.21,0.55,9.5,5.0
50%,7.9,0.52,0.26,2.2,0.079,14.0,38.0,0.99675,3.31,0.62,10.2,6.0
75%,9.2,0.64,0.42,2.6,0.09,21.0,62.0,0.997835,3.4,0.73,11.1,6.0
max,15.9,1.58,1.0,15.5,0.611,72.0,289.0,1.00369,4.01,2.0,14.9,8.0


In [7]:
# Resumen del dataset de vino blanco
vino_blanco.info()
vino_blanco.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4898 entries, 0 to 4897
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         4898 non-null   float64
 1   volatile acidity      4898 non-null   float64
 2   citric acid           4898 non-null   float64
 3   residual sugar        4898 non-null   float64
 4   chlorides             4898 non-null   float64
 5   free sulfur dioxide   4898 non-null   float64
 6   total sulfur dioxide  4898 non-null   float64
 7   density               4898 non-null   float64
 8   pH                    4898 non-null   float64
 9   sulphates             4898 non-null   float64
 10  alcohol               4898 non-null   float64
 11  quality               4898 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 459.3 KB


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
count,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0
mean,6.854788,0.278241,0.334192,6.391415,0.045772,35.308085,138.360657,0.994027,3.188267,0.489847,10.514267,5.877909
std,0.843868,0.100795,0.12102,5.072058,0.021848,17.007137,42.498065,0.002991,0.151001,0.114126,1.230621,0.885639
min,3.8,0.08,0.0,0.6,0.009,2.0,9.0,0.98711,2.72,0.22,8.0,3.0
25%,6.3,0.21,0.27,1.7,0.036,23.0,108.0,0.991723,3.09,0.41,9.5,5.0
50%,6.8,0.26,0.32,5.2,0.043,34.0,134.0,0.99374,3.18,0.47,10.4,6.0
75%,7.3,0.32,0.39,9.9,0.05,46.0,167.0,0.9961,3.28,0.55,11.4,6.0
max,14.2,1.1,1.66,65.8,0.346,289.0,440.0,1.03898,3.82,1.08,14.2,9.0


## Eliminación de duplicados

In [8]:
# Función para verificar y eliminar duplicados en un dataset
def verificar_duplicados(dataset_nombre, dataset):
    print(f"Análisis de duplicados en el conjunto de datos {dataset_nombre.upper()}:")
   
    duplicados = dataset.duplicated().any()
    print(f"¿Hay duplicados? {duplicados}")
    
    cantidad_duplicados = dataset.duplicated().sum()
    print(f"Cantidad de duplicados: {cantidad_duplicados}")
    
    dataset = dataset.drop_duplicates()
    
    duplicados_despues = dataset.duplicated().any()
    print(f"¿Hay duplicados después de eliminarlos? {duplicados_despues}")
    
    print()  # Salto de línea
    
    return dataset

# Uso de la función para el conjunto de vino tinto
vino_tinto = verificar_duplicados("vino tinto", vino_tinto)

# Uso de la función para el conjunto de vino blanco
vino_blanco = verificar_duplicados("vino blanco", vino_blanco)

Análisis de duplicados en el conjunto de datos VINO TINTO:
¿Hay duplicados? True
Cantidad de duplicados: 240
¿Hay duplicados después de eliminarlos? False

Análisis de duplicados en el conjunto de datos VINO BLANCO:
¿Hay duplicados? True
Cantidad de duplicados: 937
¿Hay duplicados después de eliminarlos? False



## Transformacion y consolidacion de los datos

In [9]:
# Concatenación de los conjuntos de datos de vino tinto y vino blanco EN DF_VINOS
df_vinos = pd.concat([vino_tinto, vino_blanco], axis=0, ignore_index=True)  # Concatenación por filas

#validacion d ela integracion

def validar_filas(filas_esperadas, df_filas):
    if df_filas == filas_esperadas:
        print("La validación de filas fue exitosa")
    else:
        print("La validación de filas no se realizó correctamente")
        print(f"Filas esperadas: {filas_esperadas}")
        print(f"Filas encontradas: {df_filas}")


def validar_columnas(columnas_esperadas, columnas_df):
    columnas_faltantes = set(columnas_esperadas) - set(columnas_df)

    if columnas_faltantes:
        print("\nLa validación de columnas no se realizó correctamente. Faltan las siguientes columnas:")
        for columna in columnas_faltantes:
            print(columna)
    else:
        print("\nLa validación de columnas fue exitosa. Todas las columnas esperadas están presentes en el DataFrame resultante.")


def validar_integracion(dataset1, dataset2, dataset_integrado):
    # Validación de filas
    filas_esperadas = dataset1.shape[0] + dataset2.shape[0]
    dataset_integrado_filas = dataset_integrado.shape[0]
    validar_filas(filas_esperadas, dataset_integrado_filas)

    # Validación de columnas
    columnas_esperadas = vino_tinto.columns
    dataset_integrado_columnas = dataset_integrado.columns
    validar_columnas(columnas_esperadas, dataset_integrado_columnas)
    
validar_integracion(vino_tinto, vino_blanco, df_vinos)


La validación de filas fue exitosa

La validación de columnas fue exitosa. Todas las columnas esperadas están presentes en el DataFrame resultante.


In [10]:
# Diccionario de nuevos nombres de columnas
nuevos_nombres_col = {
    "fixed acidity": "acidez_fija",
    "volatile acidity": "acidez_volatil",
    "citric acid": "acido_citrico",
    "residual sugar": "azucar_residual",
    "chlorides": "cloruros",
    "free sulfur dioxide": "dioxido_azufre_libre",
    "total sulfur dioxide": "dioxido_azufre_total",
    "density": "densidad",
    "sulphates": "sulfatos",
    "quality": "calidad"
}

# Renombrar columnas del DataFrame df_vinos
df_vinos = df_vinos.rename(columns=nuevos_nombres_col)

In [11]:
#informacion del data set integrado
df_vinos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5320 entries, 0 to 5319
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   acidez_fija           5320 non-null   float64
 1   acidez_volatil        5320 non-null   float64
 2   acido_citrico         5320 non-null   float64
 3   azucar_residual       5320 non-null   float64
 4   cloruros              5320 non-null   float64
 5   dioxido_azufre_libre  5320 non-null   float64
 6   dioxido_azufre_total  5320 non-null   float64
 7   densidad              5320 non-null   float64
 8   pH                    5320 non-null   float64
 9   sulfatos              5320 non-null   float64
 10  alcohol               5320 non-null   float64
 11  calidad               5320 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 498.9 KB


**Observaciones Finales:**
<p align="left">El dataset consta de 5320 filas y 12 columnas. Todos los valores en las columnas tienen conteo no nulo. Los tipos de datos de las columnas son principalmente float64, excepto la columna "calidad" que es de tipo int64. El tamaño ocupado en memoria es aproximadamente 498.9 KB.</p>

## almacenamiento data set

In [12]:
# Guardar el dataset final en un archivo CSV
ruta_archivo_final = 'data/df_vinos.csv'  
df_vinos.to_csv(ruta_archivo_final, index=False)


In [13]:
# Imprimir mensaje de finalización del data wrangling
print("Proceso de data wrangling completado con éxito.")
print("El dataset ha sido preparado y está listo para su análisis.")

Proceso de data wrangling completado con éxito.
El dataset ha sido preparado y está listo para su análisis.
