# Manipulación de datos (preprocesamiento)


In [47]:
# Libraries to handle data
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns

from sklearn.datasets import load_wine
df_wine = load_wine(as_frame=True).frame

**Ejercicio 1.** Visualiza la primera fila del dataset.

In [48]:
# Mostrar la primera fila del dataframe
print(df_wine.head(1))

   alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
0    14.23        1.71  2.43               15.6      127.0            2.8   

   flavanoids  nonflavanoid_phenols  proanthocyanins  color_intensity   hue  \
0        3.06                  0.28             2.29             5.64  1.04   

   od280/od315_of_diluted_wines  proline  target  
0                          3.92   1065.0       0  


**Ejercicio 2.** Muestra información general como el número de filas, el número de columnas, el nombre de las columnas y el tipo de dato de cada columna

In [49]:
# Número de filas y columnas
print(f"Número de filas: {df_wine.shape[0]}")
print(f"Número de columnas: {df_wine.shape[1]}")

# Nombres de las columnas
print("\nNombres de las columnas:")
print(df_wine.columns.tolist())

# Tipos de datos y detalles generales
print("\nInformación general del DataFrame:")
df_wine.info()


Número de filas: 178
Número de columnas: 14

Nombres de las columnas:
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline', 'target']

Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   alcohol                       178 non-null    float64
 1   malic_acid                    178 non-null    float64
 2   ash                           178 non-null    float64
 3   alcalinity_of_ash             178 non-null    float64
 4   magnesium                     178 non-null    float64
 5   total_phenols                 178 non-null    float64
 6   flavanoids                    178 non-null    float64
 7   nonflavanoid_phenols          178

**Ejercicio 3.** En la columna target, el número 0 corresponde a la etiqueta 'clase1', el 1 a 'clase2' y el 2 a 'clase3'. Modifica el dataset para que aparezcan los nombres en vez de los números. 

In [50]:
print("\n Original columna target:")
print(df_wine['target'].head())
# Crear un diccionario para mapear los números a las clases
target_mapping = {0: 'clase1', 1: 'clase2', 2: 'clase3'}

# Reemplazar los valores en la columna 'target'
df_wine['target'] = df_wine['target'].replace(target_mapping)

# Mostrar las primeras filas del DataFrame modificado
print("\n Cambiando la columna target:")
print(df_wine['target'].head())



 Original columna target:
0    0
1    0
2    0
3    0
4    0
Name: target, dtype: int64

 Cambiando la columna target:
0    clase1
1    clase1
2    clase1
3    clase1
4    clase1
Name: target, dtype: object


**Ejercicio 4.** Elimina la columna flavanoids y en su lugar crea una nueva que se llame graduacion_flavanoids. Esta nueva columna deberá tener como valores alto, medio y bajo dependiendo del valor de la columna flavanoids. 

In [51]:
# Crear la nueva columna 'graduacion_flavanoids' categorizando según el valor de 'flavanoids'
# Vamos a asumir que la columna 'flavanoids' está en el DataFrame original y que tiene valores numéricos
# Para categorizar, se pueden definir los límites de "alto", "medio" y "bajo"
df_wine['graduacion_flavanoids'] = pd.cut(df_wine['flavanoids'],
                                           bins=[-np.inf, 1.5, 3.0, np.inf], 
                                           labels=['bajo', 'medio', 'alto'])


# Eliminar la columna 'flavanoids'
df_wine = df_wine.drop(columns=['flavanoids'])

# Mostrar las primeras filas del DataFrame modificado
df_wine.head()


Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target,graduacion_flavanoids
0,14.23,1.71,2.43,15.6,127.0,2.8,0.28,2.29,5.64,1.04,3.92,1065.0,clase1,alto
1,13.2,1.78,2.14,11.2,100.0,2.65,0.26,1.28,4.38,1.05,3.4,1050.0,clase1,medio
2,13.16,2.36,2.67,18.6,101.0,2.8,0.3,2.81,5.68,1.03,3.17,1185.0,clase1,alto
3,14.37,1.95,2.5,16.8,113.0,3.85,0.24,2.18,7.8,0.86,3.45,1480.0,clase1,alto
4,13.24,2.59,2.87,21.0,118.0,2.8,0.39,1.82,4.32,1.04,2.93,735.0,clase1,medio


**Ejercicio 5.** Comprueba el número de ocurrencias por cada una de las clases que queremos predecir. 

In [52]:
# Contar el número de ocurrencias por cada clase en la columna 'target'
ocurrencias_clases = df_wine['target'].value_counts()

# Mostrar el resultado
print("Número de ocurrencias por cada clase:")
print(ocurrencias_clases)


Número de ocurrencias por cada clase:
target
clase2    71
clase1    59
clase3    48
Name: count, dtype: int64


**Ejercicio 6.** Balancea el dataset teniendo en cuenta la variable target. Deberá haber el mismo número de ocurrencias de cada uno de los valores de target, para ello deberás añadir nuevas a la que menos tenga y quitar a la que más tenga. 

In [53]:
from sklearn.utils import resample

# Dividir el dataframe en clases según la columna 'target'
df_class_0 = df_wine[df_wine.target == 0]
df_class_1 = df_wine[df_wine.target == 1]
df_class_2 = df_wine[df_wine.target == 2]

# Determinar la clase con el mayor número de ocurrencias
max_size = max(len(df_class_0), len(df_class_1), len(df_class_2))

# Sobremuestrear las clases minoritarias para que todas tengan el mismo número de ocurrencias
df_class_0_upsampled = resample(df_class_0, n_samples=max_size, replace=True, random_state=42)
df_class_1_upsampled = resample(df_class_1, n_samples=max_size, replace=True, random_state=42)
df_class_2_upsampled = resample(df_class_2, n_samples=max_size, replace=True, random_state=42)

# Combinar las clases balanceadas
df_wine_balanced = pd.concat([df_class_0_upsampled, df_class_1_upsampled, df_class_2_upsampled])

# Verificar el número de ocurrencias por clase en el dataset balanceado
print(f"Numero de ocurrencias clase 0: {len(df_wine_balanced[df_wine_balanced.target == 0])}")
print(f"Numero de ocurrencias clase 1: {len(df_wine_balanced[df_wine_balanced.target == 1])}")
print(f"Numero de ocurrencias clase 2: {len(df_wine_balanced[df_wine_balanced.target == 2])}")


InvalidParameterError: The 'n_samples' parameter of resample must be an int in the range [1, inf) or None. Got 0 instead.

**Ejercicio 7.** Realiza una codificación one-hot encoding de la variable graduacion_flavanoids 

In [None]:
# Realizar la codificación One-Hot Encoding de la columna 'graduacion_flavanoids'
df_wine_encoded = pd.get_dummies(df_wine, columns=['graduacion_flavanoids'], drop_first=False)

# Mostrar las primeras filas del DataFrame con la codificación aplicada
df_wine_encoded.head()


Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target,graduacion_flavanoids_bajo,graduacion_flavanoids_medio,graduacion_flavanoids_alto
0,14.23,1.71,2.43,15.6,127.0,2.8,0.28,2.29,5.64,1.04,3.92,1065.0,clase1,False,False,True
1,13.2,1.78,2.14,11.2,100.0,2.65,0.26,1.28,4.38,1.05,3.4,1050.0,clase1,False,True,False
2,13.16,2.36,2.67,18.6,101.0,2.8,0.3,2.81,5.68,1.03,3.17,1185.0,clase1,False,False,True
3,14.37,1.95,2.5,16.8,113.0,3.85,0.24,2.18,7.8,0.86,3.45,1480.0,clase1,False,False,True
4,13.24,2.59,2.87,21.0,118.0,2.8,0.39,1.82,4.32,1.04,2.93,735.0,clase1,False,True,False


**Ejercicio 8.** Aplica un filtro para eliminar aquellas ocurrencias en las que 'bajo', 'medio' y 'alto' es igual a 0 o 'bajo', 'medio' y 'alto' es igual a 1. **OJO. no debería haber ninguna.**

In [None]:
# Filtrar las filas donde todas las columnas one-hot encoding ('bajo', 'medio', 'alto') no sean 0 ni 1 al mismo tiempo
df_wine_filtered = df_wine_encoded[~((df_wine_encoded[['graduacion_flavanoids_bajo', 
                                                     'graduacion_flavanoids_medio', 
                                                     'graduacion_flavanoids_alto']] == 0).all(axis=1) |
                                    (df_wine_encoded[['graduacion_flavanoids_bajo', 
                                                     'graduacion_flavanoids_medio', 
                                                     'graduacion_flavanoids_alto']] == 1).all(axis=1))]

# Verificar el resultado
df_wine_filtered.head()


Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target,graduacion_flavanoids_bajo,graduacion_flavanoids_medio,graduacion_flavanoids_alto
0,14.23,1.71,2.43,15.6,127.0,2.8,0.28,2.29,5.64,1.04,3.92,1065.0,clase1,False,False,True
1,13.2,1.78,2.14,11.2,100.0,2.65,0.26,1.28,4.38,1.05,3.4,1050.0,clase1,False,True,False
2,13.16,2.36,2.67,18.6,101.0,2.8,0.3,2.81,5.68,1.03,3.17,1185.0,clase1,False,False,True
3,14.37,1.95,2.5,16.8,113.0,3.85,0.24,2.18,7.8,0.86,3.45,1480.0,clase1,False,False,True
4,13.24,2.59,2.87,21.0,118.0,2.8,0.39,1.82,4.32,1.04,2.93,735.0,clase1,False,True,False


**Ejercicio 9.** Muestra qué variables categóricas y numéricas hay.

In [None]:
# Identificar las variables numéricas (tipo 'int' o 'float')
variables_numericas = df_wine_filtered.select_dtypes(include=['int64', 'float64']).columns.tolist()

# Identificar las variables categóricas (tipo 'object' o 'category')
variables_categoricas = df_wine_filtered.select_dtypes(include=['object', 'category']).columns.tolist()

# Mostrar las variables
print("Variables numéricas:")
print(variables_numericas)

print("\nVariables categóricas:")
print(variables_categoricas)


# Mostrar el número de variables
print(f"Número de variables numéricas: {len(variables_numericas)}")
print(f"Número de variables categóricas: {len(variables_categoricas)}")

Variables numéricas:
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']

Variables categóricas:
['target']
Número de variables numéricas: 12
Número de variables categóricas: 1


**Ejercicio 10.** Crea una función que convierta todas las variables categóricas en numéricas aplicando un mapeo. Dicha función devolverá el dataset modificado. Utiliza LabelEncoder. 

In [54]:
from sklearn.preprocessing import LabelEncoder

# Función para convertir variables categóricas en numéricas
def convertir_categoricas_a_numeric(df):
    # Crear una instancia del LabelEncoder
    le = LabelEncoder()
    
    # Iterar sobre las columnas del dataframe
    for col in df.select_dtypes(include=['object', 'category']).columns:
        df[col] = le.fit_transform(df[col])  # Aplicar el mapeo a cada columna categórica
        
    return df  # Devolver el dataframe modificado

# Aplicar la función al dataframe df_wine_filtered
df_wine_converted = convertir_categoricas_a_numeric(df_wine_filtered)

# Mostrar las primeras filas del dataset modificado
df_wine_converted.head()


Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target,graduacion_flavanoids_bajo,graduacion_flavanoids_medio,graduacion_flavanoids_alto
0,14.23,1.71,2.43,15.6,127.0,2.8,0.28,2.29,5.64,1.04,3.92,1065.0,0,False,False,True
1,13.2,1.78,2.14,11.2,100.0,2.65,0.26,1.28,4.38,1.05,3.4,1050.0,0,False,True,False
2,13.16,2.36,2.67,18.6,101.0,2.8,0.3,2.81,5.68,1.03,3.17,1185.0,0,False,False,True
3,14.37,1.95,2.5,16.8,113.0,3.85,0.24,2.18,7.8,0.86,3.45,1480.0,0,False,False,True
4,13.24,2.59,2.87,21.0,118.0,2.8,0.39,1.82,4.32,1.04,2.93,735.0,0,False,True,False


**Ejercicio 11.** Normaliza el dataset al completo excepto la columna target.

In [55]:
from sklearn.preprocessing import MinMaxScaler

# Separar las columnas que se van a normalizar (todas menos 'target')
columns_to_normalize = df_wine_converted.drop(columns=['target']).columns

# Crear una instancia de MinMaxScaler
scaler = MinMaxScaler()

# Aplicar la normalización a las columnas seleccionadas
df_wine_normalized = df_wine_converted.copy()  # Hacemos una copia para no modificar el original
df_wine_normalized[columns_to_normalize] = scaler.fit_transform(df_wine_normalized[columns_to_normalize])

# Mostrar las primeras filas del dataset normalizado
df_wine_normalized.head()


Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target,graduacion_flavanoids_bajo,graduacion_flavanoids_medio,graduacion_flavanoids_alto
0,0.842105,0.1917,0.572193,0.257732,0.619565,0.627586,0.283019,0.59306,0.372014,0.455285,0.970696,0.561341,0,0.0,0.0,1.0
1,0.571053,0.205534,0.417112,0.030928,0.326087,0.575862,0.245283,0.274448,0.264505,0.463415,0.78022,0.550642,0,0.0,1.0,0.0
2,0.560526,0.320158,0.700535,0.412371,0.336957,0.627586,0.320755,0.757098,0.375427,0.447154,0.695971,0.646933,0,0.0,0.0,1.0
3,0.878947,0.23913,0.609626,0.319588,0.467391,0.989655,0.207547,0.55836,0.556314,0.308943,0.798535,0.857347,0,0.0,0.0,1.0
4,0.581579,0.365613,0.807487,0.536082,0.521739,0.627586,0.490566,0.444795,0.259386,0.455285,0.608059,0.325963,0,0.0,1.0,0.0


**Ejercicio 12.** Divide el dataset en tres grupos. El primer grupo será de entrenamiento y tendrá el 80% de los datos. El segundo grupo será de validación y tendrá el 10% de los datos. El tercer grupo será de test y tendrá el 10% de los datos.

In [56]:
from sklearn.model_selection import train_test_split

# Dividir el dataset en entrenamiento (80%) y el resto (20%)
df_train, df_temp = train_test_split(df_wine_normalized, test_size=0.2, random_state=42)

# Dividir el conjunto restante (20%) en validación (50% de 20% -> 10%) y test (50% de 20% -> 10%)
df_val, df_test = train_test_split(df_temp, test_size=0.5, random_state=42)

# Mostrar el tamaño de cada conjunto
print(f"Tamaño del conjunto de entrenamiento: {len(df_train)}")
print(f"Tamaño del conjunto de validación: {len(df_val)}")
print(f"Tamaño del conjunto de test: {len(df_test)}")


Tamaño del conjunto de entrenamiento: 142
Tamaño del conjunto de validación: 18
Tamaño del conjunto de test: 18
