**Label Encoding**

In [11]:
# Montar Google Drive
from google.colab import drive
drive.mount("/content/Drive")

# Cargar el dataset
import pandas as pd
data = pd.read_csv("/content/Drive/MyDrive/datos/Wine Quality Dataset.csv")

# Mostrar las primeras filas del dataset
print("Dataset Original:")
print(data.head())

# Paso 1: Label Encoding para todas las columnas
from sklearn.preprocessing import LabelEncoder

# Crear un objeto de LabelEncoder
label_encoder = LabelEncoder()

# Aplicar Label Encoding a todas las columnas
data_codificado = data.copy()  # Hacer una copia del dataframe original
for col in data_codificado.columns:
    data_codificado[col] = label_encoder.fit_transform(data_codificado[col])

# Mostrar los datos después de Label Encoding
print("Datos después de Label Encoding:")
print(data_codificado)

Drive already mounted at /content/Drive; to attempt to forcibly remount, call drive.mount("/content/Drive", force_remount=True).
Dataset Original:
   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.4              0.70         0.00             1.9      0.076   
1            7.8              0.88         0.00             2.6      0.098   
2            7.8              0.76         0.04             2.3      0.092   
3           11.2              0.28         0.56             1.9      0.075   
4            7.4              0.70         0.00             1.9      0.076   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0.56   
1                 25.0                  67.0   0.9968  3.20       0.68   
2                 15.0                  54.0   0.9970  3.26       0.65   
3                 17.0                  60.0   0.9980  3.16       0.58   
4             

**ONEHOTENCODER**

In [10]:
print("Dataset Original:")
print(data.head())

# Paso 1: One-Hot Encoding para todas las columnas categóricas
data_onehot = pd.get_dummies(data, drop_first=True)  # drop_first evita la trampa de la variable ficticia

# Mostrar los datos después de One-Hot Encoding
print("Datos después de One-Hot Encoding:")
print(data_onehot)

Dataset Original:
   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.4              0.70         0.00             1.9      0.076   
1            7.8              0.88         0.00             2.6      0.098   
2            7.8              0.76         0.04             2.3      0.092   
3           11.2              0.28         0.56             1.9      0.075   
4            7.4              0.70         0.00             1.9      0.076   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0.56   
1                 25.0                  67.0   0.9968  3.20       0.68   
2                 15.0                  54.0   0.9970  3.26       0.65   
3                 17.0                  60.0   0.9980  3.16       0.58   
4                 11.0                  34.0   0.9978  3.51       0.56   

   alcohol  quality  
0      9.4        5  
1      9.8        5  
2 

**DISCRETIZACION**

In [9]:
# Mostrar las primeras filas del dataset
print("Dataset Original:")
print(data.head())

# Paso 1: Discretización de todas las columnas numéricas
def discretizar_columna(columna, bins, labels):
    return pd.cut(columna, bins=bins, labels=labels)

# Crear un nuevo DataFrame para almacenar las columnas discretizadas
data_discretizado = data.copy()

# Definimos bins y labels para cada columna numérica
discretization_info = {
    'fixed acidity': ([0, 5, 7, 15], ['Bajo', 'Medio', 'Alto']),
    'volatile acidity': ([0, 0.3, 0.7, 1.5], ['Bajo', 'Medio', 'Alto']),
    'citric acid': ([0, 0.1, 0.5, 1], ['Bajo', 'Medio', 'Alto']),
    'residual sugar': ([0, 1, 5, 15], ['Bajo', 'Medio', 'Alto']),
    'chlorides': ([0, 0.05, 0.1, 0.5], ['Bajo', 'Medio', 'Alto']),
    'free sulfur dioxide': ([0, 10, 20, 50], ['Bajo', 'Medio', 'Alto']),
    'total sulfur dioxide': ([0, 50, 100, 300], ['Bajo', 'Medio', 'Alto']),
    'density': ([0.990, 0.995, 1.000, 1.010], ['Bajo', 'Medio', 'Alto']),
    'pH': ([2.5, 3, 3.5, 4], ['Bajo', 'Medio', 'Alto']),
    'sulphates': ([0, 0.5, 1, 2], ['Bajo', 'Medio', 'Alto']),
    'alcohol': ([0, 8, 10, 15], ['Bajo', 'Medio', 'Alto'])
}

# Aplicar discretización a cada columna
for col, (bins, labels) in discretization_info.items():
    data_discretizado[f'{col}_discretizado'] = discretizar_columna(data_discretizado[col], bins, labels)

# Mostrar los datos después de discretización
print("Datos después de discretización:")
print(data_discretizado)


Dataset Original:
   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.4              0.70         0.00             1.9      0.076   
1            7.8              0.88         0.00             2.6      0.098   
2            7.8              0.76         0.04             2.3      0.092   
3           11.2              0.28         0.56             1.9      0.075   
4            7.4              0.70         0.00             1.9      0.076   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0.56   
1                 25.0                  67.0   0.9968  3.20       0.68   
2                 15.0                  54.0   0.9970  3.26       0.65   
3                 17.0                  60.0   0.9980  3.16       0.58   
4                 11.0                  34.0   0.9978  3.51       0.56   

   alcohol  quality  
0      9.4        5  
1      9.8        5  
2 

**NORMALIZACION**

In [12]:
# Mostrar las primeras filas del dataset
print("Dataset Original:")
print(data.head())

# Paso 1: Normalización de las columnas numéricas
from sklearn.preprocessing import MinMaxScaler

# Seleccionar todas las columnas numéricas para normalizar
columnas_para_normalizar = data.select_dtypes(include=['float64', 'int64']).columns.tolist()  # Seleccionar columnas numéricas
scaler = MinMaxScaler()

# Aplicar normalización
data_normalizado = data.copy()  # Hacer una copia del dataframe original
data_normalizado[columnas_para_normalizar] = scaler.fit_transform(data_normalizado[columnas_para_normalizar])

# Mostrar los datos después de normalización
print("Datos después de Normalización:")
print(data_normalizado)


Dataset Original:
   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.4              0.70         0.00             1.9      0.076   
1            7.8              0.88         0.00             2.6      0.098   
2            7.8              0.76         0.04             2.3      0.092   
3           11.2              0.28         0.56             1.9      0.075   
4            7.4              0.70         0.00             1.9      0.076   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0.56   
1                 25.0                  67.0   0.9968  3.20       0.68   
2                 15.0                  54.0   0.9970  3.26       0.65   
3                 17.0                  60.0   0.9980  3.16       0.58   
4                 11.0                  34.0   0.9978  3.51       0.56   

   alcohol  quality  
0      9.4        5  
1      9.8        5  
2 