In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, MinMaxScaler, StandardScaler


# 1. Crear el DataFrame con los datos del cliente
data = {
    'ID': [1, 2, 3, 4],
    'Edad': [25, 45, 30, 40],
    'Ciudad': ['Madrid', 'Sevilla', 'Madrid', 'Barcelona'],
    'Ingresos': [30000, 50000, np.nan, 40000]
}

df = pd.DataFrame(data)
print("DataFrame original:")
print(df)

DataFrame original:
   ID  Edad     Ciudad  Ingresos
0   1    25     Madrid   30000.0
1   2    45    Sevilla   50000.0
2   3    30     Madrid       NaN
3   4    40  Barcelona   40000.0


In [2]:

# 2. Imputar el valor faltante en 'Ingresos' con la media
df['Ingresos'] = df['Ingresos'].fillna(df['Ingresos'].mean())

# 3. Label Encoding para 'Ciudad'
label_encoder = LabelEncoder()
df['Ciudad_Label'] = label_encoder.fit_transform(df['Ciudad'])


In [3]:

# 4. One-Hot Encoding para 'Ciudad'
one_hot_encoder = OneHotEncoder(sparse_output=False)
ciudad_encoded = one_hot_encoder.fit_transform(df[['Ciudad']])
ciudad_encoded_df = pd.DataFrame(ciudad_encoded, columns=one_hot_encoder.get_feature_names_out(['Ciudad']))

# 5. Variables Dummy para 'Ciudad'
dummy_df = pd.get_dummies(df['Ciudad'], prefix='Ciudad')


# 6. Normalización Min-Max
min_max_scaler = MinMaxScaler()
scaled_minmax = min_max_scaler.fit_transform(df[['Edad', 'Ingresos']])
scaled_minmax_df = pd.DataFrame(scaled_minmax, columns=['Edad_MinMax', 'Ingresos_MinMax'])

# 7. Estandarización Z-Score
zscore_scaler = StandardScaler()
scaled_zscore = zscore_scaler.fit_transform(df[['Edad', 'Ingresos']])
scaled_zscore_df = pd.DataFrame(scaled_zscore, columns=['Edad_ZScore', 'Ingresos_ZScore'])

# 8. Combinar todos los resultados en un solo DataFrame
result_df = pd.concat([df, ciudad_encoded_df, dummy_df, scaled_minmax_df, scaled_zscore_df], axis=1)


# 9. Mostrar el DataFrame final
print(result_df)


   ID  Edad     Ciudad  Ingresos  Ciudad_Label  Ciudad_Barcelona  \
0   1    25     Madrid   30000.0             1               0.0   
1   2    45    Sevilla   50000.0             2               0.0   
2   3    30     Madrid   40000.0             1               0.0   
3   4    40  Barcelona   40000.0             0               1.0   

   Ciudad_Madrid  Ciudad_Sevilla  Ciudad_Barcelona  Ciudad_Madrid  \
0            1.0             0.0             False           True   
1            0.0             1.0             False          False   
2            1.0             0.0             False           True   
3            0.0             0.0              True          False   

   Ciudad_Sevilla  Edad_MinMax  Ingresos_MinMax  Edad_ZScore  Ingresos_ZScore  
0           False         0.00              0.0    -1.264911        -1.414214  
1            True         1.00              1.0     1.264911         1.414214  
2           False         0.25              0.5    -0.632456         0.00