In [4]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, MinMaxScaler, StandardScaler

# --- 1. Creación del DataFrame Inicial ---
data = {'ID': [1, 2, 3, 4],
        'Edad': [25, 45, 30, 40],
        'Ciudad': ['Madrid', 'Sevilla', 'Madrid', 'Barcelona'],
        'Ingresos (USD)': [30000, 50000, np.nan, 40000]}
df = pd.DataFrame(data)

print("--- DataFrame Original ---")
print(df)

# --- 2. Imputación del Valor Faltante en 'Ingresos' con la Media ---
# Se utiliza SimpleImputer de Scikit-Learn
imputer = SimpleImputer(strategy='mean')
# Se ajusta el imputer a los datos y se transforman. reshape(-1, 1) es necesario.
df['Ingresos (USD)'] = imputer.fit_transform(df[['Ingresos (USD)']])

print("\n--- DataFrame con Ingresos Imputados ---")
print(df)

# --- 3. Transformación de la Columna 'Ciudad' ---

# 3.1 Usando Label Encoding
label_encoder = LabelEncoder()
df['Ciudad_LabelEncoded'] = label_encoder.fit_transform(df['Ciudad'])

# 3.2 Usando One-Hot Encoding (sobre la columna ya codificada numéricamente)
ciudad_ohe = one_hot_encoder.fit_transform(df[['Ciudad_LabelEncoded']])

feature_names = one_hot_encoder.get_feature_names_out()

df_ohe = pd.DataFrame(ciudad_ohe, columns=feature_names)
df = pd.concat([df, df_ohe], axis=1)

# 3.3 Usando Variables Dummy (el método más directo en Pandas)
df_dummies = pd.get_dummies(df['Ciudad'], prefix='Ciudad_Dummy')
df = pd.concat([df, df_dummies], axis=1)

print("\n--- DataFrame con Codificación Categórica ---")
print(df.head()) # Se usa .head() para una vista más limpia

# --- 4. Escalamiento de las Columnas Numéricas 'Edad' e 'Ingresos' ---
numerical_cols = ['Edad', 'Ingresos (USD)']

# 4.1 Normalización Min-Max (escala a [0, 1])
min_max_scaler = MinMaxScaler()
df[['Edad_MinMax', 'Ingresos_MinMax']] = min_max_scaler.fit_transform(df[numerical_cols])

# 4.2 Estandarización Z-Score (media=0, desviación estándar=1)
standard_scaler = StandardScaler()
df[['Edad_ZScore', 'Ingresos_ZScore']] = standard_scaler.fit_transform(df[numerical_cols])


# --- DataFrame Final ---
print("\n--- DataFrame Final con Todas las Transformaciones ---")
# Se reordenan las columnas para mayor claridad
column_order = [
    'ID', 'Edad', 'Ciudad', 'Ingresos (USD)', 'Ciudad_LabelEncoded',
    'Ciudad_Dummy_Barcelona', 'Ciudad_Dummy_Madrid', 'Ciudad_Dummy_Sevilla',
    'Edad_MinMax', 'Ingresos_MinMax', 'Edad_ZScore', 'Ingresos_ZScore'
]
df_final = df[column_order]
print(df_final)

# --- 5. Guardar el resultado en un archivo CSV ---
df_final.to_csv('datos_transformados.csv', index=False)
print("\nArchivo 'datos_transformados.csv' guardado con éxito.")

--- DataFrame Original ---
   ID  Edad     Ciudad  Ingresos (USD)
0   1    25     Madrid         30000.0
1   2    45    Sevilla         50000.0
2   3    30     Madrid             NaN
3   4    40  Barcelona         40000.0

--- DataFrame con Ingresos Imputados ---
   ID  Edad     Ciudad  Ingresos (USD)
0   1    25     Madrid         30000.0
1   2    45    Sevilla         50000.0
2   3    30     Madrid         40000.0
3   4    40  Barcelona         40000.0

--- DataFrame con Codificación Categórica ---
   ID  Edad     Ciudad  Ingresos (USD)  Ciudad_LabelEncoded  \
0   1    25     Madrid         30000.0                    1   
1   2    45    Sevilla         50000.0                    2   
2   3    30     Madrid         40000.0                    1   
3   4    40  Barcelona         40000.0                    0   

   Ciudad_LabelEncoded_0  Ciudad_LabelEncoded_1  Ciudad_LabelEncoded_2  \
0                    0.0                    1.0                    0.0   
1                    0.0      