In [4]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer

# Crear un DataFrame más grande con más valores faltantes
np.random.seed(64)
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Hannah', 'Ian', 'Jack'],
    'Age': [25, np.nan, 30, np.nan, 40, 35, np.nan, 29, 50, np.nan],
    'Salary': [50000, 60000, np.nan, 80000, np.nan, 55000, 70000, np.nan, np.nan, 90000],
    'Gender': ['F', 'M', np.nan, 'M', 'F', np.nan, 'F', np.nan, 'M', 'F'],
    'City': ['New York', np.nan, 'San Francisco', 'Los Angeles', np.nan, 'Houston', np.nan, 'Seattle', 'Miami', 'Boston'],
    'Department': ['HR', 'IT', np.nan, 'Finance', 'Marketing', 'IT', 'HR', np.nan, 'Finance', np.nan]
}

df = pd.DataFrame(data)


# Kodigo
print("Gabriel Guzmán - seed(64)\n")

# Mostrar el DataFrame original
print("DataFrame original:\n", df)

# ----------------- TRATAMIENTO DE VALORES FALTANTES -----------------
# Imputar valores faltantes en columnas numéricas con la media
num_cols = ['Age', 'Salary']
num_imputer = SimpleImputer(strategy='mean')
df[num_cols] = num_imputer.fit_transform(df[num_cols])

# Imputar valores faltantes en las columnas categóricas con 'Unknown'
cat_cols = ['Gender', 'City', 'Department']
df[cat_cols] = df[cat_cols].fillna('Unknown')

# ----------------- ONE-HOT ENCODING -----------------
# Inicializar el OneHotEncoder para las columnas categóricas
#encoder = OneHotEncoder(sparse=False)  # No eliminar ninguna categoría
encoder = OneHotEncoder(sparse_output=False,drop='first')  # No eliminar ninguna categoría # No usar `drop='first'` para mantener todas las categorías
encoded_features = encoder.fit_transform(df[cat_cols]) 

# Crear un DataFrame con las columnas codificadas
encoded_df = pd.DataFrame(encoded_features, columns=encoder.get_feature_names_out(cat_cols))

# ----------------- ESCALADO DE COLUMNAS NUMÉRICAS -----------------
# Escalar las columnas numéricas para normalizar los valores
scaler = StandardScaler()
scaled_numeric_data = scaler.fit_transform(df[num_cols])

# Crear un DataFrame con las columnas numéricas escaladas
scaled_numeric_df = pd.DataFrame(scaled_numeric_data, columns=num_cols)

# ----------------- UNIÓN DE TODAS LAS COLUMNAS -----------------
# Concatenar las columnas numéricas escaladas y las columnas codificadas con el resto del DataFrame
df_final = pd.concat([df[['Name']], scaled_numeric_df, encoded_df], axis=1)

# Mostrar el DataFrame final con One-Hot Encoding y escalado aplicado
print("\nDataFrame final con One-Hot Encoding y escalado aplicado:\n", df_final)


Gabriel Guzmán - seed(64)

DataFrame original:
       Name   Age   Salary Gender           City Department
0    Alice  25.0  50000.0      F       New York         HR
1      Bob   NaN  60000.0      M            NaN         IT
2  Charlie  30.0      NaN    NaN  San Francisco        NaN
3    David   NaN  80000.0      M    Los Angeles    Finance
4      Eva  40.0      NaN      F            NaN  Marketing
5    Frank  35.0  55000.0    NaN        Houston         IT
6    Grace   NaN  70000.0      F            NaN         HR
7   Hannah  29.0      NaN    NaN        Seattle        NaN
8      Ian  50.0      NaN      M          Miami    Finance
9     Jack   NaN  90000.0      F         Boston        NaN

DataFrame final con One-Hot Encoding y escalado aplicado:
       Name           Age    Salary  Gender_M  Gender_Unknown  City_Houston  \
0    Alice -1.534150e+00 -1.605910       0.0             0.0           0.0   
1      Bob  1.108555e-15 -0.688247       1.0             0.0           0.0   
2  Charli