In [2]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder

# Crear un DataFrame más grande con más valores faltantes
np.random.seed(42)
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Hannah', 'Ian', 'Jack'],
    'Age': [25, np.nan, 30, np.nan, 40, 35, np.nan, 29, 50, np.nan],
    'Salary': [50000, 60000, np.nan, 80000, np.nan, 55000, 70000, np.nan, np.nan, 90000],
    'Gender': ['F', 'M', np.nan, 'M', 'F', np.nan, 'F', np.nan, 'M', 'F'],
    'City': ['New York', np.nan, 'San Francisco', 'Los Angeles', np.nan, 'Houston', np.nan, 'Seattle', 'Miami', 'Boston'],
    'Department': ['HR', 'IT', np.nan, 'Finance', 'Marketing', 'IT', 'HR', np.nan, 'Finance', np.nan]
}

df = pd.DataFrame(data)

# Kodigo
print("Gabriel Guzmán\n")

# Mostrar el DataFrame original
print("DataFrame original:\n", df)

# Reemplazar los valores faltantes en las columnas categóricas sin usar inplace
df['Gender'] = df['Gender'].fillna('Unknown')
df['City'] = df['City'].fillna('Unknown')
df['Department'] = df['Department'].fillna('Unknown')

# Seleccionar las columnas categóricas para aplicar One-Hot Encoding
categorical_columns = ['Gender', 'City', 'Department']

# Inicializar el OneHotEncoder sin eliminar la primera categoría
#encoder = OneHotEncoder(sparse=False)  # No usar `drop='first'` para mantener todas las categorías
encoder = OneHotEncoder(sparse_output=False)  # No usar `drop='first'` para mantener todas las categorías

# Aplicar OneHotEncoder y transformar las columnas categóricas
encoded_features = encoder.fit_transform(df[categorical_columns])

# Crear un DataFrame con las columnas codificadas
encoded_df = pd.DataFrame(encoded_features, columns=encoder.get_feature_names_out(categorical_columns))

# Concatenar las nuevas columnas codificadas con el DataFrame original, excluyendo las columnas categóricas originales
df_encoded = pd.concat([df.drop(columns=categorical_columns), encoded_df], axis=1)

# Mostrar el DataFrame final con One-Hot Encoding aplicado
print("\nDataFrame con One-Hot Encoding aplicado (sin eliminar ninguna categoría):\n", df_encoded)


Gabriel Guzmán

DataFrame original:
       Name   Age   Salary Gender           City Department
0    Alice  25.0  50000.0      F       New York         HR
1      Bob   NaN  60000.0      M            NaN         IT
2  Charlie  30.0      NaN    NaN  San Francisco        NaN
3    David   NaN  80000.0      M    Los Angeles    Finance
4      Eva  40.0      NaN      F            NaN  Marketing
5    Frank  35.0  55000.0    NaN        Houston         IT
6    Grace   NaN  70000.0      F            NaN         HR
7   Hannah  29.0      NaN    NaN        Seattle        NaN
8      Ian  50.0      NaN      M          Miami    Finance
9     Jack   NaN  90000.0      F         Boston        NaN

DataFrame con One-Hot Encoding aplicado (sin eliminar ninguna categoría):
       Name   Age   Salary  Gender_F  Gender_M  Gender_Unknown  City_Boston  \
0    Alice  25.0  50000.0       1.0       0.0             0.0          0.0   
1      Bob   NaN  60000.0       0.0       1.0             0.0          0.0   
2  C