In [28]:
import pandas as pd
import numpy as np
import warnings
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

warnings.filterwarnings('ignore')


In [22]:
#####################
# Carga del dataset #
#####################

df = pd.read_csv("../data/income_data.csv")
print("Shape inicial:", df.shape)


Shape inicial: (48842, 15)


In [23]:
#######################
# Eliminar duplicados #
#######################

duplicados = df.duplicated().sum()
print(f"Duplicados detectados: {duplicados}")

# Se eliminan porque son exactos y no aportan información nueva
df = df.drop_duplicates()
print("Shape tras eliminar duplicados:", df.shape)


Duplicados detectados: 52
Shape tras eliminar duplicados: (48790, 15)


In [24]:
##############################
# Renombramos occupation = ? #
##############################

# Son 2809 casos de occupation = ?
# No la elimino porque es significativa pero la renombro
df['occupation'] = df['occupation'].replace('?', 'Unknown')


In [25]:
#####################
# Elimino education #
#####################

# La elimino porque seria redundante ya que se encuentra tambien de forma numerica
df = df.drop(columns=['education'])



In [26]:
##################
# Label encoding #
##################

# Gender (male, female) y para income que es la objetivo (<50k, >50k)

df['gender'] = LabelEncoder().fit_transform(df['gender'])  
df['income'] = LabelEncoder().fit_transform(df['income'])


In [27]:
####################
# One-Hot encoding #
####################

# Para el resto de variables categóricas

df = pd.get_dummies(df, columns=['workclass', 'marital-status', 'occupation','relationship', 'race', 'native-country'], drop_first=True)

In [32]:
#############################
# División Train, Val, Test #
#############################

X = df.drop(columns='income')
y = df['income']

# primera partición
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, stratify=y, random_state=42)
# segunda partición
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=42)

print("Train shape:", X_train.shape)
print("Validacion shape:", X_val.shape)
print("Test shape:", X_test.shape)


Train shape: (29274, 85)
Validacion shape: (9758, 85)
Test shape: (9758, 85)


In [None]:
############################
# Guardar en carpeta nueva #
############################

import os
os.makedirs("../data/processed", exist_ok=True)

X_train.to_csv("../data/processed/X_train.csv", index=False)
X_val.to_csv("../data/processed/X_val.csv", index=False)
X_test.to_csv("../data/processed/X_test.csv", index=False)
y_train.to_csv("../data/processed/y_train.csv", index=False)
y_val.to_csv("../data/processed/y_val.csv", index=False)
y_test.to_csv("../data/processed/y_test.csv", index=False)


He eliminado los duplicados que había (52 en total) y he dejado la categoría Unknown en occupation como está. También he quitado education porque ya tengo educational-num.

He codificado todas las variables y he dividido el dataset en train, validación y test con proporciones 60/20/20 y estratificación. He guardado los ficheros en una subcarpeta para tenerlo todo más ordenado.
