# Clasificaci√≥n de Ingresos con Machine Learning para An√°lisis Socioecon√≥mico

En este proyecto se desarrolla un sistema de **clasificaci√≥n de ingresos personales** basado en modelos de *machine learning*, cuyo objetivo es predecir si un individuo gana **m√°s o menos de \$50K anuales** utilizando datos demogr√°ficos y laborales extra√≠dos del censo.

El sistema est√° dise√±ado para analizar registros individuales y, mediante un algoritmo de **clasificaci√≥n supervisada**, identificar patrones socioecon√≥micos relevantes que puedan ser √∫tiles en estudios de mercado, pol√≠ticas p√∫blicas, o decisiones comerciales.

Adicionalmente, se contempla la posibilidad de extender el an√°lisis para generar **visualizaciones interactivas** o aplicar t√©cnicas de segmentaci√≥n poblacional con fines estad√≠sticos o estrat√©gicos.

## Objetivo

- Desarrollar un modelo capaz de **predecir el nivel de ingresos** de una persona a partir de datos censales.
- Aplicar t√©cnicas de *preprocesamiento*, *entrenamiento* y *evaluaci√≥n* de modelos de clasificaci√≥n binaria.
- Dise√±ar un pipeline reproducible que permita aplicar el modelo en nuevos conjuntos de datos.

## Alcance del Proyecto

- Exploraci√≥n de datos (EDA) y visualizaci√≥n de variables clave.
- Entrenamiento y validaci√≥n de modelos de clasificaci√≥n (por ejemplo: Regresi√≥n Log√≠stica, √Årboles de Decisi√≥n, Random Forest).
- Evaluaci√≥n de m√©tricas como *accuracy*, *precision*, *recall*, y *f1-score*.
- Identificaci√≥n de las variables m√°s relevantes mediante t√©cnicas de importancia de caracter√≠sticas.

## Uso Comercial

Este tipo de an√°lisis tiene m√∫ltiples aplicaciones pr√°cticas en sectores como:

- **Banca y Finanzas**: Evaluaci√≥n crediticia y segmentaci√≥n de clientes.
- **Marketing**: Dise√±o de campa√±as seg√∫n el perfil socioecon√≥mico.
- **Gobierno y ONGs**: Pol√≠ticas de inclusi√≥n y estudios poblacionales.

## Dataset Utilizado: Adult Census Income

Se utiliza el *dataset* **Adult Income (tambi√©n conocido como Census Income)**, extra√≠do del Censo de EE. UU. de 1994 y preparado por Ronny Kohavi y Barry Becker para tareas de miner√≠a de datos.

Caracter√≠sticas principales del *dataset*:

- **N√∫mero de instancias**: ~48,000 registros.
- **Atributos**: 14 variables incluyendo edad, educaci√≥n, ocupaci√≥n, horas trabajadas por semana, entre otros.
- **Variable objetivo**: `income`, que indica si el individuo gana `>50K` o `<=50K` al a√±o.
- **Tipo de datos**: Mixto (categ√≥ricos y num√©ricos).
- **Fuente original**: Base de datos de la Oficina del Censo de los Estados Unidos.


> **Nota sobre la limpieza del dataset**:
> 
> Antes de incluir los registros en el conjunto de datos final, se aplicaron ciertos **filtros de limpieza** para asegurar que los datos sean relevantes y de calidad. Estos filtros fueron:
>
> - `AAGE > 16`: Se excluyen personas menores de 17 a√±os, ya que generalmente no participan activamente en el mercado laboral.
> - `AGI > 100`: Aunque `AGI` no figura directamente en la versi√≥n final, este filtro garantiza que se consideren solo registros con ingresos v√°lidos y no triviales.
> - `AFNLWGT > 1`: Se descartan registros con peso muestral casi nulo. El campo `fnlwgt` indica cu√°ntas personas en la poblaci√≥n representa ese registro. Si es muy bajo, el dato tiene poca relevancia estad√≠stica.
> - `HRSWK > 0`: Se omiten personas que no trabajan nada en la semana, ya que no aportan informaci√≥n √∫til al an√°lisis de ingresos.
>
> Estos filtros ayudan a mantener un conjunto de datos limpio, √∫til y representativo para entrenar modelos de clasificaci√≥n.


### Acceso al Dataset

El *dataset* puede descargarse desde Kaggle:

üëâ [Adult Census Income Dataset en Kaggle](https://www.kaggle.com/datasets/uciml/adult-census-income)

Esta versi√≥n puede contener columnas mejor etiquetadas y separadas para an√°lisis m√°s avanzados o uso con frameworks como **TensorFlow**, **PyTorch** o **XGBoost**.

### Basado en investigaciones acad√©micas

Este proyecto toma como base el trabajo acad√©mico publicado por:

> **Ron Kohavi**, ‚ÄúScaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid‚Äù, *KDD 1996*.

Adem√°s, es ampliamente utilizado como benchmark en cursos, certificaciones y desaf√≠os de ciencia de datos debido a su simplicidad y valor pr√°ctico.

Para este trabajo se utilizar√° la versi√≥n en Kaggle, por su formato limpio y accesible.

## EDA: Exploratory Data Analysis

El primer paso en este proyecto es realizar un an√°lisis exploratorio de datos (EDA) sobre el *dataset* **Adult Census Income**. Este proceso es clave para entender la naturaleza de los datos disponibles y preparar el terreno para la fase de modelado.

A diferencia de otros *datasets* integrados en librer√≠as como `scikit-learn`, el *Adult Income* proviene de fuentes externas (como Kaggle o UCI), y se presenta habitualmente en formato **CSV**. Por lo tanto, podemos utilizar directamente funciones como `head()`, `info()` y `describe()` de **pandas** para comenzar la exploraci√≥n.

> **Nota**: Antes de aplicar modelos de machine learning, es esencial entender la distribuci√≥n de los datos, la presencia de valores nulos, y las relaciones entre las variables.

### Descripci√≥n del Dataset

El *dataset* Adult Income contiene informaci√≥n demogr√°fica y laboral de individuos adultos residentes en EE.UU., recolectada por la Oficina del Censo. El objetivo es predecir si el ingreso anual de una persona supera los **\$50,000**.

Una vez cargado en un `DataFrame` de `pandas`, el conjunto de datos se ver√° de la siguiente manera:

| Columna             | Tipo       | Descripci√≥n                                                             |
|---------------------|------------|-------------------------------------------------------------------------|
| `age`               | Num√©rica   | Edad del individuo.                                                    |
| `workclass`         | Categ√≥rica | Tipo de empleo (privado, gobierno, aut√≥nomo, etc.).                    |
| `fnlwgt`            | Num√©rica   | Peso muestral (indica cu√°ntas personas representa esta muestra).       |
| `education`         | Categ√≥rica | Nivel educativo (HS-grad, Bachelors, etc.).                            |
| `education-num`     | Num√©rica   | Nivel educativo en formato num√©rico.                                   |
| `marital-status`    | Categ√≥rica | Estado civil.                                                           |
| `occupation`        | Categ√≥rica | Ocupaci√≥n laboral.                                                     |
| `relationship`      | Categ√≥rica | Relaci√≥n familiar (esposo/a, hijo/a, etc.).                            |
| `race`              | Categ√≥rica | Raza declarada.                                                        |
| `sex`               | Categ√≥rica | G√©nero (Male/Female).                                                  |
| `capital-gain`      | Num√©rica   | Ganancias de capital obtenidas.                                        |
| `capital-loss`      | Num√©rica   | P√©rdidas de capital registradas.                                       |
| `hours-per-week`    | Num√©rica   | Cantidad de horas trabajadas por semana.                               |
| `native-country`    | Categ√≥rica | Pa√≠s de origen.                                                        |
| `income`            | Categ√≥rica | Variable objetivo: `>50K` o `<=50K` (clase a predecir).                |

> **Nota**: Algunas columnas como `education` y `education-num` son redundantes, pero pueden utilizarse para contrastar codificaciones.

### Carga de Datos

Los datos ser√°n descargados directamente desde Kaggle mediante el siguiente c√≥digo:

In [2]:
# Se importa la librer√≠a 'kagglehub' para permitir la descarga de datasets desde Kaggle.
import kagglehub  
import os

# Se descarga la √∫ltima versi√≥n disponible del dataset "adult-census-income" desde el repositorio "uciml" en Kaggle.
path = kagglehub.dataset_download("uciml/adult-census-income")  

# Se imprime la ruta local en la que se han almacenado los archivos descargados del dataset.
print("Path to dataset files:", path)

# Mostrar todos los archivos descargados en el path del dataset
print("\nArchivos en el path:")
for file in os.listdir(path):
    print(file)


  from .autonotebook import tqdm as notebook_tqdm


Path to dataset files: C:\Users\George\.cache\kagglehub\datasets\uciml\adult-census-income\versions\3

Archivos en el path:
adult.csv


El siguiente paso ser√° crear una funci√≥n utilizando las librer√≠as os y pandas con el fin de cargar los datos del dataset en formato CSV.

In [6]:
import pandas as pd

# Se crea una funci√≥n para guardar los datos del dataset en un objeto
# de tipo dataframe
def load_data(path, name):
    csv_path = os.path.join(path, name)
    return pd.read_csv(csv_path)

Con la funci√≥n `load_data` se cargan los datos desde el dataset y se crea un objeto de tipo `dataframe` que ser√° llamado `census`. Posteriormente se imprimiran las primeras lineas junto con los atributos del dataset utilizando el m√©todo ``head()``, esto permitir√° verificar la estructura de los datos con los se va a trabajar.

In [7]:
# Se carga el modelo y es guardado como un objeto dataframe
census = load_data(path,"adult.csv")

# Se muestran las primeras 5 lineas de dicho objeto
census.head()

Unnamed: 0,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
0,90,?,77053,HS-grad,9,Widowed,?,Not-in-family,White,Female,0,4356,40,United-States,<=50K
1,82,Private,132870,HS-grad,9,Widowed,Exec-managerial,Not-in-family,White,Female,0,4356,18,United-States,<=50K
2,66,?,186061,Some-college,10,Widowed,?,Unmarried,Black,Female,0,4356,40,United-States,<=50K
3,54,Private,140359,7th-8th,4,Divorced,Machine-op-inspct,Unmarried,White,Female,0,3900,40,United-States,<=50K
4,41,Private,264663,Some-college,10,Separated,Prof-specialty,Own-child,White,Female,0,3900,40,United-States,<=50K


A simple vista se puede obervar que el dataset posee datos num√©rico y categ√≥ricos, tal como se describi√≥ al inicio de este documento. Adem√°s posee valores faltantes en varias de sus intancias.

### An√°lisis Inicial

Dentro de las opciones que ofrece la librer√≠a ``pandas``, se encuentra la posibilidad de obtener informaci√≥n sobre el objeto de tipo ``dataframe``, que acaba de ser creado, a trav√©s del m√©todo ``info()``.

In [8]:
# Se muestra la informaci√≥n del objeto
census.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       32561 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education.num   32561 non-null  int64 
 5   marital.status  32561 non-null  object
 6   occupation      32561 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital.gain    32561 non-null  int64 
 11  capital.loss    32561 non-null  int64 
 12  hours.per.week  32561 non-null  int64 
 13  native.country  32561 non-null  object
 14  income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


El m√©todo ``info()`` permite determinar que el dataset posee 32,561 entradas y 15 atributos. De estos atributos, 6 son de tipo ``int64`` (enteros) y 9 son de tipo ``object`` (categ√≥ricos o texto). Si bien ``info()`` establece que no hay datos nulos, hemos visto celdas que poseen el valor *?* lo que implica que falta informaci√≥n en dicho atributo para esa instancia en particular.

El siguiente paso ser√° usar el m√©todo ``describe()`` para obtener informaci√≥n estad√≠stica de cada atributo num√©rico. Aquellos de tipo ``object`` no son tenidos en cuenta.

In [9]:
# El siguiente paso es mostrar la descripci√≥n de estad√≠stica de
# los atributos num√©ricos
census.describe()

Unnamed: 0,age,fnlwgt,education.num,capital.gain,capital.loss,hours.per.week
count,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0
mean,38.581647,189778.4,10.080679,1077.648844,87.30383,40.437456
std,13.640433,105550.0,2.57272,7385.292085,402.960219,12.347429
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117827.0,9.0,0.0,0.0,40.0
50%,37.0,178356.0,10.0,0.0,0.0,40.0
75%,48.0,237051.0,12.0,0.0,0.0,45.0
max,90.0,1484705.0,16.0,99999.0,4356.0,99.0




El atributo ``age`` representa la edad de los individuos registrados en el dataset. Se observa que la edad m√≠nima es de 17 a√±os y la m√°xima de 90, con una media de aproximadamente 38.6 a√±os y una desviaci√≥n est√°ndar de 13.64. Esto indica que el rango de edades es amplio y est√° moderadamente disperso, siendo la mediana de 37 a√±os. La distribuci√≥n muestra que al menos el 75% de los individuos tienen una edad inferior a 48 a√±os, lo cual sugiere que se trata principalmente de una poblaci√≥n adulta en edad productiva.

El campo ``fnlwgt``, correspondiente al peso final de la muestra, presenta una gran variabilidad, con valores que van desde 12,285 hasta 1,484,705. La media se encuentra alrededor de 189,778 y la desviaci√≥n est√°ndar es superior a 100,000, lo que indica la presencia de valores altamente dispersos. Dado que este atributo fue dise√±ado originalmente para ajustar la representatividad de la muestra en estudios censales, su escala no tiene una interpretaci√≥n directa y puede influir de forma desproporcionada en algunos modelos si no se transforma o normaliza adecuadamente.

Respecto al atributo ``education.num``, que representa un nivel educativo codificado num√©ricamente, se tiene una media de 10 y un m√°ximo de 16. La mediana tambi√©n es 10, lo cual indica que la mayor√≠a de los individuos alcanzan un nivel educativo correspondiente a Some-college, es decir, algo de educaci√≥n universitaria sin necesariamente haberla completado. La desviaci√≥n est√°ndar de 2.57 sugiere que los niveles educativos tienden a concentrarse en torno a ese valor promedio. Los percentiles muestran que el 75% de los individuos tienen un valor menor o igual a 12, lo cual se asocia con niveles educativos que van desde HS-grad (graduado de secundaria) hasta Assoc-acdm (t√≠tulo asociado acad√©mico), es decir, una educaci√≥n secundaria o terciaria t√©cnica completa.

El atributo ``capital.gain`` presenta una media de 1,077 y una desviaci√≥n est√°ndar elevada, cercana a los 7,385. No obstante, tanto la mediana como los percentiles 25 y 75 son cero, lo que implica que la gran mayor√≠a de las personas no reportan ganancias de capital. La existencia de un valor m√°ximo de 99,999 indica que hay una peque√±a proporci√≥n de casos con ganancias at√≠picamente altas, lo que introduce una fuerte asimetr√≠a positiva en la distribuci√≥n.

De forma similar, ``capital.loss`` tiene un comportamiento marcadamente sesgado. Con una media de 87.3 y una desviaci√≥n est√°ndar de m√°s de 400, la mayor√≠a de los registros tienen valores nulos en este campo, como lo evidencian sus percentiles m√°s bajos. El valor m√°ximo registrado es de 4,356, lo que tambi√©n sugiere la presencia de unos pocos casos extremos que podr√≠an afectar negativamente a modelos sensibles a valores at√≠picos.

Finalmente, el campo ``hours.per.week``, que indica el n√∫mero de horas trabajadas por semana, tiene una media de 40.4 horas y una mediana de 40, lo cual muestra una tendencia clara hacia jornadas laborales est√°ndar. Sin embargo, el rango va desde 1 hasta 99 horas por semana, lo cual introduce cierta dispersi√≥n en los datos. La desviaci√≥n est√°ndar de 12.3 refuerza esta idea, aunque los percentiles indican que el 75% de los individuos trabajan 45 horas o menos, lo que sugiere una distribuci√≥n relativamente concentrada alrededor de la media.

El siguiente paso ser√° determinar las categor√≠as dentro de cada uno de los atributos categ√≥ricos.

In [22]:
print("Las categor√≠as dentro del atributo workclass son:\n", census["workclass"].value_counts())

Las categor√≠as dentro del atributo workclass son:
 workclass
Private             22696
Self-emp-not-inc     2541
Local-gov            2093
?                    1836
State-gov            1298
Self-emp-inc         1116
Federal-gov           960
Without-pay            14
Never-worked            7
Name: count, dtype: int64


> **Nota**: Este atributo posee 1836 datos faltantes marcados como **?**.

In [23]:
print("Las categor√≠as dentro del atributo education son:\n", census["education"].value_counts())

Las categor√≠as dentro del atributo education son:
 education
HS-grad         10501
Some-college     7291
Bachelors        5355
Masters          1723
Assoc-voc        1382
11th             1175
Assoc-acdm       1067
10th              933
7th-8th           646
Prof-school       576
9th               514
12th              433
Doctorate         413
5th-6th           333
1st-4th           168
Preschool          51
Name: count, dtype: int64


In [20]:
# Se eliminan duplicados para mostrar cada par √∫nico de (education, education.num)
educacion_niveles = census[['education', 'education.num']].drop_duplicates().sort_values(by='education.num')

# Se imprime la relaci√≥n entre n√∫mero y nivel educativo
print("La relaci√≥n entre cada categor√≠a y su valor num√©rico es la siguiente:")
for _, fila in educacion_niveles.iterrows():
    print(f"{fila['education.num']:>2} ‚Üí {fila['education']}")

La relaci√≥n entre cada categor√≠a y su valor num√©rico es la siguiente:
 1 ‚Üí Preschool
 2 ‚Üí 1st-4th
 3 ‚Üí 5th-6th
 4 ‚Üí 7th-8th
 5 ‚Üí 9th
 6 ‚Üí 10th
 7 ‚Üí 11th
 8 ‚Üí 12th
 9 ‚Üí HS-grad
10 ‚Üí Some-college
11 ‚Üí Assoc-voc
12 ‚Üí Assoc-acdm
13 ‚Üí Bachelors
14 ‚Üí Masters
15 ‚Üí Prof-school
16 ‚Üí Doctorate


In [24]:
print("Las categor√≠as dentro del atributo marital.status son:\n", census["marital.status"].value_counts())

Las categor√≠as dentro del atributo marital.status son:
 marital.status
Married-civ-spouse       14976
Never-married            10683
Divorced                  4443
Separated                 1025
Widowed                    993
Married-spouse-absent      418
Married-AF-spouse           23
Name: count, dtype: int64


In [25]:
print("Las categor√≠as dentro del atributo occupation son:\n", census["occupation"].value_counts())

Las categor√≠as dentro del atributo occupation son:
 occupation
Prof-specialty       4140
Craft-repair         4099
Exec-managerial      4066
Adm-clerical         3770
Sales                3650
Other-service        3295
Machine-op-inspct    2002
?                    1843
Transport-moving     1597
Handlers-cleaners    1370
Farming-fishing       994
Tech-support          928
Protective-serv       649
Priv-house-serv       149
Armed-Forces            9
Name: count, dtype: int64


> **Nota**: Este atributo posee 1836 datos faltantes marcados como **?**.

In [26]:
print("Las categor√≠as dentro del atributo relationchip son:\n", census["relationship"].value_counts())

Las categor√≠as dentro del atributo relationchip son:
 relationship
Husband           13193
Not-in-family      8305
Own-child          5068
Unmarried          3446
Wife               1568
Other-relative      981
Name: count, dtype: int64


In [27]:
print("Las categor√≠as dentro del atributo race son:\n", census["race"].value_counts())

Las categor√≠as dentro del atributo race son:
 race
White                 27816
Black                  3124
Asian-Pac-Islander     1039
Amer-Indian-Eskimo      311
Other                   271
Name: count, dtype: int64


In [28]:
print("Las categor√≠as dentro del atributo sex son:\n", census["sex"].value_counts())

Las categor√≠as dentro del atributo sex son:
 sex
Male      21790
Female    10771
Name: count, dtype: int64


In [29]:
print("Las categor√≠as dentro del atributo native.country son:\n", census["native.country"].value_counts())

Las categor√≠as dentro del atributo native.country son:
 native.country
United-States                 29170
Mexico                          643
?                               583
Philippines                     198
Germany                         137
Canada                          121
Puerto-Rico                     114
El-Salvador                     106
India                           100
Cuba                             95
England                          90
Jamaica                          81
South                            80
China                            75
Italy                            73
Dominican-Republic               70
Vietnam                          67
Guatemala                        64
Japan                            62
Poland                           60
Columbia                         59
Taiwan                           51
Haiti                            44
Iran                             43
Portugal                         37
Nicaragua                   

In [30]:
print("Las categor√≠as dentro del atributo income son:\n", census["income"].value_counts())

Las categor√≠as dentro del atributo income son:
 income
<=50K    24720
>50K      7841
Name: count, dtype: int64


### Identificaci√≥n de Par√°metros Faltantes

Los datos faltantes se encuentran en 3 atributos espec√≠ficamente: ``workclass``, ``occupation`` y ``native.country``. Se establece como hip√≥tesis los siguientes escenarios:
- Las personas con ``workclass`` y/o ``occupation`` igual a **?** estan jubiladas.
    - Se debe determinar si existe dentro de los datos la categor√≠a "jubilado".
    - Se debe determinar si hay personas que poseen una edad superior a 62 a√±os, que es la edad jubilatoria m√≠nima.
- Las personas con ``workclass``y/o ``occupation`` igual a **?** estan desempleadas o realizan trabajos en el hogar (i.e. amas de casa).
    - Se debe determinar si existe dentro de los datos la categor√≠a "desempleado".
    - Se debe determinar si hay personas que poseen horas semanales de trabajo (``hours.peer.week.``).
    - Se debe determinar si la persona est√° casada y posee g√©nero femenino.

> **Nota**: Obviamente se puede ser una persona de g√©nero masculino y llevar a cargo tareas del hogar, pero considerando que el censo es de 1994, se asume que es poco probable que as√≠ sea.