# Clasificaci√≥n de Ingresos con Machine Learning para An√°lisis Socioecon√≥mico

En este proyecto se desarrolla un sistema de **clasificaci√≥n de ingresos personales** basado en modelos de *machine learning*, cuyo objetivo es predecir si un individuo gana **m√°s o menos de \$50K anuales** utilizando datos demogr√°ficos y laborales extra√≠dos del censo.

El sistema est√° dise√±ado para analizar registros individuales y, mediante un algoritmo de **clasificaci√≥n supervisada**, identificar patrones socioecon√≥micos relevantes que puedan ser √∫tiles en estudios de mercado, pol√≠ticas p√∫blicas, o decisiones comerciales.

Adicionalmente, se contempla la posibilidad de extender el an√°lisis para generar **visualizaciones interactivas** o aplicar t√©cnicas de segmentaci√≥n poblacional con fines estad√≠sticos o estrat√©gicos.

## Objetivo

- Desarrollar un modelo capaz de **predecir el nivel de ingresos** de una persona a partir de datos censales.
- Aplicar t√©cnicas de *preprocesamiento*, *entrenamiento* y *evaluaci√≥n* de modelos de clasificaci√≥n binaria.
- Dise√±ar un pipeline reproducible que permita aplicar el modelo en nuevos conjuntos de datos.

## Alcance del Proyecto

- Exploraci√≥n de datos (EDA) y visualizaci√≥n de variables clave.
- Entrenamiento y validaci√≥n de modelos de clasificaci√≥n (por ejemplo: Regresi√≥n Log√≠stica, √Årboles de Decisi√≥n, Random Forest).
- Evaluaci√≥n de m√©tricas como *accuracy*, *precision*, *recall*, y *f1-score*.
- Identificaci√≥n de las variables m√°s relevantes mediante t√©cnicas de importancia de caracter√≠sticas.

## Uso Comercial

Este tipo de an√°lisis tiene m√∫ltiples aplicaciones pr√°cticas en sectores como:

- **Banca y Finanzas**: Evaluaci√≥n crediticia y segmentaci√≥n de clientes.
- **Marketing**: Dise√±o de campa√±as seg√∫n el perfil socioecon√≥mico.
- **Gobierno y ONGs**: Pol√≠ticas de inclusi√≥n y estudios poblacionales.

## Dataset Utilizado: Adult Census Income

Se utiliza el *dataset* **Adult Income (tambi√©n conocido como Census Income)**, extra√≠do del Censo de EE. UU. de 1994 y preparado por Ronny Kohavi y Barry Becker para tareas de miner√≠a de datos.

Caracter√≠sticas principales del *dataset*:

- **N√∫mero de instancias**: ~48,000 registros.
- **Atributos**: 14 variables incluyendo edad, educaci√≥n, ocupaci√≥n, horas trabajadas por semana, entre otros.
- **Variable objetivo**: `income`, que indica si el individuo gana `>50K` o `<=50K` al a√±o.
- **Tipo de datos**: Mixto (categ√≥ricos y num√©ricos).
- **Fuente original**: Base de datos de la Oficina del Censo de los Estados Unidos.


> **Nota sobre la limpieza del dataset**:
> 
> Antes de incluir los registros en el conjunto de datos final, se aplicaron ciertos **filtros de limpieza** para asegurar que los datos sean relevantes y de calidad. Estos filtros fueron:
>
> - `AAGE > 16`: Se excluyen personas menores de 17 a√±os, ya que generalmente no participan activamente en el mercado laboral.
> - `AGI > 100`: Aunque `AGI` no figura directamente en la versi√≥n final, este filtro garantiza que se consideren solo registros con ingresos v√°lidos y no triviales.
> - `AFNLWGT > 1`: Se descartan registros con peso muestral casi nulo. El campo `fnlwgt` indica cu√°ntas personas en la poblaci√≥n representa ese registro. Si es muy bajo, el dato tiene poca relevancia estad√≠stica.
> - `HRSWK > 0`: Se omiten personas que no trabajan nada en la semana, ya que no aportan informaci√≥n √∫til al an√°lisis de ingresos.
>
> Estos filtros ayudan a mantener un conjunto de datos limpio, √∫til y representativo para entrenar modelos de clasificaci√≥n.


### Acceso al Dataset

El *dataset* puede descargarse desde Kaggle:

üëâ [Adult Census Income Dataset en Kaggle](https://www.kaggle.com/datasets/uciml/adult-census-income)

Esta versi√≥n puede contener columnas mejor etiquetadas y separadas para an√°lisis m√°s avanzados o uso con frameworks como **TensorFlow**, **PyTorch** o **XGBoost**.

### Basado en investigaciones acad√©micas

Este proyecto toma como base el trabajo acad√©mico publicado por:

> **Ron Kohavi**, ‚ÄúScaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid‚Äù, *KDD 1996*.

Adem√°s, es ampliamente utilizado como benchmark en cursos, certificaciones y desaf√≠os de ciencia de datos debido a su simplicidad y valor pr√°ctico.

Para este trabajo se utilizar√° la versi√≥n en Kaggle, por su formato limpio y accesible.

## EDA: Exploratory Data Analysis

El primer paso en este proyecto es realizar un an√°lisis exploratorio de datos (EDA) sobre el *dataset* **Adult Census Income**. Este proceso es clave para entender la naturaleza de los datos disponibles y preparar el terreno para la fase de modelado.

A diferencia de otros *datasets* integrados en librer√≠as como `scikit-learn`, el *Adult Income* proviene de fuentes externas (como Kaggle o UCI), y se presenta habitualmente en formato **CSV**. Por lo tanto, podemos utilizar directamente funciones como `head()`, `info()` y `describe()` de **pandas** para comenzar la exploraci√≥n.

> **Nota**: Antes de aplicar modelos de machine learning, es esencial entender la distribuci√≥n de los datos, la presencia de valores nulos, y las relaciones entre las variables.

### Descripci√≥n del Dataset

El *dataset* Adult Income contiene informaci√≥n demogr√°fica y laboral de individuos adultos residentes en EE.UU., recolectada por la Oficina del Censo. El objetivo es predecir si el ingreso anual de una persona supera los **\$50,000**.

Una vez cargado en un `DataFrame` de `pandas`, el conjunto de datos se ver√° de la siguiente manera:

| Columna             | Tipo       | Descripci√≥n                                                             |
|---------------------|------------|-------------------------------------------------------------------------|
| `age`               | Num√©rica   | Edad del individuo.                                                    |
| `workclass`         | Categ√≥rica | Tipo de empleo (privado, gobierno, aut√≥nomo, etc.).                    |
| `fnlwgt`            | Num√©rica   | Peso muestral (indica cu√°ntas personas representa esta muestra).       |
| `education`         | Categ√≥rica | Nivel educativo (HS-grad, Bachelors, etc.).                            |
| `education-num`     | Num√©rica   | Nivel educativo en formato num√©rico.                                   |
| `marital-status`    | Categ√≥rica | Estado civil.                                                           |
| `occupation`        | Categ√≥rica | Ocupaci√≥n laboral.                                                     |
| `relationship`      | Categ√≥rica | Relaci√≥n familiar (esposo/a, hijo/a, etc.).                            |
| `race`              | Categ√≥rica | Raza declarada.                                                        |
| `sex`               | Categ√≥rica | G√©nero (Male/Female).                                                  |
| `capital-gain`      | Num√©rica   | Ganancias de capital obtenidas.                                        |
| `capital-loss`      | Num√©rica   | P√©rdidas de capital registradas.                                       |
| `hours-per-week`    | Num√©rica   | Cantidad de horas trabajadas por semana.                               |
| `native-country`    | Categ√≥rica | Pa√≠s de origen.                                                        |
| `income`            | Categ√≥rica | Variable objetivo: `>50K` o `<=50K` (clase a predecir).                |

> **Nota**: Algunas columnas como `education` y `education-num` son redundantes, pero pueden utilizarse para contrastar codificaciones.

### Carga de Datos

Los datos ser√°n descargados directamente desde Kaggle mediante el siguiente c√≥digo:

In [3]:
# Se importa la librer√≠a 'kagglehub' para permitir la descarga de datasets desde Kaggle.
import kagglehub  

# Se descarga la √∫ltima versi√≥n disponible del dataset "adult-census-income" desde el repositorio "uciml" en Kaggle.
path = kagglehub.dataset_download("uciml/adult-census-income")  

# Se imprime la ruta local en la que se han almacenado los archivos descargados del dataset.
print("Path to dataset files:", path)  

Path to dataset files: C:\Users\George\.cache\kagglehub\datasets\uciml\adult-census-income\versions\3
