# Informe inicial

___
- Oscar Josue Rocha Hernandez
- Rafael Takata Garcia
- Esteban Gomez Valerio

### 1) Introducción
El análisis que se presenta se ubica en el ámbito de los estudios socioeconómicos y laborales en Estados Unidos, un tema de gran relevancia para comprender la distribución de ingresos y las dinámicas del mercado de trabajo. Este tipo de análisis no solo tiene implicaciones académicas, sino también aplicaciones prácticas en el diseño de políticas públicas, estrategias empresariales y estudios de equidad social.

El problema que abordaremos es la evaluación de los factores que influyen en el nivel de ingresos de las personas. En particular, se busca identificar cómo variables como la edad, la educación, el estado civil, la ocupación, el sexo y la raza están asociadas con la probabilidad de que un individuo perciba ingresos superiores a los 50 mil dólares anuales. Entender estas relaciones es esencial para detectar patrones de desigualdad y áreas de oportunidad en el desarrollo económico.

El alcance de esta primera entrega se centrará en la exploración inicial del conjunto de datos. No se incluirán modelos predictivos avanzados, sino un estudio descriptivo que permita conocer la estructura del dataset, explorar la distribución de las variables y visualizar tendencias generales entre las características sociodemográficas y el nivel de ingresos.

Para este propósito, se utilizará el dataset de Adult Census Income, que contiene información de miles de individuos en Estados Unidos. Cada registro incluye variables como educación, ocupación, horas trabajadas, país de origen y otros atributos, junto con la etiqueta de ingresos (<=50K o >50K). Este dataset ha sido ampliamente utilizado como benchmark en problemas de clasificación en aprendizaje automático, lo que lo convierte en un recurso ideal para este análisis exploratorio.
___

### 2) Antecedentes

Este dataset fue creado y popularizado a partir de trabajos en aprendizaje automático que buscaban clasificar ingresos, a menudo sirviendo como un punto de referencia para nuevos algoritmos.

`Kohavi, R. (1996). Scaling up the accuracy of naive-Bayes classifiers: A decision-tree approach. In E. Simoudis, J. Han, & U. Fayyad (Eds.), Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96) (pp. 202–207). AAAI Press.`

- Este es uno de los primeros trabajos que utiliza el dataset para probar métodos de clasificación (Naive Bayes y árboles de decisión), estableciendo un benchmark inicial en términos de precisión.

`Dua, D., & Graff, C. (2017). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science. Retrieved from http://archive.ics.uci.edu/ml`

- Aunque este es el propio repositorio de los datos, estudiantes generalmente se centran en el preprocesamiento de datos y la ingeniería de características con el fin de impactar en el rendimiento predictivo.


Mediante estos trabajos previos, se confirma que las variables como la educación, ocupación y la edad, son altamente predictivas del nivel de ingresos. Esto valida su enfoque inicial de análisis exploratorio para comprender las relaciones de estas variables con la variable a predecir (ingresos).

La mayoría de los benchmarks en machine learning se enfocan en medir la precisión predictiva de los modelos, pero dejan en segundo plano la explicación de los patrones entre variables. Nuestro proyecto busca cubrir esa brecha, priorizando no solo la exactitud de las predicciones, sino también la comprensión de las relaciones e interacciones entre atributos, con el fin de aportar un valor interpretativo adicional y generar conocimiento útil a futuro.
___


### 3) Objetivos
*"Visualizar las relaciones entre atributos de un grupo de individuos y su nivel de ingresos para identificar patrones clave."*
___

**Objetivos especificos**

- Inspeccionar la estructura del conjunto de datos (tipos de variables, número de registros, cardinalidad).

- Generar estadísticas descriptivas clave para todas las variables numéricas y visualizar la distribución de frecuencias de las variables categóricas.

- Visualizar las tendencias entre la variable objetivo (Ingresos) y las variables sociodemográficas (Edad, Educación, Sexo, Raza, Ocupación y Horas Trabajadas).

- Documentar las reglas de limpieza y transformación de datos necesarias (eliminación de valores faltantes, agrupación de categorías raras o estandarización de variables numéricas).
___

**Criterios de exito**


Nuestro proyecto busca una documentación detallada de las variables, describiendo tanto sus características individuales como su relación con la variable predictora. 

Durante el proceso de modelado, el objetivo principal es alcanzar una precisión (accuracy) superior al 80% en la predicción.
___

### 4) Planteamiento del problema

El problema central que se busca resolver consiste en predecir con un nivel de precisión elevado el comportamiento de la variable objetivo a partir de un conjunto de características previamente registradas.

Las variables clave se dividen en dos grupos: las variables predictoras (entrada), que contienen información sociodemográfica, económica y de características individuales de una persona, y la variable objetivo (salida), que representa el valor que se desea predecir. Esta última es binaria, con dos clases: 0 (ingreso ≤$50K) y 1 (ingreso >$50K). Como supuesto inicial, se considera que los datos poseen una calidad mínima suficiente para el entrenamiento de modelos, sin embargo, se busca aplicar un proceso de limpieza, transformación y validación para garantizar un mejor uso de estas.

En este trabajo no solo se busca predecir quién gana más de $50K, sino también entender por qué. Este enfoque permite a los líderes de negocio identificar qué factores influyen en que una persona se convierta en un posible inversor más rentable (como la educación o la ocupación), haciendo que los hallazgos sean directamente aplicables al entendimiento del dominio socioeconómico.

No obstante, existen riesgos que se deben tomar en cuenta, como sesgos en los datos que afecten la imparcialidad, data leakage, valores faltantes, ruido o desbalance de clases. Además, enfocarse solo en la accuracy puede ocultar problemas de generalización o un desempeño desigual en distintos subgrupos.
___


### 5) Informe EDA Inicial

La exploración se centró en entender las variables numéricas y categóricas, sus distribuciones y relaciones, así como en identificar patrones relevantes por género y ocupación.

**Hallazgos principales**
- Las variables numéricas (edad, años de educación, horas trabajadas, capital gain/loss) muestran distribuciones sesgadas, con presencia de outliers marcados en capital gain/loss.

- La matriz de correlación refleja una fuerte relación entre 'education.num' y 'education', y cierta correlación moderada entre edad y nivel de ingresos.

- La variable 'hours.per.week' tiene un rango amplio, pero la mayoría de observaciones se concentran entre 35 y 45 horas.

- Se observan diferencias de participación y de ingresos por género y por ocupación, lo que evidencia sesgos importantes en la muestra. 


![image.png](attachment:image.png)


![image-2.png](attachment:image-2.png)

**Posibles Riesgos y decisiones tempranas**

- Los outliers en capital gain/loss requieren un tratamiento especial, pueden crear sesgo en nuestros modelos.

- Se detectan sesgos de género y ocupación (entre clases), lo que implica que el modelo predictivo podría reproducir estas desigualdades; será necesario evaluar métricas de equidad.

- La fuerte correlación entre 'education' y 'education.num' sugiere eliminar una de ellas para evitar multicolinealidad.

- La codificación de variables categóricas con muchas categorías (como native.country o occupation) debe manejarse cuidadosamente para evitar un alto número de dimensiones.
___