# üìä An√°lisis exploratorio: üíº Adult Census Income Dataset  

## 1Ô∏è‚É£ **Entender el contexto del proyecto**

El an√°lisis exploratorio que se va a realizar est√° basado en el dataset **Adult / Census Income**, disponible p√∫blicamente en el repositorio UCI Machine Learning:  
üîó https://archive-beta.ics.uci.edu/dataset/2/adult  

Este dataset recoge informaci√≥n demogr√°fica y laboral de m√°s de 48.000 personas censadas en Estados Unidos, con el objetivo de predecir si sus ingresos anuales superan los **50.000 d√≥lares**. Es uno de los conjuntos de datos m√°s utilizados para estudiar tareas de **clasificaci√≥n binaria**, especialmente dentro del aprendizaje autom√°tico.

---

### üéØ **Objetivo del an√°lisis**

El prop√≥sito principal de este an√°lisis es **explorar y comprender c√≥mo distintos factores socioecon√≥micos y demogr√°ficos influyen en el nivel de ingresos de los individuos**.  

A trav√©s del an√°lisis exploratorio (EDA) buscaremos:

- Detectar patrones relacionados con el nivel educativo, el tipo de ocupaci√≥n, el estado civil y otras caracter√≠sticas relevantes.  
- Identificar posibles **valores at√≠picos**, inconsistencias o datos faltantes que puedan afectar a nuestros modelos.  
- Preparar adecuadamente el dataset para trabajar con algoritmos de machine learning orientados a **clasificaci√≥n binaria**.

Posteriormente implementaremos y compararemos distintos modelos de clasificaci√≥n, entre ellos:

- **Regresi√≥n log√≠stica**
- **√Årboles de decisi√≥n y Random Forest**
- **KNN, Naive Bayes y SVM**
- **Redes neuronales b√°sicas (MLP)**  

Con este proyecto buscamos construir modelos predictivos robustos que permitan **estimar si una persona ganar√° m√°s o menos de 50.000$ al a√±o**, a partir de sus caracter√≠sticas personales y laborales.

---

### üß© **Significado de las variables**

| **Columna** | **Descripci√≥n** |
|-------------|-----------------|
| `age` | Edad del individuo. |
| `workclass` | Tipo de empleo (aut√≥nomo, sector p√∫blico, privado‚Ä¶). |
| `fnlwgt` | Peso muestral asignado por el censo. |
| `education` | Nivel educativo completado. |
| `education-num` | Nivel educativo en formato num√©rico. |
| `marital-status` | Estado civil. |
| `occupation` | Ocupaci√≥n laboral. |
| `relationship` | Relaci√≥n del individuo dentro del hogar. |
| `race` | Raza/etnia. |
| `sex` | Sexo. |
| `capital-gain` | Ganancias de capital (inversiones). |
| `capital-loss` | P√©rdidas de capital. |
| `hours-per-week` | Horas trabajadas por semana. |
| `native-country` | Pa√≠s de origen. |
| `income` | Variable objetivo: >50K o <=50K. |

---

üóíÔ∏è *Fuente de los datos: UCI Machine Learning Repository, Adult Dataset (1996).*  

## 2Ô∏è‚É£ **Importaci√≥n de librer√≠as y carga del dataset**

In [1]:
# Manipulaci√≥n y an√°lisis de datos
import pandas as pd
import numpy as np

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Preprocesamiento y modelos (scikit-learn)
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Modelos que usaremos m√°s adelante
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

# M√©tricas
from sklearn.metrics import (
    accuracy_score, confusion_matrix, classification_report
)

Cargamos el dataset y visualizamos las primeras filas

In [2]:
columnas = [
    'age', 'workclass', 'fnlwgt', 'education', 'education-num',
    'marital-status', 'occupation', 'relationship', 'race', 'sex',
    'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income'
]

dataset = './data/adult.data'

df = pd.read_csv(dataset, names=columnas, sep=',')

df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


## 3Ô∏è‚É£ **Exploraci√≥n inicial del dataset (EDA b√°sico)**
- .info(), .describe(), .nunique()
- Dimensiones, tipos de datos, distribuci√≥n inicial.

In [None]:
# Dimensiones del dataset
df.shape

(32561, 15)

In [None]:
# Informaci√≥n general del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       32561 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      32561 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loss    32561 non-null  int64 
 12  hours-per-week  32561 non-null  int64 
 13  native-country  32561 non-null  object
 14  income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


In [None]:
# Estad√≠sticas generales
df.describe()

Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week
count,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0
mean,38.581647,189778.4,10.080679,1077.648844,87.30383,40.437456
std,13.640433,105550.0,2.57272,7385.292085,402.960219,12.347429
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117827.0,9.0,0.0,0.0,40.0
50%,37.0,178356.0,10.0,0.0,0.0,40.0
75%,48.0,237051.0,12.0,0.0,0.0,45.0
max,90.0,1484705.0,16.0,99999.0,4356.0,99.0


In [None]:
# N√∫mero de valores √∫nicos por columna
df.nunique()

age                  73
workclass             9
fnlwgt            21648
education            16
education-num        16
marital-status        7
occupation           15
relationship          6
race                  5
sex                   2
capital-gain        119
capital-loss         92
hours-per-week       94
native-country       42
income                2
dtype: int64

In [8]:
# Revisamos la distribuci√≥n inicial de la variable objetivo para saber si el dataset est√° desbalanceado
df['income'].value_counts()

income
<=50K    24720
>50K      7841
Name: count, dtype: int64

## 4Ô∏è‚É£ **Limpieza de datos**

- Detecci√≥n de nulos y tratamiento.

In [9]:
# Revisamos los valores nulos que pueda tener el dataset
df.isnull().sum()

age               0
workclass         0
fnlwgt            0
education         0
education-num     0
marital-status    0
occupation        0
relationship      0
race              0
sex               0
capital-gain      0
capital-loss      0
hours-per-week    0
native-country    0
income            0
dtype: int64

- Eliminaci√≥n de espacios en blanco.

In [36]:
df = df.apply(lambda col: col.str.strip() if col.dtype == 'object' else col)

- Eliminaci√≥n o correcci√≥n de valores ‚Äú?‚Äù o similares.

In [37]:
# Contar valores desconocidos '?'
valores_interrogacion = (df == '?').sum()

valores_interrogacion[valores_interrogacion > 0]

# Mostramos la cantidad de valores '?' por columna
print("Valores '?' por columna:")
print(valores_interrogacion[valores_interrogacion > 0])


Valores '?' por columna:
Series([], dtype: int64)


In [25]:
total_filas = len(df)

porcentajes_interrogaciones = (valores_interrogacion / total_filas) * 100

print(porcentajes_interrogaciones[valores_interrogacion > 0])

workclass         5.638647
occupation        5.660146
native-country    1.790486
dtype: float64


In [31]:
# Sacamos las columnas que contienen valores '?'
columnas_con_interrogacion = valores_interrogacion[valores_interrogacion > 0].index

# Mostramos cu√°ntos valores distintos tiene cada una de esas columnas
for col in columnas_con_interrogacion:
    print(f"\nColumna: {col}")
    print(f"- Valores distintos (incluyendo '?'): {df[col].nunique()}")


Columna: workclass
- Valores distintos (incluyendo '?'): 9

Columna: occupation
- Valores distintos (incluyendo '?'): 15

Columna: native-country
- Valores distintos (incluyendo '?'): 42


In [34]:
for col in columnas_con_interrogacion:
    df[col] = df[col].replace('?', 'Unknown')

# Comprobar que ya no quedan '?'
print("Valores '?' restantes:")
print((df == '?').sum())

Valores '?' restantes:
age               0
workclass         0
fnlwgt            0
education         0
education-num     0
marital-status    0
occupation        0
relationship      0
race              0
sex               0
capital-gain      0
capital-loss      0
hours-per-week    0
native-country    0
income            0
dtype: int64


## 5Ô∏è‚É£ **An√°lisis exploratorio profundo (EDA detallado)**

### üìå **5.1. Distribuciones univariantes**
- Histogramas para num√©ricas.
- Countplots para categ√≥ricas.

### üìå **5.2. An√°lisis bivariante**
- Ingresos vs educaci√≥n.
- Ingresos vs horas trabajadas.
- Ingresos vs ocupaci√≥n, sexo, raza‚Ä¶
- Mapas de calor de correlaci√≥n.

## 6Ô∏è‚É£ **Preprocesamiento para Machine Learning**
- OneHotEncoding para variables categ√≥ricas.
- Escalado de num√©ricas (si lo necesita alg√∫n modelo).
- Dividir entre train y test.

## 7Ô∏è‚É£ **Modelado**

### üìå **7.1. Regresi√≥n log√≠stica**
- Entrenamiento
- Reporte: accuracy, matriz de confusi√≥n, classification report.
- Ajuste de umbrales (FN, FP).

### üìå **7.2. √Årboles de clasificaci√≥n**
- Entrenamiento simple
- Visualizaci√≥n del √°rbol
- M√©tricas

### üìå **7.3. Random Forest (con optimizaci√≥n)**
- Modelo base
- RandomizedSearchCV
- Comparaci√≥n base vs optimizado

### üìå **7.4. KNN, Naive Bayes y SVM**
- Entrenar y evaluar cada uno
- Comparar m√©tricas

### üìå **7.5. MLP(Red neuronal b√°sica)**
- Preprocesamiento especial si hace falta
- Arquitectura simple
- Evaluaci√≥n

## 8Ô∏è‚É£ **Comparaci√≥n final de modelos**
- Tabla comparativa de accuracy, precisi√≥n, recall, F1.
- Discusi√≥n sobre cu√°l es mejor y por qu√©.

## 9Ô∏è‚É£ **Conclusiones del proyecto**
- Hallazgos clave del EDA.
- Variables m√°s influyentes.
- Limitaciones del dataset.
- Interpretaci√≥n del mejor modelo.