<a href="https://colab.research.google.com/github/BenjaS180/Avance-AJAX/blob/main/Data_Cleaning_AdultIncome_v3_Desafio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🧹 Limpieza de Datos con Pandas - Dataset Adult Income

Este notebook está diseñado para enseñar cómo detectar y corregir problemas comunes de calidad de datos usando el dataset **Adult Income** del UCI Machine Learning Repository.

Se abordarán:
- Valores faltantes
- Datos inconsistentes
- Codificación de variables categóricas
- Eliminación de duplicados


In [None]:
import pandas as pd
import numpy as np

# Cargar el dataset desde UCI
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data"
column_names = [
    'age', 'workclass', 'fnlwgt', 'education', 'education-num',
    'marital-status', 'occupation', 'relationship', 'race', 'sex',
    'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income'
]
df = pd.read_csv(url, names=column_names, na_values="?", sep=",", skipinitialspace=True)

# Mostrar las primeras filas
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [None]:
# Ver información general del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       30725 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      30718 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loss    32561 non-null  int64 
 12  hours-per-week  32561 non-null  int64 
 13  native-country  31978 non-null  object
 14  income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


## 📌 Revisión de valores faltantes

Los valores faltantes han sido cargados como `NaN` gracias al parámetro `na_values="?"`. Vamos a visualizarlos.


In [None]:
# Contar valores faltantes por columna
df.isnull().sum()

Unnamed: 0,0
age,0
workclass,1836
fnlwgt,0
education,0
education-num,0
marital-status,0
occupation,1843
relationship,0
race,0
sex,0


## 📌 Eliminar o imputar valores faltantes

Decidiremos si eliminamos filas con datos faltantes o si imputamos según corresponda.


In [None]:
# Eliminar filas con valores faltantes
df_clean = df.dropna()

# Confirmar que no hay valores nulos
df_clean.isnull().sum()

Unnamed: 0,0
age,0
workclass,0
fnlwgt,0
education,0
education-num,0
marital-status,0
occupation,0
relationship,0
race,0
sex,0


## 📌 Normalización de categorías

Vamos a revisar las columnas categóricas y corregir espacios, mayúsculas, etc.


In [None]:
# Eliminar espacios innecesarios en columnas categóricas
cat_cols = df_clean.select_dtypes(include='object').columns

for col in cat_cols:
    df_clean[col] = df_clean[col].str.strip()

# Verificar valores únicos de una columna categórica
df_clean['native-country'].unique()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_clean[col] = df_clean[col].str.strip()


array(['United-States', 'Cuba', 'Jamaica', 'India', 'Mexico',
       'Puerto-Rico', 'Honduras', 'England', 'Canada', 'Germany', 'Iran',
       'Philippines', 'Poland', 'Columbia', 'Cambodia', 'Thailand',
       'Ecuador', 'Laos', 'Taiwan', 'Haiti', 'Portugal',
       'Dominican-Republic', 'El-Salvador', 'France', 'Guatemala',
       'Italy', 'China', 'South', 'Japan', 'Yugoslavia', 'Peru',
       'Outlying-US(Guam-USVI-etc)', 'Scotland', 'Trinadad&Tobago',
       'Greece', 'Nicaragua', 'Vietnam', 'Hong', 'Ireland', 'Hungary',
       'Holand-Netherlands'], dtype=object)

## 📌 Eliminar duplicados (si existen)


In [None]:
# Contar duplicados
df_clean.duplicated().sum()

# Eliminar duplicados
df_clean = df_clean.drop_duplicates()

✅ ¡Ahora el dataset está limpio y listo para análisis o modelado!

Puedes continuar con exploración, visualización o preparación para machine learning.


## 🧪 Mini Desafío Práctico

Aplica lo aprendido en esta actividad para resolver el siguiente desafío:


### Desafío:

1. Crea una nueva columna llamada `age-group` que clasifique la edad de los individuos en tres categorías:
   - `"Joven"` si la edad es menor a 30 años
   - `"Adulto"` si está entre 30 y 60 años
   - `"Senior"` si es mayor de 60 años

2. Muestra cuántas personas hay en cada categoría (`value_counts`).

3. Crea una tabla cruzada (`pd.crosstab`) entre `age-group` e `income` para ver la distribución de ingresos por grupo etario.
