## 1. Carga de datos

In [1]:
%run 1-Carga_de_datos.ipynb

## 2. Inspección y Limpieza del set de datos

### Forma, tipos de datos y estadísticos del set de datos

In [2]:
df_income.info()

<class 'pandas.core.frame.DataFrame'>
Index: 48842 entries, 0 to 16280
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Edad                 48842 non-null  int64 
 1   Clase_Obrera         48842 non-null  object
 2   Peso_final           48842 non-null  int64 
 3   Educación            48842 non-null  object
 4   Nivel_Educativo      48842 non-null  int64 
 5   Estado_Civil         48842 non-null  object
 6   Ocupación            48842 non-null  object
 7   Relación             48842 non-null  object
 8   Raza                 48842 non-null  object
 9   Sexo                 48842 non-null  object
 10  Ganancia_de_capital  48842 non-null  int64 
 11  Pérdida_de_capital   48842 non-null  int64 
 12  Horas_semanales      48842 non-null  int64 
 13  País_de_origen       48842 non-null  object
 14  Ingresos             48842 non-null  object
dtypes: int64(6), object(9)
memory usage: 6.0+ MB


In [3]:
# Descripción de los datos numéricos
df_income.describe()

Unnamed: 0,Edad,Peso_final,Nivel_Educativo,Ganancia_de_capital,Pérdida_de_capital,Horas_semanales
count,48842.0,48842.0,48842.0,48842.0,48842.0,48842.0
mean,38.643585,189664.1,10.078089,1079.067626,87.502314,40.422382
std,13.71051,105604.0,2.570973,7452.019058,403.004552,12.391444
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117550.5,9.0,0.0,0.0,40.0
50%,37.0,178144.5,10.0,0.0,0.0,40.0
75%,48.0,237642.0,12.0,0.0,0.0,45.0
max,90.0,1490400.0,16.0,99999.0,4356.0,99.0


**Explicación de algunas variables**
1. La variable **"Peso_final"** nos quiere decir cuántas personas de la población total son representados por un registro en particular en el conjunto de datos.
2. La **"Ganancia_de_capital"** representa cualquier ganancia obtenida de la venta de activos de capital. Por ejemplo, si una persona vende acciones a un precio superior al de compra, la ganancia neta se considera ganancia de capital.
3. La **"Pérdida_de_capital"** representa las pérdidas incurridas al vender activos de capital a un precio inferior al de compra.

**Observación**
- Todas las variables numéricas tienen un rango de valores lógicos según lo esperado por cada una de estas, por lo que podemos asegurarnos que si hay valores nulos, estos no se deban a este comportamiento.

In [4]:
# Descripción de los datos categóricos
df_income.describe(include='object')

Unnamed: 0,Clase_Obrera,Educación,Estado_Civil,Ocupación,Relación,Raza,Sexo,País_de_origen,Ingresos
count,48842,48842,48842,48842,48842,48842,48842,48842,48842
unique,9,16,7,15,6,5,2,42,4
top,Private,HS-grad,Married-civ-spouse,Prof-specialty,Husband,White,Male,United-States,<=50K
freq,33906,15784,22379,6172,19716,41762,32650,43832,24720


**Observación**
- La variable objetivo **"Ingresos"** nos dice que tiene 4 valores únicos, pero esto no debería ser así ya que solo se espera que sean 2 valores únicos, siendo <=50K y >50k

### Valores únicos, Frecuencias y Proporciones

In [5]:
df_income.Ingresos.value_counts()

Ingresos
<=50K     24720
<=50K.    12435
>50K       7841
>50K.      3846
Name: count, dtype: int64

In [6]:
train_data.Ingresos.value_counts()

Ingresos
<=50K    24720
>50K      7841
Name: count, dtype: int64

In [7]:
test_data.Ingresos.value_counts()

Ingresos
<=50K.    12435
>50K.      3846
Name: count, dtype: int64

Los registros que tienen un punto final como en $\le$ 50k. y $>$ 50k. significan que son los registros provenientes del set de prueba.

In [8]:
# Eliminamos el punto final que aparecen en las clases de los datos provenientes del set de prueba
df_income.Ingresos = df_income.Ingresos.str.replace('.', '').values

In [9]:
df_income.Ingresos.value_counts()

Ingresos
<=50K    37155
>50K     11687
Name: count, dtype: int64

In [10]:
# Definimos las columnas categóricas
categorical_columns = df_income.select_dtypes(include=['object']).columns

In [11]:
# Verificar valores únicos y su frecuencia para variables categóricas
for column in categorical_columns:
    print(f"\nValores únicos en {column}:")
    print(df_income[column].value_counts())


Valores únicos en Clase_Obrera:
Clase_Obrera
Private             33906
Self-emp-not-inc     3862
Local-gov            3136
?                    2799
State-gov            1981
Self-emp-inc         1695
Federal-gov          1432
Without-pay            21
Never-worked           10
Name: count, dtype: int64

Valores únicos en Educación:
Educación
HS-grad         15784
Some-college    10878
Bachelors        8025
Masters          2657
Assoc-voc        2061
11th             1812
Assoc-acdm       1601
10th             1389
7th-8th           955
Prof-school       834
9th               756
12th              657
Doctorate         594
5th-6th           509
1st-4th           247
Preschool          83
Name: count, dtype: int64

Valores únicos en Estado_Civil:
Estado_Civil
Married-civ-spouse       22379
Never-married            16117
Divorced                  6633
Separated                 1530
Widowed                   1518
Married-spouse-absent      628
Married-AF-spouse           37
Name: count, 

In [12]:
# Verificar valores únicos para las variables categóricas
for column in categorical_columns:
    print(f"\nValores únicos en {column} con {df_income[column].nunique()} clases:")
    print(df_income[column].unique())


Valores únicos en Clase_Obrera con 9 clases:
[' State-gov' ' Self-emp-not-inc' ' Private' ' Federal-gov' ' Local-gov'
 ' ?' ' Self-emp-inc' ' Without-pay' ' Never-worked']

Valores únicos en Educación con 16 clases:
[' Bachelors' ' HS-grad' ' 11th' ' Masters' ' 9th' ' Some-college'
 ' Assoc-acdm' ' Assoc-voc' ' 7th-8th' ' Doctorate' ' Prof-school'
 ' 5th-6th' ' 10th' ' 1st-4th' ' Preschool' ' 12th']

Valores únicos en Estado_Civil con 7 clases:
[' Never-married' ' Married-civ-spouse' ' Divorced'
 ' Married-spouse-absent' ' Separated' ' Married-AF-spouse' ' Widowed']

Valores únicos en Ocupación con 15 clases:
[' Adm-clerical' ' Exec-managerial' ' Handlers-cleaners' ' Prof-specialty'
 ' Other-service' ' Sales' ' Craft-repair' ' Transport-moving'
 ' Farming-fishing' ' Machine-op-inspct' ' Tech-support' ' ?'
 ' Protective-serv' ' Armed-Forces' ' Priv-house-serv']

Valores únicos en Relación con 6 clases:
[' Not-in-family' ' Husband' ' Wife' ' Own-child' ' Unmarried'
 ' Other-relative']



In [13]:
# Eliminar espacios en blanco de las clases de las variables categóricas
df_income[categorical_columns] = df_income[categorical_columns].apply(lambda x: x.str.strip())

### Eliminar registros duplicados

In [14]:
df_income.duplicated().sum()

52

In [15]:
print("Antes de eliminar registros duplicados", df_income.shape)
df_income.drop_duplicates(inplace=True)
print("Después de eliminar registros duplicados", df_income.shape)

Antes de eliminar registros duplicados (48842, 15)
Después de eliminar registros duplicados (48790, 15)


### Eliminar columnas innecesarias

In [16]:
df_income.drop('Peso_final', axis=1, inplace=True)