# Desafío 1: Determinantes del ingreso

## Preliminares

### Problema

El problema consiste en el desarrollo de un modelo predictivo de **clasificación** para saber, en base a atributos sociodemográficos, si el salario de un sujeto está sobre o bajo los 50.000 dólares anuales.

A continuación se presenta el modelo a estimar:

$$\log\left(\frac{p({ income=1})}{1 - p({ income=1})}\right)={{\beta }_{0} + \sum_{i=1} {\beta }_{i} \cdot {X_{i}}}$$

Donde $X_{i}$ corresponden a los atributos sociodemográficos e $income$ es 1 cuando un sujeto está bajo los 50.000 dólares anuales y 0 si no.

### Métricas de desempeño

Como este es un problema de clasificación, nos centraremos en la predicción de la clasificación para una nueva observación. Para lo cual se utilizarán las siguientes métricas:

- Matrix de confusión: cantidad de observaciones predichas de forma correcta.
- Accuracy (exactitud): porcentaje de casos predichos correctamente por sobre el total de casos.
- Precision: mide la fracción de predicciones correctas entre las etiquetas positivas.
- Recall: Mide la fraccion de verdaderos positivos predichos por el modelo.
- F1: representa la media armónica entre Precision y Recall (es decir, una medida general de la presición).
- ROC (en particular, _AUC_): evalúa la relación entre ambos errores (falsos positivos y falso negativo) condicional en todo el rango del clasificador.

Debido a que este modelo será utilizado para erradicar las diferencias socieconómicas, lo importante es no centrarse en la exactitud de la predicción, si no que poner especial énfasis en $precision$ y $recall$. Si solo nos centráramos en la exactitud, puede pasar que tengamos muchos falsos negativos con lo cual podríamos dejar fuera a personas que necesitan ayuda.

### Descripción de la base de datos

- `age`: Edad del individuo.
- `workclass`: Naturaleza de la organización que emplea al individuo.
- `education`: Nivel educacional del individuo:Bachelors (Licenciado), Some-college (Superior incompleta), 11th (3ro medio), HS-grad (Secundaria completa), Prof-school (Escuela profesional), Assoc-acdm (Técnico superior administrativo) , Assoc-voc (Técnico superior vocacional), 9th (1ro medio), 7th-8th (7mo-8vo), 12th (4to medio), Masters (Maestría de postgrado), 1st-4th (1ro-4to básico), 10th(2do medio), Doctorate (Doctorado), 5th-6th (5to-6to), Preschool (Preescolar).
- `capital-gains`: Ingresos generados por inversiones fuera del trabajo asalariado = Ingresos generados por inversiones fuera del trabajo asalariado.
- `capital-losses`: Pérdidas generadas por inversiones fuera del trabajo asalariado.
- `fnlwgt` : Ponderador muestral.
- `marital-status`: Estado civil del individuo: Married-civ-spouse (Casado/a régimen civil), Divorced (Divorciado/a), Never-married (Soltero/a), Separated (Separado/a), Widowed (Viudo/a), Married-spouse-absent (Casado con esposo/a ausente), Married-AF-spouse (Casado/a régimen castrense).
- `occupation`: Ocupación del individuo: Tech-support (Soporte técnico), Craft-repair (Reparaciones), Other-service (Otros servicios), Sales (Ventas), Exec-managerial (Ejecutivo administrativos), Prof-specialty (Profesores), Handlers-cleaners (Aseo y ornato), Machine-opinspct (Inspectores de maquinarias), Adm-clerical (Administrativos servicio al cliente), Farmingfishing (Pesca-ganadería), Transport-moving (Transporte), Priv-house-serv (Asesor del hogar), Protective-serv (servicios de seguridad), Armed-Forces (Fuerzas armadas).
- `relationship`: Relación respecto a su familia Wife(Esposa), Own-child (hijo único), Husband (Esposo), Not-in-family (No pertenece a la familia), Other-relative (Familiar de otro tipo), Unmarried (Soltero).
- `race`: Raza del encuestado White(Blanco caucásico), Asian-Pac-Islander (Isleño del Asia Pacífico), Amer-Indian-Eskimo (Pertenenciente a pueblos originarios), Other (Otro grupo), Black (Afroamericano).
- `sex`: Sexo del encuestado.
- `hours-per-week`: Cantidad de horas trabajadas por semana.
- `native-country`: País de origen. United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, HolandNetherlands.
- `income`: <=50K Si el individuo percibe ingresos inferiores a 50.000 dólares anuales, >50K si el individuo percibe ingresos superiores a 50.000 dólares anuales. Este es su vector objetivo.

## Aspectos computacionales

### Librerías a utilizar

- `pandas`: manipulación y análisis de datos.
- `numpy`: biblioteca de funciones matemáticas de alto nivel para operar con vectores o matrices.
- `scipy.stats`: contiene una gran cantidad de distribuciones de probabilidad y de funciones estadísticas.
- `matplotlib.pyplot`: nos permite mostrar gráficos.
- `seaborn`: librería especializada para gráficos estadísticos.
- `sklearn`: herramientas para análisis de datos y minería de datos. En particular se utilizará:
    - `linear_model`: módulo para trabajar con regresión donde el valor target es una combinación lineal de los features. Utilizaremos en este caso `LogisticRegression`.
    - `metrics`: módulo para obtener métricas de nuestros modelos (`roc_curve`, `roc_auc_score`, `confusion_matrix`, `classification_report`).
    - `model_selection`: de aquí se utilizará `train_test_split` para dividir nuestro datos en un set de entrenamiento y en un set de validación.
    - `preprocessing`: funciones para transformar datos en una representación más adecuada para los estimadores.
- `statsmodel`: provee clases y funciones para la estimación de distintos modelos estadísticos, así como para la realización de pruebas estadísticas y la exploración de datos estadísticos.
- `missingno`: librería para la visualización de datos perdidos.
- `factor_analyzer`: librería para el análisis factorial.
- `warnings`: será utilizada para evitar avisos de deprecación.

In [1]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LogisticRegression 
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, roc_curve, confusion_matrix,roc_auc_score
import statsmodels.api as sm
import statsmodels.formula.api as smf
import factor_analyzer as factor
import missingno as msngo
import warnings

warnings.filterwarnings('ignore')

### Proceso de preprocesamiento y recodificación de datos

El proceso de preprocesamiento y recodificación de los datos consistirá en lo siguiente:

1. Análisis de cada columna (tipos de datos)
2. Los casos perdidos que están codificados como `?` serán transformados a `NaN`.
3. Se recodificarán las siguientes variables:
    - `occupation` debe recodificarse como collars siguiendo una nomenclatura similar a:
        - white-collar $\leftarrow$ Prof-specialty, Exec-managerial, Adm-clerical, Sales, Tech-support.
        - blue-collar $\leftarrow$ Craft-repair, Machine-op-inspct, Transport-moving, Handlers-cleaners, Farming-fishing, Protective-serv, Priv-house-serv.
        - others $\leftarrow$ Other-service, Armed-Forces
    - `workclass` debe recodificarse como workclass_recod siguiendo una nomenclatura similar a:
        - federal-gov $\leftarrow$ Federal-gov.
        - state-level-gov $\leftarrow$ State-gov, Local-gov.
        - self-employed $\leftarrow$ Self-emp-inc, Self-emp-not-inc
        - unemployed $\leftarrow$ Never-worked, Without-pay.
    - `education` debe recodificarse como educ_recod siguiendo una nomenclatura similar a:
        - preschool $\leftarrow$ Preschool
        - elementary-school $\leftarrow$ 1st-4th, 5th-6th
        - high-school $\leftarrow$ 7th-8th, 9th, 10th,11th, 12th, HS-grad
        - college $\leftarrow$ Assoc-voc, Assoc-acdm, Some-college
        - university $\leftarrow$ Bachelors, Masters, Prof-school, Doctorate
    - `marital-status` debe recodificarse como civstatus siguiendo una nomenclatura similar a :
        - married $\leftarrow$ Married-civ-spouse, Married-spouse-absent, Married-AFspouse
        - divorced $\leftarrow$ Divorced
        - separated $\leftarrow$ Separated
        - widowed $\leftarrow$ Widowed.
    - `native-country` debe recodificarse como region donde cada país debe asignarse a uno de los 5 continentes.
    - `income` debe recodificarse de forma binaria.
3. Para las columnas que guardan valores categóricos, dependiendo del significado de la columna, se crearán nuevas columnas binarias para cada categoría o se asignará valores ordinales.

### Funciones

- `describe_columns(df)`, función que dado un `DataFrame` `df` reporta las medidas descriptivas de cada columna. Para columnas con valores numéricos, utilizará `describe`, mientras para las columnas con atributos discretos utilizará `value_counts`.
- `plot_columns_behaviour(df)`, función que dado un `DataFrame` `df`, grafica histogramas para los atributos contínuos y gráficos de barra los discretos.

In [2]:
original_df = pd.read_csv('income-db.csv')
original_df.head(5)

Unnamed: 0,age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,103497,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


In [3]:
# 1. Análisis de cada columna
original_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 15 columns):
age                48842 non-null int64
workclass          48842 non-null object
fnlwgt             48842 non-null int64
education          48842 non-null object
educational-num    48842 non-null int64
marital-status     48842 non-null object
occupation         48842 non-null object
relationship       48842 non-null object
race               48842 non-null object
gender             48842 non-null object
capital-gain       48842 non-null int64
capital-loss       48842 non-null int64
hours-per-week     48842 non-null int64
native-country     48842 non-null object
income             48842 non-null object
dtypes: int64(6), object(9)
memory usage: 5.6+ MB


In [4]:
# 2. Recodificación de casos perdidos
df = original_df.copy()
for col in df:
    missing = df[col] == '?'
    missing_count = sum(missing)
    if missing_count > 0:
        print(col, 'tiene', missing_count, 'casos perdidos que serán recodificados a None')
        df[missing] = None

workclass tiene 2799 casos perdidos que serán recodificados a None
occupation tiene 10 casos perdidos que serán recodificados a None
native-country tiene 811 casos perdidos que serán recodificados a None


In [5]:
# 3. Recodificación de variables

In [6]:
# Guardamos las reglas de recodificación
recodification_rules = {
    'occupation': {
        'to': 'collars',
        'rules': {
            'white-collar': [
                'Prof-specialty',
                'Exec-managerial',
                'Adm-clerical',
                'Sales',
                'Tech-support'
            ],
            'blue-collar': [
                'Craft-repair',
                'Machine-op-inspct',
                'Transport-moving',
                'Handlers-cleaners',
                'Farming-fishing',
                'Protective-serv',
                'Priv-house-serv'],
            'others': [
                'Other-service',
                'Armed-Forces'
            ],
        },
    },
    'workclass': {
        'to': 'workclass_recod',
        'rules': {
            'private': ['Private'],
            'federal-gov': ['Federal-gov'],
            'state-level-gov': ['State-gov', 'Local-gov'],
            'self-employed': ['Self-emp-inc', 'Self-emp-not-inc'],
            'unemployed': ['Never-worked', 'Without-pay'],
        },
    },
    'education': {
        'to': 'educ_recod',
        'rules': {
            'preschool': ['Preschool'],
            'elementary-school': ['1st-4th', '5th-6th'],
            'high-school': ['7th-8th', '9th', '10th', '11th', '12th', 'HS-grad'],
            'college': ['Assoc-voc', 'Assoc-acdm', 'Some-college'],
            'university': ['Bachelors', 'Masters', 'Prof-school', 'Doctorate'],
        },
    },
    'marital-status': {
        'to': 'civstatus',
        'rules': {
            'married': ['Married-civ-spouse', 'Married-spouse-absent', 'Married-AF-spouse'],
            'divorced': ['Divorced'],
            'separated': ['Separated'],
            'widowed': ['Widowed'],
            'never-married': ['Never-married'],
        },
    },
    'income': {
        'to': 'income',
        'rules': {
            1: ['>50K'],
            0: ['<=50K'],
        },
    },
    'native-country': {
        'to': 'continent',
        'rules': {
            'asia': [
                'Philippines',
                'India',
                'China',
                'Japan',
                'Vietnam',
                'Iran',
                'Taiwan',
                'Thailand',
                'Hong',
                'Cambodia',
                'Laos',
            ],
            'australia': ['Outlying-US(Guam-USVI-etc)'],
            'europe': [
                'Germany',
                'England',
                'Italy',
                'Poland',
                'Portugal',
                'Greece',
                'France',
                'Ireland',
                'Yugoslavia',
                'Scotland',
                'Hungary',
                'Holand-Netherlands',
            ],
            'north-america': [
                'United-States',
                'Mexico',
                'Puerto-Rico',
                'Canada',
                'El-Salvador',
                'Jamaica',
                'Dominican-Republic',
                'Guatemala',
                'Haiti',
                'Nicaragua',
                'Honduras',
            ],
            'south-america': [
                'Cuba',
                'South',
                'Columbia',
                'Peru',
                'Ecuador',
                'Trinadad&Tobago',
            ],
        },
    },
}

In [7]:
# Recodificamos:

df_recod = df.copy()

for original_column in recodification_rules:
    new_column = recodification_rules[original_column]['to']
    rules = recodification_rules[original_column]['rules']
    
    print('Recodificando', original_column, 'a', new_column)

    df_recod[new_column] = None

    for new_value, original_values in rules.items():
        df_recod.loc[df[original_column].isin(original_values), new_column] = new_value

    print(df_recod[new_column].value_counts(), '\n')

Recodificando occupation a collars
white-collar    24360
blue-collar     16040
others           4822
Name: collars, dtype: int64 

Recodificando workclass a workclass_recod
private            33307
self-employed       5442
state-level-gov     5046
federal-gov         1406
unemployed            21
Name: workclass_recod, dtype: int64 

Recodificando education a educ_recod
high-school          19701
college              13365
university           11413
elementary-school      671
preschool               72
Name: educ_recod, dtype: int64 

Recodificando marital-status a civstatus
married          21639
never-married    14598
divorced          6297
separated         1411
widowed           1277
Name: civstatus, dtype: int64 

Recodificando income a income
0    34014
1    11208
Name: income, dtype: int64 

Recodificando native-country a continent
north-america    43102
asia               930
europe             738
south-america      430
australia           22
Name: continent, dtype: int64 



In [8]:
# 4. Binarización

# Las siguientes columnas serán binarizadas
columns_to_binarize = ['collars', 'continent', 'civstatus', 'workclass_recod']
df_binarized = pd.get_dummies(df_recod, columns=columns_to_binarize)

'''
La columna de educación, al tener ordinalidad, será recodificada como "educ_level" con las siguientes reglas:
- 1, 2, 3, 4, 5 (preschool, elementary-school, high-school, college, university)
'''

df_binarized['educ_level'] = np.nan
df_binarized.loc[df_binarized['educ_recod'] == 'preschool', 'educ_level'] = 1
df_binarized.loc[df_binarized['educ_recod'] == 'elementary-school', 'educ_level'] = 2
df_binarized.loc[df_binarized['educ_recod'] == 'high-school', 'educ_level'] = 3
df_binarized.loc[df_binarized['educ_recod'] == 'college', 'educ_level'] = 4
df_binarized.loc[df_binarized['educ_recod'] == 'university', 'educ_level'] = 5