# Desafío 1: Determinantes del ingreso


Nombre: Gabriel Camilo San Martín

Profesor: Josué Fredes

Generación: G4



## Enunciado

Usted trabaja para un organismo no gubernamental que está interesado en las dinámicas socioeconómicas que determinan la desigualdad de ingreso y la erradicación de la pobreza extrema, enmarcado dentro de los objetivos del desarrollo del nuevo milenio del Programa de las Naciones Unidas para el Desarrollo. Le encomiendan el desarrollo de un modelo predictivo sobre la probabilidad que un individuo presente salarios por sobre o bajo los 50.000 dólares anuales, en base a una serie de atributos sociodemográficos.

## Descripción de la base de datos

Para desarrollar este desafío se debe utilizar la base de datos `income-db.csv`.
Las variables que componen esta base se detallan a continuación:

### Variables
- `age` : Edad del individuo.
- `workclass` : Naturaleza de la organización que emplea al individuo. **Recodificarse como `workclass_recod`**
    - `federal-gov` $\leftarrow$ Federal-gov.
    - `state-level-gov` $\leftarrow$ State-gov, Local-gov.
    - `self-employed` $\leftarrow$ Self-emp-inc, Self-emp-not-inc
    - `unemployed` $\leftarrow$ Never-worked, Without-pay. 
- `education` : Nivel educacional del individuo:Bachelors (Licenciado), Some-college (Superior incompleta), 11th (3ro medio), HS-grad (Secundaria completa), Prof-school (Escuela profesional), Assoc-acdm (Técnico superior administrativo) , Assoc-voc (Técnico superior vocacional), 9th (1ro medio), 7th-8th (7mo-8vo), 12th (4to medio), Masters (Maestría de postgrado), 1st-4th (1ro-4to básico), 10th(2do medio), Doctorate (Doctorado), 5th-6th (5to-6to), Preschool (Preescolar). **Recodificarse como `educ_recod`**
    - `preschool` $\leftarrow$ Preschool
    - `elementary-school` $\leftarrow$ 1st-4th,5th-6th
    - `high-school` $\leftarrow$ 7th-8th, 9th, 10th,11th, 12th, HS-grad
    - `college` $\leftarrow$ Assoc-voc, Assoc-acdm, Some-college
    - `university` $\leftarrow$ Bachelors, Masters, Prof-school, Doctorate
- `capital-gains` : Ingresos generados por inversiones fuera del trabajo asalariado = Ingresos generados por inversiones fuera del trabajo asalariado.
- `capital-losses` : Pérdidas generadas por inversiones fuera del trabajo asalariado.
- `fnlwgt` : Ponderador muestral.
- `marital-status` : Estado civil del individuo: Married-civ-spouse (Casado/a régimen civil), Divorced (Divorciado/a), Never-married (Soltero/a), Separated (Separado/a), Widowed (Viudo/a), Married-spouse-absent (Casado con esposo/a ausente), Married-AF-spouse (Casado/a régimen castrense). **Recodificarse como `civstatus`**
    - `married` $\leftarrow$ Married-civ-spouse, Married-spouse-absent, Married-AFspouse
    - `divorced` $\leftarrow$ Divorced
    - `separated` $\leftarrow$ Separated
    - `widowed` $\leftarrow$ Widowed
- `occupation` : Ocupación del individuo: Tech-support (Soporte técnico), Craft-repair (Reparaciones), Other-service (Otros servicios), Sales (Ventas), Exec-managerial (Ejecutivo administrativos), Prof-specialty (Profesores), Handlers-cleaners (Aseo y ornato), Machine-opinspct (Inspectores de maquinarias), Adm-clerical (Administrativos servicio al cliente), Farmingfishing (Pesca-ganadería), Transport-moving (Transporte), Priv-house-serv (Asesor del hogar), Protective-serv (servicios de seguridad), Armed-Forces (Fuerzas armadas). **Redecodificarse como `Collars`**
    - `white-collar` $\leftarrow$ Prof-specialty (Profesores), Exec-managerial (Ejecutivo administrativos), Adm-clerical (Administrativos servicio al cliente), Sales (Ventas), Tech-support (Soporte técnico)
    - `blue-collar` $\leftarrow$  Craft-repair (Reparaciones), Machine-opinspct (Inspectores de maquinarias), Transport-moving (Transporte),  Handlers-cleaners (Aseo y ornato), Farmingfishing (Pesca-ganadería), Protective-serv (servicios de seguridad), Priv-house-serv (Asesor del hogar),
    - `others` $\leftarrow$ Other-service (Otros servicios), Armed-Forces (Fuerzas armadas)
- `relationship` : Relación respecto a su familia Wife(Esposa), Own-child (hijo único), Husband (Esposo), Not-in-family (No pertenece a la familia), Other-relative (Familiar de otro tipo), Unmarried (Soltero).
- `race` : Raza del encuestado White(Blanco caucásico), Asian-Pac-Islander (Isleño del Asia Pacífico), Amer-Indian-Eskimo (Pertenenciente a pueblos originarios), Other (Otro grupo), Black (Afroamericano).
- `sex` : Sexo del encuestado.
- `hours-per-week` : Cantidad de horas trabajadas por semana. 
- `native-country` : País de origen. United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, HolandNetherlands. **Recodificarse como región. Cada país a uno de los 5 continentes.**  

### Vector objetivo
- `income` : `<=50K` Si el individuo percibe ingresos inferiores a 50.000 dólares anuales, `>50K` si el individuo percibe ingresos superiores a 50.000 dólares anuales. **Debe recodificarse de forma binaria**

## Preliminares
### Descripción del problema.

Para el presente problema se busca predecir, en base a una serie de atributos sociodemográficos, si un sujeto pertenece o no a un grupo determinado (ingresos superiores o inferiores a 50.000 dólares). Por este motivo se determina que el problema es de **clasificación** 
### Objetivos
#### Objetivo General
- Basado en los atributos sociodemográficos contenidos en el archivo ` income-db.csv`, se debe generar un modelo predictivo que permita determinar si un sujeto tiene ingresos superiores o inferiores a 50.000 dólares anuales
    
#### Objetivos Específicos
- Recodificar atributos segun sugerencia de la organizacion, recodificar variables cualitativas en terminos numericos y eliminar datos perdidos.
- Determinar las variables relevantes para la creación del modelo.
- Establecer metricas de evaluación para mejora del modelo.
- Definir modelo con mejor predictibilidad y establecer como la mejor solución posible.
    
#### Implementación de solución: Criterios de optimización y métricas de desempeño.
Lo primero a realizar es preparar el ambiente de trabajo importando las librerías a utilizar y el archivo *csv* pertinente.  Posteriormente se recodificará la información según sugerencias de la organización y se deben crear variables discretas basadas en variables cualitativas, esto basado en un análisis exploratorio de los datos entregados.

Se debe realizar un análisis descriptivo para permitir un mejor entendimiento del problema, se deben identificar medidas univariadas, datos perdidos y gráficos distributivos.

En la etapa siguiente se debe crear un modelo descriptivo del problema utilizando regresión logística binaria, debido a que el problema es de tipo clasificación. Para esto se dividirá aleatoria mente los datos obtenidos, con el objetivo de tener un subconjunto de datos que permitan crear el modelo y un segundo subconjunto que permita validarlo. 

Una vez creado el modelo, este se debe depurar considerando la significancia de las variables iniciales y eliminando las variables con una baja significancia. Finalmente se analizará el desempeño del modelo según $R^{2}$

## Aspectos Computacionales

### Librerías y módulos a implementar.

In [7]:
import pandas as pd # Permite trabajar con data frame
import numpy as np # Agrega mayor soporte para vectores y matrices
import matplotlib.pyplot as plt # Biblioteca para la generación de gráficos
import seaborn as sns # Biblioteca de visualización de datos basada en matplotlib
import scipy.stats as stats # Ayudará a generar distribuciones

# Módulo que proporciona clases y funciones para la estimación de muchos modelos estadísticos diferentes.
import statsmodels.api as sm
import statsmodels.formula.api as smf

# Biblioteca para aprendizaje de máquina
from sklearn import linear_model
from sklearn.model_selection import train_test_split

# Métricas evaluación
from sklearn.metrics import classification_report, roc_curve, roc_auc_score, mean_squared_error, r2_score


plt.style.use('seaborn-whitegrid') # Gráficos estilo seaborn
plt.rcParams["figure.figsize"] = (6, 4) # Tamaño gráficos
plt.rcParams["figure.dpi"] = 300 # resolución gráficos

df = pd.read_csv('income-db.csv')
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,103497,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K
