# <div style="text-align: center"> Determinante del Ingreso </div>
#### <div style="text-align: right">Por: Sergio Medrano Flores</div>

## Sección 1 - Preliminares (Hito 1)

#### 1.1 Descripción del problema

Este problema de <b>clasificación</b> consiste en implementar un modelo para predecir lo mejor posible la probabilidad que un individuo presente una renta mayor o menor a un valor definido, en base a una serie de atributos sociodemográficos.
Este problema se abordará en los siguientes puntos:
- Preliminares: Describir el problema, objetivos y explicar la implementación de la solución considerando los criterios de optimización y métricas de desempeño.
- Aspectos computacionales: Describir las librerias, módulos y funciones a utilizar.
- Descripción: Analizar de manera descriptiva considerando las variables del DataFrame Considerando medidas univariadas/frecuencias, datos perdidos y gráficos sobre las variables a analizar. Además, definir la estrategia de preprocesamiento.
- Modelación descriptiva: Definir los principales determinantes del objeto de estudio. En base a esto se podrá construir y depurar el modelo predictivo.
- Modelación predictiva: Implementar solución analítica que aumente el desempeño del modelo. Con un mínimo de 3 modelos predictivos, donde cada uno debe tener una reseña del motivo por el cual se diseñó y reportar sus principales métricas.

#### 1.2 Objetivo

El objetivo planteado consiste en desarrollar un modelo predictivo sobre la probabilidad que un individuo presente salarios por sobre o bajo los 50.000 USD anuales, en base a una serie de atributos sociodemográficos.

#### 1.3 Descripción de la base de datos

Para desarrollar este desafío se debe utilizar la base de datos income-db.csv
Las variables que componen esta base se detallan a continuación:
- age: Edad del individuo.
- workclass: Naturaleza de la organización que emplea al individuo.
- education: Nivel educacional del individuo:Bachelors (Licenciado), Some-college (Superior incompleta), 11th (3ro medio), HS-grad (Secundaria completa), Prof-school (Escuela profesional), Assoc-acdm (Técnico superior administrativo) , Assoc-voc (Técnico superior vocacional), 9th (1ro medio), 7th-8th (7mo-8vo), 12th (4to medio), Masters (Maestría de postgrado), 1st-4th (1ro-4to básico), 10th(2do medio), Doctorate (Doctorado), 5th-6th (5to-6to), Preschool (Preescolar)
- capital-gains: Ingresos generados por inversiones fuera del trabajo asalariado = Ingresos generados por inversiones fuera del trabajo asalariado.
- capital-losses: Pérdidas generadas por inversiones fuera del trabajo asalariado.
- fnlwgt: Ponderador muestral.
- marital-status: Estado civil del individuo: Married-civ-spouse (Casado/a régimen civil), Divorced (Divorciado/a), Never-married (Soltero/a), Separated (Separado/a), Widowed (Viudo/a), Married-spouse-absent (Casado con esposo/a ausente), Married-AF-spouse (Casado/a régimen castrense).
- occupation: Ocupación del individuo: Tech-support (Soporte técnico), Craft-repair (Reparaciones), Other-service (Otros servicios), Sales (Ventas), Exec-managerial (Ejecutivo administrativos), Prof-specialty (Profesores), Handlers-cleaners (Aseo y ornato), Machine-op-inspct (Administrativos servicio (Inspectores al cliente), de maquinarias), Adm-clerical Farming-fishing (Pesca-ganadería), Transport-moving (Transporte), Priv-house-serv (Asesor del hogar), Protective-serv (servicios de seguridad), Armed-Forces (Fuerzas armadas).
- relationship: Relación respecto a su familia Wife(Esposa), Own-child (hijo único), Husband (Esposo), Not-in-family (No pertenece a la familia), Other-relative (Familiar de otro tipo), Unmarried (Soltero).
- race: Raza del encuestado White(Blanco caucásico), Asian-Pac-Islander (Isleño del Asia Pacífico), Amer-Indian-Eskimo (Pertenenciente a pueblos originarios), Other (Otro grupo), Black (Afroamericano).
- sex: Sexo del encuestado.
- hours-per-week: Cantidad de horas trabajadas por semana.
- native-country: País de origen. United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.
- income: <=50K Si el individuo percibe ingresos inferiores a 50.000 dólares anuales, >50K si el individuo percibe ingresos superiores a 50.000 dólares anuales. <b>Este es su vector objetivo</b>.

#### 1.4 Aspectos adicionales a considerar

- La base de datos contiene los valores perdidos como ?. Deberá transformarlos para poder trabajar de forma adecuada.
- Desde la organización le sugieren que debe recodificar las siguientes variables acorde a las siguientes nomenclaturas:
    - occupation debe recodificarse como collars siguiendo una nomenclatura similar a:
        - white-collar ← Prof-specialty, Exec-managerial, Adm-clerical, Sales, Tech-support.
        - blue-collar ← Craft-repair, Machine-op-inspct, Transport-moving, Handlers-cleaners, Farming-fishing, Protective-serv, Priv-house-serv.
        - others ← Other-service, Armed-Forces.
    - workclass debe recodificarse como workclass_recod siguiendo una nomenclatura similar a :
        - federal-gov ← Federal-gov.
        - state-level-gov ← State-gov, Local-gov.
        - self-employed ← Self-emp-inc, Self-emp-not-inc
        - unemployed ← Never-worked, Without-pay.
    - education debe recodificarse como educ_recod siguiendo una nomenclatura similar a :
        - preschool ← Preschool
        - elementary-school ← 1st-4th, 5th-6th
        - high-school ← 7th-8th, 9th, 10th,11th, 12th, HS-grad
        - college ← Assoc-voc, Assoc-acdm, Some-college
        - university ← Bachelors, Masters, Prof-school, Doctorate.
    - marital-status debe recodificarse como civstatus siguiendo una nomenclatura similar a :
        - married ← Married-civ-spouse, Married-spouse-absent, Married-AF-spouse.
        - divorced ← Divorced.
        - separated ← Separated.
        - widowed ← Widowed.
    - native-country debe recodificarse como region donde cada país debe asignarse a uno de los 5 continentes.
    - incomedebe recodificarse de forma binaria.

#### 1.5 Implementación de la solución

Para llevar a cabo la resolución de este problema se implementerá el siguiente plan de trabajo:
- Importar librerías y funciones a utilizar.
- Importar y analizar la base de datos.
- Pre procesar los datos a través de la eliminación de datos perdidos y recodificación de variables acorde a lo requerido.
- Inspeccionar gráficamente las variables mediante el vector objetivo, variables independientes y los datos perdidos de las variables recodificadas.
- Reprocesar datos.
- Aplicar modelos de regresión logística, utilizando la estadistica clásica y machine learning.
- Aplicar métricas para evaluar cada modelo obtenido para luego compararlos.
- Concluir cual es el mejor modelo a utilizar en base a lo obtenido en el punto anterior.

#### 1.6 Criterios de optimización y métricas de desempeño

Ya que nos encontramos frente a un problema de <b>clasificación</b>, se utilizan criterios de optimización en base a las métricas de desempeño obtenidas.

Criterios de optimización:
- Aumentar el porcentaje de nivel salarial predicho correctamente.
- Disminuir la cantidad de Falsos Positivos y Falsos Negativos.

Métricas de desempeño:
- Accuracy para la evaluación general del modelo.
- Recall, Precision y F1-Score para la evaluación particular del modelo.

## Sección 2 - Aspectos computacionales (Hito 1)

#### 2.1 Librerías y módulos

Para realizar este trabajo es necesaria la utilización de los siguientes módulos y librerias:

In [8]:
#Librerias necesarias para el preprocesamiento y procesamiento de la data
import pandas as pd
import numpy as np

#Librerias para generar gráficos
import seaborn as sns
import matplotlib.pyplot as plt

#Librerias para modelamiento estadístico y obtención de métricas
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf

#Librerias para el uso de modelos en Machine Learning
from sklearn import linear_model
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

#Librerias para obtener metricas con Machine Learning
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
from sklearn.metrics import classification_report
from sklearn.model_selection import cross_val_score

#Libreria para omitir avisos de advertencias
import warnings
warnings.filterwarnings("ignore")

#### 2.2 Funciones a utilizar

Se utilizarán funciones creadas por nosotros, son las siguientes:
- <b>contador_vacios()</b>: retorna el total de registros vacíos (NaN) en la variable ingresada como parámetro (o total en su defecto)
- <b>graficar_variables()</b>: grafica la variable ingresada como parámetro en función a su tipo de dato

In [10]:
# Se importan funciones propias
import funciones_propias

ModuleNotFoundError: No module named 'funciones_propias'