# Hito 1, Desafío 1: Determinantes del ingreso
## Preliminares

__Enunciado:__

Un organismo no gubernamental  está interesado en las dinámicas socioeconómicas que determinan la desigualdad de ingreso y la erradicación de la pobreza extrema, enmarcado dentro de los objetivos del desarrollo del nuevo milenio del Programa de las Naciones Unidas para el Desarrollo.

### Objetivo:

Desarrollar un modelo predictivo de clasificación sobre la probabilidad que un individuo presente salarios bajo los 50.000 dólares anuales, en base a una serie de atributos sociodemográficos $X_i$.

El modelo a estimar es:

$$\log\left(\frac{p({ income \gt 50000})}{1 - p({ income \gt 50000})}\right)={{\beta }_{0} + \sum_{i=1} {\beta }_{i} \cdot {X_{i}}}$$


### Implementación de la solución: 

- Se implementará una regresion logística para la clasificación de los salarios sobre y bajo los 50.000 dolares anuales, binarizando la variable `income` entre 0 y 1.
- El método de optimización es el de la máxima verosimilitud de la función de distribución binomial para la estimación de  parámetros.

### Métricas de evaluación

Se utilizarán las siguientes métricas:

- Matriz de confusión: cantidad de observaciones predichas de forma correcta.
- Accuracy (exactitud): porcentaje de casos predichos correctamente por sobre el total de casos.
- Precision: mide la fracción de predicciones correctas entre las etiquetas positivas.
- Recall: Mide la fraccion de verdaderos positivos predichos por el modelo.
- F1: representa la media armónica entre Precision y Recall (es decir, una medida general de la presición).
- ROC (en particular, AUC): evalúa la relación entre ambos errores (falsos positivos y falso negativo) condicional en todo el rango del clasificador.

Teniendo en consideración que el objetivo es erradización de la pobreza extrema y las dinámicas que determinan la desigualdad de ingresos.

### Estrategia de preprocesamiento de datos:

- Se realizará el siguiente preprocesamiento:
    - Transformación de datos pérdidos, los datos pérdidos simbolizados con `?` que se cambiarán a `NaN`.
    - Recodificación, se seguirá la sugerencia de la organización. Se detalla en sección recodifición.
    - Binarización: se recodificarán las variables binarias, con valor 1 a las categorías minoritarias.

## Aspectos computacionales

Se utilizara las principales librerias para el analisis de datos, las cuales son:

### Bibliotecas de Python 
 
- `pandas`:  Permite realizar tareas de manipulación, agregación y visualización de datos de forma más sencilla.
- `numpy`: Agrega soporte para vectores y matrices y  funciones matemáticas de alto nivel para operar con esos datos. 
- `matplotlib`: Permite crear visualizaciones de datos simples.
- `seaborn`: Permite visualizar modelos estadísticos. Se basa en Matplotlib.
- `statsmodels`: Estimación de modelos estadísticos, en nuestro caso la regresion logística.
- `scikit-learn`: Implementa aprendizaje de máquina, incluye varios algoritmos de clasificación, regresión y métricas, incluyendo varias herramientas útiles, como separación de datos de entrenamiento, validación cruzada y codificación de variables categóricas.
- `factor_analizer`: Permite implementar el EFA (análisis factorial exploratorio).
- `missingno`: Biblioteca para la visualización de datos perdidos.
- `warnings`: Evitará que aparezcan las advertencias de avisos de deprecación.


In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

import statsmodels.api as sm
import statsmodels.formula.api as smf

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import cross_validate

import factor_analyzer as factor
import missingno as msngo
import warnings

from IPython.display import display, Markdown

from funciones_def1 import graficar

warnings.filterwarnings('ignore')