# Enunciado 1

## Preliminares

Este es un problema donde se quiere ver la relacion de diversas variables socioeconomicas (estado civil,
ingreso, nivel de estudio, entre otros) con una variable que indica si la persona gana mas o menos
de 50K de dolares. Esta ultima es una variable discreta (binaria), y corresponde al vector objetivo del
problema. Ya que el vector objetivo corresponde a una variable discreta binaria, este es un problema 
de clasificacion.

### Variables disponibles

- ```age```: Es una variable discreta (con muchos valores) ordinal. Corresponde a la edad del individuo

- ```workclass```: Es una variable discreta nominal. Corresponde a la naturaleza/forma en que esta
empleado el individuo. Contiene valores faltantes

- ```education```: Es una variable discreta ordinal. Corresponde a los estudios que presenta el
individuo

- ```capital-gains``` (capital-gain en el DataFrame): Es una variable continua. Corresponde a la
ganancia que tienen los individuos al invertir su dinero. O sea, es el dinero que ganan pasivamente

- ```capital-losses``` (capital-loss en el DataFrame): Es una variable continua. Corresponde a la
perdida que tienen los individuos al invertir su dinero. O sea, es el dinero que pierden pasivamente

- ```fnlwgt```: Es una variable continua. Es el ponderador muestral (no se a que hace referencia)

- ```marital-status```: Es una variable discreta nominal. Corresponde al estado civil del individuo

- ```occupation```: Es una variable discreta nominal. Corresponde al oficio del individuo

- ```relationship```: Es una variable discreta nominal. Corresponde a la relacion del individuo con
su familia

- ```race```: Es una variable discreta nominal. Corresponde a la raza del individuo

- ```sex``` (gender en el DataFrame): Es una variabled discreta (binaria) nominal. Corresponde al
sexo del individuo

- ```hours-per-week```: Es una variable discreta (con muchos valores) cuantitativa. Coresponde a la
cantidad de horas que trabaja el individuo a la semana

- ```native-country```: Es una variable discreta nominal. Corresponde al pais donde nacio el
individuo

- ```income```: Es una variable discreta (binaria) nominal. Indica si el individuo gana mas de 50K
dolares al año, o 50K o menos al año. **Es el vector objetivo del problema presentado**

Ademas, la base de datos tiene una codificacion de la variable ```education```. Esta codificacion
esta presente en la columna  ```educational-num```:

- ```educational-num```: Corresponde a la codificacion en numeros enteros de la variable 
```education```. Al igual que education, es una variable discreta ordinal y representa los estudios
que tiene el individuo.

### Resolucion del problema

Como se menciono previamente, este problema corresponde a un problema de clasificacion. Se quieren
relacionar diversas variables socioeconomicas (tanto continuas como discretas) con una variable
discreta binaria, que corresponde al salario que perciben individuos anualmente.

Debido a que es un problema de clasificacion binaria, se utilizara un modelo de regresion logistica.
Lo anterior, debido a que es un modelo que permite clasificar eficientemente variables binarias.

Dentro de la regresion logistica que se utilizara, existe el enfoque desde la econometria y desde
el machine learning. Para resolver el problema se utilizara una aproximacion que implementa ambos
tipos de modelos:

1. Se creara un modelo basado en la econometria, utilizando todas las variables (exceptuando el 
vector objetivo) como variables independientes. El vector objetivo sera ingresado como variable
dependiente.
2. Se observara que variables independientes afectan al log-odds de nuestro vector objetivo. Esto
se realizara viendo que p-value < 0.05.
3. Se creara un DataFrame que contenga solamente las variables que afecten al log-odds del 
vector objetivo.
4. Se creara un modelo de regresion logistica basado en el machine learning sin entrenar.
5. Este modelo sera entregado a un objeto de Validacion Cruzada con K = 10. Ademas, se entregaran los
datos obtenidos desde 3.
6. Por cada iteracion, se graficara la curva ROC y se obtendra el AUC
7. Finalmente, se obtendra la curva ROC y la AUC promedio para el modelo sobre los 10 folds.

### Optimizacion del modelo

- Se elegiran las variables significativas que se obtengan desde el modelo de regresion logistica
desde la econometria
- Para optimizar el modelo, y tambien validarlo, se utilizara un 10-Cross Fold Validation.

### Metricas de Desempeño

- Para el modelo de regresion logistica por econometria se utilizaran las siguientes metricas de 
desempeño:
    - p-value

- Para el modelo de regresion logistica por machine learning se utilizaran las siguientes metricas
de desempeño:
    - ROC Curve
    - Area Under the Curve (AUC)


## Aspectos Computacionales

## Preprocesamiento

Los datos presentes deben ser tratados para 2 problemas que existen: Valores faltantes y Variables
discretas con etiquetas en formato str.

- Los valores faltantes se trataran de la siguiente forma:
    - Todas las filas que tengan al menos una variable faltante, seran sacados de la base de datos
    - Estas filas seran removidas con la funcion .dropna() de la libreria pandas

- Las variables discretas deben ser recodificadas a numeros para ser interpretadas por los modelos.
En este caso, se debe hacer una distincion entre las variables discretas ordinales y nominales. Esto,
ya que ambas seran tratadas de forma distinta:

    - Variables discretas ordinales: Seran mapeadas desde el numero 1 hasta el numero N (donde N = cantidad de categorias en la variable)
    - Variables discretas nominales: Seran mapeadas a traves del metodo Leave-One-Out Encoding. 


In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('income-db.csv')

In [9]:
for columna in df.columns:
    print(f'{columna}: {len(df[columna].unique())}')

age: 74
workclass: 9
fnlwgt: 28523
education: 16
educational-num: 16
marital-status: 7
occupation: 15
relationship: 6
race: 5
gender: 2
capital-gain: 123
capital-loss: 99
hours-per-week: 96
native-country: 42
income: 2
