# Enunciado 1

## Preliminares

Este es un problema donde se quiere ver la relacion de diversas variables socioeconomicas (estado civil,
ingreso, nivel de estudio, entre otros) con una variable que indica si la persona gana mas o menos
de 50K de dolares. Esta ultima es una variable discreta (binaria), y corresponde al vector objetivo del
problema. Ya que el vector objetivo corresponde a una variable discreta binaria, este es un problema 
de clasificacion.

### Variables disponibles

- ```age```: Es una variable discreta (con muchos valores) ordinal. Corresponde a la edad del individuo

- ```workclass```: Es una variable discreta nominal. Corresponde a la naturaleza/forma en que esta
empleado el individuo. Contiene valores faltantes

- ```education```: Es una variable discreta ordinal. Corresponde a los estudios que presenta el
individuo

- ```capital-gains``` (capital-gain en el DataFrame): Es una variable continua. Corresponde a la
ganancia que tienen los individuos al invertir su dinero. O sea, es el dinero que ganan pasivamente

- ```capital-losses``` (capital-loss en el DataFrame): Es una variable continua. Corresponde a la
perdida que tienen los individuos al invertir su dinero. O sea, es el dinero que pierden pasivamente

- ```fnlwgt```: Es una variable continua. Es el ponderador muestral (no se a que hace referencia)

- ```marital-status```: Es una variable discreta nominal. Corresponde al estado civil del individuo

- ```occupation```: Es una variable discreta nominal. Corresponde al oficio del individuo

- ```relationship```: Es una variable discreta nominal. Corresponde a la relacion del individuo con
su familia

- ```race```: Es una variable discreta nominal. Corresponde a la raza del individuo

- ```sex``` (gender en el DataFrame): Es una variabled discreta (binaria) nominal. Corresponde al
sexo del individuo

- ```hours-per-week```: Es una variable discreta (con muchos valores) ordinal. Coresponde a la
cantidad de horas que trabaja el individuo a la semana

- ```native-country```: Es una variable discreta nominal. Corresponde al pais donde nacio el
individuo

- ```income```: Es una variable discreta (binaria) nominal. Indica si el individuo gana mas de 50K
dolares al año, o 50K o menos al año. **Es el vector objetivo del problema presentado**

Ademas, la base de datos tiene una codificacion de la variable ```education```. Esta codificacion
esta presente en la columna  ```educational-num```:

- ```educational-num```: Corresponde a la codificacion en numeros enteros de la variable 
```education```. Al igual que education, es una variable discreta ordinal y representa los estudios
que tiene el individuo.

### Resolucion del problema

Como se menciono previamente, este problema corresponde a un problema de clasificacion. Se quieren
relacionar diversas variables socioeconomicas (tanto continuas como discretas) con una variable
discreta binaria, que corresponde al salario que perciben individuos anualmente.

Debido a que es un problema de clasificacion binaria, se utilizara un modelo de regresion logistica.
Lo anterior, debido a que es un modelo que permite clasificar eficientemente variables binarias.

Dentro de la regresion logistica que se utilizara, existe el enfoque desde la econometria y desde
el machine learning. Para resolver el problema se utilizara una aproximacion que implementa ambos
tipos de modelos:

0. Se preprocesaran los datos (Ir al apartado de Preprocesamiento para ver el detalle de lo que se hara)
1. Inspección visual de las variables o análisis exploratorio
1. Se creara un modelo basado en la econometria, utilizando todas las variables (exceptuando el 
vector objetivo) como variables independientes. El vector objetivo sera ingresado como variable
dependiente.
2. Se observara que variables independientes afectan al log-odds de nuestro vector objetivo. Esto
se realizara viendo que p-value < 0.05.
3. Se creara un DataFrame que contenga solamente las variables que afecten al log-odds del 
vector objetivo.
4. Se creara un modelo de regresion logistica basado en el machine learning sin entrenar.
5. Este modelo sera entregado a un objeto de Validacion Cruzada con K = 10. Los variables utilizadas
seran las presentes en el DataFrame obtenido en el punto 3. El vector objetivo sera la variable 
```income```. Además, el tamaño de los datos de entreno será del 66.5%, mientras que los de testeo
serán del 33.5%.
6. Por cada iteracion de la validación cruzada, se graficara la curva ROC y se obtendra el AUC
7. Finalmente, se obtendra la curva ROC y la AUC promedio para el modelo sobre los 10 folds.

### Optimizacion del modelo

- Se elegiran las variables significativas que se obtengan desde el modelo de regresion logistica
desde la econometria
- Para optimizar el modelo, y tambien validarlo, se utilizara un 10-Cross Fold Validation.

### Metricas de Desempeño

- Para el modelo de regresion logistica por econometria se utilizaran las siguientes metricas de 
desempeño:
    - p-value. Se utilizará esta métrica, ya que permite discernir con fundamento estadístico si
    es significativo dejar o remover una variables de un modelo.

- Para el modelo de regresion logistica por machine learning se utilizaran las siguientes metricas
de desempeño:
    - ROC Curve. Se utilizará esta métrica, ya que permite ver el desempeño general del modelo ante
    distintos criterios o thresholds de clasificación. Esto permitirá elegir un umbral de
    clasificación óptimo para el modelo, teniendo en cuenta la cantidad de Falsos Positivos y
    Verdaderos Positivos.
    - Area Under the Curve (AUC). Se utilizará esta métrica, ya que permitirá discernir el desempeño
    general del modelo. Además, al momento de comparar entre distintos modelos (Por ejemplo, durante
    la iteración de los 10-Folds), se podrá observar el que tuvo un mejor desempeño.


## Aspectos Computacionales

- Se utilizaran las siguientes librerias:


## Preprocesamiento

### Valores faltantes

De forma general, todas las filas que contengan valores faltantes serán removidas de la base de
datos. Además, se verá la diferencia en el tamaño de la base de datos previo a la remoción, y luego
de haber realizado la remoción de datos. Para realizar lo anterior, se seguirán los siguientes pasos:

1. Se obtendrá cuantas filas tiene la base de datos sin ninguna modificación
2. Se reemplazarán todos los valores "?" con np.nan
3. Se realizara una visualización global de la cantidad de datos faltantes por variable. Para
realizar esto, se utilizará la librería missingno, utilizando la función get_matrix()

3. Se utilizará la función .dropna() de pandas para remover todas las filas con valores faltantes
4. Se obtendrá cuantas filas tiene la base de datos luego de la remoción
5. Se obtendrá el porcentaje de cambio entre ambas bases de datos

### Recodificación de Variables

En esta base de datos existen 4 tipos de variables distinta: Continuas, Discretas ordinales,
Discretas nominales binarias y Discretas nominales no binarias. Cada tipo de variable será tratada
de una manera distinta:

0. Antes de realizar una trata específica para el tipo de variable, las variables ```ocupation```, ```workclass```, ```education```, ```marital-status```, ```native-country``` e ```income``` serán recodificadas como se especifíca en el enunciado. Además, la variable ```gender``` también será recodificada a 0s y 1s (0 = "Male"; 1 = "Female")

- Variables continuas (```capital-gain```, ```capital-loss```, ```fnlwgt```): Se mantendran tal y cual como estan.
- Variables discretas ordinales (```age```, ```education (recodificada segun enunciado)```, ```hours-per-week```): Se mantendran tal y cual como estan
- Variables discretas nominales binarias (```sex```, ```income```): Como se menciono previamente, seran codificadas a 0s y 1s ("Male" = 0, "Female" = 1; "<=50K" = 0, ">50K" = 1).
- Varibales discretas nominales no binarias (```workclass```, ```marital-status```, ```occupation```, ```relationship```, ```race```, ```native-country```): Seran codificadas a traves del metodo Leave-One-Out Encoding

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('income-db.csv')

In [3]:
for columna in df.columns:
    print(f'{columna}: {len(df[columna].unique())}')

age: 74
workclass: 9
fnlwgt: 28523
education: 16
educational-num: 16
marital-status: 7
occupation: 15
relationship: 6
race: 5
gender: 2
capital-gain: 123
capital-loss: 99
hours-per-week: 96
native-country: 42
income: 2


In [None]:
variables_continuas = ['capital-gain', 'capital-loss', 'fnlwgt']


In [6]:
df

Unnamed: 0,age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,103497,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
48838,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
48839,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
48840,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K
