# LAB: Identificando a los ingresos del cuartil superior

El objetivo de esta actividad es crear un modelo para predecir los casos en que el salario es mayor o menor a 50K.
El dataset está construido sobre la base de datos del Censo del año 1994 de los Estados Unidos.

**Nota:** más información en [Adult UCI Dataset](http://archive.ics.uci.edu/ml/datasets/Adult)

## 1. Exploración de los datos

Los datos están contenidos en el archivo de la Base de Datos: `adult.sqlite`

**Comenzar cargando los datos en Pandas DataFrames.**

In [1]:
import sqlite3

sqlite_db = 'adult.sqlite'
conn = sqlite3.connect(sqlite_db)
c = conn.cursor()

**Leer la estructura de la tabla Adult y obtener los nombres de los campos**

In [2]:
cols = c.execute("PRAGMA table_info('adult')").fetchall()
adult_cols = [x[1] for x in cols]

** Transformar los datos en un dataframe de pandas**

In [3]:
import pandas as pd
df = pd.DataFrame(c.execute("SELECT * from adult").fetchall(), columns = adult_cols)

In [4]:
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,salary
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


### 1.1 Identificación de Valores faltantes

¿Faltan algunos valores?
¿Qué se puede hacer para solucionarlo?

Discutir diferentes estrategias con un compañero y decidir cuál se va a utilizar (por ejemplo, completarlos con determinado valor, eliminarlos, etc.)

## 2. Análisis de la variable objetivo (`salary`)

El salario está separado en 2 clases: '<=50K' y '>50K'.

Crear una variable 'target', de tipo boolean, que valga True cuando el salario sea >50K y False en caso contrario.

## 3. Características

El dataset contiene varias características o variables.

- ¿Contiene características numéricas?
- ¿Contiene características categóricas?

### 3.a Distribución de la edad

¿Cuál es la distribución de la edad? ¿Cómo se relacionan la edad con la nueva variable 'target'?

- Graficar un histograma de la columna 'age'.
- Separar por 'target' y graficar la distribución de la edad para las 2 clases.

### 3.b Distribución de características categóricas

Investigar la relación de cada característica categórica con la clase de salario:

- workclass
- education
- marital-status
- occupation
- relationship
- race
- sex

Utilizar un gráfico de barras para mostrar la frecuencia relativa de cada uno de los elementos en el grupo.
Distinguir mediante dos colores las clases de salario bajo y alto.

¿Qué características presentan una diferencia significativa en los ratios?

### 3.c Distribución de otras características numéricas

Al igual que se hizo con la edad, investingar la distribución de otras características numéricas para las 2 clases.

## 4. Columnas 'Dummy'

Los modelos Scikit-Learn requiere características con valores numéricos. Para poder utilizar todas las características categóricas del modelo de datos es necesario codificarlas como números. La manera de hacerlo se llama 'One-Hot Encoding' o Creación de Columnas 'Dummy'.
Tanto Pandas como Scikit Learn ofrecen una interfaz para realizar esto. Elegir la de mayor preferencia.

Ejemplo:

|Característica categórica|Dummy_A|Dummy_B|Dummy_C|
|---|---|---|---|
|A|1|0|0|
|B|0|1|0|
|B|0|1|0|
|C|0|0|1|
|A|1|0|0|
|C|0|0|1|
|B|0|1|0|

- [One Hot Encoder](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)
- [Get Dummies](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html)


## 5. Normalización de variables numéricas

Las variables o features numéricas pueden tener diferentes escalas lo cual, en algunos casos, puede ocasionar problemas. Por lo tanto se recomienda intentar normalizarlas utilizando funciones para ajustar las escalas.

Utilizar las funciones provistas Scikit-learn Preprocessing para cambiar la escala de las características numéricas.

[Scikit-Learn Preprocessing](http://scikit-learn.org/stable/modules/preprocessing.html)

Discutir con un compañero acerca de las ventajas y desventajas de cada una de las funciones.

## 6. Combinar features

Combinar las features codificadas con columnas 'dummy' con aquellas a las que se le ajustaron la escala en un mismo dataset llamado `X`.

Renombrar la variable 'target' como `y`.

¿Cuál es el puntaje de precisión de un modelo de benchmark? ¿Cuál es el modelo más simple que se puede construir?

## 7. Construir y evaluar un modelo

Construir tres clasificadores: 

1. Logistic Regression (sin regularización)
2. Logistic Regression (con regularización y tunning de hiperaparámetros)
3. KNN, SVC o Naïve Bayes (según lo "sorteado") 

Previamente, dividir los datos en subconjuntos de entrenamiento y prueba utilizando la siguiente linea:

    from sklearn.cross_validation import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
    
1. Evaluar el `accuracy_score` del modelo construido.
2. Mostrar la matriz de confusión y el reporte de clasificación.
3. Intentar mejorar el modelo ajustando los parámetros. Por ejemplo:
    - LogisticRegression: cambiar la fuerza de la regularización
    - KNN: modificar el númnero de `neighbors`
    - SVC: modificar los parámetros `gamma` o `C` 
    - Naïve Bayes: cambiar los priors del modelo
4. Discutir y comparar con un compañero el mejor modelo obtenido por cada uno.
5. Discutir las interpretaciones posibles de cada uno de los modelos



### 7.1 Regresión Logística (base - sin regularización)

Estime un clasificador basado en un modelo de regresión logística para la variable `target`. Testee diferentes valores de C -equivalente a alpha en regresión lineal- para las dos penalidades posibles de una regresión logística. 

1. ¿Qué tipo de regularización funciona mejor?
2. ¿Cuáles son los parámetros óptimos?
3. ¿Qué puede decir con respecto a la matriz de confusión del clasificador estimado?
4. ¿Cuáles son las variables más relevantes?
5. ¿Cómo interpretaría los coeficientes obtenidos?

### 7.3 Regresión Logística (con regularización)

### 7.4 Modelos KNN con diferente k

### 7.5 Naïve Bayes

### 7.6 Support Vector Machines