In [None]:
# initial setup
try:
    # settings colab:
    import google.colab
        
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>

# Naive Bayes

## Imports

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder 
from sklearn.preprocessing import RobustScaler
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

## Problema

En la clase vamos a construir un clasificador que intente predecir si una persona ganará más de US$ 50.000 por año 

En esta notebook vamos a preparar los datos para ser utilizados en el entrenamiento y testing del modelo



## Dataset

https://archive.ics.uci.edu/ml/datasets/Adult

Los datos corresponden a un censo de 1994.

Los campos son

age: continuous.

workclass: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.

fnlwgt: continuous.

education: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.

education-num: continuous.

marital-status: Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.

occupation: Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-

op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.

relationship: Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.

race: White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.

sex: Female, Male.

capital-gain: continuous.

capital-loss: continuous.

hours-per-week: continuous.

native-country: United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, 
Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.


In [None]:
data_location = '../Data/adult.data'

data = pd.read_csv(data_location, header=None, sep=',')

columns_names = ['age', 'workclass', 'fnlwgt', 'education', 'education_num', 'marital_status', 'occupation', 'relationship',
             'race', 'sex', 'capital_gain', 'capital_loss', 'hours_per_week', 'native_country', 'income']

data.columns = columns_names

data.head(3)

Vemos si tiene registros con campos nulos:

In [None]:
data.info()

## Ejercicio 1 - Limpieza

¿Cuáles son las variables categoricas, y cuáles las numéricas?

Eliminemos en el dataset los espacios que rodean las variables categóricas usando el método `Series.str.strip`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.strip.html

## Ejercicio 2 - Limpieza (cont.)

Los valores faltantes en este dataset aparecen codificados como '?'

Reemplacemos los '?' por NaN donde corresponda. Para ello usemos el método `replace`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html

¿Qué columnas deldataset quedaron con nulos después de este reemplazo?

## Ejercicio 3 - Drop null

Eliminemos los registros incompletos del dataset.


## Ejercicio 4 - Features, Target

Construyamos una matriz de features (X) y el vector target (Y) para predecir `income` en el dataset de datos completos

¿Qué valores toma la variable `income` en el dataset?


## Ejercicio 5 - Train Test Split

Constuyamos los conjuntos de train y test, asignando el 70% de los registros a train y el 30% a test

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

## Ejercicio 6 - Feature Engineering (Categóricas)

Usemos `OneHotEncoder` para transformar las variables categóricas del dataset.

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing-categorical-features

El resultado de este ejercicio deben ser dos instancias de DataFrame: X_train_categorical y X_test_categorical, que tengan las variables categóricas transformadas para los datos de train y test respectivamente.

## Ejercicio 7 -  Feature Engineering (Continuas)

Usemos `RobustScaler` para transformar las variables numéricas del dataset.

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html

https://scikit-learn.org/stable/modules/preprocessing.html

*This Scaler removes the median and scales the data according to the quantile range (defaults to IQR: Interquartile Range). The IQR is the range between the 1st quartile (25th quantile) and the 3rd quartile (75th quantile).*

El resultado de este ejercicio deben ser dos instancias de DataFrame: X_train_numerical y X_test_numerical, que tengan las variables numéricas transformadas para los datos de train y test respectivamente.


## Ejercicio 8 - Combinación de los datos transformados

Combinemos los datos de train conformados por X_train_categorical, X_train_numerical, Y_train en una instancia de DataFrame, y guardemos ese DataFrame en el archivo **adult_train.csv** con campos separados por tab.

Lo mismo para los datos de test, conformados por X_test_categorical, X_test_numerical, Y_test en el archivo **adult_test.csv**

Ayuda: usar shape para ver las dimensiones de los datasets a combinar y las dimensiones de los resultados.