
# Machine Learning Workshop

## Analisis exploratorio de datos
Dataset source: <br>
https://www.kaggle.com/wenruliu/adult-income-dataset/ <br>
https://archive.ics.uci.edu/ml/datasets/census+income

In [None]:
import pandas as pd
import missingno
from sklearn.metrics import mutual_info_score
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="ticks", color_codes=True)

# | remove max column restriction for printing DataFrames (default=20)
pd.options.display.max_columns = None 

### 1. Cleaning

<b> 1a) </b> Lea el archivo CSV <i> adult.csv </i> con pandas y guárdelo en un DataFrame. (<i>Hint: Usa el argumento <code>sep</code> de read_csv() https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html</i>)

In [None]:
data_path = '../Datasets/adult-incomes.csv'

#### NaN values 

<b> 1c) </b> Hay valores faltantes en el dataset? (Hint: df.count())

<b> 1d) </b> Si df.count() dio el mismo contado para todas las columnas, normalmente esto indica que no hay valores NaN en el DataFrame.
Pero mirando bien los datos, se ve que hay filas con valores '?' que pandas no identificó como valores NaN.

Lea el archivo otra vez, usando el argumento <code>na_values</code> de la funcion <code>pandas.read_csv()</code> y verifica despues si pandas identificó los valores faltantes. (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

<b> 1e) </b> Donde (en cual columnas / filas) se ubican los valores faltantes? (<i>Hint: usa la librería "missingno" para hacer una visualización</i>)

<b> 1f) </b> Donde (en cual columnas / filas) se ubican los valores faltantes? (<i>Hint: usa la librería "missingno" para hacer una visualización</i>)

<b> 1g) </b> Elimina todas las filas que tienen minimo un valor que hace falta. Cuantas filas se perdieron (numero absuloto & porcentaje)?<br> (<i>Hint: Numero total de filas:</i> <code>len(df)</code>)

#### Duplicados

<b> 1h) </b> Hay filas duplicadas en el dataset? Cuantos? Eliminala todos los duplicados! (<i>Hint: </i> <code>DataFrame.drop_duplicates()</code> https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html)

#### Columnas numericas y categoricas

<b> 1i) </b> Cuales de los columnas son numericas y cuales son categoricas? (<i>Hint: </i> <code>df.dtypes</code>)

<b> 1j) </b> Separa las columnas numericas y categoricas y guardalas en dos nuevos DataFrames <code>df_num, df_cat</code> (<i>Hint: </i> <code>DataFrame.select_dtypes()</code>)

### 2. Análisis & Visualización

#### Columnas numericas - distribuciónes & correlación

<b> 2a) </b> Visualiza las distribuciónes (histogramos) de las columnas numericas, y sus correlaciónes (scatter plots), usando seaborn<br> (<i>Hint: </i> <code>sns.pairplot()</code> https://seaborn.pydata.org/generated/seaborn.pairplot.html)

<b> 2b) </b> Puedes identificar columnas que tienen una correlación alta?

<b> 2b) </b> Analisa y describe las distribuciones (histogramos)

#### Columnas categoricas

<b> 2c) </b> Visualiza la correlacion entre las columnas "age" y "income". Nota que "age" es una columna numerica, y "income" una columna categorica<br>
(Hint: Usa seaborn: <code>sns.boxplot(x=..., y=..., data=df)</code> https://seaborn.pydata.org/generated/seaborn.boxplot.html)

<b> 2d) </b> Visualiza la distribucion de la columna "race". Que puedes observar? (Hint: <code>sns.countplot(x=..., data=...)</code> https://seaborn.pydata.org/generated/seaborn.countplot.html)

Observaciones:


<b> 2e) </b> Calcula el porcentaje de personas blancos ('race' == 'White') que ganan menos que 50K anual, y el porcentaje de personas negras('race' == 'Black') que ganan menos que 50K<br>

Hint:
<code>
df.loc[(df['income'] == "<=50K") & (df['race'] == "Black"), 'race']
</code>

### 3. Machine Learning
Task: Predecir si el ingreso de una persona excede $ 50K / año.<br>
Columna con los labels: 'income'

<b> 3a) </b> Recuerde, para entrenar un modelo de Machine Learning, necesitamos una tabula de solo numeros. <br> 
Convierte las categorias en las columnas categoricas a numeros ("Enumeration"). 

<b> 3b) </b> Ahora concatene los dos DataFrames <code>df_cat, df_num</code> para obtener un solo DataFrame <code>df_all</code> para el entrenamiento del modelo.<br> (Hint: <code>pd.concat(..., axis=1)</code> https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html)

<b> 3c) </b> Usa el siguiente codigo para entrenar un modelo de Machine Learning. El modelo que usamos se llama Random Forest (Vamos a mirar como funciona en el siguiente modulo)

In [None]:
# | split data into features (x) & labels (y)
x = df_all.drop('income', axis=1).values
y = df_all['income'].values

# | split data into training & test set
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

# | train the model
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(max_depth=30, n_estimators=100,random_state=0)
model.fit(x_train, y_train)

<b> 3d) </b> Ahora nuestro modelo esta entrenado y guardado en la variable <code>model</code>. Usa la funcion <code>model.predict()</code> para calcular las predicciones en el test-set <code>x_test</code> y calcula el porcentaje de las predicciones que son correctas