## Exercício censo 1995 nos Estados Unidos

* O conjunto de dados ```adult``` trata de um censo demográfico realizado nos Estados Unidos em 1995
* O atributo classe se refere a caso um indivíduo ganha mais que 50,000 dólares por ano ou não

Tarefas:

* Separe o dataset em treino e teste (use seed=0), com 75% para treino e 25% para teste
* Adicione valores faltantes, trate os atributos categóricos
* Treine uma [árvore de decisão](http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) neste conjunto
* Reporte a [acurácia](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score)
* Visualize a árvore de decisão (tutorial: [link](http://scikit-learn.org/stable/modules/tree.html#classification))

Descrição dos arquivos:

* adult.csv: dataset
* adult_description: descrição do conjunto de dados

In [None]:
import random
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from IPython.display import display

from nose.tools import *

random.seed(0)
np.random.seed(0)  # garante que o conjunto de dados seja sempre particionado da mesma forma

### Tarefa 1: Carregue o conjunto de dados e defina o tipo das colunas

* Utilize o dicionário ```dtype_dict``` para determinar o tipo de cada um dos atributos
* Adicione '?' como um possível valor faltante na análise do dataset
  * Do contrário, ele é interpretado como um valor válido para um atributo
* Ignore espaços em branco entre os valores:
  * Sem ignorar, uma célula pode ser escrita como " married "
  * Ignorando, a célula será escrita como "married"

As colunas devem ter os seguintes tipos (utilize o dicionário a seguir para determinar os tipos):

In [None]:
dtype_dict ={
    'age': np.float32,
    'workclass': 'category',
    'fnlwgt': np.float32,
    'education': 'category',
    'education-num': np.float32,
    'marital-status': 'category',
    'occupation': 'category',
    'relationship': 'category',
    'race': 'category',
    'sex': 'category',
    'capital-gain': np.float32,
    'capital-loss': np.float32,
    'hours-per-week': np.float32,
    'native-country': 'category',
    'salary': 'category',
}

# esta linha é apenas para fazer com que a célula execute. Sinta-se livre para modificá-la
df = pd.DataFrame({'education': np.array([])})

# YOUR CODE HERE
raise NotImplementedError()

# remove a coluna education, já que ela não possui nenhuma informação relevante
education = df['education']
del df['education']

# remove a coluna do dicionário de tipos também
del dtype_dict['education']

display(df)

In [None]:
"""
Testes para a Tarefa 1
"""
from nose.tools import *


# checa se df é um DataFrame
ok_(isinstance(df, pd.DataFrame))

# checa os tipos das colunas
for column_name, column_type in dtype_dict.items():
    ok_(df[column_name].dtype == column_type)

# checa se '?' foi inserido no lugar dos valores ausentes
ok_(not np.any(df == '?'))

## Tarefa 2: 

* Para atributos numéricos, substitua os valores faltantes pela média de cada atributo
* Para atributos categóricos, substitua os valores faltantes pela moda de cada atributo

### Não realize esta operação para o atributo classe!

In [None]:
from collections import Counter

def substitui_valores(dados):    
    # YOUR CODE HERE
    raise NotImplementedError()
    return dados

df = substitui_valores(df)
display(df)

In [None]:
"""
Testes para a Tarefa 2
"""
from nose.tools import *

# verifica se qualquer valor faltante está presente no dataset
ok_(not df.isnull().values.any())

# verifica se os valores foram inseridos corretamente.
# PROVAVELMENTE irá jogar um warning, mas não precisa se preocupar com isso!
adult_means = pd.Series.from_csv('datasets_parciais/adult_means_tarefa_2.csv').astype(np.float32)

ok_(np.all(abs(adult_means - df.mean(axis=0).astype(np.float32)) < 0.01))

## Tarefa 3: Transforme atributos preditivos categóricos em numéricos 

Faça transformação por binarização: crie uma nova coluna para cada categoria, marque ```True``` para as linhas que possuem aquele valor categórico, e ```False``` em caso contrário

Exemplo:

**Antes** da transformação:

| Sexo | Cor da Camisa |
|:----:|:-------------:|
|   M  |  Vermelha     |
|   F  |   Amarela     |
|   M  |     Verde     |
|   M  |     Verde     |

**Depois** da transformação:

| Sexo | Camisa_Vermelha | Camisa_Amarela | Camisa_Verde |
|:----:|:---------------:|:--------------:|:------------:|
|   M  |        True     |       False    |     False    |
|   F  |       False     |        True    |     False    |
|   M  |       False     |       False    |      True    |
|   M  |       False     |       False    |      True    |

### Atenção: remova as colunas antigas do conjunto de dados!

In [None]:
from sklearn.preprocessing import OneHotEncoder

def binarize(dados):
    # YOUR CODE HERE
    raise NotImplementedError()
    return dados

df = binarize(df)

display(df)

In [None]:
"""
Testes para a Tarefa 3
"""
from nose.tools import *

# repare que o número de colunas aumentou desde a última tarefa

# verifica se os valores foram inseridos corretamente.
# PROVAVELMENTE irá jogar um warning, mas não precisa se preocupar com isso!
adult_means = pd.Series.from_csv('datasets_parciais/adult_means_tarefa_3.csv').astype(np.float32)
ok_(np.all(abs(adult_means - df.mean(axis=0).astype(np.float32)) < 0.01))

## Tarefa 4: Transforma o atributo classe (que é binário) em numérico (ordem crescente de inteiros começando em 0)

O atributo classe **nunca** deve ser binarizado (i.e. criar uma coluna para cada categoria).

* O nome do atributo classe é ```salary```
* Transforme cada categoria do atributo classe em um número (use o dicionário para fazer a conversão)
* Faça com que o atributo classe seja a última coluna do dataset

In [None]:
def transforma_classe(dados):
    # YOUR CODE HERE
    raise NotImplementedError()
    return dados

df = transforma_classe(df)

display(df)

In [None]:
"""
Testes para a Tarefa 4
"""
from nose.tools import *

ordered = sorted(df['salary'].unique())
ok_(ordered == [0, 1])

## Tarefa 5: separe o dataset entre treino e teste

* Use 25% do dataset para teste e 75% para treino
* Use estratificação nos dados (i.e. se 50% dos exemplos são da classe positiva e 50% da classe negativa, esta mesma distribuição deve ser verificada nos conjuntos de treino e teste)

In [None]:
from sklearn.model_selection import train_test_split
import random

random.seed(0)
np.random.seed(0)

# YOUR CODE HERE
raise NotImplementedError()

In [None]:
"""
Testes para a Tarefa 5
"""
from nose.tools import *

ok_(X_train.shape == (36631, 89))
ok_(X_test.shape == (12211, 89))
ok_(y_train.shape == (36631,))
ok_(y_test.shape == (12211,))

## Tarefa 6: Treine uma árvore de decisão

* Treine uma árvore de decisão com profundidade máxima = 3
* Teste no conjunto de testes
* Calcule a acurácia da árvore

In [None]:
from sklearn import tree
from sklearn.metrics import accuracy_score

# YOUR CODE HERE
raise NotImplementedError()

In [None]:
"""
Testes para a Tarefa 6
"""
from nose.tools import *

ok_(isinstance(dt, tree.DecisionTreeClassifier))

predictions = dt.predict(X_test)

acc = accuracy_score(y_test, predictions)
ok_(abs(acc - 0.842600933584473) < 0.01)  # acurácia que deve ser reportada

### Tarefa 7: 

Para o seguinte conjunto de dados, execute o K-NN para os seguintes valores de k: 1, 3, 5 e 7

In [None]:
import numpy as np

raw_data = np.array([
    [1.16, 7.04, 0],
    [7.21, 7.55, 1],
    [4.31, 6.81, 1],
    [6.09, 6.91, 1],
    [4.96, 7.72, 1],
    [5.20, 8.93, 1],
    [2.35, 8.65, 0],
    [2.77, 9.00, 0]],
    dtype=np.float32
)

X_train = raw_data[:, :-1]
y_train = raw_data[:, -1]

X_test = np.array([[3.41, 8.01]])

In [None]:
from collections import Counter

def euclidean_distance(a, b):
    """
    Calcula a distância euclidiana entre dois pontos a e b.
    
    :type a: numpy.ndarray
    :type b: numpy.ndarray
    :rtype: np.float32
    """
    distance = np.inf
    # YOUR CODE HERE
    raise NotImplementedError()
    return np.float32(distance)

class NearestNeighbors(object):
    def __init__(self, n_neighbors=1):
        pass
        # YOUR CODE HERE
        raise NotImplementedError()
    
    def fit(self, X, y):
        # YOUR CODE HERE
        raise NotImplementedError()
        return self
    
    def predict(self, X):
        predicted = np.empty(len(X), dtype=np.int32)
        
        # YOUR CODE HERE
        raise NotImplementedError()
        return predicted
    

In [None]:
"""
Testes para a Tarefa 7
"""
from nose.tools import *
from sklearn.metrics import accuracy_score

y_test = {
    1: np.array([[0]], dtype=np.int32),
    3: np.array([[0]], dtype=np.int32),
    5: np.array([[1]], dtype=np.int32),
    7: np.array([[1]], dtype=np.int32)
}

for i in (1, 3, 5, 7):
    knn = NearestNeighbors(n_neighbors=i)
    knn = knn.fit(X_train, y_train)
    preds = knn.predict(X_test)
    ok_(abs(accuracy_score(preds, y_test[i]) - 1.) < 0.01)

### Bônus 1: Diagrama de Voronoi

O gráfico abaixo é um Diagrama de Voronoi. Ela determina as áreas de influência de cada uma das instâncias no conjunto de treino para k=1

In [None]:
from matplotlib import pyplot as plt
from scipy.spatial import Voronoi, voronoi_plot_2d

fig, ax = plt.subplots()

vor = Voronoi(X_train)
voronoi_plot_2d(vor=vor, ax=ax, show_ponts=False, show_vertices=False)

ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, s=90, zorder=3)
ax.scatter(X_test[:, 0], X_test[:, 1], s=90, c='white', linewidth=1., edgecolor='black', zorder=3)

for i in range(len(X_train)):
    ax.text(X_train[i, 0], X_train[i, 1] + 0.1, str(i), fontdict=dict(size=14, color='black'))

plt.tight_layout()

plt.show()

### Bônus 2: visualizando as instâncias mais próximas

In [None]:
from matplotlib import pyplot as plt

fig, ax = plt.subplots()

for i in range(len(X_train)):
    ax.plot([X_test[0, 0], X_train[i, 0]], [X_test[0, 1], X_train[i, 1]], c='black', zorder=1)

# Plot the training points
ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, marker='o', s=90, zorder=2)
# Plot the testing points
ax.scatter(X_test[:, 0], X_test[:, 1], c='white', marker='o', s=90, edgecolors='black', zorder=3)

plt.tight_layout()
plt.show()