# Nanodegree Engenheiro de Machine Learning
## Aprendizagem Supervisionada
## Projeto 2: Construindo um Sistema de Intervenção para Estudantes

Bem-vindo ao segundo projeto do Nanodegree de Machine Learning! Neste Notebook, alguns templates de código já foram fornecidos, e será o seu trabalho implementar funcionalidades necessárias para completar este projeto com êxito. Seções que começam com **'Implementação'** no cabeçalho indicam que o bloco de código que se segue precisará de funcionalidades adicionais que você deve fornecer. Instruções serão providenciadas para cada seção e as especificações para cada implementação estarão marcadas no bloco de código com o comando `'TODO'`. Tenha certeza de ler atentamente todas as instruções!

Além do código implementado, haverá questões relacionadas ao projeto e à implementação que você deve responder. Cada seção em que você tem que responder uma questão será antecedida de um cabeçalho **'Questão X'**. Leia atentamente cada questão e escreva respostas completas nas caixas de texto subsequentes que começam com **'Resposta: '**. O projeto enviado será avaliado baseado nas respostas para cada questão e a implementação que você forneceu.  

>**Nota:** Células de código e Markdown podem ser executadas utilizando o atalho de teclado **Shift + Enter**. Além disso, as células Markdown podem ser editadas, um clique duplo na célula entra no modo de edição.

### Questão 1 - Classificação versus Regressão
*Seu objetivo neste projeto é identificar estudantes que possam precisar de intervenção antecipada antes de serem reprovados. Que tipo de problema de aprendizagem supervisionada é esse: classificação ou regressão? Por quê?*

**Resposta: **Eu diria classificação. Não estamos tentando prever, exatamente, o quão bem o aluno irá, mas simplesmente classificá-lo como aprovado ou reprovado. Penso que é geralmente beneficial atacar o problema com as ferramentas mais simples que temos, do que tentar algo maior que pode deixar tudo mais complexo. Dando uma olhadinha mais abaixo vi que a label (o y da função) é uma coluna chamada `'passed'`, que indica um valor booleano. Assim, fica bem mais claro que com os dados que temos, estamos tentando encontrar um modelo que retorne 0 ou 1 para essa coluna, com base nos outros fatores. 

## Observando os Dados
Execute a célula de código abaixo para carregar as bibliotecas de Python necessárias e os dados sobre os estudantes. Note que a última coluna desse conjunto de dados, `'passed'`, será nosso rótulo alvo (se o aluno foi ou não aprovado). As outras colunas são atributos sobre cada aluno.

In [1]:
# Importar bibliotecas
import numpy as np
import pandas as pd
from time import time
from sklearn.metrics import f1_score

# Ler os dados dos estudantes
student_data = pd.read_csv("student-data.csv")
print "Os dados dos estudantes foram lidos com êxito!"

Os dados dos estudantes foram lidos com êxito!


### Implementação: Observando os Dados
Vamos começar observando o conjunto de dados para determinar quantos são os estudantes sobre os quais temos informações e entender a taxa de graduação entre esses estudantes. Na célula de código abaixo, você vai precisar calcular o seguinte:
- O número total de estudantes, `n_students`.
- O número total de atributos para cada estudante, `n_features`.
- O número de estudantes aprovados, `n_passed`.
- O número de estudantes reprovados, `n_failed`.
- A taxa de graduação da classe, `grad_rate`, em porcentagem (%).


In [2]:
# TODO: Calcule o número de estudante
n_students = float(student_data.shape[0])

# TODO: Calcule o número de atributos
n_features = student_data.shape[1] - 1 # Exceto o outcome 'y'

# TODO: Calcule o número de alunos aprovados
n_passed = student_data.loc[student_data["passed"] == "yes"].shape[0]

# TODO: Calcule o número de alunos reprovados
n_failed = student_data.loc[student_data["passed"] == "no"].shape[0]

# TODO: Calcule a taxa de graduação
grad_rate = np.divide(n_passed, n_students) * 100

# Imprima os resultados
print "Número total de estudantes: {}".format(n_students)
print "Número de atributos: {}".format(n_features)
print "Número de estudantes aprovados: {}".format(n_passed)
print "Número de estudantes reprovados: {}".format(n_failed)
print "Taxa de graduação: {:.2f}%".format(grad_rate)

Número total de estudantes: 395.0
Número de atributos: 30
Número de estudantes aprovados: 265
Número de estudantes reprovados: 130
Taxa de graduação: 67.09%


## Preparando os Dados
Nesta seção, vamos preparara os dados para modelagem, treinamento e teste.

### Identificar atributos e variáveis-alvo
É comum que os dados que você obteve contenham atributos não numéricos. Isso pode ser um problema, dado que a maioria dos algoritmos de machine learning esperam dados númericos para operar cálculos.

Execute a célula de código abaixo para separar os dados dos estudantes em atributos e variáveis-alvo e verificar se algum desses atributos é não numérico.

In [3]:
# Extraia as colunas dos atributo
feature_cols = list(student_data.columns[:-1])

# Extraia a coluna-alvo 'passed'
target_col = student_data.columns[-1] 

# Mostre a lista de colunas
print "Colunas de atributos:\n{}".format(feature_cols)
print "\nColuna-alvo: {}".format(target_col)

# Separe os dados em atributos e variáveis-alvo (X_all e y_all, respectivamente)
X_all = student_data[feature_cols]
y_all = student_data[target_col]

# Mostre os atributos imprimindo as cinco primeiras linhas
print "\nFeature values:"
print X_all.head()

Colunas de atributos:
['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu', 'Mjob', 'Fjob', 'reason', 'guardian', 'traveltime', 'studytime', 'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery', 'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'Dalc', 'Walc', 'health', 'absences']

Coluna-alvo: passed

Feature values:
  school sex  age address famsize Pstatus  Medu  Fedu     Mjob      Fjob  \
0     GP   F   18       U     GT3       A     4     4  at_home   teacher   
1     GP   F   17       U     GT3       T     1     1  at_home     other   
2     GP   F   15       U     LE3       T     1     1  at_home     other   
3     GP   F   15       U     GT3       T     4     2   health  services   
4     GP   F   16       U     GT3       T     3     3    other     other   

    ...    higher internet  romantic  famrel  freetime goout Dalc Walc health  \
0   ...       yes       no        no       4         3     4    1    1      3   
1   ...    

### Pré-processar Colunas de Atributo

Como você pode ver, há muitas colunas não numéricas que precisam ser convertidas! Muitas delas são simplesmente `yes`/`no`, por exemplo, a coluna `internet`. É razoável converter essas variáveis em valores (binários) `1`/`0`.

Outras colunas, como `Mjob` e `Fjob`, têm mais do que dois valores e são conhecidas como variáveis categóricas. A maneira recomendada de lidar com esse tipo de coluna é criar uma quantidade de colunas proporcional aos possíveis valores (por exemplo, `Fjob_teacher`, `Fjob_other`, `Fjob_services`, etc), e assinalar `1` para um deles e `0` para todos os outros.

Essas colunas geradas são por vezes chamadas de _variáveis postiças_ (_dummy variables_), e nós iremos utilizar a função [`pandas.get_dummies()`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html?highlight=get_dummies#pandas.get_dummies) para fazer essa conversão. Execute a célula de código abaixo para executar a rotina de pré-processamento discutida nesta seção.

In [4]:
def preprocess_features(X):
    ''' Pré-processa os dados dos estudantes e converte as variáveis binárias não numéricas em
        variáveis binárias (0/1). Converte variáveis categóricas em variáveis postiças. '''
    
    # Inicialize nova saída DataFrame
    output = pd.DataFrame(index = X.index)

    # Observe os dados em cada coluna de atributos 
    for col, col_data in X.iteritems():
        
        # Se o tipo de dado for não numérico, substitua todos os valores yes/no por 1/0
        if col_data.dtype == object:
            col_data = col_data.replace(['yes', 'no'], [1, 0])

        # Se o tipo de dado for categórico, converta-o para uma variável dummy
        if col_data.dtype == object:
            # Example: 'school' => 'school_GP' and 'school_MS'
            col_data = pd.get_dummies(col_data, prefix = col)  
        
        # Reúna as colunas revisadas
        output = output.join(col_data)
    
    return output

X_all = preprocess_features(X_all)
print "Processed feature columns ({} total features):\n{}".format(len(X_all.columns), list(X_all.columns))

Processed feature columns (48 total features):
['school_GP', 'school_MS', 'sex_F', 'sex_M', 'age', 'address_R', 'address_U', 'famsize_GT3', 'famsize_LE3', 'Pstatus_A', 'Pstatus_T', 'Medu', 'Fedu', 'Mjob_at_home', 'Mjob_health', 'Mjob_other', 'Mjob_services', 'Mjob_teacher', 'Fjob_at_home', 'Fjob_health', 'Fjob_other', 'Fjob_services', 'Fjob_teacher', 'reason_course', 'reason_home', 'reason_other', 'reason_reputation', 'guardian_father', 'guardian_mother', 'guardian_other', 'traveltime', 'studytime', 'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery', 'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'Dalc', 'Walc', 'health', 'absences']


### Implementação: Divisão dos Dados de Treinamento e Teste
Até agora, nós convertemos todos os atributos _categóricos_ em valores numéricos. Para o próximo passo, vamos dividir os dados (tanto atributos como os rótulos correspondentes) em conjuntos de treinamento e teste. Na célula de código abaixo, você irá precisar implementar o seguinte:
- Embaralhe aleatoriamente os dados (`X_all`, `y_all`) em subconjuntos de treinamento e teste.
  - Utilizar 300 pontos de treinamento (aproxidamente 75%) e 95 pontos de teste (aproximadamente 25%).
  - Estabelecer um `random_state` para as funções que você utiliza, se a opção existir.
  - Armazene os resultados em `X_train`, `X_test`, `y_train` e `y_test`.

In [5]:
# TODO: Importe qualquer funcionalidade adicional de que você possa precisar aqui
from sklearn.model_selection import train_test_split

# TODO: Emabaralhe e distribua o conjunto de dados de acordo com o número de pontos de treinamento e teste abaixo
X_train, X_test, y_train, y_test = train_test_split(X_all, y_all, test_size=.24, random_state=42)

# Mostre o resultado da distribuição
print "O conjunto de treinamento tem {} amostras.".format(X_train.shape[0])
print "O conjunto de teste tem {} amostras.".format(X_test.shape[0])

O conjunto de treinamento tem 300 amostras.
O conjunto de teste tem 95 amostras.


## Treinando e Avaliando Modelos
Nesta seção, você irá escolher 3 modelos de aprendizagem supervisionada que sejam apropriados para esse problema e que estejam disponíveis no `scikit-learn`. Primeiro você irá discutir o raciocínio por trás da escolha desses três modelos considerando suas vantagens e desvantagens e o que você sabe sobre os dados. Depois você irá ajustar o modelo a diferentes tamanhos de conjuntos de treinamento (com 100, 200 e 300 pontos) e medir a pontuação F<sub>1</sub>. Você vai precisar preencher três tabelas (uma para cada modelo) que mostrem o tamanho do conjunto de treinamento, o tempo de treinamento, o tempo de previsão e a pontuação F<sub>1</sub> no conjunto de treinamento.

**Os seguintes modelos de aprendizagem supervisionada estão atualmente disponíveis no **[`scikit-learn`](http://scikit-learn.org/stable/supervised_learning.html)** para você escolher:**
- Gaussian Naive Bayes (GaussianNB)
- Árvores de Decisão
- Métodos de agregação (Bagging, AdaBoost, Random Forest, Gradient Boosting)
- K-Nearest Neighbors (KNeighbors)
- Método do gradiente estocástico (SGDC)
- Máquinas de vetores de suporte (SVM)
- Regressão logística

### Questão 2 - Aplicação dos Modelos
*Liste três modelos de aprendizagem supervisionada que são apropriadas para esse problema. Para cada modelo escolhido:*
- Descreva uma aplicação em mundo real na indústria em que o modelo pode ser aplicado. *(Talvez você precise fazer um pouco de pesquisa para responder essa questão – dê as devidas referências!)* 
- Quais são as vantagens do modelo; quando ele tem desempenho melhor? 
- Quais são as desvantagens do modelo, quando ele tem desempenho pior?
- O que faz desse modelo um bom candidato para o problema, considerando o que você sabe sobre os dados?

**Resposta: **
* Gradient Boosting: 
    * Eu tinha impressão que essa seria uma boa opção e fui à procura ver isso se confirmava. Fiquei bastante surpreso ao achar que Boosting parece realmente ser bastante usado por aí. Em um dos sites¹ que encontrei vi que Gradient Boosting é bastante usado nas competições do Kaggle (que espero participar no futuro) por ser um modelo bem robusto. Vi que posso correr o risco de não ter muito sucesso se o Dataset for pequeno, mas vai ser uma experimentação interessante.
    * Quanto mais dados melhor para esse modelo. Se houverem dados suficientes ele poderá encontrar quais são as 'perguntas' mais difíceis sobre o Dataset e, com a força de inúmeros weak-learners, formar um modelo bastante robusto e rápido.
    * Over-fitting parece ser o maior desafio se os weak-learners não tiverem dados suficientes para gerarem suas hipóteses.
    * Não tenho exatamente uma noção de como Boosting vai se comportar nesse Dataset. Em outro curso treinei uma rede neural bem simples com cerca de 10 mil registros, com acurácia de 84% se me lembro corretamente. No nosso caso são menos de 400 registros o que pode dar muito viés para o modelo, mas acho que vale a pena ver para melhorar minha noção sobre o que são muitos/poucos dados. Se eu tivesse que coletar esses dados na mão, 300 me pareceria um bocado de coisa =D.
* Decision Tree:
    * Encontrar aplicações no mundo real² com Decision Trees foi bem fácil e a resposta é praticamente tudo. Agricultura, Medicina, Física, Processamento de Texto, etc. Acho que dado que o modelo é bastante simples de entender conceitualmente, isso acaba incentivando mais áreas do conhecimento a usá-lo como recurso.
    * Decision Trees são bastante claras em seu propósito. Haverão condições que seguirão ramos até haver uma resposta (no nosso caso, se o aluno foi aprovado ou não). Assim é uma caixa-branca, onde podemos entender o que está acontecendo e ficará mais claro quais o fatores que resultam na aprovação ou não dos alunos (em parte eu imagino, pois ainda assim são muitos fatores que levam a isso).
    * As desvantagens ficam sendo o alto viés e a complexidade. O Dataset que estamos usando tem inúmeras colunas e corremos o risco que algumas variáveis categóricas gerarem uma decisão que mudará completamente a resposta do modelo, podendo ser um tanto imprevisível. Isso ficará mais visível nas métricas de desempenho.
    * Quando estava considerando SVM, vi que um problema seria chegar para o diretor da escola com as classificações multidimensionais de um modelo SVM e explicar pra ele porque isso fazia sentido, afinal nem para mim faria muito sentido. Pelo contrário, DTs tomam decisões mais lógicas para o cérebro humano e as visualizações que eu poderia apresentar ao diretores fariam bem mais sentido. Além de que colocar DT e NB lado a lado será interessante. Vamos poder ver como o *over-fitting* vai afetar a DT e partimos para NB que tenderá a ter menos problemas de alto viés.
* Naive Bayes: 
    * Colocar NB na lista não foi tão óbvio pra mim de início mas no último item vou discorrer porque decidi incluir. Quando pesquisei sobre aplicações me pareceu que ele teria bons resultados, pois como visto nas respostas³ da referência, detecção de spam é um tipo de classificação com algumas semelhanças ao problema em questão.
    * NB pode se virar com uma quantidade não muito grande de dados e, por ser probabilístico, a aproximação de suas respostas podem ter bom uso na prática. Mais uma vantagem é o fato de ele não ser tão sensitivo a dados não relevantes, como foi visto no curso.
    * A desvantagem que mais me deixou em dúvida sobre colocar ou não NB é que ele não considera a relação entre os fatores. Como visto bem no início do curso, uma criança em um evento político não necessariamente planeja matar o presidente só por estar nervosa, e um modelo probabilístico como NB pode assumir que sim.
    * Minha outra consideração estava sendo SVM qu,e quando pesquisei por aplicações reais, vi que é muito mais utilizado em processos não tão intuitívos. Na referência (4), vi que SVMs são usadas em Detecção Facial, Classificação de Imagens, Detecção de texto escrito, etc. Coisas que não deixam claro qual foi a tomada de decisão para a classificação escolhida pelo modelo. Por outro lado NB é mais transparente em seu funcionamento e não corre um risco tão alto de alto viés como SVM. 

Refências Pesquisadas:
1. https://www.analyticsvidhya.com/blog/2015/05/boosting-algorithms-simplified/
2. http://legacydirs.umiacs.umd.edu/~salzberg/docs/murthy_thesis/survey/node32.html
3. https://www.quora.com/In-what-real-world-applications-is-Naive-Bayes-classifier-used
4. https://data-flair.training/blogs/applications-of-svm/

### Configuração
Execute a célula de código abaixo para inicializar três funções de ajuda que você pode utilizar para treinar e testar os três modelos de aprendizagem supervisionada que você escolheu acima. As funções são as seguintes:
- `train_classifier` - recebe como parâmetro um classificador e dados de treinamento e ajusta o classificador aos dados.
- `predict_labels` - recebe como parâmetro um classificador ajustado, atributos e rótulo alvo e faz estimativas utilizando a pontuação do F<sub>1</sub>.
- `train_predict` - recebe como entrada um classificador, e dados de treinamento e teste, e executa `train_clasifier` e `predict_labels`.
 - Essa função vai dar a pontuação F<sub>1</sub> tanto para os dados de treinamento como para os de teste, separadamente.

In [6]:
def train_classifier(clf, X_train, y_train):
    ''' Ajusta um classificador para os dados de treinamento. '''
    
    # Inicia o relógio, treina o classificador e, então, para o relógio
    start = time()
    clf.fit(X_train, y_train)
    end = time()
    
    # Imprime os resultados
    print "O modelo foi treinado em {:.4f} segundos".format(end - start)

    
def predict_labels(clf, features, target):
    ''' Faz uma estimativa utilizando um classificador ajustado baseado na pontuação F1. '''
    
    # Inicia o relógio, faz estimativas e, então, o relógio para
    start = time()
    y_pred = clf.predict(features)
    end = time()
    
    # Imprime os resultados de retorno
    print "As previsões foram feitas em {:.4f} segundos.".format(end - start)
    return f1_score(target.values, y_pred, pos_label='yes')


def train_predict(clf, X_train, y_train, X_test, y_test):
    ''' Treina e faz estimativas utilizando um classificador baseado na pontuação do F1. '''
    
    # Indica o tamanho do classificador e do conjunto de treinamento
    print "Treinando um {} com {} pontos de treinamento. . .".format(clf.__class__.__name__, len(X_train))
    
    # Treina o classificador
    train_classifier(clf, X_train, y_train)
    
    # Imprime os resultados das estimativas de ambos treinamento e teste
    print "Pontuação F1 para o conjunto de treino: {:.4f}.".format(predict_labels(clf, X_train, y_train))
    print "Pontuação F1 para o conjunto de teste: {:.4f}.".format(predict_labels(clf, X_test, y_test))

### Implementação: Métricas de Desempenho do Modelo
Com as funções acima, você vai importar os três modelos de aprendizagem supervisionada de sua escolha e executar a função `train_prediction` para cada um deles. Lembre-se de que você vai precisar treinar e usar cada classificador para três diferentes tamanhos de conjuntos de treinamentos: 100, 200 e 300 pontos. Então você deve ter 9 saídas diferentes abaixo – 3 para cada modelo utilizando cada tamanho de conjunto de treinamento. Na célula de código a seguir, você deve implementar o seguinte:
- Importe os três modelos de aprendizagem supervisionada que você escolheu na seção anterior.
- Inicialize os três modelos e armazene eles em `clf_A`, `clf_B` e `clf_C`.
 - Defina um `random_state` para cada modelo, se a opção existir.
 - **Nota:** Utilize as configurações padrão para cada modelo – você vai calibrar um modelo específico em uma seção posterior.
- Crie diferentes tamanhos de conjuntos de treinamento para treinar cada modelo.
 - *Não embaralhe e distribua novamente os dados! Os novos pontos de treinamento devem ser tirados de `X_train` e `y_train`.*
- Treine cada modelo com cada tamanho de conjunto de treinamento e faça estimativas com o conjunto de teste (9 vezes no total).  
**Nota:** Três tabelas são fornecidas depois da célula de código a seguir, nas quais você deve anotar seus resultados.

In [9]:
def size_configuration(data, limit=0):
    return data[:][:limit]

In [10]:
# TODO: Importe os três modelos de aprendizagem supervisionada do sklearn
# from sklearn import model_A
from sklearn.ensemble import GradientBoostingClassifier
# from sklearn import model_B
from sklearn.tree import DecisionTreeClassifier
# from skearln import model_C
from sklearn.naive_bayes import GaussianNB

# TODO: Inicialize os três modelos
clf_A = GradientBoostingClassifier(random_state=42)
clf_B = DecisionTreeClassifier(random_state=42)
clf_C = GaussianNB()

classifiers = {
    'Gradient Boosting': clf_A,
    'Decision Tree': clf_B,
    'Naive Bayes': clf_C,
}

# TODO: Configure os tamanho dos conjuntos de treinamento
X_train_100 = size_configuration(X_train, limit=100)
y_train_100 = size_configuration(y_train, limit=100)

X_train_200 = size_configuration(X_train, limit=200)
y_train_200 = size_configuration(y_train, limit=200)

X_train_300 = size_configuration(X_train, limit=300)
y_train_300 = size_configuration(y_train, limit=300)

train_data = {
    '100': {
        'X': X_train_100,
        'y': y_train_100
    },
    '200': {
        'X': X_train_200,
        'y': y_train_200
    },
    '300': {
        'X': X_train_300,
        'y': y_train_300
    }
}

# TODO: Executar a função 'train_predict' para cada classificador e cada tamanho de conjunto de treinamento
for cl_name, cl in classifiers.items():
    print "- For {}:".format(cl_name)
    for (key, value) in train_data.items():
        print "-- With {}".format(key)
        train_predict(cl, value['X'], value['y'], X_test, y_test)
    print "--\n\n"

- For Naive Bayes:
-- With 300
Treinando um GaussianNB com 300 pontos de treinamento. . .
O modelo foi treinado em 0.0050 segundos
As previsões foram feitas em 0.0000 segundos.
Pontuação F1 para o conjunto de treino: 0.8038.
As previsões foram feitas em 0.0040 segundos.
Pontuação F1 para o conjunto de teste: 0.7634.
-- With 200
Treinando um GaussianNB com 200 pontos de treinamento. . .
O modelo foi treinado em 0.0040 segundos
As previsões foram feitas em 0.0010 segundos.
Pontuação F1 para o conjunto de treino: 0.8406.
As previsões foram feitas em 0.0010 segundos.
Pontuação F1 para o conjunto de teste: 0.7244.
-- With 100
Treinando um GaussianNB com 100 pontos de treinamento. . .
O modelo foi treinado em 0.0050 segundos
As previsões foram feitas em 0.0000 segundos.
Pontuação F1 para o conjunto de treino: 0.8467.
As previsões foram feitas em 0.0010 segundos.
Pontuação F1 para o conjunto de teste: 0.8029.
--


- For Gradient Boosting:
-- With 300
Treinando um GradientBoostingClassifier co

### Resultados em tabelas
Edite a célula abaixo e veja como a tabela pode ser desenhada em [Markdown](https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet#tables). Você deve salvar seus resultados abaixo nas tabelas fornecidas.

** Classificador 1 - GradientBoostingClassifier **  

| Tamanho do Conjunto de Treinamento | Tempo de Treinamento | Tempo de Estimativa (teste) | Pontuação F1 (treinamento) | Pontuação F1 (teste) |
| :--------------------------------: | :------------------: | :-------------------------: | :------------------------: | :------------------: |
| 100                                |       0.0950         |         0.0000              |         1.0000             |      0.7519                |
| 200                                |       0.1190         |         0.0000              |         0.9964             |         0.7591                |
| 300                                |       0.1300         |         0.0000              |         0.9739             |        0.7794       |

** Classificador 2 - DecisionTreeClassifier **  

| Tamanho do Conjunto de Treinamento | Tempo de Treinamento | Tempo de Estimativa (teste) | Pontuação F1 (treinamento) | Pontuação F1 (teste) |
| :--------------------------------: | :------------------: | :-------------------------: | :------------------------: | :------------------: |
| 100                                |       0.0020         |          0.0000             |         1.0000             |         0.6552             |
| 200                                |       0.0050         |          0.0020             |         1.0000             |         0.7500             |
| 300                                |       0.0170         |          0.0000             |         1.0000             |        0.6613       |

** Classificador 3 - GaussianNB **  

| Tamanho do Conjunto de Treinamento | Tempo de Treinamento | Tempo de Estimativa (teste) | Pontuação F1 (treinamento) | Pontuação F1 (teste) |
| :--------------------------------: | :------------------: | :-------------------------: | :------------------------: | :------------------: |
| 100                                |        0.0020        |          0.0020             |          0.8467            |         0.8029        |
| 200                                |        0.0050        |          0.0000             |          0.8406            |         0.7244        |
| 300                                |        0.0050        |          0.0010             |          0.8038            |         0.7634        |

## Escolhendo o Melhor Modelo
Nesta seção final, você irá escolher dos três modelos de aprendizagem supervisionada o *melhor* para utilizar os dados dos estudantes. Você então executará um busca em matriz otimizada para o modelo em todo o conjunto de treinamento (`X_train` e `y_train`) ao calibrar pelo menos um parâmetro, melhorando em comparação a pontuação F<sub>1</sub> do modelo não calibrado. 

### Questão 3 - Escolhendo o Melhor Modelo
*Baseando-se nos experimentos que você executou até agora, explique em um ou dois parágrafos ao conselho de supervisores qual modelo que você escolheu como o melhor. Qual modelo é o mais apropriado baseado nos dados disponíveis, recursos limitados, custo e desempenho?*

**Resposta: **O modelo que escolhi foi o Gradient Boosting. Como os(as) senhores(as) estão investindo em tecnologia e inovação ao contratar um Engenheiro de Machine Learning para o desenvolvimento de um modelo de classificação, vejo que seu interesse é uma solução ótima hoje e a longo prazo. Com isso em mente, o Gradient Boosting é o modelo ideal para os(as) senhores(as), dado que, mesmo que ele possua um tempo mais longo de treinamento hoje, no futuro e com mais dados ele obterá resultados muito bons e permitirá melhores tomadas de decisão para com o desempenho dos alunos. Além do mais, o tempo necessário para predição é praticamente nulo e esse será o tempo mais considerável com o modelo em produção.

### Questão 4 – O Modelo para um Leigo
*Em um ou dois parágrafos, explique para o conselho de supervisores, utilizando termos leigos, como o modelo final escolhido deve trabalhar. Tenha certeza que você esteja descrevendo as melhores qualidades do modelo, por exemplo, como o modelo é treinado e como ele faz uma estimativa. Evite jargões técnicos ou matemáticos, como descrever equações ou discutir a implementação do algoritmo.*

**Resposta: **O Gradient Boosting é um modelo bastante simples de entender. Ele basicamente tenta encontrar quais são as perguntas mais difíceis que ele pode fazer sobre os dados, e foca nessas. Por exemplo: Se temos que estudar para uma prova, e ficamos estudando apenas as coisas fáceis que já sabemos, não vamos ir tão bem nas coisas mais difíceis que não estudamos. Agora, se focarmos em estudar as coisas mais difíceis, há uma boa chance que vamos ir melhor na prova. No nosso caso, é simples imaginar que pessoas com mais faltas tem mais chance de reprovar, porém o ideal é que o foco seja analizar as coisas que não são tão claras, como qual a relação de reprovação com a profissão dos pais. Seguindo essa lógica, a combinação de todas as perguntas mais difíceis sobre os dados gera um modelo que performa bem no geral.

### Implementação: Calibrando o Modelo (_Tuning_)
Calibre o modelo escolhido. Utilize busca em matriz (`GridSearchCV`) com, pelo menos, um parâmetro importante calibrado com, pelo menos, 3 valores diferentes. Você vai precisar utilizar todo o conjunto de treinamento para isso. Na célula de código abaixo, você deve implementar o seguinte:
- Importe [`sklearn.grid_search.gridSearchCV`](http://scikit-learn.org/stable/modules/generated/sklearn.grid_search.GridSearchCV.html) e [`sklearn.metrics.make_scorer`](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html).
- Crie o dicionário de parâmetros que você deseja calibrar para o modelo escolhido.
 - Examplo: `parameters = {'parameter' : [list of values]}`.
- Inicialize o classificador que você escolheu e armazene-o em `clf`.
- Crie a função de pontuação F<sub>1</sub> utilizando `make_scorer` e armazene-o em `f1_scorer`.
 - Estabeleça o parâmetro `pos_label` para o valor correto!
- Execute uma busca em matriz no classificador `clf` utilizando o `f1_scorer` como método de pontuação e armazene-o em `grid_obj`.
- Treine o objeto de busca em matriz com os dados de treinamento (`X_train`, `y_train`) e armazene-o em `grid_obj`.

In [123]:
## Gradient Boosting Tuning

# TODO: Importe 'GridSearchCV' e 'make_scorer'
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import fbeta_score, make_scorer

# TODO: Crie a lista de parâmetros que você gostaria de calibrar
parameters = {
    'loss': ('deviance', 'exponential'),
    'learning_rate': [.001, .01, .1, 1],
    'n_estimators': [1, 10, 100, 1000],
    'max_depth': [1, 2, 3, 5, 8]
}

# TODO: Inicialize o classificador
clf = GradientBoostingClassifier(random_state=42)

# TODO: Faça uma função de pontuação f1 utilizando 'make_scorer' 
f1_scorer = make_scorer(fbeta_score, beta=1, pos_label='yes')

# TODO: Execute uma busca em matriz no classificador utilizando o f1_scorer como método de pontuação
grid_obj = GridSearchCV(clf, param_grid=parameters, scoring=f1_scorer)

# TODO: Ajuste o objeto de busca em matriz para o treinamento de dados e encontre os parâmetros ótimos
grid_obj = grid_obj.fit(X_train, y_train)

print grid_obj.best_score_, grid_obj.best_params_

0.8204162057033164 {'n_estimators': 1000, 'loss': 'deviance', 'learning_rate': 0.001, 'max_depth': 1}


In [125]:
# Get the estimator
clf = grid_obj.best_estimator_

# Reporte a pontuação final F1 para treinamento e teste depois de calibrar os parâmetrosprint "Tuned model has a training F1 score of {:.4f}.".format(predict_labels(clf, X_train, y_train))
print "O modelo calibrado tem F1 de {:.4f} no conjunto de treinamento.".format(predict_labels(clf, X_train, y_train))
print "O modelo calibrado tem F1 de {:.4f} no conjunto de teste.".format(predict_labels(clf, X_test, y_test))

As previsões foram feitas em 0.0000 segundos.
O modelo calibrado tem F1 de 0.8299 no conjunto de treinamento.
As previsões foram feitas em 0.0040 segundos.
O modelo calibrado tem F1 de 0.8000 no conjunto de teste.


In [None]:
## Naive Bayes Tuning

# TODO: Importe 'GridSearchCV' e 'make_scorer'
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import fbeta_score, make_scorer

# TODO: Crie a lista de parâmetros que você gostaria de calibrar
parameters = {
    'loss': ('deviance', 'exponential'),
    'learning_rate': [.001, .01, .1, 1],
    'n_estimators': [1, 10, 100, 1000],
    'max_depth': [1, 2, 3, 5, 8]
}

# TODO: Inicialize o classificador
clf = GaussianNB()

# TODO: Faça uma função de pontuação f1 utilizando 'make_scorer' 
f1_scorer = make_scorer(fbeta_score, beta=1, pos_label='yes')

# TODO: Execute uma busca em matriz no classificador utilizando o f1_scorer como método de pontuação
grid_obj = GridSearchCV(clf, param_grid=parameters, scoring=f1_scorer)

# TODO: Ajuste o objeto de busca em matriz para o treinamento de dados e encontre os parâmetros ótimos
grid_obj = grid_obj.fit(X_train, y_train)

print grid_obj.best_score_, grid_obj.best_params_

### Questão 5 - Pontuação F<sub>1</sub> Final
*Qual é a pontuação F<sub>1</sub> do modelo final para treinamento e teste? Como ele se compara ao modelo que não foi calibrado?*

**Resposta: **A pontuação F<sub>1</sub> final foi de 80%! Houve uma melhora de pouco mais de 2% quando comparado ao modelo não calibrado. É interessante ver os best_params, que mostram que:
* n_estimators: Para esse Dataset, é preferível um valor mais alto que o padrão 100.
* learning_rate: O melhor valor foi 1/1000, bem menor que o padrão 1/10.
* max_depth: Uma profundidade menor teve mais sucesso que uma profundidade maior. O padrão era 3 e o melhor encontrado foi 1.
* loss: A função de loss não teve alteração do valor padrão, sendo deviance (que se refere a funcção logística) o melhor.
<br><br>
    Uma coisa interessante que vi lendo a documentação do SCKit-Learn foi que eles recomendam calibrar o parâmetro `max_depth` pois é uma boa oportunidade para 'tuning'. Citando a documentação "*Calibre esse valor para melhor performance. O melhor valor depende da interação das variáveis de entrada*". Ou seja, ao que parece nossos parâmetros não possuem tanta interação entre si, pois uma profundidade de 1 foi a resposta mais acurada para esse parâmetro. Enquanto mais profundidade indicaria maior interação entre as variáveis de entrada. Portanto, pode-se dizer que um *insight* interessante é que não há tanta relação entre quaisquer variáveis do Dataset. Sabendo disso um modelo de Inferência Bayesiana poderia ter sido também uma boa opção, já que este não leva em consideração a relação das variáveis de entrada. Mas ainda creio que Boosting é uma boa escolha, afinal, com cada vez mais escolas querendo melhorar o ensino à seus alunos, haverá mais investimento e um modelo um pouco mais robusto tenderá a mostrar melhores resultados.

> **Nota**: Uma vez que você completou todas as implementações de código e respondeu todas as questões acima com êxito, você pode finalizar seu trabalho exportando o iPython Nothebook como um document HTML. Você pode fazer isso utilizando o menu acima e navegando para  
**File -> Download as -> HTML (.html)**. Inclua a documentação final junto com o notebook para o envio do seu projeto.