# Model: Random Forest

At√© agora neste projeto, aprendemos como recuperar e descompactar dados, e como gerenciar dados desbalanceados para construir um modelo de decis√£o-tree.

Nesta li√ß√£o, vamos expandir nosso modelo de decis√£o tree em uma floresta inteira (um exemplo de algo chamado de **ensemble model**); aprender como usar uma **grid search** para ajustar hiperpar√¢metros; e criar uma fun√ß√£o que carrega dados e um modelo pr√©-treinado, e usa esse modelo para gerar uma s√©rie de previs√µes.

In [None]:
import gzip
import json
import pickle
import pandas as pd
import matplotlib.pyplot as plt

from imblearn.over_sampling import RandomOverSampler
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.model_selection import GridSearchCV, cross_val_score, train_test_split
from sklearn.pipeline import make_pipeline

# Preparando Dados

Como sempre, come√ßaremos importando o dataset.

## Importa√ß√£o

### Exerc√≠cio:
Complete a fun√ß√£o `wrangle` abaixo usando o c√≥digo que voc√™ desenvolveu nas ultimas li√ß√µes. Em seguida, use-a para importar `poland-bankruptcy-data-2009.json.gz` para o DataFrame `df`.

In [None]:
def wrangle(filename):

    return df

In [None]:
df = ...
print(df.shape)
df.head()

## Divis√£o

### Exerc√≠cio:
Crie sua matriz de caracter√≠sticas `X` e vetor alvo `y`. Seu alvo √© `"bankrupt"`.

In [None]:
target = "bankrupt"
X = ...
y = ...

print("X shape:", X.shape)
print("y shape:", y.shape)

Como n√£o estamos trabalhando com dados de s√©ries temporais, vamos dividir nosso dataset aleatoriamente em conjuntos de treinamento e teste

### Exerc√≠cio:
Divida seus dados (`X` e `y`) em conjuntos de treinamento e teste usando uma divis√£o aleat√≥ria de train-test. Seu conjunto de teste deve ser 20% do seu total de dados. E n√£o se esque√ßa de definir um `random_state` para reprodutibilidade.

In [None]:
X_train, X_test, y_train, y_test = ...

print("X_train shape:", X_train.shape)
print("y_train shape:", y_train.shape)
print("X_test shape:", X_test.shape)
print("y_test shape:", y_test.shape)

Voc√™ pode ter notado que n√£o criamos um conjunto de valida√ß√£o, embora estejamos planejando ajustar os hiperpar√¢metros do nosso modelo nesta li√ß√£o. Isso porque vamos usar valida√ß√£o cruzada, sobre a qual falaremos mais adiante.

## Resample

### Exerc√≠cio:
Crie uma nova matriz de caracter√≠sticas `X_train_over` e vetor alvo `y_train_over` realizando over-sampling aleat√≥rio nos dados de treinamento.

In [None]:
over_sampler = ...
X_train_over, y_train_over = ...
print("X_train_over shape:", X_train_over.shape)
X_train_over.head()

# Construindo Model

Agora que temos nossos dados configurados da maneira correta, podemos construir o modelo. üèó

## Baseline

### Exerc√≠cio:
Calcule a pontua√ß√£o de precis√£o b√°sica para o seu modelo.

In [None]:
acc_baseline = ...
print("Baseline Accuracy:", round(acc_baseline, 4))

## Iteratar

At√© agora, constru√≠mos modelos √∫nicos que preveem um √∫nico resultado. Essa definitivamente √© uma maneira √∫til de prever o futuro, mas e se o modelo que constru√≠mos n√£o for o *certo*? Se pud√©ssemos de alguma forma usar mais de um modelo simultaneamente, ter√≠amos uma previs√£o mais confi√°vel.

**Modelos de conjunto** funcionam construindo m√∫ltiplos modelos em subconjuntos aleat√≥rios dos mesmos dados e, em seguida, comparando suas previs√µes para fazer uma previs√£o final. Como usamos uma √°rvore de decis√£o na √∫ltima li√ß√£o, vamos criar um conjunto de √°rvores aqui. Esse tipo de modelo √© chamado de **random forest**.

Come√ßaremos criando um pipeline para simplificar nosso fluxo de trabalho.

Crie um pipeline chamado `clf` (abrevia√ß√£o de "classifier") que contenha um transformador `SimpleImputer` e um preditor `RandomForestClassifier`.

In [None]:
clf = ...
print(clf)

Por padr√£o, o n√∫mero de √°rvores em nossa floresta (`n_estimators`) √© definido como 100. Isso significa que, quando treinamos esse classificador, estaremos ajustando 100 √°rvores. Embora leve mais tempo para treinar, isso deve levar a um desempenho melhor.

Para obter o melhor desempenho do nosso modelo, precisamos ajustar seus hiperpar√¢metros. Mas como podemos fazer isso se n√£o criamos um conjunto de valida√ß√£o? A resposta √© **valida√ß√£o cruzada**. Portanto, antes de analisarmos os hiperpar√¢metros, vamos ver como a valida√ß√£o cruzada funciona com o classificador que acabamos de construir.

###Exerc√≠cio:
Realize a valida√ß√£o cruzada com seu classificador, usando os dados de treinamento sobre-amostrados. Queremos cinco dobras, ent√£o defina `cv` como 5. Tamb√©m queremos acelerar o treinamento, ent√£o defina `n_jobs` como -1.

In [None]:
cv_acc_scores = ...
print(cv_acc_scores)

Isso levou um bom tempo, mas acabamos de treinar 500 classificadores de random forest (100 trabalhos x 5 dobras). N√£o √© de se admirar que tenha demorado tanto!

__Dica profissional:__ embora `cross_val_score` seja √∫til para ter uma ideia de como a valida√ß√£o cruzada funciona, voc√™ raramente a usar√°. Em vez disso, a maioria das pessoas inclui um argumento `cv` ao fazer uma busca de hiperpar√¢metros.

### Exerc√≠cio:
Agora que temos uma ideia de como a valida√ß√£o cruzada funciona, vamos ajustar nosso modelo. O primeiro passo √© criar uma faixa de hiperpar√¢metros que queremos avaliar.

Crie um dicion√°rio com a faixa de hiperpar√¢metros que queremos avaliar para nosso classificador.

1. Para o `SimpleImputer`, experimente as estrat√©gias `"mean"` e `"median"`.
2. Para o `RandomForestClassifier`, experimente configura√ß√µes de `max_depth` entre 10 e 50, em incrementos de 10.
3. Tamb√©m para o `RandomForestClassifier`, experimente configura√ß√µes de `n_estimators` entre 25 e 100, em incrementos de 25.

In [None]:
params = ...
params

Agora que temos nossa grade de hiperpar√¢metros, vamos incorpor√°-la em uma **grid search**.

### Exerc√≠cio:
Crie um `GridSearchCV` chamado `model` que inclua seu classificador e grade de hiperpar√¢metros. Certifique-se de usar os mesmos argumentos para `cv` e `n_jobs` que voc√™ usou acima, e defina `verbose` como 1.

In [None]:
model = ...
model

Finalmente, agora vamos ajustar o modelo.

### Exerc√≠cio:
Ajuste `model` aos dados de treinamento **over-sampled**.

In [None]:
# Train model


Isso levar√° algum tempo para treinar, ent√£o vamos aproveitar um momento para pensar sobre o porqu√™. Quantas florestas acabamos de testar? 4 diferentes `max_depth`s vezes 3 `n_estimators` vezes 2 estrat√©gias de imputa√ß√£o... isso totaliza 24 florestas. Quantas adapta√ß√µes acabamos de fazer? 24 florestas vezes 5 dobras √© 120. E lembre-se de que cada floresta √© composta por 25-75 √°rvores, o que resulta em *pelo menos* 3.000 √°rvores. Portanto, √© computacionalmente caro!

Ok, agora que testamos todos esses modelos, vamos dar uma olhada nos resultados.

### Exerc√≠cio:
Extraia os resultados da valida√ß√£o cruzada de `model` e carregue-os em um DataFrame chamado `cv_results`.

In [None]:
cv_results = ...
cv_results.head(10)

Al√©m das pontua√ß√µes de precis√£o para todos os diferentes modelos que tentamos durante nossa busca em grade, podemos ver quanto tempo levou para cada modelo ser treinado. Vamos dar uma olhada mais de perto em como as diferentes configura√ß√µes de hiperpar√¢metros afetam o tempo de treinamento.

Primeiro, vamos olhar para `n_estimators`. Nossa busca em grade avaliou esse hiperpar√¢metro para v√°rias configura√ß√µes de `max_depth`, mas vamos focar apenas em modelos onde `max_depth` √© igual a 10.

### Exerc√≠cio:
Crie uma m√°scara para `cv_results` para as linhas onde `"param_randomforestclassifier__max_depth"` √© igual a 10. Em seguida, plote `"param_randomforestclassifier__n_estimators"` no eixo x e `"mean_fit_time"` no eixo y. N√£o se esque√ßa de rotular seus eixos e incluir um t√≠tulo.

In [None]:
# Create mask
mask = ...
# Plot fit time vs n_estimators

# Label axes
plt.xlabel("Number of Estimators")
plt.ylabel("Mean Fit Time [seconds]")
plt.title("Training Time vs Estimators (max_depth=10)");

Em seguida, vamos analisar `max_depth`. Aqui, tamb√©m vamos limitar nossos dados √†s linhas onde `n_estimators` √© igual a 25.

### Exerc√≠cio:
Crie uma m√°scara para `cv_results` para as linhas onde `"param_randomforestclassifier__n_estimators"` √© igual a 25. Em seguida, plote `"param_randomforestclassifier__max_depth"` no eixo x e `"mean_fit_time"` no eixo y. N√£o se esque√ßa de rotular seus eixos e incluir um t√≠tulo.

In [None]:
# Create mask
mask = ...
# Plot fit time vs max_depth

# Label axes
plt.xlabel("Max Depth")
plt.ylabel("Mean Fit Time [seconds]")
plt.title("Training Time vs Max Depth (n_estimators=25)");

H√° uma tend√™ncia geral de aumento, mas vemos muitas oscila√ß√µes aqui. Isso acontece porque, para cada profundidade m√°xima, a busca em grade tenta duas estrat√©gias de imputa√ß√£o diferentes: m√©dia e mediana. A mediana √© muito mais r√°pida de calcular, o que acelera o tempo de treinamento.

Finalmente, vamos olhar para os hiperpar√¢metros que levaram ao melhor desempenho.

Extraia os melhores hiperpar√¢metros de `model`.

In [None]:
# Extract best hyperparameters


Observe que n√£o precisamos construir e treinar um novo modelo com essas configura√ß√µes. Agora que a busca em grade est√° completa, quando usamos `model.predict()`, ele fornecer√° previs√µes usando o melhor modelo ‚Äî algo que faremos ao final desta li√ß√£o.

## Avaliar

Certo: o momento da verdade. Vamos ver como nosso modelo se desempenha.

### Exerc√≠cio:
Calcule as pontua√ß√µes de precis√£o para treinamento e teste de `model`.

In [None]:
acc_train = ...
acc_test = ...

print("Training Accuracy:", round(acc_train, 4))
print("Test Accuracy:", round(acc_test, 4))

Superamos a linha de base! Apenas por pouco, mas superamos.

Em seguida, vamos usar uma matriz de confus√£o para ver como nosso modelo se desempenha. Para entender melhor os valores que veremos na matriz, vamos primeiro contar quantas observa√ß√µes em nosso conjunto de teste pertencem √†s classes positiva e negativa.

In [None]:
y_test.value_counts()

### Exerc√≠cio:
Plote uma matriz de confus√£o que mostre como seu melhor modelo se desempenha em seu conjunto de teste.

In [None]:
# Plot confusion matrix


Observe a rela√ß√£o entre os n√∫meros nesta matriz e a contagem que voc√™ fez na tarefa anterior. Se voc√™ somar os valores na linha inferior, obter√° o total de observa√ß√µes positivas em `y_test` ($72 + 11 = 83$). E a soma da linha superior corresponde ao n√∫mero de observa√ß√µes negativas ($1903 + 10 = 1913$).

# Communicar Resultados

### Exerc√≠cio:
Crie um gr√°fico de barras horizontal com os 10 recursos mais importantes para o seu modelo.

In [None]:
# Get feature names from training data
features = ...
# Extract importances from model
importances = ...
# Create a series with feature names and importances
feat_imp = ...
# Plot 10 most important features

plt.xlabel("Gini Importance")
plt.ylabel("Feature")
plt.title("Feature Importance");

A √∫nica coisa que resta agora √© salvar seu modelo para que ele possa ser reutilizado.

Usando um gerenciador de contexto, salve seu modelo com melhor desempenho em um arquivo chamado `"model-5-3.pkl"`.

In [None]:
# Save model


### Exerc√≠cio:
Crie uma fun√ß√£o `make_predictions`. Ela deve aceitar dois argumentos: o caminho de um arquivo JSON que cont√©m dados de teste e o caminho de um modelo serializado. A fun√ß√£o deve carregar e limpar os dados usando a fun√ß√£o `wrangle` que voc√™ criou, carregar o modelo, gerar um array de previs√µes e converter esse array em uma S√©rie. (A S√©rie deve ter o nome `"bankrupt"` e os mesmos r√≥tulos de √≠ndice que os dados de teste.) Finalmente, a fun√ß√£o deve retornar suas previs√µes como uma S√©rie.

In [None]:
def make_predictions(data_filepath, model_filepath):
    # Wrangle JSON file
    X_test = ...
    # Load model

    # Generate predictions
    y_test_pred = ...
    # Put predictions into Series with name "bankrupt", and same index as X_test
    y_test_pred = ...
    return y_test_pred

### Exerc√≠cio:
Use o c√≥digo abaixo para verificar sua fun√ß√£o `make_predictions`. Assim que estiver satisfeito com o resultado, envie-o para o avaliador.

In [None]:
y_test_pred = make_predictions(
    data_filepath="data/poland-bankruptcy-data-2009-mvp-features.json.gz",
    model_filepath="model-5-3.pkl",
)

print("predictions shape:", y_test_pred.shape)
y_test_pred.head()

# Gradient Boosting Trees

Voc√™ tem trabalhado duro e agora tem todas as ferramentas necess√°rias para construir e ajustar modelos. Vamos come√ßar esta li√ß√£o da mesma forma que come√ßamos as outras: preparando os dados e construindo nosso modelo, e desta vez com um novo modelo de conjunto. Assim que estiver funcionando, aprenderemos algumas novas m√©tricas de desempenho para avali√°-lo. Ao final desta li√ß√£o, voc√™ ter√° escrito seu primeiro m√≥dulo em Python!

In [None]:
import gzip
import json
import pickle

import pandas as pd
import ipywidgets as widgets
from ipywidgets import interact
from teaching_tools.widgets import ConfusionMatrixWidget

from imblearn.over_sampling import RandomOverSampler

from sklearn.ensemble import GradientBoostingClassifier
from sklearn.impute import SimpleImputer
from sklearn.metrics import (
    ConfusionMatrixDisplay,
    classification_report,
    confusion_matrix,
)
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.pipeline import make_pipeline

# Preparando Dados

Toda a prepara√ß√£o de dados para este m√≥dulo √© a mesma que foi da √∫ltima vez. Vejo voc√™ do outro lado!

## Importa√ß√£o

### Exerc√≠cio:
Complete a fun√ß√£o `wrangle` abaixo usando o c√≥digo que voc√™ desenvolveu nas ultimas li√ß√µes. Em seguida, use-a para importar `poland-bankruptcy-data-2009.json.gz` no DataFrame `df`.

In [None]:
def wrangle(filename):

    return df

In [None]:
df = ...
print(df.shape)
df.head()

## Divis√£o

### Exerc√≠cio:
Crie sua matriz de features `X` e o vetor alvo `y`. Seu alvo √© `"bankrupt"`.

In [None]:
target = "bankrupt"
X = ...
y = ...

print("X shape:", X.shape)
print("y shape:", y.shape)

### Exerc√≠cio:
Divida seus dados (`X` e `y`) em conjuntos de treinamento e teste usando uma divis√£o aleat√≥ria com `train-test split`. Seu conjunto de teste deve ser 20% do total dos dados. E n√£o se esque√ßa de definir um `random_state` para reprodutibilidade.

In [None]:
X_train, X_test, y_train, y_test = ...

print("X_train shape:", X_train.shape)
print("y_train shape:", y_train.shape)
print("X_test shape:", X_test.shape)
print("y_test shape:", y_test.shape)

## Resample

### Exercicio:
Crie uma nova matriz de features `X_train_over` e um vetor alvo `y_train_over` realizando random over-sampling nos dados de treinamento.

In [None]:
over_sampler = ...
X_train_over, y_train_over = ...
print("X_train_over shape:", X_train_over.shape)
X_train_over.head()

# Construindo Model

Agora vamos montar nosso modelo. Come√ßaremos calculando a baseline accuracy, assim como fizemos da √∫ltima vez.

## Baseline

### Exerc√≠cio:
Calcule a baseline accuracy para o seu modelo.

In [None]:
acc_baseline = ...
print("Baseline Accuracy:", round(acc_baseline, 4))

## Iterar

Embora os blocos de constru√ß√£o sejam os mesmos, √© aqui que come√ßamos a trabalhar com algo novo. Primeiro, vamos usar um novo tipo de modelo de ensemble para o nosso classificador.

Crie um pipeline chamado `clf` (abrevia√ß√£o de "classifier") que contenha um transformador `SimpleImputer` e um preditor `GradientBoostingClassifier`.

In [None]:
clf = ...

Lembre-se, enquanto fazemos isso, que queremos olhar apenas para a *classe positiva*. Aqui, a classe positiva √© aquela em que as empresas realmente faliram. No dicion√°rio que fizemos na √∫ltima vez, a classe positiva √© composta pelas empresas com o par chave-valor `bankrupt: true`.

Em seguida, vamos ajustar alguns dos hiperpar√¢metros do nosso modelo.

### Exerc√≠cio:
Crie um dicion√°rio com a faixa de hiperpar√¢metros que queremos avaliar para o nosso classificador.

1. Para o `SimpleImputer`, experimente as estrat√©gias `"mean"` e `"median"`.
2. Para o `GradientBoostingClassifier`, tente configura√ß√µes de `max_depth` entre 2 e 5.
3. Tamb√©m para o `GradientBoostingClassifier`, tente configura√ß√µes de `n_estimators` entre 20 e 31, em passos de 5.

In [None]:
params = ...
params

### Exerc√≠cio:
Observe que estamos tentando n√∫meros muito menores de `n_estimators`. Isso ocorre porque o `GradientBoostingClassifier` √© mais lento para treinar do que o `RandomForestClassifier`. Voc√™ pode tentar aumentar o n√∫mero de estimadores para ver se o desempenho do modelo melhora, mas lembre-se de que voc√™ pode esperar um longo tempo!

### Exerc√≠cio:
Crie um `GridSearchCV` chamado `model` que inclua seu classificador e a grade de hiperpar√¢metros. Certifique-se de usar os mesmos argumentos para `cv` e `n_jobs` que voc√™ usou anteriormente, e defina `verbose` como 1.

In [None]:
model = ...

Agora que temos tudo o que precisamos para o modelo, vamos ajust√°-lo aos dados e ver o que conseguimos.

### Exerc√≠cio:
Ajuste seu `model` aos dados de treinamento que foram superamostrados.

In [None]:
# Fit model to over-sampled training data


### Exerc√≠cio:
Extraia os resultados da valida√ß√£o cruzada do `model` e carregue-os em um DataFrame chamado `cv_results`.

In [None]:
results = ...
results.sort_values("rank_test_score").head(10)

H√° v√°rios hiperpar√¢metros l√°, ent√£o vamos extrair aqueles que funcionam melhor para o nosso modelo.

### Exerc√≠cio:
Extraia os melhores hiperpar√¢metros do `model`.

In [None]:
# Extract best hyperparameters


# Avaliar

Agora que temos um modelo funcional que est√° realmente nos fornecendo algo √∫til, vamos ver qu√£o bom ele realmente √©.

### Exerc√≠cio:
Calcule as pontua√ß√µes de acur√°cia de treinamento e teste para o `model`.

In [None]:
acc_train = ...
acc_test = ...

print("Training Accuracy:", round(acc_train, 4))
print("Validation Accuracy:", round(acc_test, 4))

Assim como antes, vamos criar um `ConfusionMatrix` para ver como nosso modelo est√° fazendo suas previs√µes corretas e incorretas.

### Exerc√≠cio:
Plote uma matriz de confus√£o que mostre como o seu melhor modelo est√° se saindo no seu conjunto de teste.

In [None]:
# Plot confusion matrix


Esta matriz √© um √≥timo lembrete de como nossos dados est√£o desequilibrados e de por que a acur√°cia nem sempre √© a melhor m√©trica para julgar se um modelo est√° nos fornecendo o que queremos. Afinal, se 95% das empresas em nosso conjunto de dados n√£o faliram, tudo o que o modelo precisa fazer √© sempre prever `{"fal√™ncia": False}`, e estar√° certo 95% das vezes. A pontua√ß√£o de acur√°cia ser√° incr√≠vel, mas n√£o nos dir√° o que realmente precisamos saber.

Em vez disso, podemos avaliar nosso modelo usando duas novas m√©tricas: **precis√£o** e **recall**. A pontua√ß√£o de precis√£o √© importante quando queremos que nosso modelo s√≥ preveja que uma empresa vai falir se estiver muito confiante em sua previs√£o. A pontua√ß√£o de *recall* √© importante se quisermos garantir que todas as empresas que falir√£o sejam identificadas, mesmo que isso signifique cometer alguns erros √†s vezes.

Vamos come√ßar com um relat√≥rio que voc√™ pode criar com o scikit-learn para calcular ambas as m√©tricas. Em seguida, analisaremos cada uma delas usando uma ferramenta de visualiza√ß√£o que desenvolvemos especialmente para o Laborat√≥rio de Ci√™ncia de Dados.

### Exerc√≠cio:
Imprima o relat√≥rio de classifica√ß√£o para o seu modelo, utilizando o conjunto de teste.

In [None]:
# Print classification report
print(...)

### Exerc√≠cio:
Execute a c√©lula abaixo para carregar o widget da matriz de confus√£o.

In [None]:
c = ConfusionMatrixWidget(model, X_test, y_test)
c.show()

Se voc√™ mover o limite de probabilidade, ver√° que h√° uma troca entre precis√£o e recall. Ou seja, √† medida que um melhora, o outro sofre. Como cientista de dados, voc√™ muitas vezes precisar√° decidir se prefere um modelo com melhor precis√£o ou melhor recall. A escolha depender√° de como voc√™ pretende usar o modelo.

Vamos examinar dois exemplos, um em que o recall √© a prioridade e outro em que a precis√£o √© mais importante. Primeiro, imagine que voc√™ trabalha para uma ag√™ncia reguladora da Uni√£o Europeia que auxilia empresas e investidores a navegar por processos de insolv√™ncia. Voc√™ quer construir um modelo para prever quais empresas podem falir, para que possa enviar aos devedores informa√ß√µes sobre como solicitar prote√ß√£o legal antes que a empresa se torne insolvente. Os custos administrativos de enviar informa√ß√µes para uma empresa s√£o de ‚Ç¨500. Os custos legais para o sistema judici√°rio europeu se uma empresa n√£o solicitar prote√ß√£o antes da fal√™ncia s√£o de ‚Ç¨50.000.

Para um modelo como este, queremos focar no **recall**, pois o recall se trata de *quantidade*. Um modelo que prioriza recall lan√ßar√° a rede mais ampla poss√≠vel, o que √© a abordagem ideal para esse problema. Queremos enviar informa√ß√µes para o maior n√∫mero poss√≠vel de empresas que possam falir, pois custa muito menos enviar informa√ß√µes para uma empresa que talvez n√£o se torne insolvente do que ignorar uma que realmente falir√°.

### Exerc√≠cio:
Execute a c√©lula abaixo e use o controle deslizante para alterar o limite de probabilidade do seu modelo. Qual rela√ß√£o voc√™ observa entre as mudan√ßas no limite e as mudan√ßas nos custos administrativos e legais desperdi√ßados? Na sua opini√£o, o que √© mais importante para este modelo: alta precis√£o ou alto recall?

In [None]:
c.show_eu()

Para o segundo exemplo, vamos supor que trabalhamos em uma firma de private equity que compra empresas em dificuldades, as melhora e depois as vende para obter lucro. Voc√™ quer construir um modelo para prever quais empresas v√£o falir para que possa compr√°-las antes dos seus concorrentes. Se a firma compra uma empresa que realmente est√° insolvente, pode lucrar ‚Ç¨100 milh√µes ou mais. Mas se comprar uma empresa que n√£o est√° insolvente e n√£o pode ser revendida com lucro, a firma perder√° ‚Ç¨250 milh√µes.

Para um modelo como este, queremos focar na **precis√£o**. Se estamos tentando maximizar nosso lucro, a *qualidade* de nossas previs√µes √© muito mais importante do que a *quantidade* de nossas previs√µes. N√£o √© um grande problema se n√£o conseguirmos identificar todas as empresas insolventes, mas √© *definitivamente* um grande problema se as empresas que identificamos n√£o acabarem se tornando insolventes.

Desta vez, vamos construir a visualiza√ß√£o juntos.

### Exerc√≠cio:
Crie um painel interativo que mostre como o lucro e as perdas das empresas mudam em rela√ß√£o ao limite de probabilidade do seu modelo. Comece com a fun√ß√£o `make_cnf_matrix`, que deve calcular e imprimir lucros/perdas e exibir uma matriz de confus√£o. Em seguida, crie um `FloatSlider` chamado `thresh_widget` que varia de 0 a 1. Por fim, combine sua fun√ß√£o e o controle deslizante na fun√ß√£o `interact`.

In [None]:
def make_cnf_matrix(threshold):

    pass


thresh_widget = ...

interact(make_cnf_matrix, threshold=thresh_widget);

__Go Further:üí°__ Alguns alunos sugeriram que este widget seria melhor se mostrasse a soma dos lucros e perdas. Voc√™ pode adicionar esse total?

# Comunicar Resultados

Quase l√°! Salve o melhor modelo para que possamos compartilh√°-lo com outras pessoas e, em seguida, junte tudo o que aprendemos na √∫ltima li√ß√£o.

### Exerc√≠cio:
Usando um gerenciador de contexto, salve seu modelo de melhor desempenho em um arquivo chamado `"model-5-4.pkl"`.

In [None]:
# Save model


### Exerc√≠cio:
Abra o arquivo `my_predictor_lesson.py`, adicione as fun√ß√µes `wrangle` e `make_predictions` da √∫ltima li√ß√£o e insira todas as instru√ß√µes de importa√ß√£o necess√°rias no topo do arquivo. Quando terminar, salve o arquivo. Voc√™ pode verificar se o conte√∫do est√° correto executando a c√©lula abaixo.

In [None]:
%%bash

cat my_predictor_lesson.py

Parab√©ns! Voc√™ criou seu primeiro m√≥dulo!

### Exerc√≠cio:
Importe sua fun√ß√£o `make_predictions` do seu m√≥dulo `my_predictor` e use o c√≥digo abaixo para garantir que ela funcione conforme o esperado. Quando estiver satisfeito, envie para o avaliador.

In [None]:
# Import your module


# Generate predictions
y_test_pred = make_predictions(
    data_filepath="data/poland-bankruptcy-data-2009-mvp-features.json.gz",
    model_filepath="model-5-4.pkl",
)

print("predictions shape:", y_test_pred.shape)
y_test_pred.head()