Esse notebook é uma tradução do [artigo](https://towardsdatascience.com/a-complete-machine-learning-walk-through-in-python-part-three-388834e8804b) originalmente escrito por [William Koehrsen](https://twitter.com/koehrsen_will) no site [Towards Data Science](https://towardsdatascience.com)

# Um projeto completo de aprendizado de máquina em Python - Parte 3

Os modelos de aprendizado de máquina são frequentemente criticados como [caixas-pretas](https://datascience.stackexchange.com/questions/22335/why-are-machine-learning-models-called-black-boxes): colocamos os dados de um lado e recebemos as respostas - geralmente respostas muito precisas - sem explicações do outro. Na terceira parte desta série, que mostra uma solução completa de aprendizado de máquina, veremos o modelo que desenvolvemos para tentar entender como ele faz previsões e o que pode nos ensinar sobre o problema. Vamos encerrar discutindo talvez a parte mais importante de um projeto de aprendizado de máquina: documentar nosso trabalho e apresentar resultados.

A [primeira parte](https://github.com/willsilvano/datascience/blob/master/Towards%20DataScience/Energy%20New%20York%20-%20Part%20One.ipynb) da série cobriu a limpeza de dados, a análise exploratória de dados, a engenharia de features e a seleção de features. A [parte dois](https://github.com/willsilvano/datascience/blob/master/Towards%20DataScience/Energy%20New%20York%20-%20Part%20Two.ipynb) cobriu a imputação de valores ausentes, implementação e comparação de modelos de aprendizado de máquina, ajuste de hiperparâmetros usando pesquisa aleatória com validação cruzada e avaliando um modelo.

Relembrando, estamos trabalhando em um problema de aprendizado de máquina de regressão supervisionada. Usando os [dados de energia de edifícios de Nova York](http://www.nyc.gov/html/gbee/html/plan/ll84_scores.shtml), desenvolvemos um modelo que pode prever a pontuação Energy Star de um edifício. O modelo final que construímos é um [Gradient Boosted Regressor](http://blog.kaggle.com/2017/01/23/a-kaggle-master-explains-gradient-boosting/), que é capaz de prever o Energy Star Score nos dados de testecom um erro de de 8.5 pontos (em uma escala de 1 a 100).


# Interpretação do Modelo

O gradient boosted regressor está em algum lugar no meio da [escala de interpretabilidade do modelo](https://2.bp.blogspot.com/-AL1LsaTHVNQ/Wh589GDwkaI/AAAAAAAAaxc/nwpqKEUIgXokRxt75nzgzQz00IRqH68PACLcBGAs/s1600/B2G1g0UIMAEieiR.png): o modelo inteiro é complexo, mas é composto de centenas de [árvores de decisão](https://en.wikipedia.org/wiki/Decision_tree_learning), que por si só são bastante compreensíveis. Vamos ver três maneiras de entender como nosso modelo faz previsões:

1. [Importâncias das features](http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html)
2. Visualizando uma única árvore de decisão
3. [LIME: Explicações de modelo agnóstico local interpretável](https://github.com/marcotcr/lime)

Os dois primeiros métodos são específicos para conjuntos de árvores, enquanto o terceiro - como você pode ter adivinhado pelo nome - pode ser aplicado a qualquer modelo de aprendizado de máquina. O LIME é um pacote relativamente novo e representa um passo empolgante no esforço contínuo para [explicar as previsões de aprendizado de máquina](https://pdfs.semanticscholar.org/ab4a/92795ee236632e6dbbe9338ae99778b57e1e.pdf).
