<a href="https://colab.research.google.com/github/JhonnyLimachi/Sigmoidal/blob/main/37_AutoML.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Data Science na Prática 4.0**


---

# Automated Machine Learning (AutoML)



Automated Machine Learning (AutoML) é um tipo de ferramenta que foca em produzir soluções de Machine Learning para um Cientista de Dados de forma mais rápida, facilitando o teste de hipóteses, e acelerando a seleção e otimização de modelos.

Além disso, frameworks de AutoML também podem ajudar Cientistas de Dados com Visualização de Dados, Compreensão e *Deploy* de Modelos de Machine Learning.

AutoML é sobre fazer as tarefas relacionadas ao Machine Learning mais fáceis, usar menos código e evitar fazer o tuning de parâmetros manualmente.

<center><img width="40%" src="https://images.unsplash.com/photo-1625314887424-9f190599bd56?ixlib=rb-1.2.1&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=634&q=80"></center>

Entretanto, é sempre bom lembrar que AutoML não pode substituir a expertise e o feeling do Cientista de Dados, mas apoia o mesmo a se manter em uma distância estratégica do trabalho técnica que lega ao desenvolvimento de um modelo. Em outras palavras, menos código, e mais análise, mais decisões.

Alguns dos principais pacotes open-source de AutoML são:
* auto sklearn
* auto weka
* auto keras
* PyCaret

De uma forma ou de outra, poderíamos entender como AutoML, ou quase, ferramentas como Pandas Profiling, SweetViz e até o Prophet do Facebook. Nem todas as literaturas concordarão com isso, mas essas são bibliotecas que funcionam de forma simplificada, com poucas linhas de código para grandes resultados, agilizando e facilidando o ciclo de vida de um modelo de Machine Learning. Tenha elas em mente também.

## PyCaret e AutoML

Um projeto de Machine Learning é algo que carrega elevado nível de complexidade, e demanda muita concentração, atenção aos detalhes e principalmente, tempo. Precisamos saber muito bem como tratar nossos dados, escolher e treinar modelos, avaliar resultados, e tudo isso consome muito tempo, e acaba abrindo margem para erros.

Com isso em mente, utilizaremos aqui o framework de Auto Machine Learning **PyCaret**.

<p align="center"><img src="https://pycaret.org/wp-content/uploads/2020/03/Divi93_43.png" width="60%"></p>

PyCaret é uma biblioteca *open-source* e *low-code* de Python que tem como objetivo reduzir o templo entre o ciclo entre uma hipótese e insights em experimentos com Machine Learning.

O PyCaret possibilita que Cientistas de Dados completem experimentos de ponta a ponta de forma rápida e eficiente. Em comparação com outras bibliotecas do tipo, o PyCaret traz o diferencial de ser *low-code*, isto é, demanda pouco código para que opere de forma robusta. Todas as operações realizadas com o PyCaret estão carregadas em um pipeline que está pronto para o deploy. Basicamente, o PyCaret é um pacote low-code que engloba diversas bibliotecas e frameworks de Machine Learning como scikit-learn, XGBoost, Microsoft LightGBM, spaCy e muito mais.

## Os Projetos deste Módulo

Neste módulo, teremos quatro projetos, sendo três deles utilizando o PyCaret, e um o Prophet, a biblioteca low-code para previsão de séries temporais desenvolvido pelo Facebook.

Séries Temporais são um outro bicho, então teremos um material separado e específico para isso.

Em relação ao PyCaret, podemos facilmente desenvolver projetos nas linhas de:

* Regressão
* Classificação
* Clustering

Isso pode causar certo estranhamento. Até aqui (e provavelmente nos próximos módulos) temos somente um projeto por módulo. Por que aqui teremos mais? A resposta é simples: AutoML!

Utilizaremos aqui diferentes ferramentas que nos ajudam a entender, desenvolver e rodar esses projetos de forma mais rápida, testando hipóteses, manipulando modelos, e por isso, conseguiremos fazer mais projetos do que normalmente conseguiríamos sem a ajuda dessas ferramentas.

Neste notebook, iremos aprender a utilizar dessas ferramentas para criar um projeto, e então utilizaremos templates para que vocês possam desenvolver os projetos de vocês do zero!

## Dicionário de Variáveis

**The Boston Housing Dataset**
<center><img width="70%" src="https://images.unsplash.com/photo-1603298108410-e6f28ad2708d?ixlib=rb-1.2.1&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1191&q=80"></center>

O Boston Housing Dataset é derivado de informações coletadas pelo *U.S. Census Service* sobre *housing* na área de Boston/MA. O objetivo desse projeto é utilizar as informações que temos para prever o preço de venda das casas.

As informações coletadas foram:

* CRIM - índice de crime per capita por cidade
* ZN - proporção de zonas de áreas de residenciais por lotes com mais de 25,000 sq.ft. (=~ 2300 m2)
* INDUS - proporção de acres de negócios não varejistas por cidade.
* CHAS - variável dummy para o Charles River (1 if tract bounds river; 0 otherwise)
* NOX - concentração de óxido nítrico (partes por 10 milhões)
* RM - média de quartos por habitação
* AGE - proporção de unidades ocupadas pelos proprietários construiídas antes de 1940
* DIS - distância ponderada de 5 centros de emprego de Boston
* RAD - índice de acessibilidade a rodovias
* TAX - índice do valor cheio de imposto sobre propriedade por 10,000 dólares.
* PTRATIO - proporção entre alunos e professores por cidade
* B - 1000(Bk - 0.63)^2 onde Bk é a proporção de pessoas negras por cidade
* LSTAT - porcentagem da população em status inferior
* MEDV - valor de casas ocupadas pelos proprietários em milhares de dólares.

Como já sabemos, o primeiro passo é importar o Pandas, e carregar nosso conjunto de dados em um dataframe.

In [1]:
# importando pacotes necessários
import pandas as pd

# carregando o conjunto de dados
df = pd.read_csv('https://raw.githubusercontent.com/rafaelnduarte/sigmoidal_data/master/HousingData.csv')

In [2]:
# verificando os dados
print("Linhas: ",df.shape[0],"\nVariáveis: ", df.shape[1])
df.head()

Linhas:  506 
Variáveis:  14


Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,,36.2


## **Pandas Profiling**

Para nossa análise, iremos utilizar o **Pandas Profiling**, já apresentado na aula anterior.

Essa biblioteca nos ajuda a realizar análises de forma mais fácil e prática, podendo no salvar muito tempo!

De qualquer forma, é importante abordar essa biblioteca com cautela, sempre garantindo sua integridade e verificando que tudo faz sentido. Por isso, simplesmente conseguir plotar esse relatório não te fará um Cientista de Dados. Entender o que está por trás dele, o que ele representa, e como agir frente a isso, sim!

Por isso, isso é uma ferramenta para ajudar o Cientista de Dados a ter celeridade em seus projetos, e não um substituto para o próprio, nem vai evitar que você precise aprender estatística, probabilidade, análise e visualização de dados, mas ajudar você a ganhar reprodutibilidade, celeridade e praticidade no seu dia a dia de trabalho como Cientista de dados.

Caso durante a sua execução você tenha um erro com o Pandas Profiling, tire o comentário da célula abaixo, e atualize o pandas_profiling.

Vamos lá!

In [3]:
!pip install pandas_profiling -q --upgrade

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/324.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━[0m [32m174.1/324.4 kB[0m [31m5.0 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m324.4/324.4 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m357.9/357.9 kB[0m [31m10.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m104.8/104.8 kB[0m [31m10.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m686.1/686.1 kB[0m [31m12.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m293.3/293.3 kB[0m [31m13.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m296.5/29

In [None]:
# importar as bibliotecas necessárias
from pandas_profiling import ProfileReport

In [None]:
# criar ProfileReport
report = ProfileReport(df)

In [None]:
# criar visualização iframe
report.to_notebook_iframe()

## Instalando o PyCaret

Por padrão, o PyCaret não faz parte do conjunto de bibliotecas pré-instaladas do Google Colab. Por isso, é importante que sempre que formos trabalhar com ele por aqui, façamos a instalação da lib.

In [22]:
# instalando a biblioteca
!pip install pycaret -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m485.9/485.9 kB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.1/12.1 MB[0m [31m28.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m160.5/160.5 kB[0m [31m15.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m258.0/258.0 kB[0m [31m26.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.9/81.9 kB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.1/194.1 kB[0m [31m21.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m7.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m106.8/106.8 kB[0m [31m

Para evitar vazamento de dados, vamos separar aqui um conjunto de dados nunca antes visto pelo modelo, para que possamos garantir que os dados em que vamos prever serão realmente novos.

In [23]:
# separando os dados em teste e treino
test = df.sample(frac=0.10)
train = df.drop(test.index)

test.reset_index(inplace=True, drop=True)
train.reset_index(inplace=True, drop=True)

Feito isso, podemos verificar a integridade e tamanho dos conjuntos.

In [None]:
# verificando o formato dos conjuntos
print(train.shape)
print(test.shape)

## Fazendo o Setup

A função `setup()` inicializa o ambiente no PyCaret e cria o pipeline de transformação para preparar os dados para modelagem e deploy.


Após a importação, a função `setup()` deve ser chamada antes de qualquer outra função do PyCaret ser executada. Ela recebe dois parâmetros obrigatórios: Um dataframe do pandas e o nome da coluna alvo. Todos os outros parâmetros são opcionais, e são usados para customizar o pipeline de pré-processamento.

Ao executar o `setup()`, o PyCaret vai inferir automaticamente o tipo de cada variável baseado em algumas propriedades. Normalmente, a inferência é feita corretamente mas não é o caso todas as vezes. Por isso, o PyCaret oferece uma tabela mostrando as features e seus tipos inferidos, após a execução do `setup()`. Caso todos os tipos estejam corretos, podemos seguir em frente apertando a tecla enter. Caso contrário, deve-se digitar `quit` no espaço disponibilizado.

Garantir que os tipos de dados estejam corretos é fundamental para o PyCaret, pois ele executa automaticamente alguns pré-processamentos que são necessários para problemas de Machine Learning. Essas técnicas são executadas diferentemente para cada tipo de dados, por isso é essencial que sejam corretamente configurados.