# Coronavírus RS

Os dados foram coletados para apresentar os principais dados epidemiológicos da COVID-19 no Rio Grande do Sul.

São utilizados como fontes os dois sistemas de notificações oficiais do Ministério da Saúde no monitoramento da doença: o e-SUS Notifica e o Sistema de Informação da Vigilância Epidemiológica da Gripe (Sivep-Gripe).

O e-SUS Notifica (que antes era chamado de e-SUS VE) é a ferramenta na qual são notificados os casos de síndrome gripal (SG) que não precisam de internação hospitalar. Casos de SG atendidos em Unidades Sentinelas são notificados no SIVEP-Gripe (Síndrome Gripal). Nos casos em que a pessoa apresenta quadro mais grave da infecção (Síndrome Respiratória Aguda Grave – SRAG) e é necessária a hospitalização, a notificação é feita no SIVEP-Gripe (SRAG Hospitalizado)..

Ambos os sistemas são utilizados pelos serviços de saúde públicos e privados e pelas secretarias municipais de saúde para realização das notificações e monitoramento dos casos e seus contactantes (sintomas, exames realizados, resultados, evolução, entre outros).

Os casos confirmados de COVID-19 nos sistemas são diariamente identificados pela Secretaria Estadual da Saúde (SES) e publicados no painel, sendo utilizados os seguintes critérios de confirmação, conforme protocolos vigentes: laboratorial, clínico-epidemiológico, clínico-imagem e clínico.

#### Caso confirmado de COVID-19 por critério laboratorial:
- Resultado detectável para SARS-CoV-2 realizado pelo método RT-PCR, que detecta em amostra de secreções das vias aéreas (nariz e garganta) o vírus SARS-CoV-2, causador da COVID-19.

- Resultado reagente em teste de antígeno imunocromatográfico oude imunofluorescência que detecta o vírus SARS-CoV-2.

- Resultado reagente em testes sorológicos (testes rápidos de anticorpos, eletroquimioluminescência, ensaio imunoenzimático, entre outros), que identificam anticorpos produzidos pelo organismo em resposta à infecção pelo SARS-CoV-2.

#### Caso confirmado de COVID-19 por critério clínico-epidemiológico:
Caso de SG ou SRAG, sem confirmação laboratorial, com histórico de contato próximo ou domiciliar, nos 14 dias anteriores ao aparecimento dos sinais e sintomas, com caso confirmado laboratorialmente para COVID-19.

#### Caso confirmado de COVID-19 por critério clínico-imagem:
Caso de SG ou SRAG ou óbito por SRAG que não foi possível confirmar por critério laboratorial e que apresente alterações tomográficas indicativas de infecção por SARS-CoV-2.

#### Caso confirmado de COVID-19 por critério clínico:
Caso de SG ou SRAG associado à anosmia (disfunção olfativa) ou ageusia (disfunção gustatória) aguda sem outra causa pregressa e que não foi possível encerrar por outro critério de confirmação.

#### Casos em acompanhamento e recuperados:
Os casos em acompanhamento e recuperados são estimados por meio de um cálculo composto que leva em consideração os casos notificados com confirmação de COVID-19.

**RECUPERADOS:** inclui os casos leves e moderados de SG com início dos sintomas há mais de 14 dias, que não hospitalizaram e não evoluíram para óbito, e o número de pacientes com SRAG hospitalizados com registro de alta no SIVEP-Gripe.

As colunas DATA DE EVOLUÇÃO e DATA DE EVOLUÇÃO ESTIMADA nos dados de exportação deste painel refletem as informações coletadas de acordo com os critérios acima. Na coluna DATA DE EVOLUÇÃO consta a informação registrada pelo estabelecimento de saúde nos sistemas oficiais, já a coluna DATA DE EVOLUÇÃO ESTIMADA segue os critérios pré-estabelecidos para os casos leves e moderados ou por falta de preenchimento dos registros com alta hospitalar.

#### Óbito:
Caso de Síndrome Respiratória Aguda Grave (SRAG) confirmado para Covid-19 cuja infecção pelo coronavírus foi associada ao óbito.

#### Fontes:
Guia de Vigilância Epidemiológica - https://www.saude.gov.br/images/af_gvs_coronavirus_6ago20_ajustes-finais-2.pdf
Brasil - www.covid.saude.gov.br - Ministério da Saúde
*População: Estudo de Estimativas populacionais por município, sexo e idade - 2000-2020. Disponível em https://datasus.saude.gov.br/populacao-residente/

--------------------
## Sobre os dados

Os dados que iremos trabalhar foram tratados e balanceados para o objetivo que será fazer uso de modelagem para classificar qual a chance do paciente ter obito ou recuperação.

Caso deseja analisa todos os dados sem tratamento, [clique aqui](https://ti.saude.rs.gov.br/covid19/download).


### Dicionário de Dados

|Features|Description|
|:--------|:-----------|
|SEXO	|Sexo |
|FAIXAETARIA |	Faixa Etária |
|EVOLUCAO	  | Descrição da evolução |
|FEBRE	      | Sintomas de febre |
|TOSSE	      |  Sintomas de tosse |
|GARGANTA	|Sintomas de dor de garganta |
|DISPNEIA	|Sintomas de dor de dispnéia/falta de ar |
|GESTANTE	|Paciente é gestante |
|RACA_COR	|Raça/Cor |

In [None]:
import pandas as pd

In [None]:
# Atraves da biblioteca pandas vamos importar o dataset covid_aluno.csv que se encontra dentro da pasta data.
# Vamos atribuir o dataset a uma variavel chamada df_raw


In [None]:
# Vamos usar o função head do pandas para exibir parte do nosso dataset


A coluna "Unnamed: 0" representa a linha do dados antes do tratamento/analise de dados. Entendemos que não é uma coluna importante e iremos remover.

In [None]:
# Como descrito acima, vamos remover a coluna 'Unnamed: 0' do nosso dataset



Como os dados foram tratados, iremos certificar se não temos dados null...

Será possivel observsar que algumas features irão aparecer valores "NAO INFORMADO", não iremos desconsiderar, pois o modelo irá trabalhar com paciente quando não contem a informação.

In [None]:
# Com a coluna removida, qual a função do pandas que podemos visualizar se temos dados null



## Visualização/Transformação dos dados

In [None]:
# Temos o conhecimento que o nosso modelo decision tree trabalhar com dados numericos
# Nosso dataset contem dados numericos? Como podemos verificar utilizando uma função do pandas?



In [None]:
df_raw.describe()

## Pandas Profiling

`pandas-profiling` gera relatórios de perfil de um DataFrame pandas. A função pandas `df.describe()` é útil, mas um pouco básica para análise exploratória de dados. `pandas-profiling` estende o DataFrame do pandas com `df.profile_report()`, que gera automaticamente um relatório univariado e multivariado padronizado para compreensão dos dados.

Para cada coluna, as seguintes informações (sempre que relevantes para o tipo de coluna) são apresentadas em um relatório HTML interativo:

- **Inferência de tipo:** detectar os tipos de colunas em um DataFrame
- **Essentials:** tipo, valores exclusivos, indicação de valores ausentes
- **Estatísticas quantílicas:** valor mínimo, Q1, mediana, Q3, máximo, intervalo, intervalo interquartil
- **Estatística descritiva:** média, moda, desvio padrão, soma, desvio absoluto mediano, coeficiente de variação, curtose, assimetria
- **Valores mais frequentes e extremos**
- **Histogramas:** categóricos e numéricos
- **Correlações:** avisos de alta correlação, com base em diferentes métricas de correlação (Spearman, Pearson, Kendall, V de Cramér, Phik)
- **Valores ausentes:** por meio de contagens, matriz, mapa de calor e dendrogramas
- **Linhas duplicadas:** lista das linhas duplicadas mais comuns
- **Análise de texto:** categorias mais comuns (maiúsculas, minúsculas, separadores), scripts (latim, cirílico) e blocos (ASCII, cirílico)
- **Análise de arquivos e imagens:** tamanhos de arquivos, datas de criação, dimensões, indicação de imagens truncadas e existência de metadados EXIF

O relatório contém três seções adicionais:
- **Visão geral:** detalhes principalmente globais sobre o conjunto de dados (número de registros, número de variáveis, falta geral e duplicatas, espaço de memória)
- **Alertas:** uma lista abrangente e automática de possíveis problemas de qualidade de dados (alta correlação, assimetria, uniformidade, zeros, valores ausentes, valores constantes, entre outros)
- **Reprodução:** detalhes técnicos sobre a análise (tempo, versão e configuração)

O pacote pode ser usado via código, mas também diretamente como um utilitário CLI. O relatório interativo gerado pode ser consumido e compartilhado como HTML normal ou incorporado de forma interativa dentro dos Jupyter Notebooks.


[Instalando o pandas-profiling](https://pandas-profiling.ydata.ai/docs/master/pages/getting_started/installation.html)

In [None]:
"""
Agora que falamos um pouco sobre o pandas_profiling vamos instalar o pacote e criar uma primeira visualização

Objetivo:
- criar uma exportação em HTML dos dados dentro da pasta data/reports
- gerar o seguintes nome para o arquivo "covid-prediction.html"
- criar um titulo "COVID - Prediction"
"""



In [None]:
"""
Fizemos a analise do arquivo covid-prediction.html e temos a necessidade transformar dados para o nosso modelo.
Para não correr um risco e trabalharmos com versionamento, vamos criar uma copia do df_raw para a variavel df
"""



## OrdinalEncoder

O OrdinalEncoder() substitui as categorias por dígitos, começando de 0 a k-1, onde k é o número de categorias diferentes. Se você selecionar “arbitrary” no **encoding_method**, o codificador atribuirá números conforme os rótulos aparecem na variável (primeiro a chegar, primeiro a ser servido). Se você selecionar “ordenado”, o codificador atribuirá números seguindo a média do valor alvo para esse rótulo. Portanto, rótulos para os quais a média do alvo é maior receberão o número 0, e aqueles em que a média do alvo for menor receberão o número k-1. Dessa forma, criamos uma relação monotônica entre a variável codificada e o alvo.


```encoder = OrdinalEncoder(encoding_method='ordered', variables=['pclass', 'cabin', 'embarked'])```


In [None]:
from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder()
df['SEXO'] = encoder.fit_transform(pd.DataFrame(df['SEXO']))
df['FAIXAETARIA'] = encoder.fit_transform(pd.DataFrame(df['FAIXAETARIA']))
df['EVOLUCAO'] = encoder.fit_transform(pd.DataFrame(df['EVOLUCAO']))
df['FEBRE'] = encoder.fit_transform(pd.DataFrame(df['FEBRE']))
df['TOSSE'] = encoder.fit_transform(pd.DataFrame(df['TOSSE']))
df['GARGANTA'] = encoder.fit_transform(pd.DataFrame(df['GARGANTA']))
df['DISPNEIA'] = encoder.fit_transform(pd.DataFrame(df['DISPNEIA']))
df['GESTANTE'] = encoder.fit_transform(pd.DataFrame(df['GESTANTE']))
df['RACA_COR'] = encoder.fit_transform(pd.DataFrame(df['RACA_COR']))

df.head()

In [None]:
"""
Transformamos os dados!
Vamos ver como ficou analisando no pandas_profiling

Objetivo:
- criar uma exportação em HTML dos dados dentro da pasta data/reports
- gerar o seguintes nome para o arquivo "covid-prediction-encoder.html"
- criar um titulo "COVID - Prediction (Encoder)"
"""



## Análise exploratória

In [None]:
## Ops... está execução irá apresentar um erro! 
plt.figure(figsize=(15, 5))

data = df_raw[df_raw['EVOLUCAO'] == 'RECUPERADO']['FAIXAETARIA'].value_counts().sort_index()
sns.lineplot(data=data)

data = df_raw[df_raw['EVOLUCAO'] == 'OBITO']['FAIXAETARIA'].value_counts().sort_index()
sns.lineplot(data=data)

plt.title('COVID - Prediction')
plt.show()

In [None]:
plt.figure(figsize=(15, 5))

data = df_raw[['FAIXAETARIA', 'EVOLUCAO']].sort_values(by=['FAIXAETARIA'], ascending=True)
sns.countplot(x ='FAIXAETARIA', hue = "EVOLUCAO", data = data)

plt.title('FAIXAETARIA');

In [None]:
plt.figure(figsize=(10, 5))

sns.countplot(x ='FEBRE', hue = "EVOLUCAO", data = df_raw);
plt.title('FEBRE');

In [None]:
plt.figure(figsize=(10, 5))

sns.countplot(x ='TOSSE', hue = "EVOLUCAO", data = df_raw);
plt.title('TOSSE');

In [None]:
plt.figure(figsize=(10, 5))

sns.countplot(x ='GESTANTE', hue = "EVOLUCAO", data = df_raw);
plt.title('GESTANTE');

In [None]:
plt.figure(figsize=(10, 5))

sns.countplot(x ='RACA_COR', hue = "EVOLUCAO", data = df_raw);
plt.title('RACA_COR');

Como foi possivel observar as colunas abaixo contém uma alta correlação com a nossa variavel target.

## Features

Features são variáveis individuais e independentes que medem uma propriedade ou característica da tarefa. Escolher recursos informativos, discriminativos e independentes é a primeira decisão importante na implementação de qualquer modelo. No ML clássico, é nossa responsabilidade criar e escolher alguns recursos úteis dos dados, enquanto no aprendizado profundo moderno, os recursos são aprendidos automaticamente com base no algoritmo subjacente.

In [None]:
"""
Vamos separar os nossos dados!

Objetivos:
- Em uma variavel df_features iremos manter todas as colunas com excessão da EVOLUCAO que é a nossa target
- Em uma variavel df_classes iremos manter somente a coluna EVOLUCAO

Como podemos fazer?
"""



## Conjuntos de Holdout (Retenção)

O método de retenção para treinar um modelo de aprendizado de máquina é o processo de dividir os dados em diferentes divisões e usar uma divisão para treinar o modelo e outras divisões para validar e testar os modelos.

![Alt text](data/imgs/holdout.png)

Quando todos os dados são usados ​​para treinar o modelo usando algoritmos diferentes, o problema de avaliar os modelos e selecionar o modelo mais ideal permanece. A principal tarefa é descobrir qual modelo de todos os modelos tem o menor erro de generalização. Em outras palavras, qual modelo faz uma previsão melhor em conjuntos de dados futuros ou não vistos do que todos os outros modelos. É aqui que surge a necessidade de ter algum mecanismo em que o modelo seja treinado em um conjunto de dados e testado em outro conjunto de dados.

O método hold-out para avaliação do modelo representa o mecanismo de divisão do conjunto de dados em conjuntos de dados de treinamento e teste. O modelo é treinado no conjunto de treinamento e, em seguida, testado no conjunto de teste para obter o modelo mais ideal.

Essa abordagem tem a vantagem de ser simples de implementar, mas pode ser sensível à forma como os dados são divididos em dois conjuntos. Se a divisão não for aleatória, os resultados podem ser tendenciosos. No geral, o método hold out para avaliação de modelos é um bom ponto de partida para treinar modelos de aprendizado de máquina, mas deve ser usado com cautela.

In [None]:
"""
Agora que entendemos um pouco mais do processo de validação holdout, 
Vamos separar nosso dados df_features, df_classes nas seguintes variaveis X_train, X_test, y_train, y_test 
com os parametros test_size=0.3, random_state=15
"""



In [None]:
# Se a executação da proxima linha apresentar uma mensagem de erro, 
# possivelmente seja devido ausencia do pacote mlxtend

# !pip install mlxtend

In [None]:
from sklearn.metrics import confusion_matrix, classification_report
from mlxtend.plotting import plot_decision_regions, plot_confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_curve, auc

def cal_accuracy(y_test, y_predict): 
    plot_confusion_matrix(confusion_matrix(y_test, y_predict))
 
    false_positive_rate, true_positive_rate, thresholds = roc_curve(y_test, y_predict)
    roc_auc = auc(false_positive_rate, true_positive_rate)
    
    print (f"\nAccuracy    : {accuracy_score(y_test,y_predict)*100:0.3f}")
    print (f"Accuracy ROC: {roc_auc*100:0.3f}")
    
    print ("\n")
    print(classification_report(y_test, y_predict))
    

## Decision Tree

Todos nós usamos a técnica da Árvore de Decisão diariamente para planejar nossa vida, apenas não damos um nome sofisticado a esse processo de tomada de decisão.

Árvores de Decisão, ou Decision Trees, são algoritmos de machine learning largamente utilizados, com uma estrutura de simples compreensão e que costumam apresentar bons resultados em suas previsões.

Eles também são a base do funcionamento de outros poderosos algoritmos, como o Random Forest.

As decision trees estão entre os primeiros algoritmos aprendidos por iniciantes no mundo do aprendizado de máquina.

Antes de entrarmos nos detalhes deste algoritmo, vamos entender de maneira simplificada o seu funcionamento. Apesar do grande poder de previsão de uma árvore de decisão, conhecer o seu funcionamento básico é algo muito simples e fácil.

Mesmo quem está começando na área já será capaz de obter este entendimento.

### Estrutura de uma árvore de decisão

Como o próprio nome sugere, neste algoritmo vários pontos de decisão serão criados. Estes pontos são os “nós” da árvore e em cada um deles o resultado da decisão será seguir por um caminho, ou por outro. Os caminhos existentes são os “ramos”.

Esta é a estrutura básica de uma árvore de decisão. Os nós são responsáveis pelas conferências que irão indicar um ramo ou outro para sequência do fluxo.

Detalhando ainda mais esta lógica, uma pergunta será feita e teremos duas opções de resposta: sim ou não. A opção “sim” levará a uma próxima pergunta, e a opção “não” a outra.

Estas novas perguntas também terão como opções de resposta o sim e não, e desta forma toda a árvore será construída, partindo de um ponto comum, podendo existir várias opções de caminhos diferentes a serem percorridos na árvore, cada um levando a um resultado.


Na imagem abaixo vemos uma árvore de decisão extremamente simples, apenas com dois nós e poucos ramos.


![Alt text](data/imgs/decision-tree-praia.png)

É claro que, em uma situação como esta, não será necessário um algoritmo que nos diga se iremos a praia ou não, mas a ideia é válida para este aprendizado. Entendendo como esta árvore foi criada, você entenderá a lógica de uma árvore de decisão.

![Alt text](data/imgs/decision-tree-praia-ds.png)

Esta é a tabela que levou à criação da árvore apresentada. Como podemos ver, todas as vezes em que a coluna “Sol?” é igual a “Não”, a pessoa não foi para praia.

Esta coluna foi utilizada na primeira pergunta, ou no primeiro nó de nossa árvore, sendo que sempre que a informação na coluna “Sol?” for “Não”, nossa árvore de decisão responderá que a pessoa não foi para praia.

Porém quando esta resposta for “Sim”, temos casos onde a pessoa foi para praia e outros em que ela não foi.

Ou seja, é necessário fazermos mais uma pergunta para definirmos a resposta, levando assim a segunda pergunta, ou segundo nó de nossa árvore, que irá conferir a informação existente na coluna “Vento?”.

É importante observamos que esta mesma tabela poderia levar a construção de uma árvore diferente. Se primeiramente conferirmos o valor da variável “Vento?” veremos que em todos os dias com vento não fomos para praia.

Em dias sem vento, conferimos também se havia sol, para então definir a resposta final.

![Alt text](data/imgs/decision-tree-praia-vento.png)

Neste simples exemplo vemos que normalmente não existirá uma única árvore de decisão para um mesmo problema, sendo que com diferentes árvores poderemos chegar a um mesmo resultado.


### Definindo os nós e ramos

Assim como podemos ter mais de uma árvore para um mesmo problema, também podemos utilizar diferentes métodos de cálculo na criação de uma árvore de decisão.

Estes métodos são os responsáveis pela definição da estrutura e resultado final da árvore, e tentam buscar a estrutura mais otimizada para o problema em questão.

![](data/imgs/decision-tree-praia-sim-nao.png)

Imagine que, em nosso exemÁrvore de decisão com um nóplo anterior, os dados fossem um pouco diferentes, sendo que em todos os dias de sol fomos para a praia, e em dias sem sol, não fomos.

Nesta situação, a árvore não precisaria conferir se existe vento ou não, pois independente desta informação o resultado seria o mesmo. Ou seja, nossa variável target “Vou para praia?” seria totalmente explicada pela variação da variável preditora “Sol?”, resultando em uma árvore com apenas um nó.

Os métodos utilizados pelos algoritmos irão buscar justamente estas variáveis dentre todas as preditoras, identificando aquelas que possuem maior relação com a variável target, e colocando-as no topo da árvore, em seus nós principais.

### Entropia 
Através da entropia o algoritmo verifica como os dados estão distribuídos nas variáveis preditoras de acordo com a variação da variável target. Quanto maior a entropia, maior a desordem dos dados; e quanto menor, maior será a ordem destes dados, quando analisados pela ótica da variável target.

Partindo da entropia, o algoritmo confere o ganho de informação de cada variável. Aquela que apresentar maior ganho de informação será a variável do primeiro nó da árvores.

<!-- ![](data/imgs/Entropy_3.png) -->

Podemos entender o ganho de informação como a medida de quão bem relacionados os dados da variável preditora estão com os dados da variável target (ou o quanto a variável target pode ser explicada a partir da variável preditora), sendo que a variável com melhor desempenho será a escolhida para iniciar a árvore.

### Índice GINI
Com o cálculo do índice GINI, assim como na Entropia, será verificada a distribuição dos dados nas variáveis preditoras de acordo com a variação da variável target, porém com um método diferente.

A variável preditora com o menor índice Gini será a escolhida para o nó principal da árvore, pois um baixo valor do índice indica maior ordem na distribuição dos dados.

### Overfitting

Cada novo nó inserido na árvore é um novo critério que deve ser atendido. Ou seja, as amostras são divididas em cada nó, sendo que uma parte segue por um ramo, e a outra por outro. Desta forma é evidente que cada um destes novos nós receberá menos amostras que o anterior, pois o total de amostras que estava no nó anterior foi dividido em dois grupos.

Esta lógica poderá continuar até que não existam mais critérios capazes de dividir as amostras em diferentes grupos. Neste momento teremos uma árvore de decisão completa, capaz de identificar cada amostra com a condição exata que a define.

Podemos utilizar Previsões com Overfitting na árvore como esta para conhecer os dados em questão e entender seu relacionamento, porém normalmente ao utilizar um modelo de machine learning para prever novos valores a abordagem será diferente, visando garantir a não ocorrência de overfitting.

Um modelo com overfitting é aquele que aprendeu muitos detalhes dos dados históricos que foram utilizados para treinar o modelo.

Na prática, o modelo acabou decorando as condições, de maneira que ao receber novos dados, que costumam possuir relacionamentos similares mas não iguais, estas pequenas diferenças farão o modelo não encontrar as condições exatas que ele decorou, e, por consequência, sua previsão estará errada.

Em uma árvore de decisão, é comum definirmos um número mínimo de amostras para cada novo nó, ou ainda um número máximo de nós para cada ramo. Assim, mesmo que as amostras de um ramo sejam suficientes para criação de um novo nó, caso o número de amostras seja inferior ao que definimos, ou o número máximo de nós do ramo já tenha sido atingido, o nó não será criado, de modo que todas as amostras que estão neste ramo receberão o mesmo resultado.

Com isso, talvez nossos erros aumentem, porém ao apresentar novos dados ao modelo, a probabilidade de uma previsão correta poderá ser maior.

Estas alternativas visam a construção de modelos generalizáveis, que podem ser aplicados em diferentes bases de dados, mantendo bons resultados.

<p style='text-align: right; font-size: 10px; color: #CCC'>Fonte: https://didatica.tech/como-funciona-o-algoritmo-arvore-de-decisao</p>

In [None]:
from sklearn.tree import DecisionTreeClassifier 

model_decision_tree = DecisionTreeClassifier(criterion='gini', max_depth=3)
model_decision_tree.fit(X_train,y_train);

In [None]:
from sklearn import tree
from graphviz import Source
from sklearn.tree import export_graphviz

from IPython.display import display, Image

dot_data = tree.export_graphviz(model_decision_tree, 
                                feature_names = list(X_train), class_names = ['0', '1'], 
                                out_file = None,
                                rounded=True,
                                filled=True
                               ) 
Source(dot_data)

In [None]:
y_predict = model_decision_tree.predict(X_test)

cal_accuracy(y_test, y_predict)

## Random Forests

RandomForest é um algoritmo de aprendizado supervisionado. Pode ser usado tanto para classificação quanto para regressão. É também o algoritmo mais flexível e fácil de usar. A floresta é composta de árvores. Diz-se que quanto mais árvores tem, mais robusta é a floresta. RandomForest criam árvores de decisão em amostras de dados selecionadas aleatoriamente, obtém previsões de cada árvore e seleciona a melhor solução por meio de votação. Ele também fornece um bom indicador da "feature importance.".

RandomForest têm uma variedade de aplicações, como mecanismos de recomendação, classificação de imagens e seleção de recursos. Ele pode ser usado para classificar candidatos a empréstimos, identificar atividades fraudulentas e prever doenças.

### Como funciona o algoritmo?

Algumas etapas:
- Selecione amostras aleatórias do conjunto de dados.
- Constrói uma árvore de decisão para cada amostra e obtem um resultado de previsão de cada árvore de decisão.
- Realize uma votação para cada resultado previsto.
- Selecione o resultado da previsão com mais votos como a previsão final.

![Alt text](data/imgs/voting_dnjweq.webp)


**Vantagens:**
- Random forests são consideradas um método altamente preciso e robusto devido ao número de árvores de decisão que participam do processo.
- Não sofre do problema de overfitting. A principal razão é que leva a média de todas as previsões, o que cancela os vies.
- O algoritmo pode ser usado em problemas de classificação e regressão.
- Random forests também podem lidar com valores ausentes. Há duas maneiras de lidar com isso: usando valores medianos para substituir variáveis contínuas e calculando a média ponderada de proximidade de valores ausentes.
- Podemos obter a importância relativa do features, o que ajuda a selecionar os recursos que mais contribuem para o classificador.

**Desvantagens:**
- Random forests são lentas na geração de previsões porque possuem várias árvores de decisão. Sempre que faz uma previsão, todas as árvores na floresta precisam fazer uma previsão para a mesma entrada fornecida e, em seguida, realizar a votação nela. Todo esse processo é demorado.
- O modelo é difícil de interpretar em comparação com uma árvore de decisão, onde você pode facilmente tomar uma decisão seguindo o caminho na árvore.

![Alt text](data/imgs/random_forests.png)

### Random Forests vs Decision Trees

- Random forests são um conjunto de múltiplas árvores de decisão.
- Decision trees profundas podem sofrer de overfitting, mas Random forests evitam overfitting criando árvores em subconjuntos aleatórios.
- Decision trees são computacionalmente mais rápidas.
- Random forests são difíceis de interpretar, enquanto uma Decision trees é facilmente interpretável e pode ser convertida em regras.

In [None]:
from sklearn.ensemble import RandomForestClassifier

rfc=RandomForestClassifier(n_estimators=100, max_depth=3)
rfc.fit(X_train,y_train);

In [None]:
y_predict = rfc.predict(X_test)
cal_accuracy(y_test, y_predict)

In [None]:
data = pd.DataFrame({
    "actual": y_test, 
    "predicted": rfc.predict((X_test)),
    "% to 0": rfc.predict_proba((X_test))[:,0],
    "% to 1": rfc.predict_proba((X_test))[:,1],
}) 

data

### Feature Importances
**feature_importances_** é uma pontuação atribuída aos recursos de um modelo  que define o quão “importante” é um recurso para o modelo. Isso pode ajudar na seleção de recursos e podemos obter informações muito úteis sobre os dados.

In [None]:
from sklearn_evaluation import plot

feat_importances = pd.Series(rfc.feature_importances_, index=X_train.columns)
feat_importances.nlargest(30).plot(kind='bar');

Quanto mais alto, mais importante o recurso. A importância de uma característica é computada como a redução total (normalizada) do critério trazido por aquela característica.

Usando o algoritmo RandomForestClassifier, a importância do recurso pode ser medida como a diminuição média de impureza calculada a partir de todas as árvores de decisão na floresta. Isso independentemente do fato de os dados serem lineares ou não lineares (linearmente inseparáveis)

### Resultados

In [None]:
df_models=pd.DataFrame({'Model':['Decision Tree','Random Forest'],
                     'Test Accuracy':[model_decision_tree.score(X_test,y_test),rfc.score(X_test,y_test)]})

df_models.sort_values(by='Test Accuracy', ascending=False)

## Parâmetros vs Hiperparâmetros

Parâmetros e hiperparâmetros estão associados ao modelo de Machine Learning, mas ambos são destinados a tarefas diferentes. Vamos entender como eles são diferentes entre si no contexto do Machine Learning.

Os **parâmetros** são as variáveis usadas pelo algoritmo de Machine Learning para prever os resultados com base nos dados históricos de entrada. Estes são estimados usando um algoritmo de otimização pelo próprio algoritmo de Machine Learning. Assim, essas variáveis não são definidas ou codificadas pelo usuário ou profissional. Essas variáveis são servidas como parte do treinamento do modelo. 


Os **hiperparâmetros** são as variáveis que o usuário normalmente especifica ao construir o modelo de Machine Learning. assim, os hiperparâmetros são especificados antes de especificar os parâmetros ou podemos dizer que os hiperparâmetros são usados para avaliar os parâmetros ótimos do modelo. a melhor parte dos hiperparâmetros é que seus valores são decididos pelo usuário que está construindo o modelo. Por exemplo, max_depth em algoritmos de Random Forest, k em KNN Classifier.

In [None]:
from pprint import pprint

parameters = {
    'n_estimators': [2**i for i in range(3, 10)],
    'max_depth': [2, 4, 8, 16, 32, None]
}

pprint(parameters)

## Grid Search

Agora que sabemos o que são hiperparâmetros, nosso objetivo deve ser encontrar os melhores valores de hiperparâmetros para obter os resultados de previsão perfeitos do nosso modelo. Mas surge a pergunta: como encontrar esses melhores conjuntos de hiperparâmetros?

Por esta razão, métodos como GridSearch foram introduzidos.

O Grid Search usa uma combinação diferente de todos os hiperparâmetros especificados e seus valores e calcula o desempenho de cada combinação e seleciona o melhor valor para os hiperparâmetros. Isso torna o processamento demorado e caro com base no número de hiperparâmetros envolvidos.


### Cross-Validation e GridSearchCV

No GridSearchCV, juntamente com o Grid Search, a validação cruzada também é realizada. A validação cruzada é usada durante o treinamento do modelo. Como sabemos que antes de treinar o modelo com dados, dividimos os dados em duas partes – dados de treinamento e dados de teste. Na validação cruzada, o processo divide os dados do trem ainda mais em duas partes – os dados do trem e os dados de validação.

O tipo mais popular de validação cruzada é a validação cruzada K-fold. É um processo iterativo que divide os dados do trem em k partições. Cada iteração mantém uma partição para teste e as k-1 partições restantes para treinamento do modelo. A próxima iteração definirá a próxima partição como dados de teste e os k-1 restantes como dados de trem e assim por diante. Em cada iteração, ele registrará o desempenho do modelo e no final fornecerá a média de todo o desempenho. Assim, também é um processo demorado.

Assim, o GridSearch junto com a validação cruzada leva muito tempo cumulativamente para avaliar os melhores hiperparâmetros.

![Alt text](data/imgs/K-fold_cross_validation_EN.svg)


Principalmente, são necessários 4 argumentos, ou seja, estimator, param_grid, cv, e scoring.
1. **estimator** - Um modelo scikit-learn
2. **param_grid** – Um dicionário com nomes de parâmetros como chaves e listas de valores de parâmetros.
3. **scoring** – A medida de desempenho. Por exemplo, 'r2' para modelos de regressão, 'accuracy' para modelos de classificação.
4. **cv** – Um número inteiro que é o número de dobras para validação cruzada K-fold.


In [None]:
from sklearn.model_selection import GridSearchCV

rfc = RandomForestClassifier()

clf = GridSearchCV(rfc, parameters, cv=2, scoring='accuracy')
clf.fit(X_train, y_train.values.ravel())

Melhores Params e Melhor Pontuação do Random Forest Classifier

Assim, **clf.best_params_** fornece a melhor combinação de hiperparâmetros ajustados e **clf.best_score_** fornece a pontuação média de validação cruzada de nosso Random Forest Classifier.

In [None]:
print('Melhor Parâmetros: {}'.format(clf.best_params_))
print('Melhor Score     : {}'.format(clf.best_score_))

In [None]:
def print_results(results):
    means = results.cv_results_['mean_test_score']
    stds = results.cv_results_['std_test_score']
    
    for mean, std, params in zip(means, stds, results.cv_results_['params']):
        print('{} (+/-{}) for {}'.format(round(mean, 3), round(std * 2, 3), params))
        
print_results(clf)

## Melhor modelo

In [None]:
from sklearn.metrics import roc_auc_score, plot_roc_curve

best_model = clf.best_estimator_
best_model.fit(X_train, y_train)


bestmodel_train = best_model.predict(X_train) #remover
bestmodel_test = best_model.predict(X_test)

In [None]:
from sklearn.metrics import f1_score

print('Testing  F1 Score        :', f1_score(bestmodel_test, y_test))
print('Testing  Accuracy Score  :', accuracy_score(bestmodel_test, y_test))

In [None]:
cal_accuracy(y_test, bestmodel_test)

## ROC

Para avaliar o quão bem um modelo se ajusta a um conjunto de dados, podemos observar as duas métricas a seguir:

- **Sensibilidade**: A probabilidade de que o modelo preve um resultado positivo para uma observação quando, de fato, o resultado é positivo. "true positive rate”.
- **Especificidade**: A probabilidade de que o modelo preve um resultado negativo para uma observação quando, de fato, o resultado é negativo. “true negative rate”.

Uma maneira de visualizar essas duas métricas é criando uma curva ROC, que significa curva de “característica de operação do receptor”. 

Este é um gráfico que mostra a sensibilidade e especificidade de um modelo

In [None]:
from sklearn.metrics import roc_curve, auc

y_score = best_model.predict_proba(X_test)[:,1]
false_positive_rate, true_positive_rate, threshold = roc_curve(y_test, y_score)

plt.subplots(1, figsize=(10,6))
plt.plot(false_positive_rate, true_positive_rate)
plt.plot([0, 1], ls="--")

plt.title('ROC')
plt.ylabel('True Positive')
plt.xlabel('False Positive')
plt.show()

As curvas ROC normalmente apresentam taxa de verdadeiro positivo no eixo Y e taxa de falso positivo no eixo X. Isso significa que o canto superior esquerdo do gráfico é o ponto “ideal” - uma taxa de falsos positivos de zero e uma taxa de verdadeiros positivos de um. Isso não é muito realista, mas significa que uma área maior sob a curva (AUC) geralmente é melhor.

A “inclinação” das curvas ROC também é importante, pois é ideal maximizar a taxa de verdadeiros positivos e minimizar a taxa de falsos positivos.

In [None]:
import pickle

pickle.dump(best_model, open('data/models/rfc_prediction_covid_evolucao.pkl', 'wb'))