# <font color='red' size='6'>Inteligência Artificial</font>
### Atividade: Previsão de óbito por COVID-19
<font color='red' size='4'><b>Problema de Negócio</b></font>: Com base nos dados obtidos de (1), o problema de negócio é: prever se uma pessoa pode vir a óbito ou não por COVID-19.

(1) COVID-19 Mexico Patient Health Dataset. (2020, 05 19). Disponível em Kaggle.com: https://www.kaggle.com/riteshahlawat/covid19-mexico-patient-health-dataset . Data da consulta: 15 de março de 2025.

Fonte: YAVUZ, Ü. N. A. L.; DUDAK, Muhammed Nuri. Classification of Covid-19 Dataset with Some Machine Learning Methods. Journal of Amasya University the Institute of Sciences and Technology, v. 1, n. 1, p. 30-37. Disponível em: https://dergipark.org.tr/en/pub/jauist/issue/55760/748667. Data da Consulta: 15 de Marco de 2025.
 
<font color='red' size='4'><b>Etapas: Seleção de Atributos. Aprendizado: Aplicação dos Algoritmos, Avaliação, Geração de Modelos Preditivos, Otimização e Validação</b></font>

Descrição: 
<ol>
    <li>Dataset " df_covid_preparados.csv " contendo 95839 casos de COVID-19 que são formados por 19 atributos e registrados pelo governo mexicano entre 15 de janeiro de 2020 e 3 de maio de 2020 para dados sobre a doença de Covid-19.</li>
<li>Notebook “IA_EAD_Projeto_COVID19_SelecaoAprendizadoOtimizacao_Classificacao_v20242.ipynb” que deve ser executado com o dataset do grupo indicado no item 1 desta atividade. Não se esqueça de separar 10 dados, sendo 5 com óbito e 5 sem óbito para permitir os testes. Esses 10 dados devem ser gravados em um dataset que será utilizado para validação ao final do notebook.</li>
<li>Modelo preditivo obtido no item 2: o modelo preditivo gerado: “modelo_METODO_class_obitoCOVID_GRUPO.sav”, encontrado a partir da execução do Notebook do item 2. Não se esqueça de alterar a parte do arquivo com o nome do grupo, indicado por vocês e o nome do MÉTODO</li>
<li>A partir do modelo gerado, realizar os testes solicitados com os 10 dados separados e montar uma tabela HTML na qual consta os resultados.</li>   
<li>Após obter os resultados, discuta-os. Por exemplo, apresente os aspectos positivos e limitações do modelo, tendo por base o relatório de métricas/matriz de confusão do modelo otimizado e os resultados obtidos com os 10 dados de validação.</li>
</ol>

### <font color="black" size='3'><b>Grupo em ordem alfabética (máx. 3 alunos) </b></font>
<html>
<table border="1px">
<tr>
<td bgcolor="Aquamarine">Nome do Aluno</td>
<td bgcolor="Aquamarine">RA</td>
</tr>
<tr>
<td bgcolor="white">nome 1</td>
<td bgcolor="white">RA 1</td>
</tr>
<tr>
<td bgcolor="white">nome 2</td>
<td bgcolor="white">RA 2</td>
</tr>
    <tr>
<td bgcolor="white">nome 3</td>
<td bgcolor="white">RA 3</td>
</tr>
    </table>
</html>

In [None]:
# Imports
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
# ignora os warnings 
import warnings
warnings.filterwarnings("ignore")
# Por se tratar de um conjunto de gráficos menores, pode ser mais interessante gerar os gráficos em janela separada
%matplotlib inline

# Análise Exploratória: Síntese

In [None]:
# Leitura do arquivo CSV com separador "," e codificação UTF-8
# COVID-19 Mexico Patient Health Dataset. (2020, 05 19). Retrieved 
# from Kaggle.com: https://www.kaggle.com/riteshahlawat/covid19-mexico-patient-health-dataset
df_covid = pd.read_csv('df_covid_preparados.csv', sep = ',', encoding = 'UTF-8')

In [None]:
# Mostra dois registros do arquivo
df_covid.head(2)

In [None]:
# apresenta os tipas de dados das colunas
df_covid.dtypes

In [None]:
# Mostra o shape do dataset
df_covid.shape

In [None]:
## Mostra a frequência absoluta de  registros do atributo sexo (intervalo: [1,2]), onde:
# 1- Mulher, 2- homem  
df_covid.groupby("sexo").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo tipo_paciente (intervalo: [1,2]), onde:
# Tipo 1, Tipo 2 
df_covid.groupby("tipo_paciente").size()

In [None]:
# Mostra a frequência absoluta  de  registros do atributo intubado (intervalo: [1,99]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica, 99: Não disponível. 
df_covid.groupby("intubado").size()

In [None]:
# Mostra a frequência absoluta  de  registros do atributo pneumonia (intervalo: [1,99]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica, 99: Não disponível. 
df_covid.groupby("pneumonia").size()

In [None]:
# Apresenta o histograma do atributo idade. Observe a distribuição e os picos.
# Considere bins como sendo o número de barras
df_covid.idade.hist(bins=20)

In [None]:
# Mostra a frequência absoluta de  registros do atributo gravidez (intervalo: [1,98]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica. 
df_covid.groupby("gravidez").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo diabetes (intervalo: [1,98]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica. 
df_covid.groupby("diabetes").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo copd (intervalo: [1,98]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica. 
# copd = doença pulmonar obstrutiva crônica 
df_covid.groupby("copd").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo asma (intervalo: [1,98]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica. 
df_covid.groupby("asma").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo imunossupressao (intervalo: [1,98]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica. 
df_covid.groupby("imunossupressao").size()

In [None]:
# Mostra oa frequência absoluta de  registros do atributo hipertensao (intervalo: [1,98]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica. 
df_covid.groupby("hipertensao").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo outras_doencas (intervalo: [1,98]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica. 
df_covid.groupby("outras_doencas").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo cardiovascular (intervalo: [1,98]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica. 
df_covid.groupby("cardiovascular").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo obesidade (intervalo: [1,98]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica. 
df_covid.groupby("obesidade").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo irc (intervalo: [1,98]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica. 
# irc = insuficiência renal crônica
df_covid.groupby("irc").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo fumante (intervalo: [1,98]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica. 
df_covid.groupby("fumante").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo outro_caso (intervalo: [1,98]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica. 
df_covid.groupby("outro_caso").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo teste_covid (intervalo: [1,3]), onde: 
# 1 = COVID-19 Positivo, 2 = COVID-19 Negativo, 3 = Não se aplica. 
df_covid.groupby("teste_covid").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo icu (intervalo: [1,99]), onde: 
# 1 = Sim, 2 = Não, 98/97: Não se aplica, 99 - Não disponivel. 
# uci = unidade de terapia intensiva
df_covid.groupby("icu").size()

In [None]:
# Mostra a frequência absoluta de  registros do atributo obito (intervalo: [0,1]), onde: 
# 1 = Sim, 2 = Não.
df_covid.groupby("obito").size()

In [None]:
# Resumo estatístico do dataset completo
df_covid.describe()

In [None]:
# Resumo estatístico dos que faleceram
df_covid[df_covid.obito == 1].describe()

In [None]:
# Resumo estatístico dos que sobrevireram
df_covid[df_covid.obito == 0].describe()

In [None]:
# Obtém a frequência absoluta de pessoas com pneumonia
serie_pneumonia = df_covid.groupby("pneumonia").size()

# coloca "explode" com 0 em todos os índices, exceção o índece 0 com o valor 0.2
explode = tuple(0 if i != 0 else 0.2 for i in range(serie_pneumonia.size))

plt.pie(serie_pneumonia.values, explode=explode, labels=serie_pneumonia.index, 
        autopct='%1.1f%%', shadow=True, startangle=90)
# equal garante que o gráfico seja desenhado como um círculo. 
plt.axis('equal')
plt.title("Com Pneumonia (1) x Sem Pneumonia (2)")

plt.show()

A correlação é o relacionamento entre 2 variáveis. O método mais comum para calcular correlação é o método de Pearson, que assume uma distribuição normal dos dados. Correlação de -1 mostra uma correlação negativa, enquanto uma correlação de +1 mostra uma correlação positiva. Uma correlação igual a 0 mostra que não há relacionamento entre as variáveis.

Alguns algoritmos como regressão linear e regressão logística podem apresentar problemas de performance se houver atributos altamente correlacionados (colineares).

In [None]:
# Cria mapa de calor com a correlação do dataset com o mapa ce cores PiYG
# Aumenta o tamanho da figura a ser exibida
plt.figure(figsize=(20,20))
sns.heatmap(df_covid.corr(), annot=True, cmap = "PiYG")

## Método Ensemble para Seleção de Variáveis

Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html.
        
Bagged Decision Trees, como o algoritmo RandomForest (são chamados de Métodos Ensemble), podem ser usados para estimar a importância de cada atributo. 

Esse método retorna um score para cada atributo.

Quanto maior o score, maior a importância do atributo.

### Importância do Atributo com o RandomForestClassifier

In [None]:
# Import dos Módulos
from pandas import read_csv
from sklearn.ensemble import RandomForestClassifier

In [None]:
# Leitura do arquivo CSV com separador "," e codificação UTF-8
# COVID-19 Mexico Patient Health Dataset. (2020, 05 19). Retrieved 
# from Kaggle.com: https://www.kaggle.com/riteshahlawat/covid19-mexico-patient-health-dataset
df_covid = pd.read_csv('df_covid_preparados.csv', sep = ',', encoding = 'UTF-8')

In [None]:
# Mostra as colunas do dataset
df_covid.columns

In [None]:
qtdeColunas = len(df_covid.columns)

In [None]:
# Carregando os dados
array = df_covid.values

In [None]:
# Separando o array em componentes de entrada (atributos preditivos) e output (atributo alvo)
X = array[:,0:qtdeColunas-1] # Atributos Preditores selecionados de 1 a 5 (exclusivo)
Y = array[:,qtdeColunas-1] # Atributo alvo: severity (1 - maligno, 0 - benigno

In [None]:
X

In [None]:
Y

In [None]:
# Criação do Modelo - Feature Selection
modelo = RandomForestClassifier()
modelo.fit(X, Y)

In [None]:
# Monta uma série contendo os nomes dos atributos e a sua importância 
sAtributos = pd.Series(modelo.feature_importances_, index=df_covid.columns[0:qtdeColunas-1])

In [None]:
# Mostra a importância dos atributos
# Considerando este fato, podemos selecionar os mais relevantes
# Claro que podemos utilizar o nosso conhecimento sobre o assunto
sAtributos.sort_values(ascending=False)[0:qtdeColunas-1]

In [None]:
# IMPORTANTE:
# FAÇA AQUI A SELEÇÃO DE ATRIBUTOS E GRAVE O DATASET 
# Montando o dataset com os atributos preditores selecionados
# e o atributo alvo MODIFIQUE O ELABORADO ABAIXO.
dfcovid_SPAtribSelec = df_covid[["idade", "intubado", "teste_covid", "outro_caso", "icu", "pneumonia", "obesidade", "hipertensao", "diabetes", "fumante","obito"]];
dfcovid_SPAtribSelec.head(3)

In [None]:
# Salvando os atributos preparados
dfcovid_SPAtribSelec.to_csv("dfcovid_atrib_selec.csv", index=False)

# Dataset de validação
<p>A partir do dataset com os atributos selecionados anteriormente "dfcovid_atrib_selec.csv", separe 10 dados do dataset, sendo 5 COM ÓBITO e 5 SEM ÓBITO. Esses dados serão utilizadso na validação final.<br>
<p>CUIDADO! A seleção deve ser aleatória e pode ser feita diretamente (manualmente) no arquivo do CSV. O nome do arquivo de dados de validação pode ser "dfcovid_atrib_selec_valida.csv".<br>
<p>Lembrando que esses dados serão utilizados na etapa de validação ao final deste notebook.

In [None]:
# Import dos Módulos
from pandas import read_csv

In [None]:
# leia o dataset de validação 

In [None]:
df_validacao = pd.read_csv('dfcovid_atrib_selec_valida.csv', sep = ',', encoding = 'UTF-8')

In [None]:
# Apresente o seu conteúdo com df_validacao.head(10)

In [None]:
df_validacao.head(10)

# Aprendizado Supervisionado: Algoritmos de Classificação

Não há como saber qual algoritmo vai funcionar melhor na construção do modelo, antes de realizar os testes do algoritmo com os dados de testes do </i>dataset</i>. 

O ideal é testar alguns algoritmos e então escolher aquele que fornece melhor nível de precisão. 

Para isso, serão considerados os algoritmos de classificação:

1) <i>K-Nearest Neighbors</i> (KNN)<br />
Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html.

2) Árvore de Decisão (CART - <i>Classification and Regression Trees</i>) <br />
Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier.

3) Regressão Logística <br />
Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html.

4) Naïve Bayes<br />
Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html.

5) Máquinas de Vetores de Suporte (SVMs - <i>Support Vector Machines</i>)<br />
Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html.

6) Random Forest<br />
Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html.

7) AdaBoost<br />
Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html.

Todos os sete algoritmos serão utilizados juntos com os mesmos dados de treino e teste.

A métrica de comparação utilizada será acurácia.

### Dados de Treino e de Teste

Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

Este é o método mais utilizado para avaliar performance de um algoritmo de Machine Learning. 

Dividimos nossos dados originais em dados de treino e de teste. 

Treinamos o algoritmo nos dados de treino e fazemos as previsões nos dados de teste e avaliamos o resultado. 

A divisão dos dados vai depender do seu dataset, mas utiliza-se com frequência tamanhos entre 80/20 (treino/teste) e 70/30 (treino/teste).

Este método é bem veloz e ideal para conjuntos de dados muito grandes. 

O ponto negativo é a possibilidade de alta variância.

## Avaliando a Performance


As métricas que você escolhe para avaliar a performance do modelo vão influenciar a forma como a performance é medida e comparada com modelos criados com outros algoritmos.

Vamos utilizar o mesmo algoritmo, mas com métricas diferentes e assim comparar os resultados. 

### Métricas para Algoritmos de Classificação

Documentação: https://scikit-learn.org/stable/modules/model_evaluation.html.

In [None]:
# Import dos módulos
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

# Importando os módulos dos algoritmos
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier

In [None]:
# Leitura do arquivo CSV com separador "," e codificação UTF-8
# COVID-19 Mexico Patient Health Dataset. (2020, 05 19). Retrieved 
# from Kaggle.com: https://www.kaggle.com/riteshahlawat/covid19-mexico-patient-health-dataset
df_covid = pd.read_csv('dfcovid_atrib_selec<SEM DADOS DE VALIDAÇÃO>.csv', sep = ',', encoding = 'UTF-8')

In [None]:
# Obtém os dados do câncer de mama
array = df_covid.values

In [None]:
df_covid.shape

In [None]:
qtdeColunas = len(df_covid.columns)

In [None]:
# Separando o array em componentes de entrada (atributos preditivos) e output (atributo alvo)
X = array[:,0:qtdeColunas-1] # Atributos Preditores selecionados de 0 a qtdeColunas (exclusivo)
Y = array[:,qtdeColunas-1] # Atributo alvo: obito (1 - sim, 0 - não)

In [None]:
X

In [None]:
Y

In [None]:
# Definindo o tamanho das amostras
teste_size = 0.3

# Garante que os resultados podem ser reproduzidos
# Isso é importante para comparar a acurácia com outros algoritmos de Machine Learning.
seed = 7

In [None]:
# Criando os conjuntos de dados de treino e de teste
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, Y, test_size = teste_size, random_state = seed)

In [None]:
# Preparando a lista de modelos instanciados
modelos = []
modelos.append(('KNN', KNeighborsClassifier()))
modelos.append(('CART', DecisionTreeClassifier()))
modelos.append(('LR', LogisticRegression()))
modelos.append(('NB', GaussianNB()))
modelos.append(('SVM', SVC()))
modelos.append(('RFor', RandomForestClassifier()))
modelos.append(('AdaB', AdaBoostClassifier()))

In [None]:
# Avaliando cada modelo em um loop
dicAcuracia = {}
dicMatriz = {}
dicRelatorio = {}

for nome, modelo in modelos:
    # Treinamento do modelo
    modelo.fit(X_treino, Y_treino)
    # Fazendo as previsões e construindo a Matriz de Confusão
    previsoes = modelo.predict(X_teste)
    # Obtendo a matriz de confusão
    matrix = confusion_matrix(Y_teste, previsoes)
    # construindo o relatório de resultados
    report = classification_report(Y_teste, previsoes)
    # Score do modelo nos dados de teste  (Acurácia)
    acuracia = modelo.score(X_teste, Y_teste)
    # Criando dicionários para a acurácia matriz de confusão e relatório
    dicAcuracia[nome] = acuracia*100.0
    dicMatriz[nome] = matrix
    dicRelatorio[nome] = report

In [None]:
# Montando um dataframe com a acurácia obtida de cada modelo
pdAcuraciaModelos = pd.DataFrame(dicAcuracia.items())
pdAcuraciaModelos.columns = ['nome','acuracia']

In [None]:
# Apresenta a acurácia dos modelos ordenados
pdAcuraciaModelos.sort_values(ascending=False, by='acuracia')

In [None]:
modelos.append(('KNN', KNeighborsClassifier()))
modelos.append(('CART', DecisionTreeClassifier()))
modelos.append(('LR', LogisticRegression()))
modelos.append(('NB', GaussianNB()))
modelos.append(('SVM', SVC()))
modelos.append(('RFor', RandomForestClassifier()))
modelos.append(('AdaB', AdaBoostClassifier()))

In [None]:
# Apresenta a matriz de confusão para o KNN
dicMatriz['KNN']

In [None]:
# Apresenta a matriz de confusão para o CART
dicMatriz['CART']

In [None]:
# Apresenta a matriz de confusão para o Regressão Logística
dicMatriz['LR']

In [None]:
# Apresenta a matriz de confusão para o Naive Bayes
dicMatriz['NB']

In [None]:
# Apresenta a matriz de confusão para o SVM
dicMatriz['SVM']

In [None]:
# Apresenta a matriz de confusão para o Random Forest
dicMatriz['RFor']

In [None]:
# Apresenta a matriz de confusão para o Random Forest
dicMatriz['AdaB']

In [None]:
# Gráfico de barras para comparar a acurácia entre os modelos
plt.bar(list(dicAcuracia.keys()), dicAcuracia.values(), color='red')
# legenda do eixo x
plt.xticks(list(dicAcuracia.keys()))
# Label eixo Y
plt.ylabel('Acurácia')
# Label eixo X
plt.xlabel('Classificador')
# Título do gráfico
plt.title('Classificador x Acurácia')
# mostra o gráfico
plt.show()

# Otimização do Modelo - Ajuste de Hyperparâmetros
<font color='red' size='4'><b>Escolha um algoritmo para realizar o ajuste de parâmetros</b></font>

Todos os algoritmos de Aprendizado de Máquina são parametrizados, o que significa que você pode ajustar a performance do seu modelo preditivo, através do <i>tuning</i> (ajuste fino) dos parâmetros. 

Seu trabalho é encontrar a melhor combinação entre os parâmetros em cada algoritmo de Aprendizado de Máquina. 

Esse processo também é chamado de Otimização Hyperparâmetro. 

O scikit-learn oferece dois métodos para otimização automática dos parâmetros: <i>Grid Search Parameter Tuning</i> e <i>Random Search Parameter Tuning</i>. 

# Random Search Parameter Tuning

Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html.

Este método gera amostras dos parâmetros dos algoritmos a partir de uma distribuição randômica uniforme para um número fixo de interações. 

Um modelo é construído e testado para cada combinação de parâmetros.

Vamos experimentar este método utilizando algum algoritmo do seu interesse ou aquele que obteve melhor acurácia. 

Será necessário identificar os parâmetros do algoritmo, fornecer variações nos parâmetros e obter os melhores resultados 

In [None]:
# Import dos módulos
import numpy as np

# Uma variável aleatória contínua uniforme.
# No formulário padrão, a distribuição é uniforme em [0, 1]. 
# Usando os parâmetros loc e scale, obtém-se a distribuição uniforme em [loc, loc + scale].
from scipy.stats import uniform

from sklearn.model_selection import RandomizedSearchCV
# Importando o módulo do algoritmo selecionado
from sklearn.ensemble import AdaBoostClassifier

In [None]:
# Leitura do arquivo CSV com separador "," e codificação UTF-8
# COVID-19 Mexico Patient Health Dataset. (2020, 05 19). Retrieved 
# from Kaggle.com: https://www.kaggle.com/riteshahlawat/covid19-mexico-patient-health-dataset
df_covid = pd.read_csv('dfcovid_atrib_selec.csv', sep = ',', encoding = 'UTF-8')

In [None]:
# Obtém os dados
array = df_covid.values

In [None]:
qtdeColunas = len(df_covid.columns)

In [None]:
# Separando o array em componentes de entrada (atributos preditivos) e output (atributo alvo)
X = array[:,0:qtdeColunas-1] # Atributos Preditores selecionados de 0 a qtdeColunas (exclusivo)
Y = array[:,qtdeColunas-1] # Atributo alvo: obito (1 - sim, 0 - não)

In [None]:
X

In [None]:
Y

In [None]:
# Definindo os valores que serão testados
# n_estimators (int), default = 50
#      O número máximo de estimadores em que o reforço é encerrado. 
#      Em caso de ajuste perfeito, o processo de aprendizagem é interrompido precocemente.
# learning_rate (float), default = 1.
#      A taxa de aprendizagem reduz a contribuição de cada classificador por learning_rate. 
#      Há uma compensação entre learning_rate e n_estimators.
# algorithm {‘SAMME’, ‘SAMME.R’}, padrão = ’SAMME.R’ (NÃO VAMOS UTILIZAR)
#      Se 'SAMME.R', então use o algoritmo real de boosting SAMME.R. 
#      base_estimator deve oferecer suporte ao cálculo de probabilidades de classe. 
#      Se 'SAMME', então use o algoritmo de aumento discreto SAMME. 
#      O algoritmo SAMME.R normalmente converge mais rápido do que SAMME, 
#      alcançando um erro de teste menor com menos iterações de reforço.
# random_state (int) ou RandomState, default = None
#      Controla a semente aleatória fornecida em cada base_estimator em cada iteração de reforço. 
#      Portanto, ele só é usado quando base_estimator expõe um random_state. 
#      Passe um int para saída reproduzível em várias chamadas de função. 
valores_grid = { <DEFINIR AQUI O RANGE DOS HIPERPARÂMETROS A SER FEITA A BUSCA PELOS MELHORRES VALORES - pelo menos 2> }
seed = 7

In [None]:
# Instanciando o modelo que será utilizado SEGUNDO OS RESULTADOS OBTIDOS ANTERIORMENTE
modelo = <DEFINIR AQUI O MODELO A SER OTIMIZADO OS HIPERPARÂMETROS>

In [None]:
# Instancia o método para procura dos melhores hiperparâmetros
# com A QUANTIDADE DE ITERAÇÕES definidas por você (>= 200)
iterations = <DEFINIR A QUANTIDADE AQUI >= 200>
rsearch = RandomizedSearchCV(estimator = modelo, 
                             param_distributions = valores_grid, 
                             n_iter = iterations, 
                             random_state = seed)

In [None]:
# Faz o fit para encontrar os melhores valores para os parâmetros
rsearch.fit(X, Y)

In [None]:
# Print do resultado
print("Melhores Parâmetros do Modelo:\n", rsearch.best_estimator_)

In [None]:
# Definindo o tamanho das amostras
teste_size = 0.2

# Garante que os resultados podem ser reproduzidos
# Isso é importante para comparar a acurácia com outros algoritmos de Machine Learning.
seed = 7

In [None]:
# Criando os conjuntos de dados de treino e de teste
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, Y, test_size = teste_size, random_state = seed)

In [None]:
# Criando o objeto que vai obter o modelo COM OS MELHORES HIPERPARÂMETROS SELECIONADOS 
modelo = <COLOQUE AQUI O MODELO COM OS MELHORES HIPERPARÂMETROS SELECIONADOS>

In [None]:
# Treinamento do modelo
modelo.fit(X_treino, Y_treino)

# Fazendo as previsões e construindo a Matriz de Confusão
previsoes = modelo.predict(X_teste)

In [None]:
# Obtendo a matriz de confusão
matrix = confusion_matrix(Y_teste, previsoes)

# construindo o relatório de resultados
report = classification_report(Y_teste, previsoes)

# Score do modelo nos dados de teste  (Acurácia)
result = modelo.score(X_teste, Y_teste)

In [None]:
# Imprime os resultados
print("Acurácia nos Dados de Teste: %.3f%%" % (result * 100.0))

# Imprimindo a Matriz de Confusão
print(matrix)

# Imprimindo o relatório
print(report)

<P><B>Questão a ser respondida</B></P>
<p> Reflita sobre os resultados obtidos com o relatório de medidas de performance do modelo e sua matriz de confusão e discuta-os (Sugestão: considere as métricas, matriz de confusão e cada classe individualmente) </P>
<P> Resposta: COLOQUE AQUI A DISCUSSÃO SOLICITADA </P>

# Salvando o modelo

O modelo deve ser obtido pelo algoritmo utilizado na etapa anterior, otimização do modelo, com os melhores valores para os seus hiperparâmetros.

In [None]:
# Import dos módulos
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

# Importando o módulo do algoritmo selecionado
from sklearn.ensemble import AdaBoostClassifier

# Importando o pacote utilizado para salvar o modelo como arquivo binário
import joblib

In [None]:
# Leitura do arquivo CSV com separador "," e codificação UTF-8
# COVID-19 Mexico Patient Health Dataset. (2020, 05 19). Retrieved 
# from Kaggle.com: https://www.kaggle.com/riteshahlawat/covid19-mexico-patient-health-dataset
df_covid = pd.read_csv('dfcovid_atrib_selec.csv', sep = ',', encoding = 'UTF-8')

In [None]:
# Carregando os dados
array = df_covid.values

In [None]:
qtdeColunas = len(df_covid.columns)

In [None]:
# Separando o array em componentes de entrada (atributos preditivos) e output (atributo alvo)
X = array[:,0:qtdeColunas-1] # Atributos Preditores selecionados de 0 a qtdeColunas (exclusivo)
Y = array[:,qtdeColunas-1] # Atributo alvo: obito (1 - sim, 0 - não)

In [None]:
# Definindo o tamanho das amostras
teste_size = 0.2

# Garante que os resultados podem ser reproduzidos
# Isso é importante para comparar a acurácia com outros algoritmos de Machine Learning.
seed = 7

In [None]:
# Criando os conjuntos de dados de treino e de teste
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, Y, test_size = teste_size, random_state = seed)

In [None]:
# Criando o objeto que vai obter o modelo 
#  Fazendo uso dos melhores valores dos parâmetros obtidos com o RandomizeSearchCV
modelo = <COLOQUE AQUI O MODELO COM OS MELHORES HIPERPARÂMETROS SELECIONADOS>

In [None]:
# Treinamento do modelo
modelo.fit(X_treino, Y_treino)

In [None]:
# Salvar O NOME DO ARQUIVO do modelo, compatível com o algoritmo escolhido.
arquivo = 'modelo_METODO_class_obitoCOVID_GRUPO.sav'
joblib.dump(modelo, arquivo)
print("Modelo salvo!")

In [None]:
# Carregando o arquivo
modelo_class_final = joblib.load(arquivo)
print("Modelo carregado!")

In [None]:
# Fazendo previsões
Y_pred = modelo_class_final.predict(X_teste)

In [None]:
# Obtendo a matriz de confusão
matrix = confusion_matrix(Y_teste, Y_pred); matrix

In [None]:
# Score do modelo nos dados de teste  (Acurácia)
result = modelo_class_final.score(X_teste, Y_teste)

In [None]:
# Imprime os resultados
print("Acurácia nos Dados de Teste: %.3f%%" % (result * 100.0))

# Realizando a validação

A partir do modelo otimizado, faça a validação com os 10 dados de validação separados. Depois, monte um quadro com os resultados e discuta-os neste notebook

### Monte um quadro com os resultados obtidos para os 10 dados de validação

In [None]:
# Coloque o quadro aqui

### Discuta os resultados obtidos com a validação (compare com as métricas e matriz de confusão, indique limitações e vantagens.

In [None]:
# Discuta abaixo os reultados da validação

### <font size = '2'>prof. Dr. Ivan Carlos Alcântara de Oliveira</font> - <font color="blue" size = '2'>https://orcid.org/0000-0002-6020-7535.</font><br><font size = '2'> e-mail: ivan.oliveira@mackenzie.br</font>