<a href="https://colab.research.google.com/github/roehrs/KNeighborsClassifier_dengue/blob/main/projetointegrado3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Segundo dados do Painel de Arboviroses do Ministério da Saúde, o Brasil registrou 1.020 mortes devido à dengue nas primeiras treze semanas de 2024. O recorde de óbitos ocorreu em 2023, com 1.094 (PEIXOTO, 2024). O vírus da dengue pode ser transmitido aos seres humanos, principalmente por via vetorial, pela picada de fêmeas de Aedes aegypti infectadas. Segundo o Ministério da Saúde (2024), todo indivíduo que apresentar sintomas, como febre alta, dores musculares e/ou articulares e dor atrás dos olhos – deve procurar imediatamente um serviço de saúde, a fim de obter tratamento oportuno.  


Para realizarmos um projeto de mineração de dados, o primeiro é selecionar a base de dados e explorar dos dados desta base, no intuito de obtermos um entendimento inicial sobre o problema. Diante disto, utilize a biblioteca Pandas do Python para criar um Data Frame a partir da base de dados da dengue disponibilizada e exiba os 5 primeiros elementos deste conjunto usando o comando head().

*Impotação do Pandas e definição da nossa base de dados*

In [None]:
import pandas as pd

df = pd.read_csv("arq_dengue.csv", sep=';')

*Exibe os 5 primeiros elementos do conjunto*

In [None]:
df.head()

Unnamed: 0,paciente,febre,dor_muscular,falta_apetite,manchas_vermelhas,dengue
0,1,38.6,sim,sim,sim,sim
1,2,36.4,nao,nao,nao,nao
2,3,37.5,sim,sim,nao,sim
3,4,38.9,sim,sim,sim,sim
4,5,39.3,sim,sim,sim,sim


o segundo do passo de um projeto de mineração de dados é o da transformação dos dados para posterior utilização no modelo de aprendizagem. Para o problema de diagnóstico da dengue será utilizado o modelo KNeighborsClassifier. Para usar este modelo, transforme os registros que possuem os valores ‘sim’ e ‘nao’ da base de dados da dengue em binários 1 e 0, respectivamente. Exiba os registros atualizados utilizando o comando head() da biblioteca Pandas.

*Transformação dos dados de texto em 1 (sim) e 0 (não) de todas as colunas*

In [None]:
for column in ['dor_muscular','falta_apetite','manchas_vermelhas','dengue']:
  df[column] = df[column].map({'sim': 1, 'nao': 0})

*Comando para exibir os 5 primeiros elementos para validarmos que os comando foram validos*

In [None]:
df.head()

Unnamed: 0,paciente,febre,dor_muscular,falta_apetite,manchas_vermelhas,dengue
0,1,38.6,1,1,1,1
1,2,36.4,0,0,0,0
2,3,37.5,1,1,0,1
3,4,38.9,1,1,1,1
4,5,39.3,1,1,1,1


Logo após a transformação, tem-se, finalmente, o passo de mineração de dados. Para esta etapa, divida a base de dados da dengue em treinamento e teste. Logo após, selecione o algoritmo KNeighborsClassifier(), utilize o comando fit para treinar o modelo e o comando predict para aplicar o método de predição. Apresente a matriz de confusão e a acurácia do modelo.

*Importação da dependências do Skilearn*

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

*Definir as variáveis independentes (X) e a variável dependente (y)*

In [None]:
X = df.drop(columns=['dengue'])
y = df['dengue']

*Dividir a base de dados em conjuntos de treinamento e teste*

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

*Selecionar o algoritmo KNeighborsClassifier*

In [None]:
knn = KNeighborsClassifier(n_neighbors=3)

*Treinar o modelo*

In [None]:
knn.fit(X_train, y_train)

*Aplicar o método de predição*

In [None]:
y_pred = knn.predict(X_test)

*Calcular a matriz de confusão*

In [None]:
cm = confusion_matrix(y_test, y_pred)
print("Matriz de Confusão:")
print(cm)

Matriz de Confusão:
[[1 3]
 [0 2]]


*Calcular a acurácia*

In [None]:
accuracy = accuracy_score(y_test, y_pred)
print("Acurácia do Modelo:", accuracy)

Acurácia do Modelo: 0.5
