In [8]:
#!pip install pandas
#!pip install scikit-learn

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

# 1. Leitura dos arquivos CSV
basedengue = pd.read_csv('CasosDengue_2020-2024.csv', delimiter=';')
baseclima = pd.read_csv('Media_Climatologica_Anual_2020-2024.csv', delimiter=';')

# 2. Seleção das colunas necessárias e junção dos datasets
basedengue = basedengue[['Ano', 'Total']]
baseclima.columns = ['Ano', 'Precipitacao', 'Temperatura']

# Juntar os dois datasets com base no ano
data = pd.merge(basedengue, baseclima, on='Ano')

# 3. Criação de categorias/classes para o número de casos
# Aqui, categorizamos os valores de 'Total' em três classes
bins = [0, 600000, 1200000, float('inf')]
labels = ['Baixo', 'Médio', 'Alto']
data['Classe_Casos'] = pd.cut(data['Total'], bins=bins, labels=labels)

# 4. Divisão dos dados de 2020 a 2022 para treinamento e 2023 e 2024 para teste
train_data = data[data['Ano'] <= 2022]
test_data = data[data['Ano'] > 2022]

# Separar os dados em X (entrada) e y (saída)
X_train = train_data[['Precipitacao', 'Temperatura']]
y_train = train_data['Classe_Casos']
X_test = test_data[['Precipitacao', 'Temperatura']]
y_test = test_data['Classe_Casos']

# 5. Modelo de Regressão Linear (Previsão para comparação)
regression_model = LinearRegression()
regression_model.fit(X_train, train_data['Total'])

# Previsão de casos usando regressão linear
predictions_linear = regression_model.predict(X_test)
test_data['Previsao_Linear'] = predictions_linear

# 6. RandomForestClassifier
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Previsão usando RandomForestClassifier
y_pred_rf = rf_model.predict(X_test)

# 7. KNeighborsClassifier
knn_model = KNeighborsClassifier(n_neighbors=3)
knn_model.fit(X_train, y_train)

# Previsão usando KNeighborsClassifier
y_pred_knn = knn_model.predict(X_test)

# 8. Calcular acurácia e exibir os relatórios de classificação
accuracy_rf = accuracy_score(y_test, y_pred_rf)
accuracy_knn = accuracy_score(y_test, y_pred_knn)

print(f"Acurácia RandomForestClassifier: {accuracy_rf * 100:.2f}%")
print(f"Acurácia KNeighborsClassifier: {accuracy_knn * 100:.2f}%")

# Relatórios de classificação detalhados
print("\nRelatório de Classificação - RandomForestClassifier:")
print(classification_report(y_test, y_pred_rf))

print("\nRelatório de Classificação - KNeighborsClassifier:")
print(classification_report(y_test, y_pred_knn))


Acurácia RandomForestClassifier: 100.00%
Acurácia KNeighborsClassifier: 100.00%

Relatório de Classificação - RandomForestClassifier:
              precision    recall  f1-score   support

        Alto       1.00      1.00      1.00         2

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2


Relatório de Classificação - KNeighborsClassifier:
              precision    recall  f1-score   support

        Alto       1.00      1.00      1.00         2

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  test_data['Previsao_Linear'] = predictions_linear
