## Modelo para Previsão do Tempo

[Base de Dados](https://www.kaggle.com/datasets/ananthr1/weather-prediction)

### Instalar e importar bibliotecas

In [11]:
# %pip install pandas numpy scikit-learn

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score

### Importar a base de dados

In [12]:
tabela = pd.read_csv("seattle-weather.csv")
display(tabela)

Unnamed: 0,date,precipitation,temp_max,temp_min,wind,weather
0,2012-01-01,0.0,12.8,5.0,4.7,drizzle
1,2012-01-02,10.9,10.6,2.8,4.5,rain
2,2012-01-03,0.8,11.7,7.2,2.3,rain
3,2012-01-04,20.3,12.2,5.6,4.7,rain
4,2012-01-05,1.3,8.9,2.8,6.1,rain
...,...,...,...,...,...,...
1456,2015-12-27,8.6,4.4,1.7,2.9,rain
1457,2015-12-28,1.5,5.0,1.7,1.3,rain
1458,2015-12-29,0.0,7.2,0.6,2.6,fog
1459,2015-12-30,0.0,5.6,-1.0,3.4,sun


### Tratar a base de dados (verificar se temos valores vazios ou em formato errado)

In [13]:
display(tabela.info())
display(tabela.columns)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1461 entries, 0 to 1460
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   date           1461 non-null   object 
 1   precipitation  1461 non-null   float64
 2   temp_max       1461 non-null   float64
 3   temp_min       1461 non-null   float64
 4   wind           1461 non-null   float64
 5   weather        1461 non-null   object 
dtypes: float64(4), object(2)
memory usage: 68.6+ KB


None

Index(['date', 'precipitation', 'temp_max', 'temp_min', 'wind', 'weather'], dtype='object')

### Preparar base de dados para a IA (pré-processamento)

In [14]:
# transformar as colunas em texto para números (necessário para IA conseguir "entender" os dados)
codificador = LabelEncoder()

# aplicar o codificador nas colunas de texto
for coluna in tabela.columns:
    if tabela[coluna].dtype == "object" and coluna != "weather":
        tabela[coluna] = codificador.fit_transform(tabela[coluna])

# verificar se as alterações foram feitas
display(tabela.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1461 entries, 0 to 1460
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   date           1461 non-null   int64  
 1   precipitation  1461 non-null   float64
 2   temp_max       1461 non-null   float64
 3   temp_min       1461 non-null   float64
 4   wind           1461 non-null   float64
 5   weather        1461 non-null   object 
dtypes: float64(4), int64(1), object(1)
memory usage: 68.6+ KB


None

### Criar o modelo de IA (prever o clima)

In [15]:
# escolhendo colunas que serão utilizadas para treinar o modelo

# x são as colunas que vamos utilizar para treinar a IA
x = tabela.drop(columns=["weather"])

# y é a coluna que queremos que a IA calcule, o resultado da previsão
y= tabela["weather"]

# separar a base de dados em treinos e testes (treinos para a IA aprender e testes para testar se a IA aprendeu corretamente)
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3, random_state=1)
# test_size=0.3 para pegar somente 30% da base de dados para testes (por padrão, maior parte da base de dados vai para os treinos), random_state=1 para definir o embaralhamento antes da divisão de treinos e testes

### Escolher o melhor modelo de IA

- **Árvore de Decisão**:  
   Um modelo baseado em estrutura hierárquica que realiza decisões sequenciais a partir de perguntas "sim" ou "não". Cada nó interno representa uma condição sobre os dados, e as folhas indicam os resultados finais. É simples de interpretar e usado tanto para classificação quanto para regressão.

- **K-Nearest Neighbors (KNN)**:  
   Um modelo baseado em instâncias que classifica ou prevê o valor de um dado ponto comparando-o aos *k* vizinhos mais próximos no espaço. Mede a proximidade usando métricas como distância euclidiana e é sensível à escala dos dados.

- **Gradient Boosting**:  
   Um método de aprendizado em ensemble que combina vários modelos fracos (geralmente árvores de decisão) de forma sequencial, onde cada modelo corrige os erros do anterior. É poderoso e usado para tarefas complexas de classificação e regressão, embora seja mais pesado computacionalmente.

In [None]:
# criar os modelo da IA a partir de modelos de machine learning
modelo_arvoredecisao = RandomForestClassifier() # modelo árvore de decisão
modelo_knn = KNeighborsClassifier() # modelo knn
modelo_gradientboosting = GradientBoostingClassifier() # modelo gradient boosting

# treinar os modelo da IA
modelo_arvoredecisao.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)
modelo_gradientboosting.fit(x_treino, y_treino)

### Escolher o melhor modelo a partir das previsões

In [17]:
# criar previsões
previsao_arvoredecisao = modelo_arvoredecisao.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste)
previsao_gradientboosting = modelo_gradientboosting.predict(x_teste)

# ver precisão das previsões de ambos modelos (árvore de decisão e knn)
display("Precisão das previsões da Árvore de Decisão")
display(accuracy_score(y_teste, previsao_arvoredecisao))

display("Precisão das previsões do KNN")
display(accuracy_score(y_teste, previsao_knn))

display("Precisão das previsões do Gradient Boosting")
display(accuracy_score(y_teste, previsao_gradientboosting))

'Precisão das previsões da Árvore de Decisão'

0.8519362186788155

'Precisão das previsões do KNN'

0.6537585421412301

'Precisão das previsões do Gradient Boosting'

0.835990888382688

### Utilizando o modelo de IA

In [18]:
# importar dados para previsao
tabela_nova = pd.read_csv("prediction.csv")
display(tabela_nova)

# aplicar o codificador nas colunas de texto
for coluna in tabela_nova.columns:
    if tabela_nova[coluna].dtype == "object":
        tabela_nova[coluna] = codificador.fit_transform(tabela_nova[coluna])

# utilizar o modelo de árvore de decisão (obteve os melhores resultados) para prever o clima da nova tabela
previsao_final = modelo_arvoredecisao.predict(tabela_nova)
display(previsao_final)

Unnamed: 0,date,precipitation,temp_max,temp_min,wind
0,2025-01-10,0.5,15,7,12
1,2025-01-11,0.0,25,15,8
2,2025-01-12,1.2,10,3,20
3,2025-01-13,0.0,2,-5,10
4,2025-01-14,0.0,8,2,5


array(['rain', 'sun', 'rain', 'sun', 'rain'], dtype=object)

### Características mais importantes para definir o clima

In [21]:
colunas = list(x_teste.columns)
importancia = pd.DataFrame(index=colunas, data=modelo_arvoredecisao.feature_importances_)
importancia = importancia * 100
print(importancia)

                       0
date           15.623883
precipitation  48.602932
temp_max       14.774341
temp_min       11.203035
wind            9.795809
