<a href="https://colab.research.google.com/github/Leandro-GPIN/weather-forecast/blob/main/previsao_tempo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [5]:


import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_moons, make_circles, make_classification
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

# Dataset : https://tempo.inmet.gov.br/ 
# Produto : Tabela de dados das estações
# Tipo    : Convencionais
# Estação : Porto Alegre (83967)
# Periodo : 01/01/2000 a 28/03/2021

# Lendo dataset no formato CSV sepado por ponto e virgula.
df = pd.read_csv('poa.csv', skiprows=1, delimiter=';', decimal=",")

# Substituindo valores nulos por zero na coluna de chuva
df['Chuva [Diaria] (mm)'] = df['Chuva [Diaria] (mm)'].fillna(0)

# Substituindo valores acima de zero para a coluna chuva, chuva será categorica 0 ou 1
df.loc[(df['Chuva [Diaria] (mm)'] > 0.0), 'Chuva [Diaria] (mm)']= 1

# Dividindo a coluna "Data" em "Dia", "Mes" e "Ano"
df[['Dia','Mes', 'Ano']] = df["Data"].str.split("/",expand=True,)

# Atribuindo o tipo inteiro para "Dia", "Mes" e "Ano"
df[['Dia','Mes', 'Ano']] = df[['Dia','Mes', 'Ano']].astype(int)

# Removendo a linha que as variaveis são nulas
df = df.dropna(subset=['Temp. [Hora] (C)', 'Umi. (%)', 'Pressao (hPa)', 'Vel. Vento (m/s)', 'Dir. Vento (m/s)', 'Nebulosidade (Decimos)'])

# Normalizando
df['Dia'] = df["Dia"]  / df["Dia"].abs().max()
df['Mes'] = df["Mes"]  / df["Mes"].abs().max()
df['Ano'] = df["Ano"]  / df["Ano"].abs().max()
df['Hora (UTC)'] = df["Hora (UTC)"]  / df["Hora (UTC)"].abs().max()
df['Temp. [Hora] (C)'] = df["Temp. [Hora] (C)"]  / df["Temp. [Hora] (C)"].abs().max()
df['Umi. (%)'] = df["Umi. (%)"]  / df["Umi. (%)"].abs().max()
df['Pressao (hPa)'] = df["Pressao (hPa)"]  / df["Pressao (hPa)"].abs().max()
df['Vel. Vento (m/s)'] = df["Vel. Vento (m/s)"]  / df["Vel. Vento (m/s)"].abs().max()
df['Dir. Vento (m/s)'] = df["Dir. Vento (m/s)"]  / df["Dir. Vento (m/s)"].abs().max()
df['Nebulosidade (Decimos)'] = df["Nebulosidade (Decimos)"]  / df["Nebulosidade (Decimos)"].abs().max()

# Separando os conjuntos
X = df[['Dia', 'Mes', "Ano","Hora (UTC)" , "Temp. [Hora] (C)", "Umi. (%)", "Pressao (hPa)", "Vel. Vento (m/s)", "Dir. Vento (m/s)", "Nebulosidade (Decimos)"]]
y = df['Chuva [Diaria] (mm)']

# Criando conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

# Nome dos calssificadores
names = ["Nearest Neighbors", "Linear SVM", "RBF SVM",
         "Decision Tree", "Random Forest", "Neural Net", "AdaBoost",
         "Naive Bayes", "QDA"]

# Instanciando os cassificadores
classifiers = [
    KNeighborsClassifier(3),
    SVC(kernel="linear", C=0.025),
    SVC(gamma=2, C=1),
    DecisionTreeClassifier(max_depth=5),
    RandomForestClassifier(max_depth=5, n_estimators=10, max_features=1),
    MLPClassifier(alpha=1, max_iter=1000),
    AdaBoostClassifier(),
    GaussianNB(),
    QuadraticDiscriminantAnalysis()]

# Iteração sobre os classificadores
for name, clf in zip(names, classifiers):
  clf.fit(X_train, y_train)
  score = clf.score(X_test, y_test)

  # imprimindo os resultados
  print("{} - {}".format(score, name))




0.9027529495888452 - Nearest Neighbors
0.8707543796925277 - Linear SVM
0.9183053271362174 - RBF SVM
0.9109760457633178 - Decision Tree
0.8707543796925277 - Random Forest
0.9109760457633178 - Neural Net
0.9220593493028244 - AdaBoost
0.8022881658920272 - Naive Bayes
0.8017518770110833 - QDA


