# Agora vamos falar de aprendizado supervisionado, usando um algoritmo clássico: Support Vector Machine (SVM).

In [0]:
#Importando bibliotecas básicas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

<h3> Segue o link para visualizar os dados: 
    
https://github.com/Natalnet/GCiD/raw/master/Codes/Data/INMET-Dados_Diarios_PortoAlegre_1980-2017.csv

In [0]:
#Lendo os dados
dataSet = pd.read_csv("https://github.com/Natalnet/GCiD/raw/master/Codes/Data/INMET-Dados_Diarios_PortoAlegre_1980-2017.csv",
                      skiprows = 16, sep=';')
#Transformando data em variável do tipo datetime
dataSet["Data"] = pd.to_datetime(dataSet["Data"], format = "%d/%m/%Y")

In [3]:
#Visualizando cabeçalho dos dados
dataSet.head()

Unnamed: 0,Estacao,Data,Hora,Precipitacao,TempMaxima,TempMinima,Insolacao,Evaporacao Piche,Temp Comp Media,Umidade Relativa Media,Velocidade do Vento Media,Unnamed: 11
0,83967,1980-01-01,0,,23.0,,9.8,5.5,18.34,65.0,3.8,
1,83967,1980-01-01,1200,0.0,,14.8,,,,,,
2,83967,1980-01-02,0,,24.1,,10.8,4.8,18.9,69.5,2.2,
3,83967,1980-01-02,1200,0.0,,13.8,,,,,,
4,83967,1980-01-03,0,,28.4,,11.7,5.0,21.24,59.0,2.166667,


In [4]:
#Visualizando descrição resumida dos dados
dataSet.describe()

Unnamed: 0,Estacao,Hora,Precipitacao,TempMaxima,TempMinima,Insolacao,Evaporacao Piche,Temp Comp Media,Umidade Relativa Media,Velocidade do Vento Media,Unnamed: 11
count,24542.0,24542.0,12266.0,12242.0,12243.0,12131.0,11600.0,12227.0,12223.0,12269.0,0.0
mean,83967.0,600.0,3.959351,25.398268,15.728727,5.88822,2.432095,19.738193,76.451771,2.071611,
std,0.0,600.012224,10.226288,5.637669,4.861767,3.946654,1.541723,4.861474,10.047764,1.293506,
min,83967.0,0.0,0.0,8.6,-0.2,0.0,0.0,5.16,37.5,0.0,
25%,83967.0,0.0,0.0,21.3,12.5,2.1,1.3,16.28,69.5,1.2,
50%,83967.0,600.0,0.0,25.8,16.3,6.7,2.2,20.22,76.5,1.866667,
75%,83967.0,1200.0,1.8,29.6,19.6,9.1,3.2,23.56,83.75,2.7,
max,83967.0,1200.0,149.6,40.6,27.9,13.2,20.7,33.7,99.25,14.5,


# Esse problema encontrado agora na base de dados já foi enfrentado anteriormente, portanto, vamos agilizar o processo com a função "OrganizarDados"

In [0]:
def OrganizarDados(dataSet):
    #Transformando data em variável do tipo datetime
    dataSet["Data"] = pd.to_datetime(dataSet["Data"], format = "%d/%m/%Y")
    #Atribuindo "Data" como índice para a base de dados
    dataSet = dataSet.set_index("Data")
    #Separando os dados em dois dataframes, um para as 00:00 h e outro para as 12:00 h
    dataSet00, dataSet12 = dataSet[dataSet["Hora"] == 0], dataSet[dataSet["Hora"] == 1200]
    #Descartando as colunas "Hora", "Estacao" e "Unnamed: 11" 
    dataSet00, dataSet12 = dataSet00.drop(columns = ["Hora", "Estacao", "Unnamed: 11"]), dataSet12.drop(columns = ["Hora", "Estacao", "Unnamed: 11"])
    #Eliminando colunas completas por "NaN" em cada uma das bases de dados
    dataSet00 = dataSet00.drop(columns = ["Precipitacao","TempMinima"])
    dataSet12 = dataSet12.drop(columns = ["TempMaxima","Insolacao","Evaporacao Piche","Temp Comp Media","Umidade Relativa Media","Velocidade do Vento Media"])
    #Criando o intervalo completo de tempo de 01-01-1980 à 31-12-2017
    dataInicial = '2014-01-01'
    dataFinal = '2017-12-31'
    tempo = pd.date_range(dataInicial, dataFinal)
    #Atribuindo este intervalo de tempo à um dataSet provisório
    dataSetProv = pd.DataFrame()
    dataSetProv["Data"] = tempo
    #Atribuindo o índice para o dataSet provisório como sendo a coluna de datas
    dataSetProv = dataSetProv.set_index("Data")
    #Mesclando o dataSet provisório como sendo o resultado da junção dos dataSet00 e dataSet12
    dataSetProv = dataSetProv.join(dataSet00).join(dataSet12)
    #Tornando o dataSet como sendo o dataSet provisório
    dataSet = dataSetProv  
    return dataSet

In [0]:
#Aplicando a função ao dataSet
dataSet = OrganizarDados(dataSet)

In [0]:
#Tornando a informação de mês uma variável do dataSet
dataSet["Mes"] = dataSet.index.month

In [0]:
#Eliminando eventos inconsistentes da base de dados
dataSet = dataSet.dropna()

In [0]:
#Resentando o índice do dataSet
dataSet = dataSet.reset_index(drop = True)

In [10]:
#Visualizando cabeçalho dos dados
dataSet.head()

Unnamed: 0,TempMaxima,Insolacao,Evaporacao Piche,Temp Comp Media,Umidade Relativa Media,Velocidade do Vento Media,Precipitacao,TempMinima,Mes
0,34.0,5.8,3.2,27.86,75.5,1.8,3.6,23.7,1
1,34.4,5.1,3.7,27.84,74.75,3.4,0.1,24.8,1
2,25.3,0.0,2.1,21.56,88.0,0.9,4.0,19.9,1
3,28.2,12.3,1.2,22.62,62.75,2.366667,9.2,17.5,1
4,31.6,12.7,3.3,25.02,62.5,2.866667,0.0,17.8,1


In [11]:
#Visualizando descrição resumida dos dados
dataSet.describe()

Unnamed: 0,TempMaxima,Insolacao,Evaporacao Piche,Temp Comp Media,Umidade Relativa Media,Velocidade do Vento Media,Precipitacao,TempMinima,Mes
count,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0
mean,25.940987,5.862988,2.136532,20.358944,77.657128,2.073056,4.753667,16.456408,6.516792
std,5.472325,3.936361,1.263007,4.731126,9.777534,0.857441,11.895097,4.66225,3.44806
min,8.6,0.0,0.0,6.96,45.25,0.0,0.0,2.2,1.0
25%,22.0,2.2,1.2,17.03,70.75,1.5,0.0,13.5,4.0
50%,26.1,6.5,2.0,20.68,78.0,1.966667,0.0,16.9,7.0
75%,29.8,9.0,2.9,23.92,84.75,2.533333,2.5,20.1,10.0
max,40.6,12.7,7.8,33.32,97.5,5.866667,95.5,27.1,12.0


In [0]:
#Separando a coluna "Mes" do DataFrame
mes = dataSet["Mes"].values
dataSet = dataSet.drop(columns = "Mes")

In [0]:
from sklearn.model_selection import train_test_split
#Separando os conjuntos de treino e teste com os dados embaralhados, sendo 90% para treino e 10% para teste
X_train, X_test, y_train, y_test = train_test_split(dataSet, mes, test_size = 0.1, random_state = 3)

In [0]:
from sklearn.preprocessing import StandardScaler
#Efetuando uma transformação no conjunto de dados - também já estudamos isso
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

<h3> Vamos agora utilizar o algoritmo SVM para Classificação, disponibilizado na biblioteca Scikit-Learn. Segue link para a documentação:

https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html#sklearn.svm.LinearSVC

In [0]:
from sklearn.svm import SVC
#Criação do objeto SVC como "classifier"
classifier = SVC(C = 10000000.0, kernel = 'rbf', random_state = 0, gamma = 0.0001)

In [16]:
#Treinando o modelo classificador
classifier.fit(X_train, y_train)

SVC(C=10000000.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma=0.0001, kernel='rbf',
    max_iter=-1, probability=False, random_state=0, shrinking=True, tol=0.001,
    verbose=False)

In [0]:
#Previsão para os valores de teste
y_pred = classifier.predict(X_test)

In [0]:
from sklearn.metrics import confusion_matrix
#Avaliando o modelo com matriz de confusão
cm = confusion_matrix(y_test, y_pred)
cm = pd.DataFrame(cm)
cm.columns = ["Jan","Fev","Mar","Abr","Mai","Jun","Jul","Ago","Set","Out","Nov","Dez"]
cm.index = ["Jan","Fev","Mar","Abr","Mai","Jun","Jul","Ago","Set","Out","Nov","Dez"]