# Agora vamos falar de aprendizado supervisionado, usando um algoritmo clássico muito poderoso: Support Vector Machine (SVM).

In [1]:
#Importando bibliotecas básicas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

<h3> Segue o link para visualizar os dados: 
    
https://github.com/Natalnet/GCiD/raw/master/Codes/Data/INMET-Dados_Diarios_PortoAlegre_1980-2017.csv

In [2]:
#Lendo os dados
dataSet = pd.read_csv("https://github.com/Natalnet/GCiD/raw/master/Codes/Data/INMET-Dados_Diarios_PortoAlegre_1980-2017.csv",
                      skiprows = 16, sep=';')
#Transformando data em variável do tipo datetime
dataSet["Data"] = pd.to_datetime(dataSet["Data"], format = "%d/%m/%Y")

In [3]:
#Visualizando cabeçalho dos dados
dataSet.head()

Unnamed: 0,Estacao,Data,Hora,Precipitacao,TempMaxima,TempMinima,Insolacao,Evaporacao Piche,Temp Comp Media,Umidade Relativa Media,Velocidade do Vento Media,Unnamed: 11
0,83967,1980-01-01,0,,23.0,,9.8,5.5,18.34,65.0,3.8,
1,83967,1980-01-01,1200,0.0,,14.8,,,,,,
2,83967,1980-01-02,0,,24.1,,10.8,4.8,18.9,69.5,2.2,
3,83967,1980-01-02,1200,0.0,,13.8,,,,,,
4,83967,1980-01-03,0,,28.4,,11.7,5.0,21.24,59.0,2.166667,


In [4]:
#Visualizando descrição resumida dos dados
dataSet.describe()

Unnamed: 0,Estacao,Hora,Precipitacao,TempMaxima,TempMinima,Insolacao,Evaporacao Piche,Temp Comp Media,Umidade Relativa Media,Velocidade do Vento Media,Unnamed: 11
count,24542.0,24542.0,12266.0,12242.0,12243.0,12131.0,11600.0,12227.0,12223.0,12269.0,0.0
mean,83967.0,600.0,3.959351,25.398268,15.728727,5.88822,2.432095,19.738193,76.451771,2.071611,
std,0.0,600.012224,10.226288,5.637669,4.861767,3.946654,1.541723,4.861474,10.047764,1.293506,
min,83967.0,0.0,0.0,8.6,-0.2,0.0,0.0,5.16,37.5,0.0,
25%,83967.0,0.0,0.0,21.3,12.5,2.1,1.3,16.28,69.5,1.2,
50%,83967.0,600.0,0.0,25.8,16.3,6.7,2.2,20.22,76.5,1.866667,
75%,83967.0,1200.0,1.8,29.6,19.6,9.1,3.2,23.56,83.75,2.7,
max,83967.0,1200.0,149.6,40.6,27.9,13.2,20.7,33.7,99.25,14.5,


# Esse problema encontrado agora já foi enfrentado anteriormente, portanto, vamos agilizar o processo com a função "OrganizarDados"

In [5]:
def OrganizarDados(dataSet):
    #Transformando data em variável do tipo datetime
    dataSet["Data"] = pd.to_datetime(dataSet["Data"], format = "%d/%m/%Y")
    #Atribuindo "Data" como índice para a base de dados
    dataSet = dataSet.set_index("Data")
    #Separando os dados em dois dataframes, um para as 00:00 h e outro para as 12:00 h
    dataSet00, dataSet12 = dataSet[dataSet["Hora"] == 0], dataSet[dataSet["Hora"] == 1200]
    #Descartando as colunas "Hora", "Estacao" e "Unnamed: 11" 
    dataSet00, dataSet12 = dataSet00.drop(columns = ["Hora", "Estacao", "Unnamed: 11"]), dataSet12.drop(columns = ["Hora", "Estacao", "Unnamed: 11"])
    #Eliminando colunas completas por "NaN" em cada uma das bases de dados
    dataSet00 = dataSet00.drop(columns = ["Precipitacao","TempMinima"])
    dataSet12 = dataSet12.drop(columns = ["TempMaxima","Insolacao","Evaporacao Piche","Temp Comp Media","Umidade Relativa Media","Velocidade do Vento Media"])
    #Criando o intervalo completo de tempo de 01-01-1980 à 31-12-2017
    dataInicial = '1980-01-01'
    dataFinal = '2017-12-31'
    tempo = pd.date_range(dataInicial, dataFinal)
    #Atribuindo este intervalo de tempo à um dataSet provisório
    dataSetProv = pd.DataFrame()
    dataSetProv["Data"] = tempo
    #Atribuindo o índice para o dataSet provisório como sendo a coluna de datas
    dataSetProv = dataSetProv.set_index("Data")
    #Mesclando o dataSet provisório como sendo o resultado da junção dos dataSet00 e dataSet12
    dataSetProv = dataSetProv.join(dataSet00).join(dataSet12)
    #Tornando o dataSet como sendo o dataSet provisório
    dataSet = dataSetProv  
    return dataSet

In [6]:
#Aplicando a função ao dataSet
dataSet = OrganizarDados(dataSet)

In [7]:
#Tornando a informação de mês uma variável do dataSet
dataSet["Mes"] = dataSet.index.month

In [8]:
#Eliminando eventos inconsistentes da base de dados
dataSet = dataSet.dropna()

In [None]:
#Resentando o índice do dataSet
dataSet = dataSet.reset_index(drop = True)

In [None]:
#Visualizando cabeçalho dos dados
dataSet.head()

Unnamed: 0,TempMaxima,Insolacao,Evaporacao Piche,Temp Comp Media,Umidade Relativa Media,Velocidade do Vento Media,Precipitacao,TempMinima,Mes
0,23.0,9.8,5.5,18.34,65.0,3.8,0.0,14.8,1
1,24.1,10.8,4.8,18.9,69.5,2.2,0.0,13.8,1
2,28.4,11.7,5.0,21.24,59.0,2.166667,0.0,14.5,1
3,28.0,11.1,7.7,22.22,63.75,3.333333,0.0,15.9,1
4,28.9,11.3,10.3,23.34,69.0,3.766667,0.0,19.5,1


In [None]:
#Visualizando descrição resumida dos dados
dataSet.describe()

Unnamed: 0,TempMaxima,Insolacao,Evaporacao Piche,Temp Comp Media,Umidade Relativa Media,Velocidade do Vento Media,Precipitacao,TempMinima,Mes
count,11563.0,11563.0,11563.0,11563.0,11563.0,11563.0,11563.0,11563.0,11563.0
mean,25.41516,5.904376,2.429958,19.747934,76.412025,2.091013,3.943838,15.717495,6.488628
std,5.640662,3.949802,1.539877,4.869706,10.019447,1.298931,10.180307,4.874658,3.470578
min,8.6,0.0,0.0,5.16,37.5,0.0,0.0,-0.2,1.0
25%,21.3,2.1,1.3,16.28,69.25,1.2,0.0,12.5,3.0
50%,25.8,6.7,2.2,20.24,76.5,1.866667,0.0,16.3,6.0
75%,29.6,9.1,3.2,23.58,83.75,2.733333,1.8,19.6,10.0
max,40.6,13.2,20.7,33.7,99.25,14.5,149.6,27.9,12.0


In [None]:
#Separando a coluna "Mes" do DataFrame
mes = dataSet["Mes"]
dataSet = dataSet.drop(columns = "Mes")

In [None]:
from sklearn.model_selection import train_test_split
#Separando os conjuntos de treino e teste com os dados embaralhados, sendo 90% para treino e 10% para teste
X_train, X_test, y_train, y_test = train_test_split(dataSet, mes, test_size = 0.1, random_state = 3)

In [None]:
from sklearn.preprocessing import StandardScaler
#Efetuando uma transformação no conjunto de dados - também já estudamos isso
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

<h3> Vamos agora utilizar o algoritmo SVM para Classificação, disponibilizado na biblioteca Scikit-Learn. Segue link para a documentação:

https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html#sklearn.svm.LinearSVC

In [None]:
from sklearn.svm import SVC
#Criação do objeto SVC como "classifier"
classifier = SVC(C = 10000000.0, kernel = 'rbf', random_state = 0, gamma = 0.0001)

In [None]:
#Treinando o modelo classificador
classifier.fit(X_train, y_train)

In [None]:
from sklearn.metrics import confusion_matrix
#Avaliando o modelo com matriz de confusão
cm = confusion_matrix(y_test, y_pred)
print(cm)