In [3]:
#Importação de bibliotecas e do dataframe
import pandas as pd
import numpy as np
#from tabulate import tabulate
from sklearn.linear_model import LinearRegression

#Os arquivos csv estão sendo importados do repositório do GitHub
data_estacao_convencional_read = pd.read_csv('Estacao_Convencional.csv')
data_sensor_read = pd.read_csv('Sensor_FieldPRO.csv')

In [4]:
#Visualizando os dados do Sensor FieldPRO, as primeiras 50 linhas
data_sensor_read.head(50)

Unnamed: 0,Datetime – utc,air_humidity_100,air_temperature_100,atm_pressure_main,num_of_resets,piezo_charge,piezo_temperature
0,2020-09-30T23:00:00Z,38.0,31.366,9412,0,45123,30
1,2020-10-01T00:00:00Z,,,9412,0,45025,31
2,2020-10-01T01:00:00Z,39.0,31.366,9419,0,44923,31
3,2020-10-01T02:00:00Z,39.0,31.322,9419,0,44825,31
4,2020-10-01T03:00:00Z,38.0,31.24,9416,0,44728,31
5,2020-10-01T04:00:00Z,39.0,30.828,9411,0,44632,30
6,2020-10-01T05:00:00Z,,,9411,0,44537,30
7,2020-10-01T06:00:00Z,39.0,30.686,9413,0,44441,30
8,2020-10-01T07:00:00Z,40.0,30.63,9415,0,44347,30
9,2020-10-01T08:00:00Z,41.0,30.588,9419,0,44251,30


In [5]:
#Identificando o tipo dos dados nas colunas dataframe Sensor FieldPRO, usando o dtypes
data_sensor_read.dtypes

Datetime – utc          object
air_humidity_100       float64
air_temperature_100    float64
atm_pressure_main        int64
num_of_resets            int64
piezo_charge             int64
piezo_temperature        int64
dtype: object

In [6]:
#Verificando se existem valores nan e contá-los do dataframe Sensor FieldPRO
#Criando uma lista vazia para receber a contagem dos valores NaN

valores_nan_sensor_fieldpro = []

#O FOR é usado para passar por todos os valores do dataframe
for coluna in data_sensor_read.columns:
  #A contagem acontece se o isna identifica que é um valor NaN
  contagem_nan_sensor_fieldpro = data_sensor_read.loc[pd.isna(data_sensor_read[coluna]), coluna].shape[0]

  #O append coloca o valor da contagem na lista que estava vazia
  valores_nan_sensor_fieldpro.append(contagem_nan_sensor_fieldpro)

valores_nan_sensor_fieldpro

[0, 6, 6, 0, 0, 0, 0]

In [7]:
#Verificando se existem valores null do dataframe Sensor FieldPRO

#Criando uma lista vazia para receber a contagem dos valores Null
valores_null_sensor_fieldpro = []

#O FOR é usado para passar por todos os valores do dataframe
for coluna in data_sensor_read.columns:
  #A contagem acontece se o isna identifica que é um valor NaN
  contagem_null_sensor_fieldpro = data_sensor_read.loc[pd.isnull(data_sensor_read[coluna]), coluna].shape[0]
  #O append coloca o valor da contagem na lista que estava vazia
  valores_null_sensor_fieldpro.append(contagem_null_sensor_fieldpro)

valores_null_sensor_fieldpro

[0, 6, 6, 0, 0, 0, 0]

In [8]:
#O resultado das duas verificações foi o mesmo, indicando que os valores que estão sendo
# identificados como NaN são os mesmos que estão sendo identificados como Null
# portanto só será necessário um tratamento para esses valores

In [9]:
#Foram identificados 6 valores NaN, tanto na coluna air_humidity_100 quanto na air_temperature_100
#Agora será feito um tratamento para substituir os valores NaN pela média dos valores de temperatura do ar ou humidade do ar nos
# horários adjacentes, por exemplo no horário 2020-10-01T00:00:00Z	os valores de temperatura do ar e humadidade do ar são NaN
# eles serão substituidos pela média dos valores de temperatura do ar e humidade do ar dos horários 2020-09-30T23:00:00Z
# e 2020-10-01T01:00:00Z, que são o horário antes e o depois da ocorrência do valor NaN
#O objetivo é substituir os valores NaN pois eles interferem nos cáculos e modelos que serão desenvolvidos mais a abaixo.

In [10]:
#Criando uma lista com os valores da coluna de humidade do ar para poder substituir os valores NaN
lista_air_humidity_original = list(data_sensor_read['air_humidity_100'])

In [11]:
#O FOR é usado para verificar quais são os valores NaN e substuir pela média dos valores anterior e posterior
#Para a coluna de humidade do ar

#Criando uma lista vazia para receber os valores certos da coluna
lista_air_humidity_semNaN = []
for i in range(len(lista_air_humidity_original)):
  #O IF verifica a condição do valor ser NaN
  if pd.isna(lista_air_humidity_original[i]) == True :
    #Caso seja NaN o valor é subsituido pela média dos adjacentes
    lista_air_humidity_original[i] = (lista_air_humidity_original[i-1] + lista_air_humidity_original[i+1])/2
  #Caso não seja NaN o valor continua o mesmo
  lista_air_humidity_semNaN.append(lista_air_humidity_original[i])


In [12]:
#Criando uma lista com os valores da coluna de temperatura do ar para poder substituir os valores NaN
lista_air_temperature_original = list(data_sensor_read['air_temperature_100'])

In [13]:
#O FOR é usado para verificar quais são os valores NaN e substuir pela média dos valores anterior e posterior
#Para a coluna de temperatura do ar

#Criando uma lista vazia para receber os valores certos da coluna
lista_air_temperature_semNaN = []
for i in range(len(lista_air_temperature_original)):
  #O IF verifica a condição do valor ser NaN
  if pd.isna(lista_air_temperature_original[i]) == True :
    #Caso seja NaN o valor é subsituido pela média dos adjacentes
    lista_air_temperature_original[i] = (lista_air_temperature_original[i-1] + lista_air_temperature_original[i+1])/2
  #Caso não seja NaN o valor continua o mesmo
  lista_air_temperature_semNaN.append(lista_air_temperature_original[i])

In [14]:
#Inserindo as listas sem valores NaN no lugar das colunas originais
data_sensor_read['air_humidity_100'] = lista_air_humidity_semNaN
data_sensor_read['air_temperature_100'] = lista_air_temperature_semNaN

In [15]:
#Identifiquei visualmente que um dos horários está fora do padrão de 00 minutos e 00 segundos
# como irei usar a coluna 'Datetime – utc'	como uma coluna chave os valores precisam estar no padrão
#Os caracteres de minuto e segundo do horário ficam nas posições de 14 a 19, então esses serão os
# caracteres verificados para padronizar

In [16]:
#Criando uma lista com os valores da coluna de datetime para poder padronizar os valores de horário
lista_datetime_original = list(data_sensor_read['Datetime – utc'])

In [17]:
#O FOR é usado para verificar quais são os valores com caracteres de minuto e segundo fora do padrão 00:00
# e substuir por 00:00

#Criando uma lista vazia para receber os valores certos da coluna
lista_datetime_padrao = []
for i in range(len(lista_datetime_original)):
  #O STR transforma o valor em string para que seja possível trabalhar com o valor
  # como uma string
  str(lista_datetime_original[i])
  #O IF verifica a condição do valor ter caracteres diferentes de 00:00 nas
  # posições 14 a 19
  if (lista_datetime_original[i][14:19]) != '00:00':
    #Caso seja diferente de 00:00 o valor é subsituido por 00:00
    lista_datetime_original[i] = lista_datetime_original[i][:14] + '00:00Z'
  #Caso esteja no padrão o valor continua o mesmo
  lista_datetime_padrao.append(lista_datetime_original[i])

In [18]:
#Inserindo a lista com datetime padronizado no dataframe Sensor FieldPRO
data_sensor_read['Datetime – utc'] = lista_datetime_padrao

In [19]:
#Entre as colunas numéricas do dataframe apenas as relativas a temperatura
# poderiam incluir valores negativos, ou seja, as colunas air_temperature_100
# e piezo_temperature podem ter valores negativos
#A humidade do ar, a pressão atmosférica, numéro de resets e a carga acumulada
# não poderiam ter valores negativos, portanto as colunas air_humidity_100,
#	atm_pressure_main, num_of_resets e piezo_charge devem ter apenas valores positivos

In [20]:
#Criando um dataframe apenas com as colunas que não podem ter valores negativos
data_sensor_numerics = data_sensor_read[['air_humidity_100',	'atm_pressure_main',	'num_of_resets',	'piezo_charge']]

In [21]:
#Verificando se existem valores negativos nas colunas

#Criando uma lista vazia para receber a contagem dos valores negativos
valores_negativos_sensor_fieldpro = []
#O FOR é usado para passar por todos os valores do dataframe
for coluna in data_sensor_numerics:
  #A contagem é feita caso o valor seja menor que zero
  contagem_negativos_sensor_fieldpro = len(data_sensor_numerics.loc[data_sensor_numerics[coluna] < 0])
  #O resultado da contagem é adicionado a lista que estava vazia
  valores_negativos_sensor_fieldpro.append(contagem_negativos_sensor_fieldpro)

valores_negativos_sensor_fieldpro

[0, 0, 0, 0]

In [22]:
#Concluisse que não há valores negativos em colunas que não poderiam os ter

In [23]:
#Ajustando o nome da coluna 'Datetime - utc' do dataframe Sensor FiledPRO pois é
# melhor que o nome da coluna não tenha espaços entre as palavras
data_sensor_read = data_sensor_read.rename(columns={"Datetime – utc": "Datetime"})

In [24]:
#Criando um novo dataframe Sensor FieldPRO que indica que é a versão pronta para análises
data_sensor_pronto = data_sensor_read

In [25]:
#Fim da análise dos dados e ajuste do dataframe Sensor FieldPRO
#Início da análise do dataframe da Estação Convencional

In [26]:
#Visualizando os dados do dataframe da Estação Convencional
data_estacao_convencional_read.head(50)

Unnamed: 0,data,Hora (Brasília),chuva
0,2020-09-01,00:00:00,0.0
1,2020-09-01,01:00:00,0.0
2,2020-09-01,02:00:00,0.0
3,2020-09-01,03:00:00,0.0
4,2020-09-01,04:00:00,0.0
5,2020-09-01,05:00:00,0.0
6,2020-09-01,06:00:00,0.0
7,2020-09-01,07:00:00,0.0
8,2020-09-01,08:00:00,0.0
9,2020-09-01,09:00:00,0.0


In [27]:
#Identificando o tipo dos dados nas colunas do dataframe Estação Convencional
data_estacao_convencional_read.dtypes

data                object
Hora (Brasília)     object
chuva              float64
dtype: object

In [28]:
#Verificando se existem valores NaN e contá-los do dataframe Estação Convencional

#Criando uma lista vazia para receber a contagem dos valores NaN
valores_nan_estacao_convencional = []
#O FOR é usado para passar por todos os valores do dataframe
for coluna in data_estacao_convencional_read.columns:
  #A contagem acontece se o isna identifica que é um valor NaN
  contagem_nan_estacao_convencional = data_estacao_convencional_read.loc[pd.isna(data_estacao_convencional_read[coluna]), coluna].shape[0]
  #O append coloca o valor da contagem na lista que estava vazia
  valores_nan_estacao_convencional.append(contagem_nan_estacao_convencional)

valores_nan_estacao_convencional

[0, 0, 0]

In [29]:
#Não há valores NaN nesse dataframe
#Agora será feita a verificação se há valores negativos de chuva, pois não deveriam existir

In [30]:
#Criando um dataframe apenas com a coluna de chuva
data_estacao_convencional_numerics = data_estacao_convencional_read[['chuva']]

In [31]:
#Verificando se existem valores negativos na coluna chuva

#Criando uma lista vazia para receber a contagem dos valores negativos
valores_negativos_estacao_convencional = []

#O FOR é usado para passar por todos os valores do dataframe
for coluna in data_estacao_convencional_numerics:
  #A contagem acontece se o valor é menor que zero
  contagem_negativos_estacao_convencional = len(data_estacao_convencional_numerics.loc[data_estacao_convencional_numerics[coluna] < 0])
  #O append coloca o valor da contagem na lista que estava vazia
  valores_negativos_estacao_convencional.append(contagem_negativos_estacao_convencional)

valores_negativos_estacao_convencional

[0]

In [32]:
#Não há valores negativos na coluna chuva
#Agora será feito uma concatenação e ajuste entre as colunas data e Hora (Brasília)
# do dataframe Estação Convencional para criar uma coluna no mesmo padrão que a
# coluna 'Datetime'	do dataframe Sensor FieldPRO, pois irei usar essas duas
# colunas para relacionar os dois dataframes

In [33]:
#As listas com os valores das coluas de data e Hora (Brasília) do dataframe Estação
# Convencional foram criadas para execurtar o FOR abaixo
lista_data_estacao_convencional = data_estacao_convencional_read['data']
lista_horario_estacao_convencional = data_estacao_convencional_read['Hora (Brasília)']

In [34]:
#O FOR é usado para juntar os valores das colunas data e Hora (Brasília) do dataframe Estação Convencional
# e deixar no no mesmo formato que a coluna 'Datetime' do dataframe Sensor FielPRO

#Criando uma lista vazia para receber a contagem dos valores NaN
lista_datatime_estacao_convencional = []
#O FOR passa por cada linha do dataframe Estação Convencional
for i in range(len(lista_data_estacao_convencional)):
  #Um valor é criando concatenando a data, a letra T, o horário e a letra Z
  # para ficar no padrão
  datetime_estacao_convencional = lista_data_estacao_convencional[i] + 'T' + lista_horario_estacao_convencional[i] + 'Z'
  #Os valores são inseridos na lista que estava vazia
  lista_datatime_estacao_convencional.append(datetime_estacao_convencional)

In [35]:
#Inserindo a coluna Datetime no dataframe Estação Convencional
data_estacao_convencional_read['Datetime'] = lista_datatime_estacao_convencional

In [36]:
#Criando um novo dataframe Estação Convencional apenas com as colunas Datetime e chuva
# pois apenas elas serão usadas daqui para frente
#E verificando o tipo dos dados das colunas para garantir que estão corretos
data_estacao_convencional_pronto = data_estacao_convencional_read[['Datetime', 'chuva']]
data_estacao_convencional_pronto.dtypes

Datetime     object
chuva       float64
dtype: object

In [37]:
#Os tipos dos dados estão corretos
#Fim da análise dos dados e ajuste do dataframe Estação Convencional

In [38]:
#Início da análise comparativa entre os dois dataframes para poder usar os dados de chuva
# do dataframe Estação Convencional junto com os dados do dataframe Sensor FieldPRO
# para criar um modelo preditivo

In [39]:
#Verificando as datas e horários que iniciam e terminam os dois dataframes para
# identificar a intersecção dos dados, pois essa intersecção que será usada no modelo

#O min() serva para identificar o menor valor da coluna, por se tradar de data
# o min() informa a data mais antiga, o max() informa a mais nova, já que traz
# o maior valor
inicio_sensor_fielpro = data_sensor_pronto['Datetime'].min()
fim_sensor_fielpro = data_sensor_pronto['Datetime'].max()
inicio_estacao_convencional = data_estacao_convencional_pronto['Datetime'].min()
fim_estacao_convencional = data_estacao_convencional_pronto['Datetime'].max()

In [40]:
#Criando uma tabela para comparar os datetimes de início e fim de cada dataframe
datas_inicio_fim = [['Sensor_FieldPRO', inicio_sensor_fielpro, fim_sensor_fielpro], ['Estacao_Convecional', inicio_estacao_convencional, fim_estacao_convencional]]
comparacao_datas = pd.DataFrame(datas_inicio_fim, columns=['Dataframe ', 'Data_inicio', 'Data_fim'])
print(comparacao_datas)

            Dataframe            Data_inicio              Data_fim
0      Sensor_FieldPRO  2020-09-30T23:00:00Z  2020-12-11T13:00:00Z
1  Estacao_Convecional  2020-09-01T00:00:00Z  2020-12-03T23:00:00Z


In [41]:
#Essa comparação mostra que o dataframe Estação Convencional tem dados iniciando antes dos dados
# do Sensor FiledPRO, pois inicia as 00 horas do dia 01/09/20 enquanto o Sensor FieldPRO
# inicia apenas as 23 horas do dia 30/09/20
#Ao mesmo tempo o dataframe Estação Convencional finaliza seus dados antes, pois termina
# as 23 horas do dia 03/12/20, enquanto no Sensor FieldPRO finaliza as 13 horas do dia
# 11/12/20. Por tanto a intersecção de horários é entre 2020-09-30T23:00:00Z e 2020-12-03T23:00:00Z

In [42]:
#Criando as variáveis data_inicio e data_fim que são os datetimes de início e fim
# da instersecção dos dois dataframes
data_inicio = inicio_sensor_fielpro
data_fim = fim_estacao_convencional

In [43]:
#O FOR percorre os dois dataframes procurnando os valores de Datetime que são iguais para criar uma lista
# com os valores de chuva da intersecção

#Criando uma lista vazia para receber os valores de chuva
lista_interseccao_chuva = []
#O FOR é usado para passar por todos os valores de chuva do Estação Convencional
for i in range(len(data_estacao_convencional_pronto['Datetime'])):
  #O segundo FOR passa por tados os valores de datetime do Sensor FieldPRO
  for j in range(len(data_sensor_pronto['Datetime'])):
    #O IF compara se os valores de datetime de ambos os dataframes são iguais
    if data_estacao_convencional_pronto['Datetime'][i] == data_sensor_pronto['Datetime'][j]:
      #Caso sejam o valor da chuva é adicionado a lista que estava vazia
      lista_interseccao_chuva.append(data_estacao_convencional_pronto['chuva'][i])

In [44]:
#Criando variaveis baseadas nos índices para serem usadas para delimitar 
# o dataframe Sensor FiledPRO entre os datetimes da instersecção
indice_inicio = int(data_sensor_pronto[data_sensor_pronto['Datetime']== data_inicio].index.values)
#O indice do fim precisa ter 1 somado pois quando informado no iloc vai do número de início até o final menos 1
indice_fim = int(data_sensor_pronto[data_sensor_pronto['Datetime']== data_fim].index.values)+1

In [45]:
#Criando um novo dataframe para o Senfor FieldPRO com apenas os datetimes da instersecção
data_sensor_intersec = data_sensor_pronto.iloc[indice_inicio:indice_fim]

In [46]:
#Adicionando a lista de chuva ao dataframe Senfor FieldPRO e criando o dataframe
#que será usado nos modelos
data_sensor_intersec['chuva'] = lista_interseccao_chuva

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_sensor_intersec['chuva'] = lista_interseccao_chuva


In [47]:
#Agora será aplicada a Regressão Linear nos dados para que o modelo aprenda com o padrão de dados
# e possa prever quais serão as chuvas baseado nos dados como número de resets, piezo charge e piezo temperatura
#Para garantir que o modelo está com a melhor previsão possível serão feitas diversas modelagens
# em cada uma variando os dados de entrada do modelo, para depois comparar qual modelo gerou a 
# melhor previsão e usar este para prever as chuvas

In [48]:
#Nesse bloco os dados usados são o número de resets, piezo charge e piezo temperatura
# e estão sendo feitas combinações dessas 3 colunas com as 3 colunas de dados extras
# a humidade do ar, a temperatura do ar e a pressão atmosférica
#Cada modelo gerado terá seu Erro Absoluto Médio e Erro Médio Percentual calculados
# com objetivo de comparar e identificar o melhor modelo


dados1 = data_sensor_intersec[['num_of_resets',	'piezo_charge',	'piezo_temperature','chuva']]
dados2 = data_sensor_intersec[['num_of_resets',	'piezo_charge',	'piezo_temperature','air_humidity_100','chuva']]
dados3 = data_sensor_intersec[['num_of_resets',	'piezo_charge',	'piezo_temperature',	'air_temperature_100','chuva']]
dados4 = data_sensor_intersec[['num_of_resets',	'piezo_charge',	'piezo_temperature', 'atm_pressure_main','chuva']]
dados5 = data_sensor_intersec[['num_of_resets',	'piezo_charge',	'piezo_temperature','air_humidity_100',	'air_temperature_100','chuva']]                                                                                                                
dados6 = data_sensor_intersec[['num_of_resets',	'piezo_charge',	'piezo_temperature','air_humidity_100', 'atm_pressure_main','chuva']]  
dados7 = data_sensor_intersec[['num_of_resets',	'piezo_charge',	'piezo_temperature','air_temperature_100', 'atm_pressure_main','chuva']]  
dados8 = data_sensor_intersec[['num_of_resets',	'piezo_charge',	'piezo_temperature','air_humidity_100',	'air_temperature_100',
                                      'atm_pressure_main','chuva']]                                                                              
#O i será usado no loop do while
i = 0
#As listas de Erro Absoluto Médio e Erro Médio percentual são criadas
# para receber os valores dos erros para que futuramente seja feita a comparação
lista_erro_abs_medio = [] 
lista_erro_medio_perc = [] 
#A variável parte é criada para definir a quantidade de linhas que serão usadas
# nos dataframes de treino e teste, no caso estão sendo usadas 80% das linhas
# para treino e 20% para teste
parte = round(len(dados1)*0.8)
#O mod está chamando a função da Regressão Linear
mod = LinearRegression()
#O WHILE foi usado para gerar um loop e rodar todas as cobinações de colunas
# como são 7 combinações o looping roda 7
while i<8: 
  #Os dataframes de treino tem os dados do dataframe de origem mas só vai até 80%
  # das linhas, enquanto que os de teste ficam com os 20% de linhas restantes
  #X é o dataframe que será usado no modelo para treino, ele possuí as mesmas 
  # colunas que o dataframe de origem, exceto pela coluna de chuva
  #X_prev segue a mesma lógica, mas para o teste do modelo
  if i == 0: 
    treino = dados1.iloc[0:parte] 
    teste = dados1.iloc[parte:len(dados1)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 1:
    treino = dados2.iloc[0:parte] 
    teste = dados2.iloc[parte:len(dados2)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 2:
    treino = dados3.iloc[0:parte] 
    teste = dados3.iloc[parte:len(dados3)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 3:
    treino = dados4.iloc[0:parte] 
    teste = dados4.iloc[parte:len(dados4)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 4:
    treino = dados5.iloc[0:parte] 
    teste = dados5.iloc[parte:len(dados5)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 5:
    treino = dados6.iloc[0:parte] 
    teste = dados6.iloc[parte:len(dados6)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 6:
    treino = dados7.iloc[0:parte] 
    teste = dados7.iloc[parte:len(dados7)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 7:
    treino = dados8.iloc[0:parte] 
    teste = dados8.iloc[parte:len(dados8)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]

  #O Y será usado para o treino e tem os valores de chuva
  Y = treino[['chuva']]
  #O mod.fit aplica a Rgressão Linear nos dataframes X e Y
  mod.fit(X, Y)
  #Y_prev é a previsão dos valores de chuva usando os dados do modelo de teste X_prev
  Y_prev = mod.predict(X_prev)
  #Y_real são os dados reais de chuva do X_prev
  Y_real = teste[['chuva']].to_numpy()
  #O erro é calculado fazendo a diferença entre a chuva real do Y_real 
  #com a chuva prevista do Y_prev
  erro = Y_real - Y_prev
  #O Erro Absoluto Médio é calculado através do valor absoluto do erro
  erro_abs_medio = np.mean(abs(erro))
  #O valor do erro é adicionado na lista de erros
  lista_erro_abs_medio.append(erro_abs_medio)
  #O Erro Médio percentual é calculado dividindo o Erro Absoluto Médio pelo valor real de chuva
  erro_medio_perc = erro_abs_medio/np.mean(Y_real)
  #O valor do erro é adicionado na lista de erros
  lista_erro_medio_perc.append(erro_medio_perc)
  i = i+1


In [49]:
#Nesse bloco os dados usados são o número de resets e piezo charge
# e estão sendo feitas combinações dessas 2 colunas com as 3 colunas de dados extras
# a humidade do ar, a temperatura do ar e a pressão atmosférica
#Cada modelo gerado terá seu Erro Absoluto Médio e Erro Médio Percentual calculados
# com objetivo de comparar e identificar o melhor modelo
dados1 = data_sensor_intersec[['num_of_resets',	'piezo_charge','chuva']]
dados2 = data_sensor_intersec[['num_of_resets',	'piezo_charge',	'air_humidity_100','chuva']]
dados3 = data_sensor_intersec[['num_of_resets',	'piezo_charge',	'air_temperature_100','chuva']]
dados4 = data_sensor_intersec[['num_of_resets',	'piezo_charge', 'atm_pressure_main','chuva']]
dados5 = data_sensor_intersec[['num_of_resets',	'piezo_charge', 'air_humidity_100',	'air_temperature_100','chuva']]                                                                                                                
dados6 = data_sensor_intersec[['num_of_resets',	'piezo_charge',	'air_humidity_100', 'atm_pressure_main','chuva']]  
dados7 = data_sensor_intersec[['num_of_resets',	'piezo_charge',	'air_temperature_100', 'atm_pressure_main','chuva']]  
dados8 = data_sensor_intersec[['num_of_resets',	'piezo_charge','air_humidity_100',	'air_temperature_100', 'atm_pressure_main','chuva']]                                                                              
#O i será usado no loop do while
i = 0 
#O mod está chamando a função da Regressão Linear
mod = LinearRegression()
#O WHILE foi usado para gerar um loop e rodar todas as cobinações de colunas
# como são 7 combinações o looping roda 7 vezes
while i<8:
  #Os dataframes de treino tem os dados do dataframe de origem mas só vai até 80%
  # das linhas, enquanto que os de teste ficam com os 20% de linhas restantes
  #X é o dataframe que será usado no modelo para treino, ele possuí as mesmas 
  # colunas que o dataframe de origem, exceto pela coluna de chuva
  #X_prev segue a mesma lógica, mas para o teste do modelo
  if i == 0: 
    treino = dados1.iloc[0:parte] 
    teste = dados1.iloc[parte:len(dados1)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 1:
    treino = dados2.iloc[0:parte] 
    teste = dados2.iloc[parte:len(dados2)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 2:
    treino = dados3.iloc[0:parte] 
    teste = dados3.iloc[parte:len(dados3)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 3:
    treino = dados4.iloc[0:parte] 
    teste = dados4.iloc[parte:len(dados4)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 4:
    treino = dados5.iloc[0:parte] 
    teste = dados5.iloc[parte:len(dados5)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 5:
    treino = dados6.iloc[0:parte] 
    teste = dados6.iloc[parte:len(dados6)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 6:
    treino = dados7.iloc[0:parte] 
    teste = dados7.iloc[parte:len(dados7)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 7:
    treino = dados8.iloc[0:parte] 
    teste = dados8.iloc[parte:len(dados8)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]

  #O Y será usado para o treino e tem os valores de chuva
  Y = treino[['chuva']]
  #O mod.fit aplica a Rgressão Linear nos dataframes X e Y
  mod.fit(X, Y)
  #Y_prev é a previsão dos valores de chuva usando os dados do modelo de teste X_prev
  Y_prev = mod.predict(X_prev)
  #Y_real são os dados reais de chuva do X_prev
  Y_real = teste[['chuva']].to_numpy()
  #O erro é calculado fazendo a diferença entre a chuva real do Y_real 
  #com a chuva prevista do Y_prev
  erro = Y_real - Y_prev
  #O Erro Absoluto Médio é calculado através do valor absoluto do erro
  erro_abs_medio = np.mean(abs(erro))
  #O valor do erro é adicionado na lista de erros
  lista_erro_abs_medio.append(erro_abs_medio)
  #O Erro Médio percentual é calculado dividindo o Erro Absoluto Médio pelo valor real de chuva
  erro_medio_perc = erro_abs_medio/np.mean(Y_real)
  #O valor do erro é adicionado na lista de erros
  lista_erro_medio_perc.append(erro_medio_perc)
  i = i+1

In [50]:
#Nesse bloco os dados usados são o número de resets e piezo temperatura
# e estão sendo feitas combinações dessas 2 colunas com as 3 colunas de dados extras
# a humidade do ar, a temperatura do ar e a pressão atmosférica
#Cada modelo gerado terá seu Erro Absoluto Médio e Erro Médio Percentual calculados
# com objetivo de comparar e identificar o melhor modelo
dados1 = data_sensor_intersec[['num_of_resets',	'piezo_temperature','chuva']]
dados2 = data_sensor_intersec[['num_of_resets',	'piezo_temperature','air_humidity_100','chuva']]
dados3 = data_sensor_intersec[['num_of_resets',	'piezo_temperature',	'air_temperature_100','chuva']]
dados4 = data_sensor_intersec[['num_of_resets',	'piezo_temperature', 'atm_pressure_main','chuva']]
dados5 = data_sensor_intersec[['num_of_resets',	'piezo_temperature','air_humidity_100',	'air_temperature_100','chuva']]                                                                                                                
dados6 = data_sensor_intersec[['num_of_resets',	'piezo_temperature','air_humidity_100', 'atm_pressure_main','chuva']]  
dados7 = data_sensor_intersec[['num_of_resets',	'piezo_temperature','air_temperature_100', 'atm_pressure_main','chuva']]  
dados8 = data_sensor_intersec[['num_of_resets',	'piezo_temperature','air_humidity_100',	'air_temperature_100', 'atm_pressure_main','chuva']]                                                                              
#O i será usado no loop do while
i = 0  
#O mod está chamando a função da Regressão Linear
mod = LinearRegression()
#O WHILE foi usado para gerar um loop e rodar todas as cobinações de colunas
# como são 7 combinações o looping roda 7 vezes
while i<8:
  #Os dataframes de treino tem os dados do dataframe de origem mas só vai até 80%
  # das linhas, enquanto que os de teste ficam com os 20% de linhas restantes
  #X é o dataframe que será usado no modelo para treino, ele possuí as mesmas 
  # colunas que o dataframe de origem, exceto pela coluna de chuva
  #X_prev segue a mesma lógica, mas para o teste do modelo
  if i == 0: 
    treino = dados1.iloc[0:parte] 
    teste = dados1.iloc[parte:len(dados1)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 1:
    treino = dados2.iloc[0:parte] 
    teste = dados2.iloc[parte:len(dados2)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 2:
    treino = dados3.iloc[0:parte] 
    teste = dados3.iloc[parte:len(dados3)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 3:
    treino = dados4.iloc[0:parte] 
    teste = dados4.iloc[parte:len(dados4)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 4:
    treino = dados5.iloc[0:parte] 
    teste = dados5.iloc[parte:len(dados5)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 5:
    treino = dados6.iloc[0:parte] 
    teste = dados6.iloc[parte:len(dados6)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 6:
    treino = dados7.iloc[0:parte] 
    teste = dados7.iloc[parte:len(dados7)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 7:
    treino = dados8.iloc[0:parte] 
    teste = dados8.iloc[parte:len(dados8)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]

  #O Y será usado para o treino e tem os valores de chuva
  Y = treino[['chuva']]
  #O mod.fit aplica a Rgressão Linear nos dataframes X e Y
  mod.fit(X, Y)
  #Y_prev é a previsão dos valores de chuva usando os dados do modelo de teste X_prev
  Y_prev = mod.predict(X_prev)
  #Y_real são os dados reais de chuva do X_prev
  Y_real = teste[['chuva']].to_numpy()
  #O erro é calculado fazendo a diferença entre a chuva real do Y_real 
  #com a chuva prevista do Y_prev
  erro = Y_real - Y_prev
  #O Erro Absoluto Médio é calculado através do valor absoluto do erro
  erro_abs_medio = np.mean(abs(erro))
  #O valor do erro é adicionado na lista de erros
  lista_erro_abs_medio.append(erro_abs_medio)
  #O Erro Médio percentual é calculado dividindo o Erro Absoluto Médio pelo valor real de chuva
  erro_medio_perc = erro_abs_medio/np.mean(Y_real)
  #O valor do erro é adicionado na lista de erros
  lista_erro_medio_perc.append(erro_medio_perc)
  i = i+1

In [51]:
#Nesse bloco os dados usados são o piezo charge e piezo temperatura
# e estão sendo feitas combinações dessas 2 colunas com as 3 colunas de dados extras
# a humidade do ar, a temperatura do ar e a pressão atmosférica
#Cada modelo gerado terá seu Erro Absoluto Médio e Erro Médio Percentual calculados
# com objetivo de comparar e identificar o melhor modelo
dados1 = data_sensor_intersec[['piezo_charge',	'piezo_temperature','chuva']]
dados2 = data_sensor_intersec[['piezo_charge',	'piezo_temperature','air_humidity_100','chuva']]
dados3 = data_sensor_intersec[['piezo_charge',	'piezo_temperature',	'air_temperature_100','chuva']]
dados4 = data_sensor_intersec[['piezo_charge',	'piezo_temperature', 'atm_pressure_main','chuva']]
dados5 = data_sensor_intersec[['piezo_charge',	'piezo_temperature','air_humidity_100',	'air_temperature_100','chuva']]                                                                                                                
dados6 = data_sensor_intersec[['piezo_charge',	'piezo_temperature','air_humidity_100', 'atm_pressure_main','chuva']]  
dados7 = data_sensor_intersec[['piezo_charge',	'piezo_temperature','air_temperature_100', 'atm_pressure_main','chuva']]  
dados8 = data_sensor_intersec[['piezo_charge',	'piezo_temperature','air_humidity_100',	'air_temperature_100','atm_pressure_main','chuva']]                                                                              
#O i será usado no loop do while
i = 0 
#O mod está chamando a função da Regressão Linear
mod = LinearRegression()
#O WHILE foi usado para gerar um loop e rodar todas as cobinações de colunas
# como são 7 combinações o looping roda 7 vezes
while i<8:
  #Os dataframes de treino tem os dados do dataframe de origem mas só vai até 80%
  # das linhas, enquanto que os de teste ficam com os 20% de linhas restantes
  #X é o dataframe que será usado no modelo para treino, ele possuí as mesmas 
  # colunas que o dataframe de origem, exceto pela coluna de chuva
  #X_prev segue a mesma lógica, mas para o teste do modelo
  if i == 0: 
    treino = dados1.iloc[0:parte] 
    teste = dados1.iloc[parte:len(dados1)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 1:
    treino = dados2.iloc[0:parte] 
    teste = dados2.iloc[parte:len(dados2)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 2:
    treino = dados3.iloc[0:parte] 
    teste = dados3.iloc[parte:len(dados3)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 3:
    treino = dados4.iloc[0:parte] 
    teste = dados4.iloc[parte:len(dados4)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 4:
    treino = dados5.iloc[0:parte] 
    teste = dados5.iloc[parte:len(dados5)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 5:
    treino = dados6.iloc[0:parte] 
    teste = dados6.iloc[parte:len(dados6)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 6:
    treino = dados7.iloc[0:parte] 
    teste = dados7.iloc[parte:len(dados7)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 7:
    treino = dados8.iloc[0:parte] 
    teste = dados8.iloc[parte:len(dados8)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]

  #O Y será usado para o treino e tem os valores de chuva
  Y = treino[['chuva']]
  #O mod.fit aplica a Rgressão Linear nos dataframes X e Y
  mod.fit(X, Y)
  #Y_prev é a previsão dos valores de chuva usando os dados do modelo de teste X_prev
  Y_prev = mod.predict(X_prev)
  #Y_real são os dados reais de chuva do X_prev
  Y_real = teste[['chuva']].to_numpy()
  #O erro é calculado fazendo a diferença entre a chuva real do Y_real 
  #com a chuva prevista do Y_prev
  erro = Y_real - Y_prev
  #O Erro Absoluto Médio é calculado através do valor absoluto do erro
  erro_abs_medio = np.mean(abs(erro))
  #O valor do erro é adicionado na lista de erros
  lista_erro_abs_medio.append(erro_abs_medio)
  #O Erro Médio percentual é calculado dividindo o Erro Absoluto Médio pelo valor real de chuva
  erro_medio_perc = erro_abs_medio/np.mean(Y_real)
  #O valor do erro é adicionado na lista de erros
  lista_erro_medio_perc.append(erro_medio_perc)
  i = i+1

In [52]:
#Nesse bloco os dados usados são apenas o número de resets
# e estão sendo feitas combinações dessa coluna com as 3 colunas de dados extras
# a humidade do ar, a temperatura do ar e a pressão atmosférica
dados1 = data_sensor_intersec[['num_of_resets','chuva']]
dados2 = data_sensor_intersec[['num_of_resets','air_humidity_100','chuva']]
dados3 = data_sensor_intersec[['num_of_resets',	'air_temperature_100','chuva']]
dados4 = data_sensor_intersec[['num_of_resets', 'atm_pressure_main','chuva']]
dados5 = data_sensor_intersec[['num_of_resets','air_humidity_100',	'air_temperature_100','chuva']]                                                                                                                
dados6 = data_sensor_intersec[['num_of_resets','air_humidity_100', 'atm_pressure_main','chuva']]  
dados7 = data_sensor_intersec[['num_of_resets','air_temperature_100', 'atm_pressure_main','chuva']]  
dados8 = data_sensor_intersec[['num_of_resets','air_humidity_100',	'air_temperature_100','atm_pressure_main','chuva']]                                                                              
#O i será usado no loop do while
i = 0 
#O mod está chamando a função da Regressão Linear
mod = LinearRegression()
#O WHILE foi usado para gerar um loop e rodar todas as cobinações de colunas
# como são 7 combinações o looping roda 7 vezes
while i<8:
  #Os dataframes de treino tem os dados do dataframe de origem mas só vai até 80%
  # das linhas, enquanto que os de teste ficam com os 20% de linhas restantes
  #X é o dataframe que será usado no modelo para treino, ele possuí as mesmas 
  # colunas que o dataframe de origem, exceto pela coluna de chuva
  #X_prev segue a mesma lógica, mas para o teste do modelo
  if i == 0: 
    treino = dados1.iloc[0:parte] 
    teste = dados1.iloc[parte:len(dados1)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 1:
    treino = dados2.iloc[0:parte] 
    teste = dados2.iloc[parte:len(dados2)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 2:
    treino = dados3.iloc[0:parte] 
    teste = dados3.iloc[parte:len(dados3)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 3:
    treino = dados4.iloc[0:parte] 
    teste = dados4.iloc[parte:len(dados4)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 4:
    treino = dados5.iloc[0:parte] 
    teste = dados5.iloc[parte:len(dados5)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 5:
    treino = dados6.iloc[0:parte] 
    teste = dados6.iloc[parte:len(dados6)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 6:
    treino = dados7.iloc[0:parte] 
    teste = dados7.iloc[parte:len(dados7)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 7:
    treino = dados8.iloc[0:parte] 
    teste = dados8.iloc[parte:len(dados8)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]

  #O Y será usado para o treino e tem os valores de chuva
  Y = treino[['chuva']]
  #O mod.fit aplica a Rgressão Linear nos dataframes X e Y
  mod.fit(X, Y)
  #Y_prev é a previsão dos valores de chuva usando os dados do modelo de teste X_prev
  Y_prev = mod.predict(X_prev)
  #Y_real são os dados reais de chuva do X_prev
  Y_real = teste[['chuva']].to_numpy()
  #O erro é calculado fazendo a diferença entre a chuva real do Y_real 
  #com a chuva prevista do Y_prev
  erro = Y_real - Y_prev
  #O Erro Absoluto Médio é calculado através do valor absoluto do erro
  erro_abs_medio = np.mean(abs(erro))
  #O valor do erro é adicionado na lista de erros
  lista_erro_abs_medio.append(erro_abs_medio)
  #O Erro Médio percentual é calculado dividindo o Erro Absoluto Médio pelo valor real de chuva
  erro_medio_perc = erro_abs_medio/np.mean(Y_real)
  #O valor do erro é adicionado na lista de erros
  lista_erro_medio_perc.append(erro_medio_perc)
  i = i+1

In [53]:
#Nesse bloco os dados usados são apenas piezo charge 
# e estão sendo feitas combinações dessa coluna com as 3 colunas de dados extras
# a humidade do ar, a temperatura do ar e a pressão atmosférica
#Cada modelo gerado terá seu Erro Absoluto Médio e Erro Médio Percentual calculados
# com objetivo de comparar e identificar o melhor modelo
dados1 = data_sensor_intersec[['piezo_charge','chuva']]
dados2 = data_sensor_intersec[['piezo_charge','air_humidity_100','chuva']]
dados3 = data_sensor_intersec[['piezo_charge',	'air_temperature_100','chuva']]
dados4 = data_sensor_intersec[['piezo_charge', 'atm_pressure_main','chuva']]
dados5 = data_sensor_intersec[['piezo_charge','air_humidity_100',	'air_temperature_100','chuva']]                                                                                                                
dados6 = data_sensor_intersec[['piezo_charge','air_humidity_100', 'atm_pressure_main','chuva']]  
dados7 = data_sensor_intersec[['piezo_charge','air_temperature_100', 'atm_pressure_main','chuva']]  
dados8 = data_sensor_intersec[['piezo_charge','air_humidity_100',	'air_temperature_100','atm_pressure_main','chuva']]                                                                              
#O i será usado no loop do while
i = 0 
#O mod está chamando a função da Regressão Linear
mod = LinearRegression()
#O WHILE foi usado para gerar um loop e rodar todas as cobinações de colunas
# como são 7 combinações o looping roda 7 vezes
while i<8:
  #Os dataframes de treino tem os dados do dataframe de origem mas só vai até 80%
  # das linhas, enquanto que os de teste ficam com os 20% de linhas restantes
  #X é o dataframe que será usado no modelo para treino, ele possuí as mesmas 
  # colunas que o dataframe de origem, exceto pela coluna de chuva
  #X_prev segue a mesma lógica, mas para o teste do modelo 
  if i == 0: 
    treino = dados1.iloc[0:parte] 
    teste = dados1.iloc[parte:len(dados1)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 1:
    treino = dados2.iloc[0:parte] 
    teste = dados2.iloc[parte:len(dados2)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 2:
    treino = dados3.iloc[0:parte] 
    teste = dados3.iloc[parte:len(dados3)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 3:
    treino = dados4.iloc[0:parte] 
    teste = dados4.iloc[parte:len(dados4)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 4:
    treino = dados5.iloc[0:parte] 
    teste = dados5.iloc[parte:len(dados5)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 5:
    treino = dados6.iloc[0:parte] 
    teste = dados6.iloc[parte:len(dados6)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 6:
    treino = dados7.iloc[0:parte] 
    teste = dados7.iloc[parte:len(dados7)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 7:
    treino = dados8.iloc[0:parte] 
    teste = dados8.iloc[parte:len(dados8)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]

  Y = treino[['chuva']]
  mod.fit(X, Y)
  Y_prev = mod.predict(X_prev)
  Y_real = teste[['chuva']].to_numpy()
  erro = Y_real - Y_prev
  erro_abs_medio = np.mean(abs(erro))
  lista_erro_abs_medio.append(erro_abs_medio)
  erro_medio_perc = erro_abs_medio/np.mean(Y_real)
  lista_erro_medio_perc.append(erro_medio_perc)
  i = i+1


In [54]:
#Nesse bloco os dados usados são apenas de piezo temperatura
# e estão sendo feitas combinações dessa coluna com as 3 colunas de dados extras
# a humidade do ar, a temperatura do ar e a pressão atmosférica
#Cada modelo gerado terá seu Erro Absoluto Médio e Erro Médio Percentual calculados
# com objetivo de comparar e identificar o melhor modelo
dados1 = data_sensor_intersec[['piezo_temperature','chuva']]
dados2 = data_sensor_intersec[['piezo_temperature','air_humidity_100','chuva']]
dados3 = data_sensor_intersec[['piezo_temperature',	'air_temperature_100','chuva']]
dados4 = data_sensor_intersec[['piezo_temperature', 'atm_pressure_main','chuva']]
dados5 = data_sensor_intersec[['piezo_temperature','air_humidity_100',	'air_temperature_100','chuva']]                                                                                                                
dados6 = data_sensor_intersec[['piezo_temperature','air_humidity_100', 'atm_pressure_main','chuva']]  
dados7 = data_sensor_intersec[['piezo_temperature','air_temperature_100', 'atm_pressure_main','chuva']]  
dados8 = data_sensor_intersec[['piezo_temperature','air_humidity_100',	'air_temperature_100','atm_pressure_main','chuva']]                                                                              
#O i será usado no loop do while
i = 0 
#O mod está chamando a função da Regressão Linear
mod = LinearRegression()
#O WHILE foi usado para gerar um loop e rodar todas as cobinações de colunas
# como são 7 combinações o looping roda 7 vezes
while i<8:
  #Os dataframes de treino tem os dados do dataframe de origem mas só vai até 80%
  # das linhas, enquanto que os de teste ficam com os 20% de linhas restantes
  #X é o dataframe que será usado no modelo para treino, ele possuí as mesmas 
  # colunas que o dataframe de origem, exceto pela coluna de chuva
  #X_prev segue a mesma lógica, mas para o teste do modelo 
  if i == 0: 
    treino = dados1.iloc[0:parte] 
    teste = dados1.iloc[parte:len(dados1)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 1:
    treino = dados2.iloc[0:parte] 
    teste = dados2.iloc[parte:len(dados2)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 2:
    treino = dados3.iloc[0:parte] 
    teste = dados3.iloc[parte:len(dados3)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 3:
    treino = dados4.iloc[0:parte] 
    teste = dados4.iloc[parte:len(dados4)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 4:
    treino = dados5.iloc[0:parte] 
    teste = dados5.iloc[parte:len(dados5)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 5:
    treino = dados6.iloc[0:parte] 
    teste = dados6.iloc[parte:len(dados6)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 6:
    treino = dados7.iloc[0:parte] 
    teste = dados7.iloc[parte:len(dados7)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]
  elif i == 7:
    treino = dados8.iloc[0:parte] 
    teste = dados8.iloc[parte:len(dados8)] 
    X = treino.iloc[:, 0:treino.shape[1]-1 ] 
    X_prev = teste.iloc[:, 0:teste.shape[1]-1 ]

  #O Y será usado para o treino e tem os valores de chuva
  Y = treino[['chuva']]
  #O mod.fit aplica a Rgressão Linear nos dataframes X e Y
  mod.fit(X, Y)
  #Y_prev é a previsão dos valores de chuva usando os dados do modelo de teste X_prev
  Y_prev = mod.predict(X_prev)
  #Y_real são os dados reais de chuva do X_prev
  Y_real = teste[['chuva']].to_numpy()
  #O erro é calculado fazendo a diferença entre a chuva real do Y_real 
  #com a chuva prevista do Y_prev
  erro = Y_real - Y_prev
  #O Erro Absoluto Médio é calculado através do valor absoluto do erro
  erro_abs_medio = np.mean(abs(erro))
  #O valor do erro é adicionado na lista de erros
  lista_erro_abs_medio.append(erro_abs_medio)
  #O Erro Médio percentual é calculado dividindo o Erro Absoluto Médio pelo valor real de chuva
  erro_medio_perc = erro_abs_medio/np.mean(Y_real)
  #O valor do erro é adicionado na lista de erros
  lista_erro_medio_perc.append(erro_medio_perc)
  i = i+1


In [55]:
#Foram um total de 49 combinações de colunas sendo aplicadas no modelo

In [56]:
#Agora criamos um dataframe com os valores de Erro Absoluto Médio e Erro Médio percentual
# para comparar os valores e identificar qual modelo gerou a previsão com menores erros

#O tipo do dado foi definido como float pois terá casas decimais
data_erros = pd.DataFrame(lista_erro_abs_medio, columns =['Abs_medio'], dtype = float)
data_erros['Medio_percent'] = lista_erro_medio_perc

In [57]:
#Visualizando o dataframe de erros para comparar os valores e identificar qual
# modelo teve o melhor resultado
data_erros

Unnamed: 0,Abs_medio,Medio_percent
0,0.370363,2.564049
1,0.381418,2.640584
2,0.372339,2.577732
3,0.313929,2.173357
4,0.405497,2.807289
5,0.326677,2.261613
6,0.300189,2.07823
7,0.340091,2.354476
8,0.383321,2.653758
9,0.35906,2.485798


In [58]:
#Os menores valores de erro foram da linha 43
#Ou seja foram do conjunto de dados que tem as colunas piezo charge e humidade do ar 

In [59]:
#Criando um dataframe com as colunas que geram o melhor modelo
data_melhor_modelo = data_sensor_intersec[['piezo_charge','air_humidity_100','chuva']]

In [60]:
#Aqui será aplicado novamento a Regressão Linear, mas apenas no melhor modelo
# para mostrar os valores de chuva previstos
parte = round(len(data_melhor_modelo)*0.8)
treino = data_melhor_modelo.iloc[0:parte]
teste = data_melhor_modelo.iloc[parte:len(data_melhor_modelo)]

In [61]:
Y = treino[['chuva']]
X = treino[['piezo_charge',	'air_humidity_100']]
X_prev = teste[['piezo_charge',	'air_humidity_100']]

In [62]:
mod = LinearRegression()
mod.fit(X, Y)

In [63]:
Y_prev = mod.predict(X_prev)
Y_real = teste[['chuva']].to_numpy()

In [64]:
#Agora está sendo criado o dataframe com os valores de chuva previstos e seus datetimes
data_previsao = data_sensor_intersec['Datetime'].iloc[parte:len(data_melhor_modelo)]
data_previsao = data_previsao.to_frame()
data_previsao['chuva'] = Y_prev

In [65]:
#Resetando o índice do dataframe
data_previsao = data_previsao.reset_index()
data_previsao = data_previsao.drop(['index'], axis = 1)

In [66]:
#Arredondando o valor da chuva para ter apenas duas casas decimais
# pois os dados originais tinham apenas duas casas decimais
data_previsao = data_previsao.round({'chuva': 2})

In [67]:
#Separando os valores de data e hora no dataframe para melhorar a visualização
#A função split separa o texto a partir de um identificador que no caso é o 'T'
data_datetime = data_previsao['Datetime'].str.split('T', expand=True)

In [68]:
#Criando uma coluna apenas com os valores de data e no padrão de data usado no Brasil
#O data_datetime ficou com duas listas, o [0] é para informar que a data está na 
# primeira lista
data_previsao['Data'] = data_datetime[0]
data_previsao['Data'] = pd.to_datetime(data_previsao.Data)
data_previsao['Data'] = data_previsao['Data'].dt.strftime('%d/%m/%Y')

In [69]:
#Criando uma coluna apenas com os valores de Hora
#O datetime[1] é a lista com horários, mas ainda tinha o 'Z', 
# então o 'Z' foi removido
data_datetime[1] = data_datetime[1].str.replace('Z', '')
data_previsao['Hora'] = data_datetime[1]

In [70]:
#Organizando as colunas do dataframe
data_previsao = data_previsao[['Data', 'Hora', 'chuva']]
data_previsao.head(20)

Unnamed: 0,Data,Hora,chuva
0,21/11/2020,06:00:00,0.14
1,21/11/2020,07:00:00,0.15
2,21/11/2020,08:00:00,0.16
3,21/11/2020,09:00:00,0.15
4,21/11/2020,10:00:00,0.11
5,21/11/2020,11:00:00,0.08
6,21/11/2020,12:00:00,0.06
7,21/11/2020,13:00:00,0.04
8,21/11/2020,14:00:00,0.02
9,21/11/2020,15:00:00,0.03


In [71]:
#Foi observado que alguns dos valores de chuva previstos estão negativos
#Como não é possível ter valores negativos e os valores negativos são próximos de 
# zero, será feita uma subtituição desses valores por zero

In [72]:
#O FOR é usado para verificar quais são os valores negativos e substuir por zero
#Criando uma lista vazia para receber os valores de chuva
lista_chuva_sem_negativos = []
#O FOR percorre os valores da segunda coluna do dataframe data_previsao
for i in range(len(data_previsao.iloc[:,2])):
  #O IF compara os valores de chuva para ver se são menores que 0.1
  if data_previsao.iloc[i,2] < 0.01 :
    #Caso sejam eles são subtituidos por 0
    lista_chuva_sem_negativos.append(0)
  else:
    #Caso não sejam eles permanecem com são
    lista_chuva_sem_negativos.append(data_previsao.iloc[i,2])

In [73]:
#Inserindo os valores de chuva sem os negativos no dataframe
data_previsao['chuva'] = lista_chuva_sem_negativos

In [74]:
#Ajustando no nome da coluna chuva para Previsão de chuva
data_previsao = data_previsao.rename(columns={'chuva': 'Previsão de Chuva'})

In [75]:
#Transformando o dataframe em html para poder subir para a cloud
data_previsao.to_html('previsaodechuva.html')