In [None]:
# Bibliotecas que necessitam ser instaladas
# pip install perlin-noise

## Enunciado

Neste notebook temos um problema clássico de Ciência de Dados, precisamos descobrir o preço do milho em um conjunto de cidades do Brasil. Contudo temos um problema sério, a única informação que temos hoje é a posição da cidade e o preço histórico dela, nossa modelagem não poderá se utilizar do preço atual, você ficará livre para propor fontes de informações que possam ser úteis na descoberta do preço do milho.

O notebook já está estruturado no formato padrão, algumas células estarão vazias e com um comentário do é esperado que seja feito naquele trecho. 

Você tem total liberdade de adicionar nova células e criar novas ideias para o seu código, peço somente que mantenha as partes do código que já estão escritas pois elas servem para guiar o formato final do notebook

Não se preocupe, caso alguma parte não funciona, pode adicionar um comentário ou alguma observação de qual foi o problema enferentado, mas lembre-se de sempre detalhar o seu pensamento, ele vale mais do que uma sintaxe errada no código!

Boa Sorte!

In [None]:
# Bibliotecas

import pandas as pd
import lightgbm as lgb
from sklearn.metrics import mean_absolute_error, mean_squared_error

# Utilizadas durante o dercorrer normal da solução discutida
import math
import datetime as dt

# Utilizadas durante a discussão sobre o modelo utilizado para gerar os dados para o desafio
from matplotlib import pyplot as plt
from perlin_noise import PerlinNoise

In [None]:
# Leitura dos dados originais

df = pd.read_csv('Data/real_prices.csv')
df.head()

No primeiro momento nós precisamos definir quais serão as novas fontes de dados, para isso fica a cargo de você escolher se utilizará outras fontes de dados, ou se podemos seguir somente com as iniciais.

Caso decida por adicionar novas informações basta seguir o código a seguir que demonstra como adicionar novas informação ao DF original

In [None]:
locations = pd.read_csv('Data/cities_location.csv')

df = df.merge(locations, left_on=['city_id'], right_on=['id'], how='left')
df = df.drop(columns=['id'])

# Caso tenha outras fontes de dados basta seguir o padrão
# nova_fonte = pd.read_csv('arquivo')
# df = df.merge(nova_fonte, left_on=['chave_no_df'], right_on=['chave_na_nova_fonte'], how='left')
df.head()

Precisamos dividir o DF entre o que será meu treino e o que será meu teste, assim cabe a você definir como dividir esse dado entre treino e teste, qual o conjunto será utilizado para treino e qual será utilizado para teste (lembrando que a mesma cidade aparece várias vezes, já que temos vários dias)

In [None]:
# Renomeando o índice pois causava um erro na biblioteca lightgbm devido a um caractere não permitido em linguagem JSON, o ':'
df = df.rename(columns = {'Unnamed: 0' : 'index'})
data_df = df.copy()

# Dividindo a massa de dados na metade, utilizando a ordem original
# a primeira metade seria para treinamento e a segunda metade para validação

df_length = data_df.shape[0]
df_train = data_df.head(math.floor(df_length/2))
df_test = data_df.tail(math.floor(df_length/2))
display(df_train)
display(df_test)

Por fim separamos o target do conjunto de entrada, para isso basta selecionar a coluna que servirá de target no Y e remover a mesma do X

In [None]:
# Coloque o nome da coluna na variável abaixo

target_col = 'price_per_unit'
y = df_train[target_col]
X = df_train.drop(['city_id', 'reference_date', target_col], axis=1)

# Cria modelo
lgbm_model = lgb.LGBMRegressor()
lgbm_model.fit(X, y)

# Predição
y_test = df_test[target_col]
X_test = df_test.drop(['city_id', 'reference_date', target_col], axis=1)
predicted = lgbm_model.predict(X_test)

# Calcula erro
lgbm_mae  = mean_absolute_error(y_test, predicted)
lgbm_rmse = mean_squared_error(y_test, predicted, squared=False)

print("MAE =", lgbm_mae)
print("RMSE =", lgbm_rmse)

Aqui terminaria o algoritmo original, onde acabou-se por pegar os dados dos primeiros 86 dias para o treino do modelo e foi realizada a predição dos 130 dias restantes. O resultado do erro não foi satisfatório, uma vez que durante a conversa o Lucas Borges comentou que o erro obtido teria sido de apenas '0.5'.

Fique a vontade para adicionar novas células com mais conteúdos da sua preferência a partir daqui, caso tenha algum insight interessante que ficaria fora da estrutura original basta adicionar e comentar

Aqui começa uma experimentação para melhorar o desempenho da modelagem e predição. Primeiramente foi notado que uma das entradas do modelo é o índice do dado que tem uma função de transmitir o instante de um dado ao modelo. No entanto este índice não corresponde adequadamente a temporalidade dos dados, exemplificado na disparidade de dias que compreendem a primeira e segunda metade da massa de dados, 86 dias contra 130 dias. Foi então substituído o índice como entrada pela própria data de referência, após esta ter sido convertida em dias decorridos.

In [None]:
data_df = df.copy()

# Transformação do dado em formato de data para ordinal representando os dias.
data_df['reference_date'] = pd.to_datetime(data_df['reference_date'])
data_df['reference_date']= data_df['reference_date'].map(dt.datetime.toordinal)
data_df['reference_date']= data_df['reference_date'].map(lambda x: x-data_df.loc[1,'reference_date'])

# Dividindo a massa de dados na metade, utilizando a ordem original
# a primeira metade seria para treinamento e a segunda metade para validação
df_length = data_df.shape[0]
df_train = data_df.head(math.floor(df_length/2))
df_test = data_df.tail(math.floor(df_length/2))
display(df_train)
display(df_test)

In [None]:
# Coloque o nome da coluna na variável abaixo

target_col = 'price_per_unit'
y = df_train[target_col]
X = df_train.drop(['city_id', 'index', target_col], axis=1)

# Cria modelo
lgbm_model = lgb.LGBMRegressor()
lgbm_model.fit(X, y)

# Predição
y_test = df_test[target_col]
X_test = df_test.drop(['city_id', 'index', target_col], axis=1)
predicted = lgbm_model.predict(X_test)

# Calcula erro
lgbm_mae  = mean_absolute_error(y_test, predicted)
lgbm_rmse = mean_squared_error(y_test, predicted, squared=False)

print("MAE =", lgbm_mae)
print("RMSE =", lgbm_rmse)

O ganho de desempenho foi marginal, mas era esperado que não fosse uma melhora significativa, uma vez que o índice já passava a noção de temporalidade e esta foi apenas retocada.

Na conversa foi comentado que este problema pode enfrentar diferentes cenários, isto é, a necessidade de modelagem e predição de preços pode advir tanto da falta de informação temporal quanto geográfica. O cenário anterior tinha acesso ao preço de todas as cidades, mas era limitado no tempo e buscava-se predizer o preço futuro; Já neste próximo cenário busca-se restringir a informação dos preços a metade das cidades e estimar o preço nas cidades faltantes. Para tal foi reordenada a massa de dados pelo identificador municipal, de modo a agrupar os dados de cada cidade para dividir as cidades que temos acesso a informação e as cidades que desejamos estimar o preço.

Foi assumido que não existia forte correlação entre o 'city_id' e as latitudes e longitudes, isto é, assumiu-se que ambos os grupos de teste e treinamento tem cidades difusas em todo o espaço geográfico pesquisado. O que sendo inverdade causaria uma distorção, por exemplo se o grupo de treinamento fossem cidades do norte e o grupo de teste fossem cidades do sul.

In [None]:
data_df = df.copy()

# Transformação do dado em formato de data para ordinal representando os dias.
data_df['reference_date'] = pd.to_datetime(data_df['reference_date'])
data_df['reference_date']= data_df['reference_date'].map(dt.datetime.toordinal)
data_df['reference_date']= data_df['reference_date'].map(lambda x: x-737907)

data_df = data_df.sort_values(by=['city_id','index'])
data_df.head()

# Dividindo a massa de dados na metade, utilizando a ordem original
# a primeira metade seria para treinamento e a segunda metade para validação
df_length = data_df.shape[0]
df_train = data_df.head(math.floor(df_length/2))
df_test = data_df.tail(math.floor(df_length/2))
display(df_train)
display(df_test)

In [None]:
# Coloque o nome da coluna na variável abaixo

target_col = 'price_per_unit'
y = df_train[target_col]
X = df_train.drop(['city_id', 'index', target_col], axis=1)

# Cria modelo
lgbm_model = lgb.LGBMRegressor()
lgbm_model.fit(X, y)

# Predição
y_test = df_test[target_col]
X_test = df_test.drop(['city_id', 'index', target_col], axis=1)
predicted = lgbm_model.predict(X_test)

# Calcula erro
lgbm_mae  = mean_absolute_error(y_test, predicted)
lgbm_rmse = mean_squared_error(y_test, predicted, squared=False)

print("MAE =", lgbm_mae)
print("RMSE =", lgbm_rmse)

O resultado foi extremamente próximo ao cenário anterior, sendo igualmente insatisfatório por ter uma média de erro elevada.

Como foi discutido durante a conversa e apresentação do desafio, pensava em fazer uma modelagem mais próxima do que aprendi na faculdade, utilizando técnicas de modelagens de sistemas dinâmicos.

Contudo ao se observar com mais calma a massa de dados ordenada por cidade e por data, podemos ver que a variação de preço entre um dia e outro na mesma cidade é enorme, o que levanta dúvidas quanto a real forma dessa massa de dados. A fim de comporeender melhor, foram desenhados gráficos de dispersão entre as entradas estudadas e a saída:

In [None]:
data_df = df.copy()

data_df['reference_date'] = pd.to_datetime(data_df['reference_date'])
data_df['reference_date']= data_df['reference_date'].map(dt.datetime.toordinal)
data_df['reference_date']= data_df['reference_date'].map(lambda x: x-737907)

data_df.plot.scatter(x='reference_date', y='price_per_unit', c='DarkBlue')
data_df.plot.scatter(x='latitude', y='price_per_unit', c='DarkBlue')
data_df.plot.scatter(x='longitude', y='price_per_unit', c='DarkBlue')

Observando estes dados se esclarecem os resultados obtidos com as modelagens até então realizadas perante a verdade: A massa de dados é completamente aleatória! Tem características e aparenta ser nada mais que uma distribuição uniforme aleatória de preços, e para tal não há melhor predição que não a média de seus valores. Portanto entende-se que o que o Lucas Borges quis dizer com um resultado com uma diferença de apenas '0.5' seria entre a variação média da distribuição e os parâmetros de erro encontrados nas modelagens.

Ao meu entender para um desafio mais engajador, seria interessante que a massa de dados refletisse um modelo mais dinâmico e contínuo, como entendo intuitivamente ser a realidade. Para tal, poderiam ser empregadas ferramentas como o Perlin Noise, um tipo de ruído aleatório que não é descontínuo, de forma a representar por exemplo a relação geográfica de preços.

In [None]:
# Exemplo de Perlin Noise
noise = PerlinNoise(octaves=2, seed=1)
xpix, ypix = 100, 100
pic = [[noise([i/xpix, j/ypix]) for j in range(xpix)] for i in range(ypix)]

plt.imshow(pic, cmap='gray')
plt.show()

A figura acima gerada pelo Perlin Noise poderia representar um offset nos preços do milho baseada na longitude e latitude, onde por exemplo os pontos mais escuros apresentariam preços mais caros devido ao frete mais dificultado por estradas ruins. Uma figura diferente poderia representar em seus pontos mais escuros uma maior volatilidade dos preços, por uma região onde a queda de chuvas é mais inconsistentes, refletindo na safra. Auxiliado talvez a um preço base que por sua vez segue um outro modelo dinâmico relativo ao tempo poderia trazer a massa de dados e este desafio a uma simulaçào mais próxima do mercado do milho.

De qualquer forma, achei interessante o desafio apresentado que me levou a quebrar a cabeça num ramo que ainda sei pouco e procuro entender mais, a ciência de dados.