## Enunciado

Neste notebook temos um problema clássico de Ciência de Dados, precisamos descobrir o preço do milho em um conjunto de cidades do Brasil. Contudo temos um problema sério, a única informação que temos hoje é a posição da cidade e o preço histórico dela, nossa modelagem não poderá se utilizar do preço atual, você ficará livre para propor fontes de informações que possam ser úteis na descoberta do preço do milho.

O notebook já está estruturado no formato padrão, algumas células estarão vazias e com um comentário do é esperado que seja feito naquele trecho. 

Você tem total liberdade de adicionar nova células e criar novas ideias para o seu código, peço somente que mantenha as partes do código que já estão escritas pois elas servem para guiar o formato final do notebook

Não se preocupe, caso alguma parte não funciona, pode adicionar um comentário ou alguma observação de qual foi o problema enferentado, mas lembre-se de sempre detalhar o seu pensamento, ele vale mais do que uma sintaxe errada no código!

Boa Sorte!

In [8]:
# Bibliotecas

import pandas as pd
import lightgbm as lgb
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [10]:
# Leitura dos dados originais

df = pd.read_csv('Data/real_prices.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,city_id,reference_date,price_per_unit
0,0,4104907,2021-04-27,102
1,1,5205471,2021-04-27,79
2,2,5002951,2021-04-27,105
3,3,4204202,2021-04-27,64
4,4,4204301,2021-04-27,86


No primeiro momento nós precisamos definir quais serão as novas fontes de dados, para isso fica a cargo de você escolher se utilizará outras fontes de dados, ou se podemos seguir somente com as iniciais.

Caso decida por adicionar novas informações basta seguir o código a seguir que demonstra como adicionar novas informação ao DF original

In [12]:
locations = pd.read_csv('Data/cities_location.csv')

df = df.merge(locations, left_on=['city_id'], right_on=['id'], how='left')
df = df.drop(columns=['id'])

# Caso tenha outras fontes de dados basta seguir o padrão
# nova_fonte = pd.read_csv('arquivo')
# df = df.merge(nova_fonte, left_on=['chave_no_df'], right_on=['chave_na_nova_fonte'], how='left')
df.head()

Unnamed: 0.1,Unnamed: 0,city_id,reference_date,price_per_unit,latitude_x,longitude_x,latitude_y,longitude_y
0,0,4104907,2021-04-27,102,-24.79,-50.01,-24.79,-50.01
1,1,5205471,2021-04-27,79,-18.4,-52.54,-18.4,-52.54
2,2,5002951,2021-04-27,105,-18.79,-52.62,-18.79,-52.62
3,3,4204202,2021-04-27,64,-27.09,-52.61,-27.09,-52.61
4,4,4204301,2021-04-27,86,-27.23,-52.02,-27.23,-52.02


Precisamos dividir o DF entre o que será meu treino e o que será meu teste, assim cabe a você definir como dividir esse dado entre treino e teste, qual o conjunto será utilizado para treino e qual será utilizado para teste (lembrando que a mesma cidade aparece várias vezes, já que temos vários dias)

In [13]:
#df_train =
#df_test =

Por fim separamos o target do conjunto de entrada, para isso basta selecionar a coluna que servirá de target no Y e remover a mesma do X

In [14]:
# Coloque o nome da coluna na variável abaixo

target_col = ''
y = df_train[target_col]
X = df_train.drop(['city_id', 'reference_date', target_col], axis=1)

# Cria modelo
lgbm_model = lgb.LGBMRegressor()
lgbm_model.fit(X, y)

# Predição
y_test = df_test[target_col]
X_test = df_test.drop(['city_id', 'reference_date', target_col], axis=1)
predicted = lgbm_model.predict(X_test)

# Calcula erro
lgbm_mae  = mean_absolute_error(y_test, predicted)
lgbm_rmse = mean_squared_error(y_test, predicted, squared=False)

print("MAE =", lgbm_mae)
print("RMSE =", lgbm_rmse)

NameError: name 'df_train' is not defined

Fique a vontade para adicionar novas células com mais conteúdos da sua preferência a partir daqui, caso tenha algum insight interessante que ficaria fora da estrutura original basta adicionar e comentar

In [None]:

#calcular o do preço do milho em cada cidade fazendo a media do seu histórico
vendas_cidade = df[['city_id','price_per_unit']].groupby('city_id').mean()
display(vendas_cidade)