# Desafio Grão Direto IA

O problema do desafio é um problema de Séries Temporais.

## Etapas:

1) Tratamento de Dados
    - Receber os datasets
    - Tratar valores nulos
    - Tratar outlier
2) Analise de Dados
    - Dados importantes
    - Manipular dados
    - Conferir informações dos dados
    - Insights que podemos ter visualizando os dados
3) Feature store
    - Criar features que vão impactar
    - Manipular essas features
    - Criar novas colunas se necessário
    - O maximo de váriaveis
4) Funil de váriaveis
    - Afunilar as váriaveis criadas
    - Identificar quais realmente são importantes
    - Váriaveis que podem representar melhor que outras
    - Dropar colunas que não ajudam(Então atrapalham)
    - Dividir o dataset
5) Aplicação de modelos de Machine Learning
    - Identificar modelos bons para o caso
    - Random Forest
    - Xgboost
    - Fazer testes com os dados manipulados

## Etapas Mercado

1) Remover colunas que não fazem sentido
2) Tratar valores nulos
3) Preencher Datas faltantes
4) Filtrar dataset para a soja
5) Tratar valor do CBOT e Price, diarios e assim unificar datas
6) Preencher o intervalo de datas

# Importando dados de Mercado do Desafio

In [17]:
import pandas as pd

url = 'C:\workspace\Desafio Grão Direto IA\Data\mercado-desafio.xlsx'

mercado = pd.read_excel(url)
mercado

Unnamed: 0,Date,Company,Origin_city,Origin_state,Destination_city,Destination_state,Product,Price,CBOT
0,2024-01-30,Polaris,Abelardo Luz,SC,Joaçaba,SC,Soja,114.231354,1260.025702
1,2024-01-30,Polaris,Alegrete,RS,Rio Grande,RS,Soja,118.031576,1241.320557
2,2024-01-30,Polaris,Alta Floresta,MT,Barcarena,PA,Milho,31.075042,501.491344
3,2024-01-30,Polaris,Alta Floresta,MT,Barcarena,PA,Soja,94.684088,1173.122729
4,2024-01-30,Polaris,Alta Floresta,MT,Santos,SP,Milho,23.563284,419.767221
...,...,...,...,...,...,...,...,...,...
308464,2024-07-03,Solara,Boa Esperança do Sul,SP,Sorriso,MT,Milho,32.922475,437.848752
308465,2024-07-03,Solara,Boa Esperança do Sul,SP,Sorriso,MT,Soja,107.164837,1214.925647
308466,2024-07-03,Solara,Lucas do Rio Verde,MT,Alta Floresta,MT,Milho,39.081253,376.084426
308467,2024-07-03,Solara,Lucas do Rio Verde,MT,Alta Floresta,MT,Soja,109.361530,1213.899519


## Removendo colunas

In [20]:
mercado_filtrado = mercado[['Date','Product','Price','CBOT']]
mercado_filtrado

Unnamed: 0,Date,Product,Price,CBOT
0,2024-01-30,Soja,114.231354,1260.025702
1,2024-01-30,Soja,118.031576,1241.320557
2,2024-01-30,Milho,31.075042,501.491344
3,2024-01-30,Soja,94.684088,1173.122729
4,2024-01-30,Milho,23.563284,419.767221
...,...,...,...,...
308464,2024-07-03,Milho,32.922475,437.848752
308465,2024-07-03,Soja,107.164837,1214.925647
308466,2024-07-03,Milho,39.081253,376.084426
308467,2024-07-03,Soja,109.361530,1213.899519


## Tratando dados

Filtrando para soja

In [27]:
mercado_filtrado = mercado_filtrado[mercado_filtrado['Product'] == 'Soja']
mercado_filtrado

Unnamed: 0,Date,Product,Price,CBOT
0,2024-01-30,Soja,114.231354,1260.025702
372,2024-01-30,Soja,90.567956,1102.913173
218,2024-01-30,Soja,109.932956,1301.286077
216,2024-01-30,Soja,107.014561,1130.383489
215,2024-01-30,Soja,110.354926,1308.811550
...,...,...,...,...
211917,2024-11-05,Soja,132.372109,940.782899
307605,2024-11-05,Soja,116.088829,950.310384
293164,2024-11-05,Soja,105.533504,947.588344
216673,NaT,Soja,101.384924,1148.585805


Tratando datas nulas com interpolate

In [29]:
mercado_filtrado['Date'] = mercado_filtrado['Date'].interpolate(method='linear') 
mercado_filtrado

Unnamed: 0,Date,Product,Price,CBOT
0,2024-01-30,Soja,114.231354,1260.025702
895,2024-01-30,Soja,95.957188,1247.121354
896,2024-01-30,Soja,86.576334,1206.731995
898,2024-01-30,Soja,81.928617,1100.160168
899,2024-01-30,Soja,91.876229,1211.229532
...,...,...,...,...
264627,2024-11-05,Soja,143.608208,915.074741
264568,2024-11-05,Soja,101.009547,1115.508673
293164,2024-11-05,Soja,105.533504,947.588344
216673,2024-11-05,Soja,101.384924,1148.585805


In [31]:
mercado_filtrado.isnull().sum()

Date       0
Product    0
Price      4
CBOT       1
dtype: int64

Ordenando por data

In [30]:
mercado_filtrado = mercado_filtrado.sort_values(by='Date',ascending=True)
mercado_filtrado

Unnamed: 0,Date,Product,Price,CBOT
0,2024-01-30,Soja,114.231354,1260.025702
372,2024-01-30,Soja,90.567956,1102.913173
218,2024-01-30,Soja,109.932956,1301.286077
216,2024-01-30,Soja,107.014561,1130.383489
215,2024-01-30,Soja,110.354926,1308.811550
...,...,...,...,...
211917,2024-11-05,Soja,132.372109,940.782899
211872,2024-11-05,Soja,117.735034,949.474431
211770,2024-11-05,Soja,125.487069,1066.145675
307606,2024-11-05,Soja,93.574625,1043.802974


In [None]:
# mercado_dropna = mercado.dropna()
# mercado_dropna.isnull().sum()
mercado['Date'] = mercado['Date'].interpolate(method='linear')
mercado.isnull().sum()

Recebendo a data minima e maxima

In [None]:
data_max = mercado.max()['Date']
data_max = str(data_max).replace(' 00:00:00','')
data_min = mercado.min()['Date']
data_min = str(data_min).replace(' 00:00:00','')
data_min, data_max

# Identificando outliers

In [None]:
milho = mercado[mercado['Product'] == 'Milho']
soja = mercado[
    (mercado['Product'] == 'Soja') &
    (mercado['Origin_state'] == 'MG') &
    (mercado['Origin_city'] == 'Araguari') &
    (mercado['Destination_state'] == 'SP') &
    (mercado['Destination_city'] == 'Santos') &
    (mercado['Company'] == 'Polaris')
]
soja = soja.sort_values(by='Date', ascending=True)
soja.plot(x='Date', y='Price', kind='line', title='Preço do Soja', xlabel='Data', ylabel='Preço')

# Fazendo cotação do Dolár

In [None]:
import yfinance as yf

dolar = yf.Ticker('USDBRL=X')
dolar_hist = dolar.history(interval='1d', start=data_min, end='2024-11-06')
dolar_hist

## Manipulando o dolár

In [None]:
dolar_hist = pd.DataFrame(dolar_hist,columns=['Close']).reset_index()
dolar_hist['Date'] = dolar_hist['Date'].dt.tz_localize(None)
dolar_hist.info()

Identificando se subiu ou não
- 0 ou False = Não Subiu
- 1 ou True = Subiu

In [None]:
dolar_hist['Variação'] = dolar_hist['Close'].shift(1) < dolar_hist['Close']
dolar_hist

In [None]:
mercado = mercado.sort_values(by='Date', ascending=True)
dolar_hist['Variação Percentual'] = ((dolar_hist['Close'] - dolar_hist['Close'].shift(1)) / dolar_hist['Close']) * 100
dolar_hist = dolar_hist.fillna(0)
dolar_hist

# Após arrumar as datas

In [None]:
mercado_dolar_dados = pd.merge(mercado, dolar_hist, on='Date', how='left')
mercado_dolar_dados
# mdd = mercado[['Date']]
# mdd_unique = mdd.drop_duplicates(subset=['Date'])
# mdd_unique
# datas_diferentes = set(dolar_hist['Date']).difference(set(mdd_unique['Date']))
# datas_diferentes
# 201 rows dolar_hist

## Colunas categoricas:
- Company
- Origin_city
- Origin_state
- Destination_city
- Destination_state
- Product

Utilizando onehotencoding ele produziria muitas colunas. 
- 650 colunas e demorou 6 minutos

In [11]:
from feature_engine import encoding

categoricas = ['Company','Origin_city','Origin_state','Destination_city','Destination_state','Product']

# onehot = encoding.OneHotEncoder(variables=categoricas)
# onehot.fit(mercado_dolar_dados)
# mercado_dolar_dados = onehot.transform(mercado_dolar_dados)
# mercado_dolar_dados

## Soluções
- Podemos utilizar o onehotencoding somente para as colunas mais importantes
- Podemos utilizar o Labelencoder para separar os valores em colunas mais resumidas
- Podemos utilizar o meanencoder para criar colunas com medias dos valores