In [9]:
# Importação do dataset, considerando somente os produtos que tiveram mais de 5 registros de venda por cliente no intevalo de tempo

from google.cloud import bigquery
import pandas as pd

client = bigquery.Client()

query = """
select 
    nome_produto
    , nome_cliente
    , ano
    , mes
    , data_base
    , quantidade
FROM `desafio-lh-445918`.public.agg_quantidade_loja
"""
df = client.query(query).to_dataframe()

df['data_base'] = pd.to_datetime(df['data_base'])

print(df.head())




  nome_produto                   nome_cliente   ano  mes  data_base  \
0        Chain  Technical Parts Manufacturing  2014    3 2014-03-01   
1        Chain            Exhibition Showroom  2014    3 2014-03-01   
2        Chain            Real Sporting Goods  2014    3 2014-03-01   
3        Chain       Cycles Wholesaler & Mfg.  2014    3 2014-03-01   
4        Chain            Mountain Bike Store  2014    3 2014-03-01   

   quantidade  
0           3  
1           5  
2           3  
3           2  
4           1  


In [12]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import numpy as np

# Seleção das variáveis para o modelo
df['mes_num'] = df['data_base'].dt.month
df['ano_num'] = df['data_base'].dt.year

# Variáveis independentes (X) e dependente (y)
X = df[['ano_num', 'mes_num']]  # Ano e Mês como variáveis explicativas
y = df['quantidade']  # Quantidade como variável alvo

# Divisão dos dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinamento do modelo de Regressão Linear
model = LinearRegression()
model.fit(X_train, y_train)

# Previsões
y_pred = model.predict(X_test)

# Cálculo das métricas
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Exibindo as métricas
print(f'MAE: {mae}')
print(f'MSE: {mse}')
print(f'RMSE: {rmse}')
print(f'R²: {r2}')


MAE: 2.0696926769768726
MSE: 8.939433811925065
RMSE: 2.989888595236462
R²: 0.003873914506887788
