<a href="https://colab.research.google.com/github/jlosar/Julio-Losa-ML-projeto/blob/main/MVP_Machine_Learning_%26_Analytics_Julio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVP - Machine Learning & Analytics


*   Julio Cesar Losa Rodrigues
*   Matricula: 4052025001006
*   Dataset utilizado: Rossmann Store Sales (Kaggle)


# 1. Introdução:



*   **Objetivo:**

Fazer previsão de vendas futuras por loja e produto utilizando técnicas de Machine Learning.

*   **Descrição do problema**

Para qualquer gestor em uma empresa que trabalha com varejo fazer uma boa previsão do volume de vendas é condição fundamental para o planejamento do ano em relação a previsão de receita, Logística e investimento (verba para promoções, Mão de obra e etc.). Esse trabalho tem por objetivo tornar a previsão de vendas mais precisa, confiável e a força de vendas mais eficiênte.

*   **Descrição do Dataset:**

O dataset Rossmann Store Sales foi disponibilizado pelo Kaggle em uma competição de previsão de vendas. Ele contém informações de vendas diárias de 1.115 lojas da rede de farmácias Rossmann na Europa, durante o período de janeiro/2013 a julho/2015 (~2 anos e 7 meses).

*   **Desafios do Dataset:**

      1.   Alta variabilidade: vendas variam por loja, tipo, promoções e sazonalidade.
      2.   Dados faltantes: algumas lojas não possuem histórico completo de concorrência e promoções.
      3.   Fatores externos: datas especiais, feriados e promoções impactam fortemente as vendas.
      4.   Séries temporais múltiplas: mais de mil lojas diferentes, cada uma com comportamento próprio.








# 2. Carga e Preparação dos dados:

(treino, validação, teste; validação cruzada; sempre evitando vazamento de dados)

## Imports das bibliotecas

In [None]:
# Configuração para não exibir os warnings

import warnings
warnings.filterwarnings("ignore")

# Imports necessários
import pandas as pd #Importar biblioteca para manipulação e análise de dados tabulares.
import numpy as np #Importar biblioteca que lida com operações numéricas e arrays multidimensionais de forma eficiente.
import matplotlib.pyplot as plt #Importar biblioteca usada para criar visualizações estáticas (gráficos, plots e etc.)
from google.colab import files #Importar o módulo "files" específico do Google Colab.
files.upload() #Caixa interativa onde importei o arquivo "Kaggle.json" para o google colab.
import time #Biblioteca "time" para medir o tempo de execução de blocos de código.
from sklearn.model_selection import train_test_split, TimeSeriesSplit #Importa métodos para divisão de dados: aleatória (treino/teste) e sequencial (séries temporais).
from sklearn.compose import ColumnTransformer #Permite aplicar diferentes transformações a colunas específicas do dataset. Ajuda com pipelines de pré-processamento.
from sklearn.preprocessing import OneHotEncoder, StandardScaler # Importa ferramentas para transformar categorias em código binário e padronizar dados numéricos.
from sklearn.pipeline import Pipeline #Cria pipelines de machine learning
from sklearn.dummy import DummyClassifier, DummyRegressor #Importa modelos "dummy" (ou de referência). Eles servem como baseline para comparar o desempenho dos seus modelos reais.
from sklearn.linear_model import LogisticRegression, Ridge #Importa modelos de regressão linear.
      #LogisticRegression é para problemas de classificação
      #Ridge é uma forma de regressão linear para problemas de regressão.

from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor #Importa os modelos de Random Forest,
from sklearn.cluster import KMeans #Importa um algoritmo de clusterização
from sklearn.metrics import (accuracy_score, f1_score, roc_auc_score, confusion_matrix,
                             mean_absolute_error, mean_squared_error, r2_score,
                             silhouette_score) #Importa diversas métricas de avaliação
from sklearn.model_selection import StratifiedKFold, KFold, TimeSeriesSplit, RandomizedSearchCV #Importa mais classes de validação cruzada.
from scipy.stats import randint, uniform  #Importa distribuições de probabilidade para serem usadas no RandomizedSearchCV.
      #"randint" para parâmetros inteiros.
      #"uniform" para parâmetros de ponto flutuante.

from IPython.display import display #Formatação de tabelas
pd.set_option('display.width', None)        # Remove quebra de linhas
pd.set_option('display.max_columns', None)  # Mostra todas as colunas
pd.set_option('display.max_colwidth', None) # Mostra conteúdo completo
pd.set_option('display.float_format', '{:.2f}'.format) # Duas casas decimais

Saving kaggle.json to kaggle (1).json


## Configurando o ambiente de download de datasets do Kaggle.

In [None]:
#configurando o ambiente de download de datasets do Kaggle.

!mkdir -p ~/.kaggle #Criando um diretório dentro do meu usuário.
!cp /content/kaggle.json ~/.kaggle/ #copiando o arquivo de credenciais "kaggle.json" para o diretório oculto ~/.kaggle/, que é onde a API do Kaggle espera encontrar minhas chaves de autenticação.
!chmod 600 ~/.kaggle/kaggle.json  #Permissão restrita, exigência de segurança do Kaggle para que o donwload funcione.

#Download e descompactação do dataset.

!kaggle datasets download -d pratyushakar/rossmann-store-sales #Comando de uso da API do Kaggle para baixar o dataset "Rossmann Store Sales".
!unzip rossmann-store-sales.zip -d rossmann #descompactamento do arquivo .zip

Dataset URL: https://www.kaggle.com/datasets/pratyushakar/rossmann-store-sales
License(s): CC0-1.0
rossmann-store-sales.zip: Skipping, found more recently modified local copy (use --force to force download)
Archive:  rossmann-store-sales.zip
replace rossmann/store.csv? [y]es, [n]o, [A]ll, [N]one, [r]ename: A
  inflating: rossmann/store.csv      
  inflating: rossmann/test.csv       
  inflating: rossmann/train.csv      


## Carregando os Datasets

In [None]:
#Dataset "Store.csv"

store = pd.read_csv('rossmann/store.csv')
display(store.head())

Unnamed: 0,Store,StoreType,Assortment,CompetitionDistance,CompetitionOpenSinceMonth,CompetitionOpenSinceYear,Promo2,Promo2SinceWeek,Promo2SinceYear,PromoInterval
0,1,c,a,1270.0,9.0,2008.0,0,,,
1,2,a,a,570.0,11.0,2007.0,1,13.0,2010.0,"Jan,Apr,Jul,Oct"
2,3,a,a,14130.0,12.0,2006.0,1,14.0,2011.0,"Jan,Apr,Jul,Oct"
3,4,c,c,620.0,9.0,2009.0,0,,,
4,5,a,a,29910.0,4.0,2015.0,0,,,


In [None]:
#Dataset "test.csv"

test_store = pd.read_csv('rossmann/test.csv')
display(test_store.head())

Unnamed: 0,Id,Store,DayOfWeek,Date,Open,Promo,StateHoliday,SchoolHoliday
0,1,1,4,2015-09-17,1.0,1,0,0
1,2,3,4,2015-09-17,1.0,1,0,0
2,3,7,4,2015-09-17,1.0,1,0,0
3,4,8,4,2015-09-17,1.0,1,0,0
4,5,9,4,2015-09-17,1.0,1,0,0


In [None]:
#Dataset "train.csv"

train_store = pd.read_csv('rossmann/train.csv')
display(train_store.head())

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
1,2,5,2015-07-31,6064,625,1,1,0,1
2,3,5,2015-07-31,8314,821,1,1,0,1
3,4,5,2015-07-31,13995,1498,1,1,0,1
4,5,5,2015-07-31,4822,559,1,1,0,1


## Descrição do dataset


In [None]:
#Informações sobre as vendas, o comportamento dos clientes e a frequência de promoções.

pd.set_option('display.float_format', lambda x: '%.2f' % x) #Comando para configurar o comportamento de exibição do Pandas.
store.describe() #função para identificar a distribuição dos dados, a presença de outliers ou valores discrepantes.

Unnamed: 0,Store,CompetitionDistance,CompetitionOpenSinceMonth,CompetitionOpenSinceYear,Promo2,Promo2SinceWeek,Promo2SinceYear
count,1115.0,1112.0,761.0,761.0,1115.0,571.0,571.0
mean,558.0,5404.9,7.22,2008.67,0.51,23.6,2011.76
std,322.02,7663.17,3.21,6.2,0.5,14.14,1.67
min,1.0,20.0,1.0,1900.0,0.0,1.0,2009.0
25%,279.5,717.5,4.0,2006.0,0.0,13.0,2011.0
50%,558.0,2325.0,8.0,2010.0,1.0,22.0,2012.0
75%,836.5,6882.5,10.0,2013.0,1.0,37.0,2013.0
max,1115.0,75860.0,12.0,2015.0,1.0,50.0,2015.0


In [None]:
store.isnull().sum()
    #".isnull()": É uma função que percorre cada célula do DataFrame e retorna True se a célula estiver vazia (nula) e False se contiver um valor.
    #".sum()": Soma o resultado de ".isnull()". Como Python trata True como 1 e False como 0, o .sum() simplesmente conta quantos valores nulos existem em cada coluna

Unnamed: 0,0
Store,0
StoreType,0
Assortment,0
CompetitionDistance,3
CompetitionOpenSinceMonth,354
CompetitionOpenSinceYear,354
Promo2,0
Promo2SinceWeek,544
Promo2SinceYear,544
PromoInterval,544


## Tratando a coluna "CompetitionDistance"

Irei útilizar a Média para preencher os dados das colunas vazias e com isso evitarei que o modelo superestime o impacto da concorrência para lojas sem dados  

In [None]:
# 1. Calcular a mediana da coluna
median_distance = store['CompetitionDistance'].median()

# 2. Preencher os valores ausentes com a mediana
store['CompetitionDistance'].fillna(median_distance, inplace=True)

# 3. Verificar o resultado para garantir que não há mais nulos
print(store['CompetitionDistance'].isnull().sum())

0


## Tratando as Colunas de Competição e de Promoção

O objetivo é transformá-las em uma única variável que capture a idade da concorrência.

In [None]:
# Seu código assume que df_store e df_train foram carregados assim:
# store = pd.read_csv('rossmann/store.csv')
# train_store = pd.read_csv('rossmann/train.csv')

# Preenchendo os valores nulos com valores seguros para cálculo de data.
store['CompetitionOpenSinceMonth'].fillna(1, inplace=True)
store['CompetitionOpenSinceYear'].fillna(1900, inplace=True)

# Garante que as colunas sejam do tipo inteiro.
store['CompetitionOpenSinceMonth'] = store['CompetitionOpenSinceMonth'].astype(int)
store['CompetitionOpenSinceYear'] = store['CompetitionOpenSinceYear'].astype(int)

# Preenche valores nulos com 0 ou 'NoPromo', indicando a ausência da promoção 2.
store['Promo2SinceWeek'].fillna(0, inplace=True)
store['Promo2SinceYear'].fillna(0, inplace=True)
store['PromoInterval'].fillna('NoPromo', inplace=True)

# Converte as colunas para o tipo inteiro.
store['Promo2SinceWeek'] = store['Promo2SinceWeek'].astype(int)
store['Promo2SinceYear'] = store['Promo2SinceYear'].astype(int)

# Combina os dataframes de treino e loja em um único dataframe.
# Corrigido: Usando os nomes das suas variáveis
df_merged = pd.merge(train_store, store, on='Store', how='inner')

# Garante que a coluna de data esteja no formato correto.
df_merged['Date'] = pd.to_datetime(df_merged['Date'])

# Cria a coluna de data de início da concorrência.
df_merged['CompetitionOpenSince'] = pd.to_datetime(
    df_merged['CompetitionOpenSinceYear'].astype(str) + '-' +
    df_merged['CompetitionOpenSinceMonth'].astype(str) + '-01',
    errors='coerce'
)

# Cria a coluna de data de início da Promoção 2.
df_merged['Promo2Start'] = df_merged.apply(
    lambda row: pd.to_datetime(
        f"{row['Promo2SinceYear']}-W{row['Promo2SinceWeek']}-1",
        format='%Y-W%W-%w', errors='coerce'
    ) if row['Promo2SinceYear'] > 0 else pd.NaT, axis=1
)

# Calcula a idade da concorrência em meses.
df_merged['CompetitionAgeInMonths'] = (
    (df_merged['Date'].dt.year - df_merged['CompetitionOpenSince'].dt.year) * 12 +
    (df_merged['Date'].dt.month - df_merged['CompetitionOpenSince'].dt.month)
)

# Calcula a idade da Promoção 2 em meses.
df_merged['Promo2AgeInMonths'] = (
    (df_merged['Date'].dt.year - df_merged['Promo2Start'].dt.year) * 12 +
    (df_merged['Date'].dt.month - df_merged['Promo2Start'].dt.month)
)

# Preenche valores inválidos ou negativos com 0 ou um valor seguro.
df_merged.loc[df_merged['CompetitionAgeInMonths'] < 0, 'CompetitionAgeInMonths'] = 0
df_merged['CompetitionAgeInMonths'].fillna(999, inplace=True)

df_merged.loc[df_merged['Promo2AgeInMonths'] < 0, 'Promo2AgeInMonths'] = 0
df_merged['Promo2AgeInMonths'].fillna(999, inplace=True)

# Remove as colunas originais que não são mais necessárias.
df_merged.drop(
    columns=[
        'CompetitionOpenSinceMonth', 'CompetitionOpenSinceYear', 'CompetitionOpenSince',
        'Promo2SinceWeek', 'Promo2SinceYear', 'Promo2Start'
    ],
    inplace=True
)

In [None]:
display(df_merged.head())

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,StoreType,Assortment,CompetitionDistance,Promo2,PromoInterval,CompetitionAgeInMonths,Promo2AgeInMonths
0,1,5,2015-07-31,5263,555,1,1,0,1,c,a,1270.0,0,NoPromo,82,999.0
1,2,5,2015-07-31,6064,625,1,1,0,1,a,a,570.0,1,"Jan,Apr,Jul,Oct",92,64.0
2,3,5,2015-07-31,8314,821,1,1,0,1,a,a,14130.0,1,"Jan,Apr,Jul,Oct",103,51.0
3,4,5,2015-07-31,13995,1498,1,1,0,1,c,c,620.0,0,NoPromo,70,999.0
4,5,5,2015-07-31,4822,559,1,1,0,1,a,a,29910.0,0,NoPromo,3,999.0


In [None]:
df_merged.isnull().sum()

Unnamed: 0,0
Store,0
DayOfWeek,0
Date,0
Sales,0
Customers,0
Open,0
Promo,0
StateHoliday,0
SchoolHoliday,0
StoreType,0


# 3. ⁠Divisão dos dados:

Limpeza, transformação, seleção/extração de atributos, engenharia de atributos, etc.

# 4. ⁠Modelagem:

treinar e comparar abordagens e modelos diferentes; quando possível, usar pipelines reproduzíveis.

# 5. ⁠Otimização de hiperparâmetros:

Explorar ajustes relevantes para cada modelo.

# 6. Avaliação:

Utilizar métricas adequadas ao tipo de problema, comparar modelos e discutir limitações e melhorias.

# 7. Boas práticas:

Estabelecer baseline, fixar seeds para reprodutibilidade, relatar recursos computacionais usados e tempo de treino, e documentar as decisões de projeto.