<a href="https://colab.research.google.com/github/sofiaremides/Data-Optimization/blob/main/ETL_CerreiraFosta_Ltda.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Descrição do Cenário:
A CerreiraFosta Ltda. é uma empresa especializada em produtos para o lar, como móveis, eletrodomésticos e artigos de decoração.
Apesar de contar com uma base de clientes sólida e uma equipe de vendas dedicada, a empresa está enfrentando dificuldades para alcançar suas metas de vendas. A taxa de conversão de oportunidades em vendas finalizadas está aquém do esperado, e o portfólio de produtos precisa ser otimizado para maximizar o valor das transações.

Recentemente, a CerreiraFosta Ltda. coletou uma grande quantidade de dados sobre seus clientes, suas compras e o seu histórico de vendas. A liderança da empresa acredita que, com uma **análise detalhada desses dados**, será possível **identificar padrões e tendências que possam ajudar a melhorar o desempenho de vendas e orientar estratégias mais eficazes.**

## Problema a Ser Resolvido:
A CerreiraFosta Ltda. precisa de sua ajuda para entender os fatores que influenciam o sucesso das vendas e identificar oportunidades de melhoria.

**A empresa quer respostas para perguntas do tipo:**
- Quais características estão relacionadas ao sucesso das vendas?
- Como a concorrência interfere no desempenho da empresa?
- Existem fatores específicos que indicam que uma oportunidade tem maior chance de ser fechada?
- O que pode ser feito para otimizar as vendas?


#Processo de ETL (Extract, Transform, Load)

Neste notebook, daremos início ao processo de ETL (Extract, Transform, Load), que consiste nas etapas fundamentais para o tratamento de dados: extrair, transformar e carregar. Este processo nos permitirá preparar os dados para análises futuras de forma estruturada e eficiente.

## Analisando as Bases de Dados

Antes de iniciar o tratamento, é essencial que a equipe tenha um entendimento profundo das bases de dados. Compreender o conteúdo, a estrutura e as características dos dados é um passo indispensável para realizar uma limpeza eficiente e garantir que as transformações futuras sejam adequadas e relevantes para os objetivos do projeto.

Vamos começar importando as bibliotecas que fornecerão as ferramentas necessárias para o processo de ETL. Utilizaremos as seguintes:

- **Pandas**: Para manipulação e análise de dados estruturados em tabelas.  
- **NumPy**: Para realizar operações matemáticas eficientes.
- **Matplotlib**: Para construir visualizações básicas e detalhadas de dados em diversos formatos de gráficos.   
- **Seaborn**: Para criar gráficos estatísticos estilizados e informativos, facilitando a análise visual.  


In [None]:
# Importando as Bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Agora, vamos importar as bases de dados fornecidas pela Cerreira Fosta, no formato CSV, para dar início à análise e ao tratamento dos dados.

In [None]:
# Conectando ao google drive, para ter acesso às bases

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Importando as bases de dados store e train
store = pd.read_csv('/content/drive/MyDrive/PTA - IDFin 2024.2/Desafio + Bases + Colab/store.csv')
train = pd.read_csv('/content/drive/MyDrive/PTA - IDFin 2024.2/Desafio + Bases + Colab/train.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/content/drive/MyDrive/PTA - IDFin 2024.2/Desafio + Bases + Colab/store.csv'

In [None]:
#união das bases para que a análise possa ser feita em uma tabela única
#bases_unidas = pd.merge(store, train, on='Store')
#bases_unidas.to_excel('bases_unidas.xlsx', index=False)
#base_para_analise = pd.read_excel('bases_juntas.xlsx')



---



## Visualizando as Bases

Nesta etapa, vamos executar alguns comandos para obter uma visão geral das bases de dados.


###**Base Lojas:**


Primeiro, vamos criar um dicionário para documentar o significado de cada coluna, garantindo que possamos entender claramente o que cada uma representa.

---
**Dicionário dos Dados:**

- **Store:** um ID exclusivo para cada loja;
- **StoreType:** diferencia entre 4 modelos de loja diferentes: a, b, c, d;
- **Assortment:** descreve um nível de sortimento: a = básico, b = extra, c = estendido;
- **CompetitionDistance:** distância em metros até a loja concorrente mais próxima;
- **CompetitionOpenSince[Month/Year]:** fornece o ano e o mês aproximados da abertura do concorrente mais próximo;
- **Promo2:** Promo2 é uma promoção contínua e consecutiva para algumas lojas: 0 = loja não está participando, 1 = loja está participando;
- **Promo2Since[Year/Week]:** descreve o ano e a semana do calendário em que a loja começou a participar do Promo2;
- **PromoInterval:** descreve os intervalos consecutivos em que o Promo2 é iniciado, nomeando os meses em que a promoção é iniciada novamente. Por exemplo, "fev, mai, ago, nov" significa que cada rodada começa em fevereiro, maio, agosto, novembro de qualquer ano para aquela loja.



---





- O comando ***.head()*** verifica as colunas e as primeiras linhas de cada uma. Isso nos ajudará a entender sua estrutura e conteúdo iniciais.

In [None]:
# Verificando a base store completa
store.head()

Unnamed: 0,Store,StoreType,Assortment,CompetitionDistance,CompetitionOpenSinceMonth,CompetitionOpenSinceYear,Promo2,Promo2SinceWeek,Promo2SinceYear,PromoInterval
0,1,c,a,1270.0,9.0,2008.0,0,,,
1,2,a,a,570.0,11.0,2007.0,1,13.0,2010.0,"Jan,Apr,Jul,Oct"
2,3,a,a,14130.0,12.0,2006.0,1,14.0,2011.0,"Jan,Apr,Jul,Oct"
3,4,c,c,620.0,9.0,2009.0,0,,,
4,5,a,a,29910.0,4.0,2015.0,0,,,


- O comando ***.shape*** retorna uma tupla com o número de linhas e colunas do DataFrame (respectivamente), fornecendo uma visão rápida da dimensão da base de dados.

In [None]:
# Verificando o tamanho (linhas, colunas) da base store
store.shape

(1115, 10)

---
###**Base Vendas:**

Repetiremos o mesmo processo com a Base train:



---

**Dicionário dos Dados:**

- **Store:** Um ID exclusivo para cada loja;
- **DayOfWeek:** Dia da semana (1 = segunda-feira, 7 = domingo);
- **Date:** Data da observação;
- **Sales:** Total de vendas realizadas na loja nesse dia;
- **Customers:** Número de clientes que visitaram a loja nesse dia;
- **Open:** Indicador se a loja estava aberta (1 = aberta, 0 = fechada);
- **Promo:** Indicador se havia uma promoção naquele dia (1 = sim, 0 = não);
- **StateHoliday:** Indicador de feriado estadual (1 = feriado, 0 = não feriado);
- **SchoolHoliday:** Indicador de feriado escolar (1 = feriado escolar, 0 = não feriado escolar).
---

In [None]:
# Verificando a base train completa
train.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
1,2,5,2015-07-31,6064,625,1,1,0,1
2,3,5,2015-07-31,8314,821,1,1,0,1
3,4,5,2015-07-31,13995,1498,1,1,0,1
4,5,5,2015-07-31,4822,559,1,1,0,1


In [None]:
# Verificando o tamanho (linhas, colunas) da base train
train.shape

(1017209, 9)

---
## Tratando os Dados

Agora, podemos examinar as bases de dados com mais profundidade para iniciar o tratamento. Nesta etapa, utilizaremos comandos como *info()*, *describe()* e *isnull()* para entender melhor a estrutura dos dados e identificar possíveis problemas, como valores ausentes ou inconsistências.

###**Base Store**

- O comando ***isnull().sum()*** é utilizado para identificar e contar valores ausentes (nulos) em cada coluna de um DataFrame.
O isnull() retorna um DataFrame de valores booleanos (True para nulos, False para não nulos), e o sum() soma os valores ausentes por coluna.
Isso fornece uma visão rápida do número de valores faltantes em cada coluna.

In [None]:
# Verificando dados nulos
store.isnull().sum()

Unnamed: 0,0
Store,0
StoreType,0
Assortment,0
CompetitionDistance,3
CompetitionOpenSinceMonth,354
CompetitionOpenSinceYear,354
Promo2,0
Promo2SinceWeek,544
Promo2SinceYear,544
PromoInterval,544


**OBS**: apesar de ter algumas informações faltantes, a coluna apresenta informações consideráveis para a análise.












Vamos verificar se há linhas duplicadas na base store

In [None]:
# Verificando a duplicação de linhas
store[store.duplicated()]

Unnamed: 0,Store,StoreType,Assortment,CompetitionDistance,CompetitionOpenSinceMonth,CompetitionOpenSinceYear,Promo2,Promo2SinceWeek,Promo2SinceYear,PromoInterval


**OBS**: NÃO HÁ COLUNAS DUPLICADAS

- O comando ***.info()*** Exibe informações gerais sobre o DataFrame, como o número de entradas, tipos de dados das colunas, e quantidade de valores não nulos.

In [None]:
# Verificando informações da base store
store.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1115 entries, 0 to 1114
Data columns (total 10 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Store                      1115 non-null   int64  
 1   StoreType                  1115 non-null   object 
 2   Assortment                 1115 non-null   object 
 3   CompetitionDistance        1112 non-null   float64
 4   CompetitionOpenSinceMonth  761 non-null    float64
 5   CompetitionOpenSinceYear   761 non-null    float64
 6   Promo2                     1115 non-null   int64  
 7   Promo2SinceWeek            571 non-null    float64
 8   Promo2SinceYear            571 non-null    float64
 9   PromoInterval              571 non-null    object 
dtypes: float64(5), int64(2), object(3)
memory usage: 87.2+ KB


- O comando ***.describe()*** gera estatísticas descritivas das colunas numéricas, como média, desvio padrão, valores mínimos e máximos, entre outros, ajudando a entender a **distribuição dos dados.**

In [None]:
# Verificando informações da base store, arredondando os valores das estatísticas até 2 casas decimais
store.describe().round(2)

Unnamed: 0,Store,CompetitionDistance,CompetitionOpenSinceMonth,CompetitionOpenSinceYear,Promo2,Promo2SinceWeek,Promo2SinceYear
count,1115.0,1112.0,761.0,761.0,1115.0,571.0,571.0
mean,558.0,5404.9,7.22,2008.67,0.51,23.6,2011.76
std,322.02,7663.17,3.21,6.2,0.5,14.14,1.67
min,1.0,20.0,1.0,1900.0,0.0,1.0,2009.0
25%,279.5,717.5,4.0,2006.0,0.0,13.0,2011.0
50%,558.0,2325.0,8.0,2010.0,1.0,22.0,2012.0
75%,836.5,6882.5,10.0,2013.0,1.0,37.0,2013.0
max,1115.0,75860.0,12.0,2015.0,1.0,50.0,2015.0


---
###**Base Train**

Vamos repetir o processo para a outra base de dados:

In [None]:
# Verificando dados nulos
train.isnull().sum()

Unnamed: 0,0
Store,0
DayOfWeek,0
Date,0
Sales,0
Customers,0
Open,0
Promo,0
StateHoliday,0
SchoolHoliday,0


**OBS:** Verificamos que todas as linhas dessa coluna possuem valores faltantes. Então, vamos optar por excluir essa coluna.

In [None]:
# Excluindo a primeira coluna (índice 0)
train = train.drop(train.columns[0], axis=1)

Vamos verificar se há colunas duplicadas na base store:

In [None]:
# Verificando a duplicação de linhas
train[train.duplicated()]

**OBS**: NÃO HÁ COLUNAS DUPLICADAS

In [None]:
# Verificando informações da base final e conferindo a exclusão da coluna
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1017209 entries, 0 to 1017208
Data columns (total 9 columns):
 #   Column         Non-Null Count    Dtype 
---  ------         --------------    ----- 
 0   Store          1017209 non-null  int64 
 1   DayOfWeek      1017209 non-null  int64 
 2   Date           1017209 non-null  object
 3   Sales          1017209 non-null  int64 
 4   Customers      1017209 non-null  int64 
 5   Open           1017209 non-null  int64 
 6   Promo          1017209 non-null  int64 
 7   StateHoliday   1017209 non-null  object
 8   SchoolHoliday  1017209 non-null  int64 
dtypes: int64(7), object(2)
memory usage: 69.8+ MB


In [None]:
# Verificando informações da base train final, arredondando os valores até 2 casas decimais
train.describe().round(2)

NameError: name 'train' is not defined