# Conjunto de Dados Públicos de E-Commerce Brasileiro da Olist

## Descrição da empresa e seu problema

A Olist é a maior loja de departamentos nos marketplaces brasileiros, conectando pequenos comerciantes a diversos canais de vendas. A empresa gerencia um grande volume de dados de pedidos, abrangendo várias dimensões como status do pedido, preço, pagamento, desempenho do frete, localização dos clientes, atributos dos produtos e avaliações dos clientes.

Depois que um cliente compra o produto na Olist Store, um vendedor é notificado para atender a esse pedido. Uma vez que o cliente recebe o produto, ou a data de entrega estimada é devida, o cliente recebe uma pesquisa de satisfação por e-mail, onde ele pode dar uma nota para a experiência de compra e escrever alguns comentários.

A Olist enfrenta desafios em compreender as necessidades dos clientes e melhorar continuamente seus serviços e produtos, por isso é necessário uma análise detalhada dos dados para desenvolver estratégias para melhorar a experiência do cliente.

## Descrição do Objetivo da Análise

*   Explorar os dados de pedidos, clientes, produtos e avaliações para identificar padrões e tendências.
*   Determinar fatores que afetam a precificação dos produtos.
*   Propor estratégias de precificação baseadas nos insights obtidos.
*   Fornecer informações e recomendações para a equipe de gestão da Olist tomar decisões informadas sobre precificação e melhoria de experiência do cliente.

## 0. Importações

### 0.1 Bibliotecas 

In [None]:
pip install --upgrade category_encoders

In [None]:
pip install -U kaleido

In [None]:
pip install pandas plotly

In [None]:
pip install geopandas

In [None]:
import nltk
nltk.download('punkt')

In [None]:
pip install wordcloud 

In [11]:
### Manipulação e tratamento de dados
import pandas as pd
import numpy as np
import datetime 
from datetime import date
import re
import warnings
import lxml
import inflection

### Visualização de dados
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
from PIL import Image
from wordcloud import WordCloud

### Geolocalização e visualização de mapas
import geopandas as gpd
import folium
from folium import Choropleth, Circle, Marker
from folium.plugins import HeatMap, MarkerCluster, FastMarkerCluster

### Feature Engineering e Pré-processamento
from sklearn.preprocessing import OrdinalEncoder, LabelEncoder, StandardScaler, MinMaxScaler, RobustScaler, FunctionTransformer
from sklearn.impute import KNNImputer
from sklearn.compose import ColumnTransformer
from category_encoders import TargetEncoder, CatBoostEncoder

### Outras bibliotecas importantes
from collections import Counter
from nltk.corpus import stopwords

In [12]:
### Ignoring warnings
warnings.filterwarnings('ignore')

### Pandas Settings
pd.set_option('display.float_format', lambda x: '%.3f' % x)
pd.set_option('display.max_columns', None)

### Random Seed
SEED = 42

### Palette Seting
custom_palette = ['#001C5B', '#E64E36', '#ff82cd', '#0A4EE4', '#779E3D', '#f0a028']
px.defaults.color_discrete_sequence = custom_palette

### 0.2 Carregando os dados  

In [13]:
# Carrega os datasets
base_path = r'C:\Users\Rubeus\Documents\tcc\data'

order_items = pd.read_csv(f'{base_path}\olist_order_items_dataset.csv')
orders = pd.read_csv(f'{base_path}\olist_orders_dataset.csv')
payments = pd.read_csv(f'{base_path}\olist_order_payments_dataset.csv')
products = pd.read_csv(f'{base_path}\olist_products_dataset.csv')
customers = pd.read_csv(f'{base_path}\olist_customers_dataset.csv')
sellers = pd.read_csv(f'{base_path}\olist_sellers_dataset.csv')
product_category = pd.read_csv(f'{base_path}\product_category_name_translation.csv')
geolocation = pd.read_csv(f'{base_path}\olist_geolocation_dataset.csv')
reviews = pd.read_csv(f'{base_path}\olist_order_reviews_dataset.csv')

# Juntando os dados principais do pedido
df = order_items.merge(orders, on='order_id') \
                .merge(payments, on='order_id') \
                .merge(products, on='product_id') \
                .merge(customers, on='customer_id') \
                .merge(sellers, on='seller_id') \
                .merge(product_category, on='product_category_name') \
                .merge(reviews, on='order_id', how='inner')

In [14]:
#df.to_csv('df_merged.csv', index=False)

## 1. Descrição dos dados

In [None]:
df.head()

In [None]:
geolocation.head()

### 1.1 Dimensão dos dados

In [None]:
df.shape

In [None]:
geolocation.shape

### 1.2 Colunas

#### 1.2.1 Colunas do Dataset (df)

| Nome da Coluna                   | Descrição                                                                                      |
|----------------------------------|------------------------------------------------------------------------------------------------|
| order_id                         | Identificador único do pedido.                                                                 |
| customer_id                      | Chave para o conjunto de dados dos clientes. Cada pedido tem um customer_id único.            |
| order_status                     | Referência ao status do pedido (entregue, enviado, etc).                                        |
| order_purchase_timestamp         | Mostra o momento da compra.                                                                    |
| order_approved_at                | Mostra o momento da aprovação do pagamento.                                                    |
| order_delivered_carrier_date     | Mostra a data em que o pedido foi encaminhado ao parceiro logístico.                          |
| order_delivered_customer_date    | Mostra a data de entrega real do pedido ao cliente.                                            |
| order_estimated_delivery_date    | Mostra a data de entrega estimada que foi informada ao cliente no momento da compra.           |
| customer_unique_id               | Identificador único de um cliente.                                                             |
| customer_zip_code_prefix         | Os primeiros cinco dígitos do CEP do cliente.                                                  |
| customer_city                    | Nome da cidade do cliente.                                                                     |
| customer_state                   | Estado do cliente.                                                                             |
| order_item_id                    | Número sequencial que identifica o número de itens incluídos no mesmo pedido.                   |
| product_id                       | Identificador único do produto.                                                                |
| seller_id                        | Identificador único do vendedor.                                                               |
| shipping_limit_date              | Mostra a data limite de envio do vendedor para entregar o pedido ao parceiro logístico.        |
| price                            | Preço do item.                                                                                 |
| freight_value                    | Valor do frete do item (se um pedido tiver mais de um item, o valor do frete é dividido).      |
| payment_sequential               | Um cliente pode pagar um pedido com mais de um método de pagamento.                            |
| payment_type                     | Método de pagamento escolhido pelo cliente.                                                     |
| payment_installments             | Número de parcelas escolhidas pelo cliente.                                                     |
| payment_value                    | Valor da transação.                                                                           |
| product_category_name            | Categoria raiz do produto, em português.                                                        |
| product_name_lenght              | Número de caracteres extraídos do nome do produto.                                              |
| product_description_lenght       | Número de caracteres extraídos da descrição do produto.                                         |
| product_photos_qty               | Número de fotos publicadas do produto.                                                          |
| product_weight_g                 | Peso do produto medido em gramas.                                                              |
| product_length_cm                | Comprimento do produto medido em centímetros.                                                   |
| product_height_cm                | Altura do produto medida em centímetros.                                                        |
| product_width_cm                 | Largura do produto medida em centímetros.                                                       |
| seller_zip_code_prefix           | Os primeiros 5 dígitos do CEP do vendedor.                                                      |
| seller_city                      | Nome da cidade do vendedor.                                                                    |
| seller_state                     | Estado do vendedor.                                                                            |
| product_category_name_english    | Nome da categoria em inglês.                                                                   |
| review_id                        | Identificador único da avaliação.                                                               |
| review_score                     | Nota variando de 1 a 5 dada pelo cliente em uma pesquisa de satisfação.                          |
| review_comment_title            | Título do comentário da avaliação deixada pelo cliente, em português.                          |
| review_comment_message          | Mensagem do comentário da avaliação deixada pelo cliente, em português.                        |
| review_creation_date            | Mostra a data em que a pesquisa de satisfação foi enviada ao cliente.                          |
| review_answer_timestamp         | Mostra o momento em que a pesquisa de satisfação foi respondida.                               |

#### 1.2.2 Colunas do Dataset geolocation

| Nome da coluna               | Descrição                                       |
|------------------------------|-------------------------------------------------|
| geolocation_zip_code_prefix  | Os primeiros 5 dígitos do CEP.                  |
| geolocation_lat              | Latitude.                                       |
| geolocation_lng              | Longitude.                                      |
| geolocation_city             | Nome da cidade.                                 |
| geolocation_state            | Estado.                                        |

### 1.3 Tipos dos dados

In [None]:
# Dataset principal
df.info()

In [None]:
# Dataset geolocalização 
geolocation.info()

## 2. Pré-processamento de dados

### 2.1 Date Features

In [21]:
# Colunas com variaveis de data 
datetime_columns = ['order_purchase_timestamp',
                    'order_approved_at',
                    'order_delivered_carrier_date',
                    'order_delivered_customer_date',
                    'shipping_limit_date',
                    'review_creation_date',
                    'review_answer_timestamp']

# Convertendo as colunas para datetime, ignorando dados nulos
df[datetime_columns] = df[datetime_columns].apply(pd.to_datetime, errors='coerce')

In [None]:
# O parametro errors='coerce'  é usado para substituir dados nulos por NaT (not a time)
date_null = df.loc[df['order_delivered_carrier_date'].isnull(), :]
date_null.loc[date_null['order_status'] == 'delivered', :]

* Os valores ausentes em `delivered_customer_date` estão relacionados a pedidos que ainda não foram entregues.

### 2.2 Detalhando as variáveis de data e hora

- Quero calcular a diferença de tempo entre o momento da compra do pedido, o momento da aprovação do pedido e o momento da entrega

In [23]:
# Tempo entre a aprovação do pedido e a entrega
df['delivery_time'] = df['order_delivered_customer_date'] - df['order_approved_at']

# Convertendo para um formato mais legível (horas)
df['delivery_time_in_hours'] = df['delivery_time'] / pd.Timedelta(hours=1)

- Considerando o momento da compra do pedido, vou criar campos adicionais para analisar tendências sazonais e padrões de comportamento de compra ao longo do ano, semana e dias da semana.

In [24]:
# Criando novas colunas
df['day']        = df['order_purchase_timestamp'].dt.day # Dia
df['month']      = df['order_purchase_timestamp'].dt.month # Mês
df['year']       = df['order_purchase_timestamp'].dt.year # Ano
df['dayofweek']  = df['order_purchase_timestamp'].dt.dayofweek # Dia da semana
df['weekofyear'] = df['order_purchase_timestamp'].dt.isocalendar().week # Semana do ano

# Coluna apenas com o dia, mês e ano
df['day_month_year'] = df['order_purchase_timestamp'].dt.strftime('%d-%m-%Y')
df['day_month_year'] = pd.to_datetime(df['day_month_year'], format='%d-%m-%Y')

### 2.3 Novas colunas

- Já que a coluna `dayofweek` indica o dia da semana com números de 0 a 6, vou criar uma nova coluna com o nome do dia correspondente para facilitar a interpretação em gráficos e análises visuais.

In [25]:
# Criando dicionário para dia da semana
mapping = {
    0: 'Monday',
    1: 'Tuesday',
    2: 'Wednesday',
    3: 'Thursday',
    4: 'Friday',
    5: 'Saturday',
    6: 'Sunday'}

# Mapping - nome do dia por número
df['name_dayofweek'] = df['dayofweek'].map(mapping)

- Ainda pensando em facilitar a visualização, vou criar colunas de Região.

In [26]:
# Criar um dicionário para as regiões 
mapping = {
    'Norte': ['AC', 'AM', 'AP', 'PA', 'RO', 'RR', 'TO'],
    'Nordeste': ['AL', 'BA', 'CE', 'MA', 'PB', 'PE', 'PI', 'RN', 'SE'],
    'Sudeste': ['ES', 'MG', 'RJ', 'SP'],
    'Centro-Oeste': ['DF', 'GO', 'MS', 'MT'],
    'Sul': ['PR', 'RS', 'SC']}

# Mapeando os estados por região 
df['customer_region'] = df['customer_state'].map({state: region for region, states in mapping.items() for state in states})

### 2.4 Descrevendo os dados 

In [None]:
df.describe().T

A partir dos resultados do describe, podemos observar alguns insights importantes sobre o conjunto de dados:

- `price:` O preço médio dos produtos é aproximadamente 120 reais, com alta variabilidade (desvio padrão de 184). A maioria dos pedidos (75%) tem preços até 134,90, mas há outliers, como 6735,00.
- `freight_value:` O valor médio do frete é cerca de 20 reais, com alguns pedidos tendo frete grátis (valor de 0) e outros com custos mais elevados, até 409 reais.
- `payment_value:` A média do valor total pago pelos clientes é aproximadamente 173 reais, com casos extremos chegando a 13664 reais.
- `payment_installments:` Em média, os pedidos são parcelados em cerca de 3 vezes, com um máximo de 24 parcelas.
- `review_score:` Média de 4.034, indicando que as avaliações dos clientes são, em média, positivas.
- `delivery_time` O tempo médio de entrega é de 12 dias.

### 2.5 Verificando valores nulos

In [None]:
# Criando um dicionário para armazenar as contagens de valores nulos e porcentagens
null_info = {'Coluna': [], 'Valores Nulos': [], '% de Nulos': []}

# Iterando sobre as colunas do DataFrame
for col in df.columns:
    null_count = df[col].isna().sum()
    null_percentage = (null_count / len(df)) * 100
    
    # Adicionando os dados ao dicionário
    null_info['Coluna'].append(col)
    null_info['Valores Nulos'].append(null_count)
    null_info['% de Nulos'].append(null_percentage)

# Criando um DataFrame com os resultados
null_values = pd.DataFrame(null_info)

# Ordenando os valores nulos em ordem decrescente
null_values = null_values.sort_values(by='Valores Nulos', ascending=False)

# Exibindo os valores nulos
print(null_values)

- `review_comment_title` (88.06%) e `review_comment_message` (57.70%) têm um percentual muito alto de valores nulos. Isso indica que muitos pedidos não têm comentários ou que esses campos não foram preenchidos pelos clientes.

- O restante dos dados possui um percentual médio de 2% de dados nulos, o que não é um número muito alto.

### 2.6 Dados categóricos 

- Mostrando os atributos categóricos no conjunto de dados e quantos valores únicos cada um possui.

In [None]:
# Selecionando atributos categóricos
cat_attributes = df.select_dtypes(include=['object'])

# Contagem de valores únicos
unique_counts = cat_attributes.nunique()

# Exibindo os resultados
print(unique_counts)

In [None]:
# Exibindo os valores únicos de 'payment_type'
print('Tipos de pagamentos:')
print(df.payment_type.unique())
print()

# Exibindo os valores únicos de 'order_status'
print('Status:')
print(df.order_status.unique())
print()

# Exibindo os valores únicos de 'product_category'
print('Categorias:')
print(df.product_category_name.unique())
print()

In [None]:
df.head()

In [32]:
df.to_csv('df_preprocessed.csv', index=False)

## 3. Análise Explatória de Dados (EDA) 

### 3.1 Análise dos pedidos 

#### 3.1.1 Como o número de pedidos muda ao longo do tempo? Qual dia teve o maior número de pedidos?

In [None]:
# Manipulação de Dados - Criando um DataFrame agrupado
df_aux = df[['day_month_year', 'order_id']].groupby(['day_month_year']).count().reset_index()

# Criando o gráfico interativo
fig_11 = px.bar(df_aux, x='day_month_year', y='order_id')

# Personalizando o gráfico usando Plotly
fig_11.update_layout(
    title='Número de Pedidos por Dia',       # Título do gráfico
    xaxis_title='Dia',                        # Rótulo do eixo X
    yaxis_title='Número de Pedidos',          # Rótulo do eixo Y
    title_x=0.5                               # Centraliza o título do gráfico
)

# Exibindo o gráfico interativo
fig_11.show()

# Salvando o gráfico como uma imagem PNG
fig_11.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_11.png', width=1200, height=600, scale=3)

* O maior número de pedidos foi em novembro de 2017. Esse dia foi a Black Friday daquele ano, que é um dos dias de maior venda do ano.

#### 3.1.2 Como o número de pedidos varia por região? Existe alguma região que tenha mais pedidos em um determinado período?

In [None]:
# Manipulação de Dados - Criando um dataframe agrupado
df_aux = df[['day_month_year', 'order_id', 'customer_region']].groupby(['day_month_year', 'customer_region']).count().reset_index()

# Selecionando dados de 2018
df_aux = df_aux.loc[df_aux['day_month_year'] >= '2018-01-01']

fig_12 = px.line(df_aux, x='day_month_year', y='order_id', color='customer_region', title='Número de Pedidos por Dia e por Região')
fig_12.update_layout(
    xaxis_title='Dia',
    yaxis_title='Número de Pedidos',
    title_x=0.5
)

# Exibindo a figura interativa
fig_12.show()

# Salvando o gráfico como uma imagem PNG
fig_12.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_12.png', width=1200, height=700, scale=3)

* O gráfico contém apenas os dados de 2018. O número de pedidos é maior na região Sudeste ao longo de todo o ano e não há uma diferença significativa em seus valores ao longo do tempo.

* O número de pedidos aumenta e diminui, mas a proporção de pedidos entre as regiões é quase a mesma.

#### 3.1.3 Números de pedidos por tipo de pagamento 

In [None]:
# Manipulação de Dados - Criando um DataFrame agrupado
df_aux = df[['payment_type', 'order_id']].groupby(['payment_type']).count().reset_index()
df_aux.sort_values('order_id', ascending=False, inplace=True)

# Criando o gráfico interativo
fig_13 = px.bar(df_aux, x='payment_type', y='order_id', text_auto=True, color='payment_type')

# Personalizando o gráfico
fig_13.update_layout(
    title='Número de Pedidos por Tipo de Pagamento',  # Título do gráfico
    xaxis_title='Tipo de Pagamento',                  # Rótulo do eixo X
    yaxis_title='Número de Pedidos',                  # Rótulo do eixo Y
    title_x=0.5,                                     # Centraliza o título do gráfico
    xaxis_tickangle=-45                             # Inclina os rótulos do eixo X para melhor leitura
)

# Exibindo o gráfico interativo
fig_13.show()

# Salvando o gráfico como uma imagem PNG
fig_13.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_13.png', width=1200, height=600, scale=3)

* O Cartão de Crédito é o tipo de pagamento mais utilizado no conjunto de dados. Em segundo lugar, o boleto, representa cerca de 1/4 do volume de pagamentos com cartão de crédito. O Vale é o terceiro, e o Cartão de Débito é o quarto.

#### 3.1.4 Como é a distribuição semanal dos pedidos não entregues?

In [None]:
# Manipulação de Dados - Criando um DataFrame agrupado
df_aux = df.loc[(df['day_month_year'] >= '2018-01-01') & (df['order_status'] != 'delivered'), :]
df_aux = df_aux[['weekofyear', 'order_id', 'order_status']].groupby(['weekofyear', 'order_status']).count().reset_index()

# Criando o gráfico interativo
fig_14 = px.bar(df_aux, x='weekofyear', y='order_id', color='order_status',
                 title='Número de Pedidos Não Entregues por Semana (2018)',  # Título do gráfico
                 labels={'weekofyear': 'Semana', 'order_id': 'Número de Pedidos'})  # Rótulos dos eixos

# Personalizando o gráfico
fig_14.update_layout(
    title='Número de Pedidos Não Entregues por Semana (2018)',  # Título do gráfico
    xaxis_title='Semana',                                      # Rótulo do eixo X
    yaxis_title='Número de Pedidos',                            # Rótulo do eixo Y
    title_x=0.5                                             # Centraliza o título do gráfico
)

# Salvando a imagem
fig_14.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_14.png', width=1200, height=600, scale=3)

# Exibindo o gráfico interativo
fig_14.show()

* Juntando o número de pedidos por semana, podemos ver que o número de pedidos cancelados tem um pico na semana 4 até a semana 9, e outro pico por volta da 30ª semana.

* A pergunta é: isso é um padrão anual?

In [None]:
# Manipulação de Dados - Criando um DataFrame agrupado
df_aux = df.loc[(df['day_month_year'] >= '2017-01-01') & (df['day_month_year'] <= '2017-12-31') & (df['order_status'] != 'delivered'), :]
df_aux = df_aux[['weekofyear', 'order_id', 'order_status']].groupby(['weekofyear', 'order_status']).count().reset_index()

# Criando o gráfico interativo
fig_141 = px.bar(df_aux, x='weekofyear', y='order_id', color='order_status',
                 title='Número de Pedidos Não Entregues por Semana (2017)',  # Título do gráfico
                 labels={'weekofyear': 'Semana', 'order_id': 'Número de Pedidos'})  # Rótulos dos eixos

# Personalizando o gráfico
fig_141.update_layout(
    title='Número de Pedidos Não Entregues por Semana (2017)',  # Título do gráfico
    xaxis_title='Semana',                                      # Rótulo do eixo X
    yaxis_title='Número de Pedidos',                            # Rótulo do eixo Y
    title_x=0.5                                             # Centraliza o título do gráfico
)

# Salvando a imagem (opcional)
fig_141.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_141.png', width=1200, height=600, scale=3)

# Exibindo o gráfico interativo
fig_141.show()

* Não conseguimos observar um padrão anual nos pedidos cancelados como em 2018. Mas, assim como em 2018, o número de pedidos cancelados é maior na 30ª a 33ª semana.

#### 3.1.5 Números de pedidos por categoria 

In [None]:
df_aux1 = df[['product_category_name', 'order_id']].groupby(['product_category_name']).count().reset_index()
df_aux1 = df_aux1.sort_values('order_id', ascending=False).head(20)

fig_21 = px.bar(df_aux1, x='product_category_name', y='order_id', text_auto=True)
fig_21.update_layout(
    title='Número de Pedidos por Categoria',
    xaxis_title='Categoria',
    yaxis_title='Número de Pedidos'
)

# Salvar o primeiro gráfico como imagem
fig_21.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_21.png', width=1200, height=600, scale=3)

# Exibir o primeiro gráfico
fig_21.show()

* A categoria mais vendida é **cama, mesa e banho**, seguida por **beleza e saúde**, **esporte e lazer**, **móveis de decoração** e **informática e acessórios**.

* As categorias menos vendidas são **seguros e serviços**, **fashion roupa infanto-juvenil**, **PC gamer**, **CDs DVDs musicais** e **portáteis de cozinha**.

* Podemos dizer que um e-commerce não é o melhor lugar para vender seguros e que CDs e DVDs não vendem tanto quanto costumavam.

#### 3.1.6 Números de pedidos por estado 

In [None]:
# Manipulação de Dados - Criando um DataFrame agrupado
df_aux = df[['customer_state', 'order_id']].groupby(['customer_state']).count().reset_index()
df_aux.sort_values('order_id', ascending=False, inplace=True)

# Criando o gráfico interativo
fig_16 = px.bar(df_aux, x='customer_state', y='order_id', text='order_id',
                 title='Número de Pedidos por Estado',  # Título do gráfico
                 labels={'customer_state': 'Estado', 'order_id': 'Número de Pedidos'})  # Rótulos dos eixos

# Personalizando o gráfico
fig_16.update_layout(
    title='Número de Pedidos por Estado',  # Título do gráfico
    xaxis_title='Estado',                  # Rótulo do eixo X
    yaxis_title='Número de Pedidos',        # Rótulo do eixo Y
    height=600,                            # Altura do gráfico
    width=1000,                            # Largura do gráfico
    xaxis_title_font_size=14,              # Tamanho da fonte do título do eixo X
    yaxis_title_font_size=14,              # Tamanho da fonte do título do eixo Y
    title_x=0.5,                           # Centraliza o título do gráfico
    xaxis_tickangle=-45                    # Inclina os rótulos do eixo X para melhor visualização
)

# Salvando a imagem (opcional)
fig_16.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_16.png', width=1200, height=600, scale=3)

# Exibindo o gráfico interativo
fig_16.show()

* São Paulo é o maior comprador (muito a frente dos demais). O segundo e o terceiro lugares também são da Região Sudeste, mas não são tão grandes quanto SP em número de pedidos.

* No último lugar estão os Estados do Norte do país, qusãoão bastante distantes dos centros logísticos.

#### 3.1.7 Os clientes compram mais no começo do mês? 

In [None]:
# Manipulação de Dados
df_aux = df[['order_id', 'day']].groupby(['day']).count().reset_index()
df_aux.sort_values('order_id', ascending=False, inplace=True)

# Criando o gráfico de barras
fig_17 = px.bar(df_aux, x='day', y='order_id', text_auto=True,
                title='Número de Pedidos por Dia do Mês',
                labels={'day': 'Dia', 'order_id': 'Número de Pedidos'},
                color='order_id', color_continuous_scale='magma')

# Personalizando o layout do gráfico
fig_17.update_layout(
    title_x=0.5,                       # Centraliza o título
    xaxis_title='Dia do Mês',          # Rótulo do eixo X
    yaxis_title='Número de Pedidos',   # Rótulo do eixo Y
    xaxis=dict(tickmode='linear'),     # Define o modo de ticks do eixo X para linear
    yaxis=dict(title='Número de Pedidos'),  # Define o título do eixo Y
    xaxis_tickangle=-45                # Inclina os rótulos do eixo X para melhor legibilidade
)

# Salvando o gráfico como uma imagem PNG
fig_17.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_17.png', width=1200, height=600, scale=3)

# Exibindo o gráfico interativo
fig_17.show()

* Não tem um padrão de compra para falar que os consumidores compram mais no começo do mês, mas há uma queda no número de pedidos a partir do 28° dia.

#### 3.1.8 Número de Pedidos por Dia da Semana

In [None]:
df_aux1 = df[['order_id', 'name_dayofweek']].groupby(['name_dayofweek']).count().reset_index()
df_aux1.sort_values('order_id', ascending=False, inplace=True)

fig_18 = px.bar(df_aux1, x='name_dayofweek', y='order_id', text_auto=True, color='name_dayofweek',
                         labels={'name_dayofweek': 'Dia da Semana', 'order_id': 'Número de Pedidos'})
fig_18.update_layout(
    title='Número de Pedidos por Dia da Semana',
    xaxis_title='Dia da Semana',
    yaxis_title='Número de Pedidos'
)

# Salvar o primeiro gráfico como imagem
fig_18.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_18.png', width=800, height=400, scale=3)

# Exibir o primeiro gráfico
fig_18.show()

#### 3.1.9 Valor Médio de Pagamento por Dia da Semana

In [None]:
df_aux2 = df[['payment_value', 'name_dayofweek']].groupby(['name_dayofweek']).mean().reset_index()
df_aux2.sort_values('payment_value', ascending=False, inplace=True)

fig_19 = px.bar(df_aux2, x='name_dayofweek', y='payment_value', text_auto=True, color='name_dayofweek',
                        labels={'name_dayofweek': 'Dia da Semana', 'payment_value': 'Valor Médio do Pagamento'})
fig_19.update_layout(
    title='Valor Médio de Pagamento por Dia da Semana',
    xaxis_title='Dia da Semana',
    yaxis_title='Valor Médio do Pagamento'
)

# Salvar o segundo gráfico como imagem
fig_19.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_19.png', width=1200, height=400, scale=3)

# Exibir o segundo gráfico
fig_19.show()

* No primeiro gráfico, o dia com o maior número de pedidos é a segunda-feira, mas não é o dia com o maior valor médio de pagamento.

* No segundo gráfico, o dia com o maior valor médio de pagamento é a sexta-feira, que ocupa a quinta posição em número de pedidos. As pessoas podem estar mais propensas a gastar mais às sextas-feiras do que em outros dias, ou pode ser que a Black Friday de 2017 esteja influenciando os números.

* O fim de semana tem o menor número de pedidos e o menor valor médio de pagamento. As pessoas não gastam muito online durante os fins de semana.

In [38]:
# Cria dados de ponto representativo a partir do código postal dos dados geográficos
geo_data = pd.DataFrame(dict(rep_lat=geolocation.groupby("geolocation_zip_code_prefix").geolocation_lat.mean(),
                                rep_long=geolocation.groupby("geolocation_zip_code_prefix").geolocation_lng.mean())).reset_index()

# Mesclar os dados de geolocalização nos dados de clientes
geo_customers = customers.merge(geo_data, left_on="customer_zip_code_prefix", right_on="geolocation_zip_code_prefix")

In [None]:
# Verificar quantas linhas foram removidas
print("{} linhas foram perdidas. Correspondente a {:.1f}% das linhas.".format(len(customers)-len(geo_customers), (len(customers)-len(geo_customers))/len(geo_customers)*100))
geo_customers.head(10)

In [None]:
# Verificando quais linhas foram removidas de customers
missing_data = customers[~customers.customer_zip_code_prefix.isin(geo_customers.customer_zip_code_prefix.values)]
missing_data

In [None]:
# Verificando se os códigos realmente não estavam em geolocation
geolocation.geolocation_zip_code_prefix.isin(missing_data.customer_zip_code_prefix.values)

In [None]:
# Focar em customer_unique_id porque customer_id é distribuído por pedido
grouped_geo_customers = geo_customers.groupby("customer_unique_id")[["rep_lat", "rep_long"]].mean().reset_index()
grouped_geo_customers.head()

#### 3.1.10 Quais são as 5 cidades com mais pedidos?

In [None]:
# Manipulação dos dados
top_5_cities = df['customer_city'].value_counts().head(5).reset_index()
top_5_cities.columns = ['Cidade', 'Número de Pedidos']

# Gráfico
fig_52 = px.bar(top_5_cities, x='Cidade', y='Número de Pedidos', 
                 title='Top 5 Cidades com Mais Pedidos',
                 labels={'Cidade': 'Cidade', 'Número de Pedidos': 'Número de Pedidos'},
                 color='Cidade')

# Atualizando layout
fig_52.update_layout(
    xaxis_title='Cidade',
    yaxis_title='Número de Pedidos',
    width=800,  # Definindo a largura do gráfico
    height=400,  # Definindo a altura do gráfico
    margin=dict(l=20, r=20, t=40, b=20)  # Ajustando as margens
)

# Mostrando o gráfico
fig_52.show()

# Salvando o gráfico como uma imagem PNG
fig_52.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_52.png', width=1200, height=600, scale=3)

### 3.3 Análise dos preços 

#### 3.3.1 Como é a distribuição dos preços nas 10 categorias de produtos mais vendidas?

In [None]:
# Manipulação de Dados - Agrupando por categoria de produto
df_aux1 = df[['product_category_name', 'order_id']].groupby(['product_category_name']).count().reset_index()
df_aux1.sort_values('order_id', ascending=False, inplace=True)

# Selecionando as 30 categorias mais vendidas
most_sold_categories = df_aux1.product_category_name.head(10).tolist()
df_aux2 = df[df['product_category_name'].isin(most_sold_categories)]

# Criando o gráfico de caixa (box plot) com uma paleta de cores categórica
fig_31 = px.box(df_aux2, x='product_category_name', y='price',
                 title='Distribuição de Preços nas 10 Categorias Mais Vendidas',
                 labels={'product_category_name': 'Categoria', 'price': 'Preço'},
                 color='product_category_name',
                 color_discrete_sequence=px.colors.qualitative.Plotly)  # Aplicando uma paleta de cores categóricas

# Personalizando o layout do gráfico
fig_31.update_layout(
    title_x=0.5,                   # Centraliza o título
    xaxis_title='Categoria',       # Rótulo do eixo X
    yaxis_title='Preço',           # Rótulo do eixo Y
    xaxis_showgrid=False,          # Remove a grade do eixo X
    yaxis=dict(title='Preço'),     # Define o título do eixo Y
    xaxis_tickangle=-45,           # Inclina os rótulos do eixo X para melhor legibilidade
    height=600,                    # Aumenta a altura do gráfico
    margin=dict(l=40, r=40, t=80, b=150),  # Ajusta as margens para dar mais espaço aos rótulos
    xaxis_tickfont_size=10         # Diminui o tamanho da fonte dos rótulos do eixo X
)

# Exibindo o gráfico interativo
fig_31.show()

# Salvando o gráfico como uma imagem PNG
fig_31.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_31.png', width=1200, height=600, scale=3)

In [None]:
# Calculando estatísticas para as 10 categorias mais vendidas
stats_table = df_aux2.groupby('product_category_name').agg(
    num_pedidos=('price', 'count'),
    preco_min=('price', 'min'),
    preco_max=('price', 'max'),
    preco_medio=('price', 'mean'),
    mediana=('price', 'median')
).reset_index()

# Formatando os valores numéricos
stats_table['preco_medio'] = stats_table['preco_medio'].round(2)
stats_table['mediana'] = stats_table['mediana'].round(2)

# Ordenando a tabela pelo número de pedidos (num_pedidos) em ordem decrescente
stats_table = stats_table.sort_values(by='num_pedidos', ascending=False).reset_index(drop=True)

# Melhorando a exibição da tabela
stats_table_styled = stats_table.style.format({
    'preco_min': 'R${:,.2f}',
    'preco_max': 'R${:,.2f}',
    'preco_medio': 'R${:,.2f}',
    'mediana': 'R${:,.2f}'
}).set_table_styles([
    {'selector': 'thead th', 'props': [('text-align', 'center'), ('font-weight', 'bold'), ('background-color', '#001c5b'), ('color', '#ffffff')]},
    {'selector': 'tbody td', 'props': [('text-align', 'center')]},
]).set_caption('Tabela 1: Estatísticas das 10 Categorias Mais Vendidas')

# Exibindo a tabela no Jupyter Notebook
stats_table_styled

#### 3.3.2 Qual é a distribuição dos preços nas 10 categorias de produtos mais vendidas, considerando apenas os produtos com preço abaixo de R$1.000?

In [None]:
# Manipulação de Dados - Agrupando por categoria de produto
df_aux1 = df[['product_category_name', 'order_id']].groupby(['product_category_name']).count().reset_index()
df_aux1.sort_values('order_id', ascending=False, inplace=True)

# Selecionando as 30 categorias mais vendidas e preços abaixo de R$1.000
most_sold_categories = df_aux1.product_category_name.head(10).tolist()
df_aux2 = df[(df['product_category_name'].isin(most_sold_categories)) & (df['price'] <= 1000)]

# Criando o gráfico de caixa (box plot)
fig_32 = px.box(df_aux2, x='product_category_name', y='price',
                 title='Distribuição de Preços nas 30 Categorias Mais Vendidas (Abaixo de R$1.000)',
                 labels={'product_category_name': 'Categoria', 'price': 'Preço'},
                 color='product_category_name',
                 color_discrete_sequence=px.colors.qualitative.Plotly)

# Personalizando o layout do gráfico
fig_32.update_layout(
    title_x=0.5,                   # Centraliza o título
    xaxis_title='Categoria',       # Rótulo do eixo X
    yaxis_title='Preço',           # Rótulo do eixo Y
    xaxis_showgrid=False,          # Remove a grade do eixo X
    xaxis_tickangle=-45,           # Inclina os rótulos do eixo X para melhor legibilidade
    height=650                     # Define a altura do gráfico
)

# Exibindo o gráfico interativo
fig_32.show()

# Salvando o gráfico como uma imagem PNG
fig_32.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_32.png', width=1200, height=600, scale=3)

* Podemos concluir que a maioria dos produtos nas 30 principais categorias estão sendo vendidos por menos de R$250.

#### 3.3.3 Como varia o preço médio dos produtos entre os diferentes estados e regiões do Brasil?

In [None]:
# Manipulação de Dados - Criando o dataframe agrupado
df_aux = df[['customer_state', 'price', 'customer_region']].groupby(['customer_state', 'customer_region']).mean().reset_index()
df_aux.sort_values('price', ascending=False, inplace=True)

# Criando o gráfico de barras
fig_33 = px.bar(df_aux, x='customer_state', y='price', color='customer_region', text_auto=True,
                title='Preço Médio dos Produtos por Estado e Região',
                labels={'customer_state': 'Estado', 'price': 'Preço Médio', 'customer_region': 'Região'})

# Personalizando o layout do gráfico
fig_33.update_layout(
    title_x=0.5,                   # Centraliza o título
    xaxis_title='Estado',          # Rótulo do eixo X
    yaxis_title='Preço Médio',     # Rótulo do eixo Y
    xaxis_showgrid=False,          # Remove a grade do eixo X
    yaxis=dict(title='Preço Médio'), # Define o título do eixo Y
)

# Exibindo o gráfico interativo
fig_33.show()

# Salvando o gráfico como uma imagem PNG
fig_33.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_33.png', width=1200, height=800, scale=3)

* Estados do Norte e Nordeste têm o maior preço médio. Esses estados pagam mais por produto e compram em menor quantidade, como observado anteriormente.
  
* Estados do Sul e Sudeste têm o menor preço médio. Esses estados pagam menos por produto e compram em maior quantidade, também observado anteriormente.

#### 3.3.4 Qual é a diferença no preço médio do frete entre os estados e como isso varia por região?

In [None]:
# Manipulação de Dados - Criando o dataframe agrupado
df_aux = df[['customer_state', 'freight_value', 'customer_region']].groupby(['customer_state', 'customer_region']).mean().reset_index()
df_aux.sort_values('freight_value', ascending=False, inplace=True)

# Criando o gráfico de barras
fig_34 = px.bar(df_aux, x='customer_state', y='freight_value', color='customer_region', text_auto=True,
                title='Preço Médio do Frete por Estado e Região',
                labels={'customer_state': 'Estado', 'freight_value': 'Preço Médio do Frete', 'customer_region': 'Região'})

# Personalizando o layout do gráfico
fig_34.update_layout(
    title_x=0.5,                   # Centraliza o título
    xaxis_title='Estado',          # Rótulo do eixo X
    yaxis_title='Preço Médio do Frete',  # Rótulo do eixo Y
    xaxis_showgrid=False,          # Remove a grade do eixo X
    yaxis=dict(title='Preço Médio do Frete'), # Define o título do eixo Y
)

# Exibindo o gráfico interativo
fig_34.show()

# Salvando o gráfico como uma imagem PNG
fig_34.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_34.png', width=1200, height=600, scale=3)

* Além do alto preço dos produtos, os estados do Norte e Nordeste também possuem o maior preço médio para frete. Esses estados enfrentam desafios logísticos que podem aumentar o custo do frete.

* O menor preço de frete está no estado de São Paulo, possivelmente devido à sua infraestrutura logística bem desenvolvida, ao contrário dos estados menos populosos.

### 3.4 Análise dos reviews 

#### 3.4.1 Quais categorias de produtos apresentam as melhores e piores avaliações?

In [None]:
category_reviews = df.groupby('product_category_name')['review_score'].mean().reset_index()

# Ordenando os resultados pela média das avaliações
category_reviews = category_reviews.sort_values(by='review_score', ascending=False)

# Visualizando as médias das avaliações
plt.figure(figsize=(15, 14))
sns.barplot(x='review_score', y='product_category_name', data=category_reviews, palette='magma')
plt.title('Média de Avaliações por Categoria de Produto', fontsize=16)
plt.xlabel('Média da Avaliação', fontsize=14)
plt.ylabel('Categoria de Produto', fontsize=14)

# Salvando o gráfico como PNG 
plt.savefig('C:/Users/Rubeus/Documents/tcc/images/figura_41.png', dpi=300, bbox_inches='tight')

# Exibindo o gráfico
plt.show()

#### 3.4.2 Como a pontuação média da avaliação dos produtos se relaciona com o tempo de entrega em diferentes regiões?

* Tem releção entre o Review Score e o tempo de entrega por região? 

In [None]:
# Manipulação de Dados
df_aux = df[['review_score', 'payment_value', 'customer_state', 'customer_region', 'delivery_time_in_hours']].groupby(['customer_state', 'customer_region']).mean().reset_index()

# Criando o gráfico
fig_44 = px.scatter(df_aux, x='delivery_time_in_hours', y='review_score', color='customer_region', size='payment_value', 
                    trendline='ols', trendline_scope='overall', trendline_color_override='black',
                    title='Pontuação Média da Avaliação vs. Delta de Tempo (Regiões)',
                    labels={'delivery_time_in_hours': 'Tempo de entrega (horas)', 'review_score': 'Pontuação da Avaliação'})

# Customizando o gráfico
fig_44.update_layout(
    title='Pontuação Média da Avaliação vs. Tempo de entrega (Regiões)',
    xaxis_title='Tempo de entrega (horas)',
    yaxis_title='Pontuação da Avaliação',
    height=650
)

# Mostrando o gráfico
fig_44.show()

# Salvando o gráfico como uma imagem PNG
fig_44.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_44.png', width=1200, height=600, scale=3)

In [None]:
# Selecionando apenas as colunas numéricas
df_numerico = df.select_dtypes(include=['number'])

# Calculando a matriz de correlação
correlation_matrix = df_numerico.corr()

# Criando o mapa de calor
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='RdBu', fmt='.2f', linewidths=0.5)
plt.title('Matriz de Correlação')

# Salvando a imagem na pasta especificada
plt.savefig('C:/Users/Rubeus/Documents/tcc/images/matriz_correlacao.png', bbox_inches='tight')

# Exibindo a imagem
plt.show()

#### 3.4.5 Qual é a relação entre a pontuação média de avaliação dos clientes e o tempo de entrega dos produtos em diferentes estados?

In [None]:
# Manipulação de Dados - Criando o DataFrame agrupado
df_aux = df[['review_score', 'payment_value', 'customer_state', 'delivery_time_in_hours']].groupby(['customer_state']).mean().reset_index()

# Criando o gráfico
fig_45 = px.scatter(df_aux, x='delivery_time_in_hours', y='review_score', color='customer_state', size='payment_value',
                    trendline='ols', trendline_scope='overall', trendline_color_override='black',
                    title='Pontuação Média da Avaliação vs. Delta de Tempo (Estados)',
                    labels={'delivery_time_in_hours': 'Tempo de entrega (horas)', 'review_score': 'Pontuação da Avaliação'})

# Customizando o gráfico
fig_45.update_layout(
    title='Pontuação Média da Avaliação vs. Tempo de entrega (Estados)',
    xaxis_title='Tempo de entrega (horas)',
    yaxis_title='Pontuação da Avaliação',
    height=650
)

# Mostrando o gráfico
fig_45.show()

# Salvando o gráfico como uma imagem PNG
fig_45.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_45.png', width=1200, height=600, scale=3)

* São Paulo é o estado com o menor tempo de entrega (199), mas não é o que possui a maior média de pontuação (4,11).

* Por outro lado, temos Amapá com o segundo maior tempo de entrega (656) e a maior média de pontuação (4,23).

* No entanto, Roraima tem a menor média de pontuação (3,58) para o maior tempo de entrega (667).

* De maneira geral, é possível observar que há uma relação negativa entre as duas variáveis, e pode-se afirmar que quanto maior o tempo de entrega, menor é a média de pontuação.

#### 3.4.6 Qual é a distribuição das avaliações dos clientes do e-commerce?

In [None]:
print("review_score == 5: %d" % len(df[df['review_score']==5]))
print("review_score == 4: %d" % len(df[df['review_score']==4]))
print("review_score == 3: %d" % len(df[df['review_score']==3]))
print("review_score == 2: %d" % len(df[df['review_score']==2]))
print("review_score == 1: %d" % len(df[df['review_score']==1]))
score_list = [len(df[df['review_score']==1]), 
              len(df[df['review_score']==2]),
              len(df[df['review_score']==3]),
              len(df[df['review_score']==4]),
              len(df[df['review_score']==5])]

In [None]:
# Definindo as cores
colors = ['#001C5B', '#E64E36', '#ff82cd', '#0A4EE4', '#779E3D', '#f0a028']

# Criando o gráfico de barras no Plotly
fig_47 = go.Figure(data=[go.Bar(
    x=[1, 2, 3, 4, 5], 
    y=score_list, 
    marker_color=colors,
    text=score_list,  # Adiciona os rótulos com os valores de quantidade
    textposition='inside',  # Coloca os rótulos dentro das barras
)])

# Configurações do gráfico
fig_47.update_layout(
    title="Distribuição das avaliações",
    xaxis_title="Pontuação da Avaliação",
    yaxis_title="Quantidade",
    width=1100,
    height=600
)

# Exibindo o gráfico
fig_47.show()

# Salvando o gráfico como uma imagem PNG
fig_47.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_47.png', width=1100, height=600, scale=3)

### 4.0 Quais são as métricas e KPIs importantes do e-commerce  

Uma métrica é qualquer medição quantificável e padronizada do desempenho de um site. KPI, ou indicador-chave de desempenho, refere-se a métricas essenciais para monitoramento. Embora todas as métricas tenham seu valor, os KPIs são especialmente relevantes, pois são os números que você acompanha para promover o crescimento. Nem todas as métricas de e-commerce têm o mesmo peso, mas identificar os KPIs corretos é crucial para melhorar o desempenho da loja virtual.

In [55]:
col = ['customer_unique_id', 'price', 'order_item_id', 'order_purchase_timestamp']
orders = df[col]

In [None]:
orders

In [None]:
orders['order_purchase_timestamp'] = pd.to_datetime(orders['order_purchase_timestamp'])

orders['InvoiceYearMonth'] = orders['order_purchase_timestamp'].map(lambda date: 100*date.year + date.month)

'''
InvoiceYearMonth representa a data combinada em ano e mês, 
facilitando a análise de dados de vendas por períodos mensais. 
'''

orders['Revenue'] = orders['price'] * orders['order_item_id']
orders_revenue = orders.groupby(['InvoiceYearMonth'])['Revenue'].sum().reset_index()
orders.head()

#### 4.1 Receita Recorrente Mensal (MRR)

É a quantia que uma empresa espera receber mensalmente em pagamentos. O MRR é uma métrica de receita crucial para empresas de assinatura, pois permite avaliar a saúde financeira geral do negócio, monitorando de perto o fluxo de caixa mensal.

In [None]:
plot_data = [
    go.Scatter(
        x=orders_revenue['InvoiceYearMonth'],  # Eixo X: Mês e Ano
        y=orders_revenue['Revenue'],  # Eixo Y: Receita
        mode = 'lines+markers'  # Exibe tanto as linhas quanto os marcadores
    )
]

plot_layout = go.Layout(
        xaxis={"type": "category"},  # Eixo X será categórico (ex.: meses)
        title='Receita Mensal', width=900, height=500  # Configurações do layout: título, largura e altura
    )
fig_401 = go.Figure(data=plot_data, layout=plot_layout)
fig_401.show()  # Exibe o gráfico

# Salvando o gráfico como uma imagem PNG
fig_401.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_401.png', width=1200, height=600, scale=3)

- A variação muito alta na receita no final de 2018 e 2016 chamou a atenção, o que motivou a análise mais detalhada desses períodos. Para entender melhor o motivo dessa flutuação, vou gerar uma tabela mostrando a quantidade de registros de transações feitas nesses meses. 

- O objetivo é verificar se essa variação se deve à falta de dados ou se há outra explicação, como uma mudança no comportamento de compras ou eventos específicos. Essa análise ajudará a identificar se os dados são consistentes e fornecerá insights sobre o desempenho real do e-commerce nesses períodos.

In [None]:
# Verificando a contagem de registros por mês
orders['InvoiceYearMonth'] = pd.to_datetime(orders['InvoiceYearMonth'], format='%Y%m')
orders_count = orders.groupby(orders['InvoiceYearMonth'].dt.to_period('M')).size().reset_index(name='Registros')

# Renomeando as colunas para uma exibição mais clara
orders_count.columns = ['InvoiceYearMonth', 'Registros']

# Criando a tabela como uma imagem usando plotly
fig_table = go.Figure(go.Table(
    header=dict(values=['InvoiceYearMonth', 'Registros']),
    cells=dict(values=[orders_count['InvoiceYearMonth'].astype(str), orders_count['Registros']])
))

# Exibindo a tabela
fig_table.show()

#### 4.2 Taxa de Crescimento Mensal  

A taxa de crescimento mês a mês (MoM) é a menor unidade de medida usada para capturar de forma objetiva o ritmo de crescimento de uma empresa. Esse indicador pode ser expandido para acompanhar o crescimento trimestre a trimestre e ano a ano, fornecendo uma visão das taxas de crescimento ao longo de diferentes períodos de tempo. Ele é mais comumente utilizado por empresas em estágio inicial para realizar projeções.

In [None]:
# usando a função pct_change() para ver a variação percentual mensal
orders_revenue['MonthlyGrowth'] = orders_revenue['Revenue'].pct_change()

'''
A função pct_change() no Pandas calcula a variação percentual entre os valores consecutivos de uma coluna de um DataFrame. 
Essencialmente, ela mostra quanto o valor atual mudou em relação ao valor anterior, como uma porcentagem.
'''

# exibindo as primeiras 10 linhas
orders_revenue.head(10)

In [None]:
plot_data = [
    go.Scatter(
        # Usando o método query para filtrar as datas posteriores a janeiro de 2017 como eixo X
        x=orders_revenue.query("InvoiceYearMonth > 201701")['InvoiceYearMonth'],

        # Filtrando o crescimento mensal (MonthlyGrowth) após janeiro de 2017 para o eixo Y
        y=orders_revenue.query("InvoiceYearMonth > 201701")['MonthlyGrowth'],
        
        # Definindo o gráfico como um gráfico de linha com marcadores
        mode = 'lines+markers'
    )
]

plot_layout = go.Layout(
        # Definindo o eixo X como categórico

        xaxis={"type": "category"},
    
        title='Taxa de Crescimento Mensal', width=1000, height=500
    )
# Criando a figura combinando os dados do gráfico e o layout
fig_402 = go.Figure(data=plot_data, layout=plot_layout)

# Exibindo o gráfico
fig_402.show()

# Salvando o gráfico como uma imagem PNG
fig_402.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_402.png', width=1200, height=600, scale=3)

In [None]:
# Convertendo a coluna 'InvoiceYearMonth' para string (caso não esteja nesse formato)
orders_revenue['InvoiceYearMonth'] = orders_revenue['InvoiceYearMonth'].astype(str)

# Filtrando os dados onde o 'InvoiceYearMonth' é maior que '201701'
monthly_growth_table = orders_revenue[orders_revenue['InvoiceYearMonth'] > '201701'][['InvoiceYearMonth', 'MonthlyGrowth']]

# Exibindo a tabela em formato legível
print("Tabela de Taxa de Crescimento Mensal (MoM):")
print(monthly_growth_table.to_string(index=False))

# Se preferir salvar a tabela em um arquivo de texto:
monthly_growth_table.to_csv('C:/Users/Rubeus/Documents/tcc/images/fig_402_tabela.txt', index=False, sep='\t')

* Nos primeiros meses de 2017, a taxa de crescimento permaneceu acima de 40% até maio, com exceção de abril.

* Houve uma queda semelhante na taxa de crescimento em junho de 2017, após a qual a taxa de crescimento permaneceu em torno de 15-20% até setembro.
  
* Em novembro, houve um aumento, seguido por uma queda brusca em dezembro, após a qual a taxa de crescimento permaneceu em torno de 0%.

#### 4.3 Clientes Ativos Mensais 

Clientes Ativos Mensais (MAU) é uma métrica de marketing usada para determinar o número de usuários únicos que visitam um site ou utilizam um app em um mês.

Monitorar os MAUs é importante, pois fornece insights sobre o número de usuários que se envolvem ativamente com um produto ou serviço, ajudando as empresas a medir e melhorar o engajamento e a retenção de clientes.

Os MAUs podem servir como um KPI, permitindo que as empresas meçam o sucesso de seus esforços de marketing e estratégias de desenvolvimento de produtos. Ao analisar as mudanças nos MAUs ao longo do tempo, as empresas identificam tendências e tomam decisões baseadas em dados.

*Usamos Clientes Ativos Mensais, pois temos os dados dos clientes que realizam transações (comparado a usuários que apenas acessam a plataforma).*

In [None]:
# criando um dataframe de clientes ativos mensais contando os Customer IDs únicos
orders_monthly_active = orders.groupby('InvoiceYearMonth')['customer_unique_id'].nunique().reset_index()

orders_monthly_active.head()

In [None]:
plot_data = [
    go.Bar(
        x=orders_monthly_active['InvoiceYearMonth'],
        y=orders_monthly_active['customer_unique_id'],
    )
]

plot_layout = go.Layout(
        xaxis={"type": "category"},
        title='Clientes Ativos Mensais', width=900, height=500
    )

fig_403 = go.Figure(data=plot_data, layout=plot_layout)
fig_403.show()

# Salvando o gráfico como uma imagem PNG
fig_403.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_403.png', width=1200, height=600, scale=3)

* O número de clientes ativos mensais apresentou um crescimento constante de dezembro de 2016 até novembro de 2017, mas depois permaneceu quase estagnado até agosto de 2018.

#### 4.4 Pedidos Mensais

Aqui estamos medindo o número total de pedidos em cada mês. Se tivéssemos os dados de pedidos cancelados, poderíamos calcular a taxa de atendimento, que é uma métrica importante para avaliar a qualidade dos pedidos feitos, além de identificar problemas de precificação, entrega e outros relacionados.

*Nota: Para a análise, considerei que todos os pedidos foram entregues.*

In [None]:
# criar um novo dataframe para o número de pedidos utilizando o campo 'quantidade'
orders_monthly_sales = orders.groupby('InvoiceYearMonth')['order_item_id'].sum().reset_index()

# imprimir o dataframe
orders_monthly_sales.head()

# plotar o gráfico
plot_data = [
    go.Bar(
        x=orders_monthly_sales['InvoiceYearMonth'],  # eixo X: mês e ano da fatura
        y=orders_monthly_sales['order_item_id'],  # eixo Y: número total de itens do pedido
    )
]

plot_layout = go.Layout(
        xaxis={"type": "category"},  # tipo do eixo X definido como categoria
        title='Número Total de Pedidos por Mês',  # título do gráfico
        width=900,  # largura do gráfico
        height=500  # altura do gráfico
    )

fig_404 = go.Figure(data=plot_data, layout=plot_layout)  # cria a figura com os dados e o layout do gráfico
fig_404.show()  # exibe o gráfico

# Salvando o gráfico como uma imagem PNG
fig_404.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_404.png', width=1200, height=600, scale=3)

* A quantidade total de pedidos por mês mostrou um crescimento entre dezembro de 2016 e novembro de 2017, mas depois permaneceu praticamente estável até agosto de 2018.

In [None]:
# criar um novo DataFrame para a receita média, calculando a média
orders_monthly_order_avg = orders.groupby('InvoiceYearMonth')['Revenue'].mean().reset_index()

orders_monthly_order_avg.head()

In [None]:
# plotar o gráfico de barras
plot_data = [
    go.Bar(
        x=orders_monthly_order_avg['InvoiceYearMonth'],
        y=orders_monthly_order_avg['Revenue'],
    )
]

plot_layout = go.Layout(
        xaxis={"type": "category"},
        title='Valores Médios de Pedidos Mensais', width=900, height=500
    )
fig_405 = go.Figure(data=plot_data, layout=plot_layout)
fig_405.show()

# Salvando o gráfico como uma imagem PNG
fig_405.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_405.png', width=1200, height=600, scale=3)

* Com exceção de dezembro de 2016, os valores médios dos pedidos ficaram praticamente estáveis em torno de 130. Isso sugere que o comportamento de compra dos clientes não mudou muito, e os itens mais caros na plataforma não influenciaram de forma significativa nas vendas ou no valor médio dos pedidos.

#### 4.6 Clientes Novos vs. Clientes Existentes

In [68]:
# Cria um DataFrame contendo o ID do cliente e a data da primeira compra
orders_min_purchase = orders.groupby('customer_unique_id').order_purchase_timestamp.min().reset_index()
orders_min_purchase.columns = ['customer_unique_id','MinPurchaseDate']
orders_min_purchase['MinPurchaseYearMonth'] = orders_min_purchase['MinPurchaseDate'].map(lambda date: 100*date.year + date.month)

# Mescla a coluna da primeira data de compra com nosso DataFrame principal
orders = pd.merge(orders, orders_min_purchase, on='customer_unique_id')

In [None]:
orders.head()

In [None]:
import pandas as pd

# Supondo que 'orders' já esteja carregado com os dados fornecidos

# Passo 1: Garantir que as colunas de data estejam corretamente formatadas
orders['order_purchase_timestamp'] = pd.to_datetime(orders['order_purchase_timestamp'])

# Passo 2: Criar a coluna InvoiceYearMonth com ano e mês das compras
orders['InvoiceYearMonth'] = orders['order_purchase_timestamp'].dt.to_period('M')

# Passo 3: Identificar a primeira compra de cada cliente
# Vamos usar a coluna 'MinPurchaseDate' e garantir que seja a primeira compra de cada cliente
orders_min_purchase = orders.groupby('customer_unique_id')['MinPurchaseDate'].min().reset_index()
orders_min_purchase.columns = ['customer_unique_id', 'FirstPurchaseDate']

# Passo 4: Extrair o mês e ano da primeira compra para comparar com o mês e ano da compra atual
orders_min_purchase['FirstPurchaseYearMonth'] = orders_min_purchase['FirstPurchaseDate'].dt.to_period('M')

# Passo 5: Mesclar a data da primeira compra com o DataFrame original
orders = pd.merge(orders, orders_min_purchase[['customer_unique_id', 'FirstPurchaseYearMonth']], on='customer_unique_id', how='left')

# Passo 6: Classificar os clientes como "New" ou "Existing"
orders['UserType'] = 'Existing'  # Inicialmente, marcamos todos como 'Existing'
orders.loc[orders['InvoiceYearMonth'] == orders['FirstPurchaseYearMonth'], 'UserType'] = 'New'

# Passo 7: Exibir os resultados
# Mostrar uma amostra do DataFrame com a classificação de novos e existentes
print(orders[['customer_unique_id', 'order_purchase_timestamp', 'InvoiceYearMonth', 'FirstPurchaseYearMonth', 'UserType']].head())


In [None]:
# Passo 1: Converter 'InvoiceYearMonth' para string
orders['InvoiceYearMonth'] = orders['InvoiceYearMonth'].astype(str)

# Passo 2: Agrupar os dados por mês e tipo de cliente (New ou Existing)
customer_counts = orders.groupby(['InvoiceYearMonth', 'UserType'])['customer_unique_id'].nunique().reset_index()

# Passo 3: Criar o gráfico com Plotly
fig = px.line(customer_counts, 
              x='InvoiceYearMonth', 
              y='customer_unique_id', 
              color='UserType', 
              title='Variação de Clientes Novos e Existentes ao Longo do Tempo', 
              labels={'InvoiceYearMonth': 'Mês da Compra', 'customer_unique_id': 'Número de Clientes'},
              markers=True)

# Passo 4: Exibir o gráfico
fig.show()

fig.write_image('C:/Users/Rubeus/Documents/tcc/images/fig_novos.png', width=1200, height=600, scale=3)

In [None]:
orders.UserType.value_counts()

In [None]:
import pandas as pd

# Passo 1: Agrupar os dados por mês e tipo de cliente (New ou Existing)
customer_counts = orders.groupby(['InvoiceYearMonth', 'UserType'])['customer_unique_id'].nunique().reset_index()

# Passo 2: Exibir a tabela no formato pandas
print(customer_counts)

# Passo 3: Exibir os resultados como texto formatado (opcional)
text_result = customer_counts.to_string(index=False)
print("\nTabela de Resultados em Texto:\n")
print(text_result)


* O número de novos clientes cresceu continuamente de janeiro a novembro de 2017, o que também levou a um aumento no número de pedidos mensais.

* A taxa de crescimento dos clientes recorrentes é quase nula, com transações de clientes recorrentes também baixas, **indicando uma alta taxa de churn de clientes**. Esse é um sinal crucial para o negócio, pois sugere que os clientes não estão dispostos a retornar à plataforma, o que pode resultar em perda de negócios no longo prazo.