In [2]:
import pandas as pd
from IPython.display import display,HTML, Markdown

# CSS customizado para ser aplicado a este notebook
# O MkDocs-Jupyter vai carregar este <style> na página final.
estilo_global = """
<style>
    /* 1. CONTAINER DA CÉLULA */
    div.cell_output {
        overflow-x: auto;
        -webkit-overflow-scrolling: touch;
    }

    /* 2. ESTILO DA BARRA DE ROLAGEM */
    div.cell_output::-webkit-scrollbar { height: 8px; }
    div.cell_output::-webkit-scrollbar-thumb { background-color: #ccc; border-radius: 4px; }
    div.cell_output::-webkit-scrollbar-track { background-color: #f1f1f1; }

    /* 3. ESTILO DAS TABELAS (ATUALIZADO) */
    /* Agora aplica a 'table.dataframe' E tabelas dentro de '.style-wrap' */
    table.dataframe, .style-wrap table {
        border-collapse: collapse;
        border: 1px solid #ccc;
    }

    table.dataframe th, .style-wrap th {
        background-color: #f2f2f2;
        color: #333;
        font-weight: bold;
        padding: 10px;
        border-bottom: 2px solid #aaa;
        text-align: left; 
    }

    table.dataframe td, .style-wrap td {
        padding: 8px;
        border: 1px solid #ddd;
    }

    table.dataframe tr:nth-child(even), .style-wrap tr:nth-child(even) {
        background-color: #f9f9f9;
    }
</style>
"""

display(HTML(estilo_global))

pd.set_option('display.max_columns', None)

path ="../../../data/online-retail/online_retail_II.xlsx"

df1 = pd.read_excel(path, sheet_name="Year 2009-2010")
df2 = pd.read_excel(path, sheet_name="Year 2010-2011")
df = pd.concat([df1, df2])

df["InvoiceDate"] = pd.to_datetime(df["InvoiceDate"], errors="coerce")

# Análise Inicial

O conjunto de dados utilizado neste projeto é o **Online Retail II**, disponibilizado pelo UCI Machine Learning Repository.

Cada linha representa uma **transação**, ao todo o dataset possui 2 anos de transações ocorridas ao longo de 2009-2011 numa empresa de varejo online do Reino Unido, especializada na venda de presentes e artigos domésticos.

## Descrição da base

In [3]:
display(Markdown(f"**Dimensão da base:** `{df.shape[0]:,}` linhas e `{df.shape[1]}` colunas."))

**Dimensão da base:** `1,067,371` linhas e `8` colunas.

| __Variable__   | __Description__ |
|     :---       |       :---      |      
| __InvoiceNo__  | Códido de cada transação. Se começar com a letra 'c', indica cancelamento |
| __StockCode__  | Código do produto |
| __Description__| Descrição do produto |
| __Quantity__   | Quantidade de itens comprados |
| __InvoiceDate__| Data e hora da compra |
| __UnitPrice__  | Preço unitário do produto |
| __CustomerID__ | Identificador único do cliente |
| __Country__    | País do cliente |

### Amostra dos dados

In [4]:
estilo_head = df.head().style \
    .format({
        "UnitPrice": "£ {:.2f}",  # Formata a moeda
        "InvoiceDate": "{:%d/%m/%Y %H:%M}" # Formata a data
    }) \
    .hide(axis="index") # Esconde o índice (0, 1, 2, 3...)

display(estilo_head)

Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,01/12/2009 07:45,6.95,13085.0,United Kingdom
489434,79323P,PINK CHERRY LIGHTS,12,01/12/2009 07:45,6.75,13085.0,United Kingdom
489434,79323W,WHITE CHERRY LIGHTS,12,01/12/2009 07:45,6.75,13085.0,United Kingdom
489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,01/12/2009 07:45,2.1,13085.0,United Kingdom
489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,01/12/2009 07:45,1.25,13085.0,United Kingdom


### Qualidade dos dados

In [None]:
# Célula de Análise de Valores Ausentes (tag: remove_input)

display(Markdown("**Total de valores ausentes por coluna:**"))

# 1. Calcule os ausentes
missing_df = df.isna().sum().to_frame(name='Total de Ausentes')
missing_df['% Ausente'] = (missing_df['Total de Ausentes'] / len(df)) * 100

# 2. Filtre ANTES de checar se está vazio
missing_df_filtrado = missing_df[missing_df['Total de Ausentes'] > 0].sort_values(by='Total de Ausentes', ascending=False)

# 3. Cheque se o DataFrame FILTRADO está vazio
if missing_df_filtrado.empty:
    display(Markdown("Nenhum valor ausente encontrado."))
else:
    # 4. Estilize e exiba o DataFrame FILTRADO
    estilo_missing = missing_df_filtrado.style \
        .format({
            'Total de Ausentes': '{:,.0f}',  # Formata 1,000,000
            '% Ausente': '{:.2f}%'         # Formata percentual
        })
    
    display(estilo_missing)

# 1. Preparar os dois DataFrames estilizados
display(df.describe(include='number').style.format("{:.2f}"))
display(df.describe(include=['datetime64[ns']))

**Total de valores ausentes por coluna:**

Unnamed: 0,Total de Ausentes,% Ausente
Customer ID,243007,22.77%
Description,4382,0.41%


Unnamed: 0,Quantity,Price,Customer ID
count,1067371.0,1067371.0,824364.0
mean,9.94,4.65,15324.64
std,172.71,123.55,1697.46
min,-80995.0,-53594.36,12346.0
25%,1.0,1.25,13975.0
50%,3.0,2.1,15255.0
75%,10.0,4.15,16797.0
max,80995.0,38970.0,18287.0


Unnamed: 0,InvoiceDate
count,1067371
mean,2011-01-02 21:13:55.394028544
min,2009-12-01 07:45:00
25%,2010-07-09 09:46:00
50%,2010-12-07 15:28:00
75%,2011-07-22 10:23:00
max,2011-12-09 12:50:00


## Estatísticas descritivas básicas

## Análises agregadas iniciais

## Análise de correlação