In [1]:
# ============================================================
# AN√ÅLISE EXPLORAT√ìRIA DETALHADA - IOWA LIQUOR SALES
# ============================================================

# C√©lula 1: Importar bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns 
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:.2f}'.format)

print("‚úÖ Bibliotecas importadas com sucesso!")

‚úÖ Bibliotecas importadas com sucesso!


In [2]:
# ============================================================
# C√©lula 2: Carregar dados processados
# ============================================================

df = pd.read_csv('../data/processed/sales_data_processed.csv')
df['data_venda'] = pd.to_datetime(df['data_venda'])

print("üìä VIS√ÉO GERAL DOS DADOS")
print("=" * 60)
print(f"Total de registros: {len(df):,}")
print(f"Per√≠odo: {df['data_venda'].min()} at√© {df['data_venda'].max()}")
print(f"Colunas: {df.shape[1]}")
print("\n")
print(df.info())

üìä VIS√ÉO GERAL DOS DADOS
Total de registros: 47,956
Per√≠odo: 2025-12-26 00:00:00 at√© 2025-12-31 00:00:00
Colunas: 23


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47956 entries, 0 to 47955
Data columns (total 23 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   data_venda            47956 non-null  datetime64[ns]
 1   loja                  47956 non-null  object        
 2   cidade                47941 non-null  object        
 3   regiao                47941 non-null  object        
 4   categoria             47956 non-null  object        
 5   produto               47956 non-null  object        
 6   fornecedor            47956 non-null  object        
 7   quantidade            47956 non-null  int64         
 8   custo_unitario        47956 non-null  float64       
 9   preco_unitario        47956 non-null  float64       
 10  receita               47956 non-null  float64       
 11  lucro   

In [12]:
# ============================================================
# C√©lula 3: AN√ÅLISE POR REGI√ÉO/ESTADO
# ============================================================

print("\n" + "=" * 60)
print("üåç AN√ÅLISE POR REGI√ÉO")
print("=" * 60)

# Top 10 regi√µes por receita
top_regioes = df.groupby('regiao').agg({
    'receita': 'sum',
    'lucro': 'sum',
    'quantidade': 'sum',
    'data_venda': 'count',
    'margem_percentual': 'mean'
}).round(2)

top_regioes.columns = ['Receita Total', 'Lucro Total', 'Qtd Vendida', 'Num Transa√ß√µes', 'Margem M√©dia %']
top_regioes = top_regioes.sort_values('Receita Total', ascending=False)

print("\nüèÜ TOP 10 REGI√ïES POR RECEITA:")
print(top_regioes.head(10))

print("\nüìâ BOTTOM 10 REGI√ïES POR RECEITA:")
print(top_regioes.tail(10))

# Visualiza√ß√£o
fig = px.bar(
    top_regioes.head(15).reset_index(),
    x='regiao',
    y='Receita Total',
    title='Top 15 Regi√µes por Receita Total',
    labels={'regiao': 'Regi√£o', 'Receita Total': 'Receita (R$)'},
    color='Receita Total',
    color_continuous_scale='Viridis'
)
fig.show()


üåç AN√ÅLISE POR REGI√ÉO

üèÜ TOP 10 REGI√ïES POR RECEITA:
               Receita Total  Lucro Total  Qtd Vendida  Num Transa√ß√µes  \
regiao                                                                   
POLK              1804497.56    601643.61       119839            9257   
LINN               714436.84    238312.80        50607            4396   
JOHNSON            531532.22    177111.83        29802            1978   
SCOTT              524509.58    175180.34        36734            2981   
DALLAS             386583.18    128610.70        17577            1216   
BLACK HAWK         345840.86    115294.54        25866            2536   
POTTAWATTAMIE      319252.87    106465.45        22744            1430   
WOODBURY           243390.77     81162.61        16497            1405   
CLINTON            234576.18     78180.72        14904            1025   
DUBUQUE            198025.63     65975.56        14770            1551   

               Margem M√©dia %  
regiao        

In [4]:
# ============================================================
# C√©lula 4: AN√ÅLISE POR CIDADE
# ============================================================

print("\n" + "=" * 60)
print("üèôÔ∏è AN√ÅLISE POR CIDADE")
print("=" * 60)

# Top cidades por receita
top_cidades = df.groupby('cidade').agg({
    'receita': 'sum',
    'lucro': 'sum',
    'quantidade': 'sum',
    'data_venda': 'count',
    'margem_percentual': 'mean',
    'loja': 'nunique'
}).round(2)

top_cidades.columns = ['Receita Total', 'Lucro Total', 'Qtd Vendida', 'Num Transa√ß√µes', 'Margem M√©dia %', 'Num Lojas']
top_cidades = top_cidades.sort_values('Receita Total', ascending=False)

print("\nüèÜ TOP 10 CIDADES POR RECEITA:")
print(top_cidades.head(10))

print("\nüìâ BOTTOM 10 CIDADES POR RECEITA:")
print(top_cidades.tail(10))

# Ticket m√©dio por cidade
top_cidades['Ticket M√©dio'] = top_cidades['Receita Total'] / top_cidades['Num Transa√ß√µes']
print("\nüí∞ TOP 10 CIDADES POR TICKET M√âDIO:")
print(top_cidades.nlargest(10, 'Ticket M√©dio')[['Receita Total', 'Ticket M√©dio', 'Num Transa√ß√µes']])

# Visualiza√ß√£o
fig = px.treemap(
    top_cidades.head(20).reset_index(),
    path=['cidade'],
    values='Receita Total',
    color='Margem M√©dia %',
    title='Top 20 Cidades - Tamanho = Receita, Cor = Margem',
    color_continuous_scale='RdYlGn'
)
fig.show()


üèôÔ∏è AN√ÅLISE POR CIDADE

üèÜ TOP 10 CIDADES POR RECEITA:
                 Receita Total  Lucro Total  Qtd Vendida  Num Transa√ß√µes  \
cidade                                                                     
DES MOINES           925492.87    308485.82        61567            3837   
CEDAR RAPIDS         557386.75    185922.06        39512            3540   
WEST DES MOINES      459784.21    153021.02        24258            1864   
DAVENPORT            398175.22    133059.54        28667            2123   
COUNCIL BLUFFS       297437.91     99128.00        21450            1282   
ANKENY               265292.99     88567.96        15457            1087   
IOWA CITY            238370.43     79389.01        15638            1064   
CORALVILLE           234679.65     78249.39        10344             583   
SIOUX CITY           232126.07     77406.41        15342            1293   
WATERLOO             189744.78     63260.23        16252            1369   

                 Marge

In [5]:
# ============================================================
# C√©lula 5: AN√ÅLISE POR PRODUTO
# ============================================================

print("\n" + "=" * 60)
print("üì¶ AN√ÅLISE POR PRODUTO")
print("=" * 60)

# Top produtos por receita
top_produtos = df.groupby('produto').agg({
    'receita': 'sum',
    'lucro': 'sum',
    'quantidade': 'sum',
    'data_venda': 'count',
    'margem_percentual': 'mean',
    'preco_unitario': 'mean'
}).round(2)

top_produtos.columns = ['Receita Total', 'Lucro Total', 'Qtd Vendida', 'Num Transa√ß√µes', 'Margem M√©dia %', 'Pre√ßo M√©dio']
top_produtos = top_produtos.sort_values('Receita Total', ascending=False)

print("\nüèÜ TOP 20 PRODUTOS POR RECEITA:")
print(top_produtos.head(20))

print("\nüìâ BOTTOM 20 PRODUTOS POR RECEITA:")
print(top_produtos.tail(20))

print("\nüî• TOP 20 PRODUTOS POR QUANTIDADE VENDIDA:")
print(top_produtos.nlargest(20, 'Qtd Vendida')[['Qtd Vendida', 'Receita Total', 'Pre√ßo M√©dio']])

print("\nüíé TOP 20 PRODUTOS POR MARGEM DE LUCRO:")
print(top_produtos.nlargest(20, 'Margem M√©dia %')[['Margem M√©dia %', 'Receita Total', 'Lucro Total']])

# Visualiza√ß√£o - Top 15 produtos
fig = go.Figure()

top_15_produtos = top_produtos.head(15).reset_index()

fig.add_trace(go.Bar(
    name='Receita',
    x=top_15_produtos['produto'],
    y=top_15_produtos['Receita Total'],
    marker_color='lightblue'
))

fig.add_trace(go.Bar(
    name='Lucro',
    x=top_15_produtos['produto'],
    y=top_15_produtos['Lucro Total'],
    marker_color='darkblue'
))

fig.update_layout(
    title='Top 15 Produtos - Receita vs Lucro',
    xaxis_title='Produto',
    yaxis_title='Valor (R$)',
    barmode='group',
    xaxis_tickangle=-45,
    height=500
)

fig.show()



üì¶ AN√ÅLISE POR PRODUTO

üèÜ TOP 20 PRODUTOS POR RECEITA:
                                       Receita Total  Lucro Total  \
produto                                                             
TITOS HANDMADE VODKA                       378836.72    126306.01   
CROWN ROYAL REGAL APPLE                    249321.13     83140.00   
CROWN ROYAL                                232043.20     77375.25   
BLACK VELVET                               227394.65     75813.90   
JACK DANIELS OLD #7 BLACK LABEL            175216.42     58425.20   
FIREBALL CINNAMON WHISKEY                  142728.75     47589.52   
CAPTAIN MORGAN ORIGINAL SPICED             110136.99     36727.93   
JAMESON                                    105579.80     35201.03   
FIREBALL CINNAMON WHISKEY MINI SLEEVE       98415.00     32805.00   
CROWN ROYAL PEACH                           93929.31     31321.50   
CROWN ROYAL BLACKBERRY                      82768.90     27601.00   
BAILEYS ORIGINAL IRISH CREAM             

In [6]:
# ============================================================
# C√©lula 6: AN√ÅLISE POR CATEGORIA
# ============================================================

print("\n" + "=" * 60)
print("üè∑Ô∏è AN√ÅLISE POR CATEGORIA")
print("=" * 60)

# An√°lise por categoria
categorias = df.groupby('categoria').agg({
    'receita': 'sum',
    'lucro': 'sum',
    'quantidade': 'sum',
    'data_venda': 'count',
    'margem_percentual': 'mean',
    'produto': 'nunique'
}).round(2)

categorias.columns = ['Receita Total', 'Lucro Total', 'Qtd Vendida', 'Num Transa√ß√µes', 'Margem M√©dia %', 'Num Produtos']
categorias = categorias.sort_values('Receita Total', ascending=False)

print("\nüìä TODAS AS CATEGORIAS:")
print(categorias)

# Participa√ß√£o percentual
categorias['% Receita'] = (categorias['Receita Total'] / categorias['Receita Total'].sum() * 100).round(2)
print("\nüìä CATEGORIAS POR PARTICIPA√á√ÉO:")
print(categorias[['Receita Total', '% Receita', 'Margem M√©dia %']].head(10))

# Visualiza√ß√£o
fig = px.pie(
    categorias.head(10).reset_index(),
    values='Receita Total',
    names='categoria',
    title='Top 10 Categorias - Distribui√ß√£o de Receita',
    hole=0.4
)
fig.show()


üè∑Ô∏è AN√ÅLISE POR CATEGORIA

üìä TODAS AS CATEGORIAS:
                                      Receita Total  Lucro Total  Qtd Vendida  \
categoria                                                                       
CANADIAN WHISKIES                        1074050.01    358090.04        59831   
AMERICAN VODKAS                           860858.06    287039.11        93236   
STRAIGHT BOURBON WHISKIES                 730040.86    243268.51        30185   
100% AGAVE TEQUILA                        643790.71    214838.55        22802   
WHISKEY LIQUEUR                           433938.54    144671.30        73145   
SPICED RUM                                314891.15    104996.25        21846   
TEMPORARY & SPECIALTY PACKAGES            314516.01    104868.55        11316   
TENNESSEE WHISKIES                        308834.54    102976.52        13854   
IMPORTED CORDIALS & LIQUEURS              286354.55     95520.48        11300   
CREAM LIQUEURS                            245559.0

In [7]:
# ============================================================
# C√©lula 7: AN√ÅLISE POR FORNECEDOR/VENDEDOR
# ============================================================

print("\n" + "=" * 60)
print("üë• AN√ÅLISE POR FORNECEDOR")
print("=" * 60)

# Top fornecedores
top_fornecedores = df.groupby('fornecedor').agg({
    'receita': 'sum',
    'lucro': 'sum',
    'quantidade': 'sum',
    'data_venda': 'count',
    'margem_percentual': 'mean',
    'produto': 'nunique'
}).round(2)

top_fornecedores.columns = ['Receita Total', 'Lucro Total', 'Qtd Vendida', 'Num Transa√ß√µes', 'Margem M√©dia %', 'Num Produtos']
top_fornecedores = top_fornecedores.sort_values('Receita Total', ascending=False)

print("\nüèÜ TOP 15 FORNECEDORES POR RECEITA:")
print(top_fornecedores.head(15))

print("\nüìâ BOTTOM 15 FORNECEDORES POR RECEITA:")
print(top_fornecedores.tail(15))

# Visualiza√ß√£o
fig = px.bar(
    top_fornecedores.head(15).reset_index(),
    x='Receita Total',
    y='fornecedor',
    orientation='h',
    title='Top 15 Fornecedores por Receita',
    labels={'fornecedor': 'Fornecedor', 'Receita Total': 'Receita (R$)'},
    color='Margem M√©dia %',
    color_continuous_scale='Viridis'
)
fig.update_layout(height=600)
fig.show()


üë• AN√ÅLISE POR FORNECEDOR

üèÜ TOP 15 FORNECEDORES POR RECEITA:
                                          Receita Total  Lucro Total  \
fornecedor                                                             
DIAGEO AMERICAS                              1883670.26    628132.12   
SAZERAC COMPANY  INC                         1168906.80    389942.66   
JIM BEAM BRANDS                               544352.31    179617.87   
HEAVEN HILL BRANDS                            524655.98    174903.21   
PERNOD RICARD USA                             496111.71    165441.78   
BROWN FORMAN CORP.                            403568.83    134558.43   
FIFTH GENERATION DISTILLED SPIRITS, INC.      395806.07    131962.46   
BACARDI USA INC                               362957.58    121012.89   
PROXIMO                                       252917.66     84323.91   
LUXCO INC                                     227651.39     76221.72   
E & J GALLO WINERY                            170730.12     56844.9

In [8]:
# ============================================================
# C√©lula 8: AN√ÅLISE POR LOJA
# ============================================================

print("\n" + "=" * 60)
print("üè™ AN√ÅLISE POR LOJA")
print("=" * 60)

# Top lojas
top_lojas = df.groupby('loja').agg({
    'receita': 'sum',
    'lucro': 'sum',
    'quantidade': 'sum',
    'data_venda': 'count',
    'margem_percentual': 'mean',
    'cidade': 'first'
}).round(2)

top_lojas.columns = ['Receita Total', 'Lucro Total', 'Qtd Vendida', 'Num Transa√ß√µes', 'Margem M√©dia %', 'Cidade']
top_lojas = top_lojas.sort_values('Receita Total', ascending=False)

print("\nüèÜ TOP 20 LOJAS POR RECEITA:")
print(top_lojas.head(20))

print("\nüìâ BOTTOM 20 LOJAS POR RECEITA:")
print(top_lojas.tail(20))



üè™ AN√ÅLISE POR LOJA

üèÜ TOP 20 LOJAS POR RECEITA:
                                                 Receita Total  Lucro Total  \
loja                                                                          
CENTRAL CITY 2                                       258783.54     86274.45   
HY-VEE #3 / BDI / DES MOINES                         186284.11     62116.14   
WALL TO WALL WINE AND SPIRITS / WEST DES MOINES      140116.96     46728.80   
HY-VEE WINE AND SPIRITS #1 (1281) / IOWA CITY        128274.29     42716.78   
I-80 LIQUOR / COUNCIL BLUFFS                         121066.74     40321.92   
COSTCO WHOLESALE #1111 / CORALVILLE                  120353.76     40122.54   
BENZ DISTRIBUTING                                    112502.90     37494.58   
ANOTHER ROUND / DEWITT                               112171.86     37348.26   
COSTCO WHOLESALE #788 / WDM                          108924.12     35970.46   
MARSHALL BEER WINE SPIRITS                            68255.59     22771.26

In [9]:
# ============================================================
# C√©lula 9: AN√ÅLISE TEMPORAL
# ============================================================

print("\n" + "=" * 60)
print("üìÖ AN√ÅLISE TEMPORAL")
print("=" * 60)

# Vendas por m√™s
vendas_mes = df.groupby('nome_mes').agg({
    'receita': 'sum',
    'lucro': 'sum',
    'quantidade': 'sum',
    'data_venda': 'count'
}).round(2)

vendas_mes.columns = ['Receita', 'Lucro', 'Quantidade', 'Transa√ß√µes']
print("\nüìä VENDAS POR M√äS:")
print(vendas_mes)

# Vendas por dia da semana
vendas_dia_semana = df.groupby('nome_dia_semana').agg({
    'receita': 'sum',
    'data_venda': 'count'
}).round(2)

vendas_dia_semana.columns = ['Receita Total', 'Num Transa√ß√µes']
vendas_dia_semana['Receita M√©dia'] = (vendas_dia_semana['Receita Total'] / vendas_dia_semana['Num Transa√ß√µes']).round(2)

print("\nüìä VENDAS POR DIA DA SEMANA:")
print(vendas_dia_semana)

# Visualiza√ß√£o temporal
fig = go.Figure()

fig.add_trace(go.Scatter(
    x=vendas_mes.index,
    y=vendas_mes['Receita'],
    mode='lines+markers',
    name='Receita',
    line=dict(color='blue', width=3)
))

fig.add_trace(go.Scatter(
    x=vendas_mes.index,
    y=vendas_mes['Lucro'],
    mode='lines+markers',
    name='Lucro',
    line=dict(color='green', width=3)
))

fig.update_layout(
    title='Evolu√ß√£o Temporal - Receita e Lucro',
    xaxis_title='M√™s',
    yaxis_title='Valor (R$)',
    hovermode='x unified',
    height=500
)

fig.show()


üìÖ AN√ÅLISE TEMPORAL

üìä VENDAS POR M√äS:
            Receita      Lucro  Quantidade  Transa√ß√µes
nome_mes                                              
2025-12  8054904.90 2685476.52      537637       47956

üìä VENDAS POR DIA DA SEMANA:
                 Receita Total  Num Transa√ß√µes  Receita M√©dia
nome_dia_semana                                              
Domingo              462956.11            3352         138.11
Quarta              1604043.73            9439         169.94
Segunda             2038192.55           11090         183.79
Sexta               1750428.43           10137         172.68
S√°bado               154554.92            1285         120.28
Ter√ßa               2044729.16           12653         161.60


In [10]:
# ============================================================
# C√©lula 10: AN√ÅLISE DE CORRELA√á√ÉO E INSIGHTS
# ============================================================

print("\n" + "=" * 60)
print("üîç INSIGHTS PRINCIPAIS")
print("=" * 60)

# Correla√ß√£o entre vari√°veis num√©ricas
numeric_cols = ['quantidade', 'custo_unitario', 'preco_unitario', 'receita', 'lucro', 'margem_percentual']
correlacao = df[numeric_cols].corr().round(2)

print("\nüìä MATRIZ DE CORRELA√á√ÉO:")
print(correlacao)

# Visualiza√ß√£o de correla√ß√£o
fig = px.imshow(
    correlacao,
    text_auto=True,
    aspect="auto",
    title='Matriz de Correla√ß√£o',
    color_continuous_scale='RdBu_r'
)
fig.show()


üîç INSIGHTS PRINCIPAIS

üìä MATRIZ DE CORRELA√á√ÉO:
                   quantidade  custo_unitario  preco_unitario  receita  lucro  \
quantidade               1.00           -0.07           -0.07     0.76   0.76   
custo_unitario          -0.07            1.00            1.00     0.11   0.11   
preco_unitario          -0.07            1.00            1.00     0.11   0.11   
receita                  0.76            0.11            0.11     1.00   1.00   
lucro                    0.76            0.11            0.11     1.00   1.00   
margem_percentual       -0.01            0.04            0.04     0.01   0.01   

                   margem_percentual  
quantidade                     -0.01  
custo_unitario                  0.04  
preco_unitario                  0.04  
receita                         0.01  
lucro                           0.01  
margem_percentual               1.00  


In [11]:
# ============================================================
# RESUMO EXECUTIVO
# ============================================================

print("\n" + "=" * 80)
print("üìã RESUMO EXECUTIVO - PRINCIPAIS INSIGHTS")
print("=" * 80)

print(f"\nüåç MELHOR REGI√ÉO: {top_regioes.index[0]}")
print(f"   - Receita: R$ {top_regioes.iloc[0]['Receita Total']:,.2f}")
print(f"   - Margem: {top_regioes.iloc[0]['Margem M√©dia %']:.2f}%")

print(f"\nüåç PIOR REGI√ÉO: {top_regioes.index[-1]}")
print(f"   - Receita: R$ {top_regioes.iloc[-1]['Receita Total']:,.2f}")

print(f"\nüèôÔ∏è MELHOR CIDADE: {top_cidades.index[0]}")
print(f"   - Receita: R$ {top_cidades.iloc[0]['Receita Total']:,.2f}")
print(f"   - N√∫mero de Lojas: {int(top_cidades.iloc[0]['Num Lojas'])}")

print(f"\nüèôÔ∏è PIOR CIDADE: {top_cidades.index[-1]}")
print(f"   - Receita: R$ {top_cidades.iloc[-1]['Receita Total']:,.2f}")

print(f"\nüì¶ PRODUTO MAIS VENDIDO: {top_produtos.index[0]}")
print(f"   - Receita: R$ {top_produtos.iloc[0]['Receita Total']:,.2f}")
print(f"   - Quantidade: {int(top_produtos.iloc[0]['Qtd Vendida']):,} unidades")

print(f"\nüì¶ PRODUTO MENOS VENDIDO: {top_produtos.index[-1]}")
print(f"   - Receita: R$ {top_produtos.iloc[-1]['Receita Total']:,.2f}")

print(f"\nüè∑Ô∏è MELHOR CATEGORIA: {categorias.index[0]}")
print(f"   - Receita: R$ {categorias.iloc[0]['Receita Total']:,.2f}")
print(f"   - Participa√ß√£o: {categorias.iloc[0]['% Receita']:.2f}%")

print(f"\nüë• MELHOR FORNECEDOR: {top_fornecedores.index[0]}")
print(f"   - Receita: R$ {top_fornecedores.iloc[0]['Receita Total']:,.2f}")
print(f"   - N√∫mero de Produtos: {int(top_fornecedores.iloc[0]['Num Produtos'])}")

print("\n" + "=" * 80)


üìã RESUMO EXECUTIVO - PRINCIPAIS INSIGHTS

üåç MELHOR REGI√ÉO: POLK
   - Receita: R$ 1,804,497.56
   - Margem: 33.32%

üåç PIOR REGI√ÉO: DAVIS
   - Receita: R$ 1,107.60

üèôÔ∏è MELHOR CIDADE: DES MOINES
   - Receita: R$ 925,492.87
   - N√∫mero de Lojas: 74

üèôÔ∏è PIOR CIDADE: WYOMING
   - Receita: R$ 44.25

üì¶ PRODUTO MAIS VENDIDO: TITOS HANDMADE VODKA
   - Receita: R$ 378,836.72
   - Quantidade: 22,995 unidades

üì¶ PRODUTO MENOS VENDIDO: AMARETTO E DOLCE
   - Receita: R$ 5.01

üè∑Ô∏è MELHOR CATEGORIA: CANADIAN WHISKIES
   - Receita: R$ 1,074,050.01
   - Participa√ß√£o: 13.33%

üë• MELHOR FORNECEDOR: DIAGEO AMERICAS
   - Receita: R$ 1,883,670.26
   - N√∫mero de Produtos: 187

