# Visualiza√ß√£o de Dados - Display e Correla√ß√µes

---

## Bloco 1 - Prepara√ß√£o dos Dados

**Carregamento com Tratamento de Datas**

In [1]:
import pandas as pd
import matplotlib as plt

vendas = pd.read_csv('data/vendas_varejo.csv', parse_dates=['Data'])
vendas.set_index(vendas['Data']).head()

Unnamed: 0_level_0,Data,Cidade,Produto,Qtd_Venda,Preco_Unitario,Desconto_Percentual,Total_Venda,Mes
Data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2024-01-01,2024-01-01,Curitiba,Tablet,7,939.9,0.05,6250.335,January
2024-01-02,2024-01-02,Porto Alegre,Tablet,9,2857.82,0.05,24434.361,January
2024-01-03,2024-01-03,Belo Horizonte,Tablet,9,2800.18,0.1,22681.458,January
2024-01-04,2024-01-04,Porto Alegre,Tablet,9,3857.13,0.15,29507.0445,January
2024-01-05,2024-01-05,Porto Alegre,Fone de Ouvido,2,4201.52,0.0,8403.04,January


Par√¢metros importantes:

- `parse_dates=['Data']`: Converte automaticamente string ‚Üí datetime

- `.set_index()`: Define coluna de data como √≠ndice (facilita filtragem temporal)

üí° Benef√≠cio: Datas como datetime permitem opera√ß√µes temporais avan√ßadas.

---

## Bloco 2 - Explora√ß√£o com Display Aprimorado

**An√°lise Explorat√≥ria Estruturada**

In [2]:
display(vendas.count()) # Contagem com formata√ß√£o visual

Data                   1000
Cidade                 1000
Produto                1000
Qtd_Venda              1000
Preco_Unitario         1000
Desconto_Percentual    1000
Total_Venda            1000
Mes                    1000
dtype: int64

In [3]:
print(len(vendas['Cidade'].unique())) # Quantidade de cidades

5


In [4]:
# Compara√ß√£o entre ambos os m√©todos (display e print):
display(vendas['Cidade'].unique())  # Valores √∫nicos

print(vendas['Cidade'].unique()) 

array(['Curitiba', 'Porto Alegre', 'Belo Horizonte', 'Rio de Janeiro',
       'S√£o Paulo'], dtype=object)

['Curitiba' 'Porto Alegre' 'Belo Horizonte' 'Rio de Janeiro' 'S√£o Paulo']


Vantagens do `display()`:

- Formata√ß√£o rica: Tabelas HTML em Jupyter

- Melhor legibilidade: Mais claro que `print()`

- Interatividade: Scroll autom√°tico em tabelas grandes

üí° Insight: display() √© essencial para apresenta√ß√µes e relat√≥rios visuais.

---

## Bloco 3 - Ordena√ß√£o e Indexa√ß√£o Temporal

**Manipula√ß√£o de S√©ries Temporais**

In [5]:
vendas.sort_index(inplace=True)  # Ordena por √≠ndice (datas)
vendas.loc['2025-12-01':, ['Produto', 'Cidade']]  # Slice temporal

Unnamed: 0,Produto,Cidade
203,Notebook,S√£o Paulo
204,Smartwatch,Curitiba
205,Fone de Ouvido,Belo Horizonte
206,Tablet,Porto Alegre
207,Smartwatch,Belo Horizonte
...,...,...
995,Notebook,Rio de Janeiro
996,Fone de Ouvido,S√£o Paulo
997,Notebook,S√£o Paulo
998,Fone de Ouvido,Curitiba


Funcionalidades temporais:

- `.sort_index()`: Organiza cronologicamente

- Slice por data: `'2025-12-01'`:seleciona per√≠odo espec√≠fico

- Sele√ß√£o combinada: Temporal + colunas espec√≠ficas

üí° Aplica√ß√£o: An√°lise de tend√™ncias e sazonalidade.

---

## Bloco 4 - Sele√ß√£o por Posi√ß√£o

**Indexa√ß√£o Num√©rica**

In [6]:
vendas.iloc[:, [0, 1, 5]].head() # Primeiras linhas, colunas espec√≠ficas

Unnamed: 0,Data,Cidade,Desconto_Percentual
0,2024-01-01,Curitiba,0.05
1,2024-01-02,Porto Alegre,0.05
2,2024-01-03,Belo Horizonte,0.1
3,2024-01-04,Porto Alegre,0.15
4,2024-01-05,Porto Alegre,0.0


Revis√£o de indexa√ß√£o:

- `.iloc[:, [0, 1, 5]]`: Todas as linhas, colunas 0, 1 e 5

- Flexibilidade: Sele√ß√£o n√£o-sequencial de colunas

- Performance: Acesso direto por posi√ß√£o

---

## Bloco 5 - Filtragem Avan√ßada com Styling

**Identifica√ß√£o de Clientes VIP**

In [9]:
# M√°scara booleana para crit√©rios m√∫ltiplos
regra_vip = (vendas['Total_Venda'] > 10000) & (vendas['Desconto_Percentual'] == 0.0)
vendas_vip = vendas[regra_vip]

# Formata√ß√£o visual avan√ßada (style para destacar o valor)
vendas_vip.style.format({'Total_Venda': 'R$ {:,.2f}'}).background_gradient(subset=['Total_Venda'], cmap='Greens')

Unnamed: 0,Data,Cidade,Produto,Qtd_Venda,Preco_Unitario,Desconto_Percentual,Total_Venda,Mes
14,2024-01-15 00:00:00,Curitiba,Smartwatch,7,1866.93,0.0,"R$ 13,068.51",January
18,2024-01-19 00:00:00,S√£o Paulo,Smartphone,6,3205.92,0.0,"R$ 19,235.52",January
32,2024-02-02 00:00:00,Curitiba,Notebook,4,4827.34,0.0,"R$ 19,309.36",February
36,2024-02-06 00:00:00,Belo Horizonte,Smartphone,5,4375.85,0.0,"R$ 21,879.25",February
45,2024-02-15 00:00:00,S√£o Paulo,Smartwatch,6,2420.84,0.0,"R$ 14,525.04",February
49,2024-02-19 00:00:00,Curitiba,Notebook,6,3025.91,0.0,"R$ 18,155.46",February
57,2024-02-27 00:00:00,Rio de Janeiro,Tablet,4,2970.94,0.0,"R$ 11,883.76",February
58,2024-02-28 00:00:00,Curitiba,Smartphone,5,4354.77,0.0,"R$ 21,773.85",February
85,2024-03-26 00:00:00,S√£o Paulo,Notebook,5,4061.3,0.0,"R$ 20,306.50",March
103,2024-04-13 00:00:00,Rio de Janeiro,Smartwatch,4,4260.42,0.0,"R$ 17,041.68",April


Elementos avan√ßados:

- M√∫ltiplas condi√ß√µes: `&` para AND l√≥gico

- `display()` transforma dados em apresenta√ß√µes profissionais

- `.style` permite formata√ß√£o rica (cores, formatos monet√°rios, gradientes)

- `.style.format()`: Formata√ß√£o monet√°ria brasileira

- `.background_gradient()`: Escala de cores por valor

- `cmap='Greens'`: Paleta de cores (verde = valores altos)

üí° Visual: C√©lulas mais escuras = vendas maiores (heatmap intuitivo).

---

## Bloco 6 - Filtragem por Listas

**An√°lise de Filiais Espec√≠ficas**

In [13]:
# Filtro como M√°scara Booleana
filiais_rentaveis = ['Rio de Janeiro', 'Porto Alegre']
vendas['Cidade'].isin(filiais_rentaveis)  

0      False
1       True
2      False
3       True
4       True
       ...  
995     True
996    False
997    False
998    False
999    False
Name: Cidade, Length: 1000, dtype: bool

In [14]:
# Aplica√ß√£o do filtro como DataFrame
filiais = ['Rio de Janeiro', 'Porto Alegre']
vendas[vendas['Cidade'].isin(filiais)]

Unnamed: 0,Data,Cidade,Produto,Qtd_Venda,Preco_Unitario,Desconto_Percentual,Total_Venda,Mes
1,2024-01-02,Porto Alegre,Tablet,9,2857.82,0.05,24434.3610,January
3,2024-01-04,Porto Alegre,Tablet,9,3857.13,0.15,29507.0445,January
4,2024-01-05,Porto Alegre,Fone de Ouvido,2,4201.52,0.00,8403.0400,January
5,2024-01-06,Rio de Janeiro,Fone de Ouvido,3,2314.12,0.10,6248.1240,January
9,2024-01-10,Porto Alegre,Smartphone,3,476.71,0.00,1430.1300,January
...,...,...,...,...,...,...,...,...
989,2026-09-16,Rio de Janeiro,Smartphone,7,4349.28,0.00,30444.9600,September
990,2026-09-17,Rio de Janeiro,Fone de Ouvido,6,3017.30,0.10,16293.4200,September
993,2026-09-20,Rio de Janeiro,Tablet,9,3832.30,0.10,31041.6300,September
994,2026-09-21,Porto Alegre,Smartphone,1,2323.01,0.05,2206.8595,September


M√©todo `.isin()`:

- Filtro por lista: M√∫ltiplos valores simultaneamente

- Flexibilidade: F√°cil adicionar/remover crit√©rios

- Performance: Otimizado para grandes datasets

---

## Bloco 7 - An√°lise de Correla√ß√£o

**Matriz de Correla√ß√µes B√°sica**

In [20]:
# Correla√ß√£o alta n√£o significa que uma causa a outra!
# Pode haver uma terceira vari√°vel influenciando ambas

analise_correlacao = vendas[['Preco_Unitario', 'Qtd_Venda', 'Desconto_Percentual', 'Total_Venda']]

matriz_ocorr = analise_correlacao.corr()
matriz_ocorr

Unnamed: 0,Preco_Unitario,Qtd_Venda,Desconto_Percentual,Total_Venda
Preco_Unitario,1.0,-0.008017,-0.000829,0.679623
Qtd_Venda,-0.008017,1.0,0.000128,0.637823
Desconto_Percentual,-0.000829,0.000128,1.0,-0.060246
Total_Venda,0.679623,0.637823,-0.060246,1.0


Conceito de correla√ß√£o:

- Valores de -1 a +1: -1 (correla√ß√£o negativa perfeita) ‚Üí +1 (correla√ß√£o positiva perfeita)

- Pr√≥ximo de 0: Sem correla√ß√£o linear

- Interpreta√ß√£o: Como vari√°veis se influenciam mutuamente

üí° Exemplo de interpreta√ß√£o:

- `Total_Venda` vs `Qtd_Venda`: Correla√ß√£o alta positiva (esperado)

- `Desconto_Percentual` vs `Total_Venda`: Correla√ß√£o negativa (mais desconto = menor total)

---

## Bloco 8 - Visualiza√ß√£o de Correla√ß√£o (Desafio)

**Heatmap de Correla√ß√µes**

In [19]:
analise_correlacao = vendas[['Preco_Unitario', 'Qtd_Venda', 'Desconto_Percentual', 'Total_Venda']]

matriz_ocorr = analise_correlacao.corr()

print("========================== Matriz de COrrela√ß√£o ==========================")
display(matriz_ocorr.style.background_gradient(cmap='coolwarm', axis=None).format("{:.2f}"))



Unnamed: 0,Preco_Unitario,Qtd_Venda,Desconto_Percentual,Total_Venda
Preco_Unitario,1.0,-0.01,-0.0,0.68
Qtd_Venda,-0.01,1.0,0.0,0.64
Desconto_Percentual,-0.0,0.0,1.0,-0.06
Total_Venda,0.68,0.64,-0.06,1.0


Elementos visuais:

- `cmap='coolwarm'`: Azul (correla√ß√£o negativa) ‚Üí Vermelho (correla√ß√£o positiva)

- `axis=None`: Gradiente aplicado em toda a matriz

- `.format("{:.2f}")`: Duas casas decimais para legibilidade

- `display()`: Renderiza√ß√£o rica em Jupyter

Heatmap visual:

- Cores intuitivas: Vermelho = correla√ß√£o forte, Azul = correla√ß√£o inversa

- Padr√µes visuais: Identifica√ß√£o r√°pida de relacionamentos

- Comunica√ß√£o eficaz: Executivos entendem sem conhecimento estat√≠stico

üí° **Objetivo do professor**: Traduzir dados num√©ricos em insights visuais para stakeholders n√£o-t√©cnicos.