# Análise de Correlação Avançada - Exercício Individual

---

## Bloco 1 - Configuração Inicial

**Setup do Ambiente**

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

vendas = pd.read_csv('data/vendas_correlation.csv')
vendas.set_index(vendas['ID_Aleatorio'])

print(f" Dataset carregado: {vendas.shape[0]} linhas × {vendas.shape[1]} colunas")

 Dataset carregado: 200 linhas × 6 colunas


---

## Bloco 2 - Exploração Estatística Expandida

**Análise Descritiva Aprofundada**

In [3]:
# Versão expandida (Utilizando claude-sonnet-4):

print("="*50)
print("ANÁLISE EXPLORATÓRIA COMPLETA")
print("="*50)

# Informações gerais
display(vendas.info())
print("\n" + "="*92)

# Estatísticas descritivas
print("Estatísticas Descritivas:")
display(vendas.describe().round(2))
print("\n" + "="*92)

ANÁLISE EXPLORATÓRIA COMPLETA
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Vendas (Alvo)        200 non-null    int64  
 1   Temperatura (C)      200 non-null    float64
 2   Marketing (R$)       200 non-null    float64
 3   Preco Unitario (R$)  200 non-null    float64
 4   Chuva (mm)           200 non-null    float64
 5   ID_Aleatorio         200 non-null    int64  
dtypes: float64(4), int64(2)
memory usage: 9.5 KB


None


Estatísticas Descritivas:


Unnamed: 0,Vendas (Alvo),Temperatura (C),Marketing (R$),Preco Unitario (R$),Chuva (mm),ID_Aleatorio
count,200.0,200.0,200.0,200.0,200.0,200.0
mean,197.56,27.1,52.07,8.53,4.5,5074.44
std,81.47,7.37,30.73,2.05,4.31,2194.15
min,-7.0,15.1,1.08,5.04,0.1,1054.0
25%,140.0,20.7,25.55,6.83,1.38,3314.5
50%,198.0,27.35,52.54,8.79,3.15,5092.0
75%,258.5,33.92,81.12,10.2,6.45,6955.25
max,389.0,39.7,99.97,11.93,23.0,8973.0





In [4]:
# Verificação de dados faltantes
print("Dados Faltantes:")
missing_data = vendas.isnull().sum()
missing_percent = (missing_data / len(vendas)) * 100
missing_df = pd.DataFrame({
    'Valores Faltantes': missing_data,
    'Percentual (%)': missing_percent.round(2)
})
display(missing_df[missing_df['Valores Faltantes'] > 0])

Dados Faltantes:


Unnamed: 0,Valores Faltantes,Percentual (%)


In [5]:
# Outliers usando IQR
print("\n⚠️ Análise de Outliers (Método IQR):")
for col in vendas.select_dtypes(include=[np.number]).columns:
    Q1 = vendas[col].quantile(0.25)
    Q3 = vendas[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = vendas[(vendas[col] < lower_bound) | (vendas[col] > upper_bound)]
    print(f"  {col}: {len(outliers)} outliers detectados")


⚠️ Análise de Outliers (Método IQR):
  Vendas (Alvo): 0 outliers detectados
  Temperatura (C): 0 outliers detectados
  Marketing (R$): 0 outliers detectados
  Preco Unitario (R$): 0 outliers detectados
  Chuva (mm): 7 outliers detectados
  ID_Aleatorio: 0 outliers detectados


---

## Bloco 3 - Análise de Correlação Avançada

**Matriz de Correlação com Insights**

In [14]:
# Versão inicial (feita individualmente):

correlacao_clima = vendas[['Vendas (Alvo)', 'Temperatura (C)', 'Marketing (R$)']]
matriz_corr_clima = correlacao_clima.corr()

print("="*70)
print(matriz_corr_clima)
print("="*70)

                 Vendas (Alvo)  Temperatura (C)  Marketing (R$)
Vendas (Alvo)         1.000000         0.437119        0.768241
Temperatura (C)       0.437119         1.000000       -0.045583
Marketing (R$)        0.768241        -0.045583        1.000000


In [13]:
# Versão expandida (Utilizando claude-sonnet-4):

# Incluir todas as variáveis numéricas relevantes
colunas_numericas = vendas.select_dtypes(include=[np.number]).columns.tolist()
print(f"Variáveis numéricas disponíveis: {colunas_numericas}")

# Análise de correlação completa
correlacao_completa = vendas[colunas_numericas]
matriz_corr_completa = correlacao_completa.corr()

print("="*70)
print(matriz_corr_completa)
print("="*70)

Variáveis numéricas disponíveis: ['Vendas (Alvo)', 'Temperatura (C)', 'Marketing (R$)', 'Preco Unitario (R$)', 'Chuva (mm)', 'ID_Aleatorio']
                     Vendas (Alvo)  Temperatura (C)  Marketing (R$)  \
Vendas (Alvo)             1.000000         0.437119        0.768241   
Temperatura (C)           0.437119         1.000000       -0.045583   
Marketing (R$)            0.768241        -0.045583        1.000000   
Preco Unitario (R$)      -0.508921        -0.026651       -0.123831   
Chuva (mm)               -0.191877        -0.074051        0.081538   
ID_Aleatorio              0.030587        -0.092864        0.106707   

                     Preco Unitario (R$)  Chuva (mm)  ID_Aleatorio  
Vendas (Alvo)                  -0.508921   -0.191877      0.030587  
Temperatura (C)                -0.026651   -0.074051     -0.092864  
Marketing (R$)                 -0.123831    0.081538      0.106707  
Preco Unitario (R$)             1.000000    0.161250     -0.036004  
Chuva (mm)      

---

## Bloco 4 - Visualização Aprimorada

**Heatmap com Múltiplas Perspectivas**

In [21]:
# Versão inicial (feita individualmente):

print(("="*20) + " Matriz de COrrelação " + ("="*19))
display(matriz_corr_clima.style.background_gradient(cmap='coolwarm', axis=None).format("{:.2f}"))



Unnamed: 0,Vendas (Alvo),Temperatura (C),Marketing (R$)
Vendas (Alvo),1.0,0.44,0.77
Temperatura (C),0.44,1.0,-0.05
Marketing (R$),0.77,-0.05,1.0


In [20]:
# Versão expandida (Utilizando claude-sonnet-4):

print("\n Matriz de Correlação - Formato Tabela:")
display(matriz_corr_clima.style
        .background_gradient(cmap='coolwarm', axis=None)
        .format("{:.3f}")
        .set_caption("Correlações entre Vendas, Temperatura em Marketing")
        .set_table_styles([
            {'selector': 'caption', 'props': [('font-size', '16px'), ('font-weight', 'bold')]},
            {'selector': 'th', 'props': [('background-color', "#a700a1"), ('font-weight', 'bold')]}
        ]))


 Matriz de Correlação - Formato Tabela:


Unnamed: 0,Vendas (Alvo),Temperatura (C),Marketing (R$)
Vendas (Alvo),1.0,0.437,0.768
Temperatura (C),0.437,1.0,-0.046
Marketing (R$),0.768,-0.046,1.0
