## 3. AnÃ¡lise ExploratÃ³ria com Dados Limpos  
ğŸ“’ `2.1-rc-eda-cleaned.ipynb`

**Objetivo:** Explorar os dados tratados por meio de estatÃ­sticas descritivas e visualizaÃ§Ãµes grÃ¡ficas para identificar padrÃµes, tendÃªncias e possÃ­veis relaÃ§Ãµes entre variÃ¡veis.

ğŸ“Š **Atividades:**
- RelaÃ§Ã£o entre VariÃ¡veis NÃºmericas (scatterplots, heatmap)
- RelaÃ§Ã£o entre VariÃ¡veis CategÃ³ricas e o Alvo (`price`)
- Insights Relevantes
- Next Steps


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from _utils import classificar_correlacao

%matplotlib inline

# Setup para mostrar todas as colunas do dataframe
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

# Desabilita mensagens de FutureWarnings
warnings.filterwarnings("ignore", category=FutureWarning)

In [None]:
file_path = "../data/processed/car_price_cleaned.csv"
df = pd.read_csv(file_path)

df.head()

#### VariÃ¡veis NumÃ©ricas

**Insights esperados**:
- Quais sÃ£o as minhas variÃ¡veis nÃºmericas que existe correlaÃ§Ã£o significativa com o a variÃ¡vel alvo `price`? Qual a forÃ§a dessa correlaÃ§Ã£o? Qual a relaÃ§Ã£o linear?

In [77]:
# Deletar as colunas de `city-mpg` e `highway-mpg`,  em virtude da variÃ¡vel derivada que foi criada de consumo mÃ©dio `avg-fuel-consumption`
# Deletar `symboling` variÃ¡vel categÃ³rica classificada por 'risk-classification'  
df.drop(['city-mpg', 'highway-mpg', 'symboling'], axis=1, inplace=True)

In [None]:
# Estatistica Descritiva
df.describe()

In [78]:
# Seleciona as variÃ¡veis numÃ©ricas
features_numeric = df.select_dtypes(include=['int64', 'float64']).columns.to_list()

In [None]:
# Matriz de correlaÃ§Ã£o
plt.figure(figsize=(12, 8))
sns.heatmap(df[features_numeric].corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de CorrelaÃ§Ã£o entre VariÃ¡veis NumÃ©ricas')
plt.savefig('../reports/figures/eda_heatmap_correlation')



**STEP 01:** Selecionar as variÃ¡veis preditoras que possuem correlaÃ§Ã£o com a variÃ¡vel alvo `price`. Aqui iremos verificar se existe correlaÃ§Ã£o e qual a a sua forÃ§a e se a relaÃ§Ã£o Ã© linear positiva ou negativa.

**NOTA:** Considerar o nÃ­vel de confianÃ§a alpha=0.05 (para um intervalo de 95% de confianÃ§a)

- i) **p-value(p):** verifica se existe ou nÃ£o correlaÃ§Ã£o dentro de um intervalo de confianÃ§a de 95%
    - P-value > 0.05Â Â Â  Ho = ***nÃ£o hÃ¡ diferanÃ§a ou correlaÃ§Ã£o significativa***
    - P-value < 0.05Â Â Â  Ha = ***hÃ¡ diferenÃ§a ou correlaÃ§Ã£o significativa***
- ii) **pearson_correlation(r):** medir a forÃ§a da correlaÃ§Ã£o, sendo que (+) a correlaÃ§Ã£o Ã© positiva, (-) a correlaÃ§Ã£o Ã© negativa.

| Valor de r (+ ou -) | InterpretaÃ§Ã£o           |
|---------------------|-------------------------|
| 0.00 a 0.19         | correlaÃ§Ã£o muito fraca  |
| 0.20 a 0.39         | correlaÃ§Ã£o fraca        |
| 0.40 a 0.69         | correlaÃ§Ã£o moderada     |
| 0.70 a 0.89         | correlaÃ§Ã£o forte        |
| 0.90 a 1.00         | correlaÃ§Ã£o muito forte  |

Fonte: SHIMAKURA, Silvia Emiko. InterpretaÃ§Ã£o do coeficiente de correlaÃ§Ã£o. LEG, UFPR,. 2006.

In [None]:
# Histograma para distribuiÃ§Ã£o (em matriz de subplots)
n = len(features_numeric)
cols = 3  # nÃºmero de colunas da matriz de grÃ¡ficos
rows = (n + cols - 1) // cols

fig, axes = plt.subplots(rows, cols, figsize=(cols*5, rows*3))
axes = axes.flatten()

for i, col in enumerate(features_numeric):
    sns.histplot(df[col], kde=True, bins=30, ax=axes[i])
    axes[i].set_title(f'DistribuiÃ§Ã£o - {col}')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('FrequÃªncia')

# Remove eixos extras se houver
for j in range(i+1, len(axes)):
    fig.delaxes(axes[j])

plt.tight_layout()
fig.savefig('../reports/figures/eda_hist_numerical')
plt.show()

#### VariÃ¡veis CategÃ³ricas


In [73]:
# Contagem de categorias (em matriz de subplots)
categorical_features = df.select_dtypes(include=['object']).columns.to_list()
n = len(categorical_features)
cols = 3
rows = (n + cols - 1) // cols

In [None]:
fig, axes = plt.subplots(rows, cols, figsize=(cols*5, rows*4))
axes = axes.flatten()

for i, col in enumerate(categorical_features):
    ax=axes[i]
    counts = df[col].value_counts()
    sns.countplot(data=df, x=col, order=df[col].value_counts().index, ax=axes[i] )
    axes[i].set_title(f'Contagem - {col}')
    axes[i].tick_params(axis='x', rotation=45)

        # Adiciona labels nas barras
    for p in ax.patches:
        height = p.get_height()
        ax.annotate(f'{int(height)}', (p.get_x() + p.get_width() / 2., height),
                    ha='center', va='bottom', fontsize=10, color='black', xytext=(0, 3), textcoords='offset points')

for j in range(i+1, len(axes)):
    fig.delaxes(axes[j])

plt.tight_layout()
fig.savefig('../reports/figures/eda_hist_categorical')
plt.show()

In [None]:
# Boxplot entre variÃ¡veis categÃ³ricas e alvo (price)
if 'price' in df.columns:
    n = len(categorical_features)
    cols = 2
    rows = (n + cols - 1) // cols

    fig, axes = plt.subplots(rows, cols, figsize=(cols*6, rows*4))
    axes = axes.flatten()

    for i, col in enumerate(categorical_features):
        sns.boxplot(data=df, x=col, y='price', order=df[col].value_counts().index, ax=axes[i])
        axes[i].set_title(f'PreÃ§o por Categoria - {col}')
        axes[i].tick_params(axis='x', rotation=45)

    for j in range(i+1, len(axes)):
        fig.delaxes(axes[j])

    plt.tight_layout()
    plt.show()