### Leio o dataset

Preferi não dividir em dois arquivos dessa vez

In [None]:
import pandas as pd

df = pd.read_csv("dataset/cars_24_combined.csv")
df.head()

### Vejo informações do dataset

Com isso, consigo saber o tipo das variáveis independentes

In [None]:
df.info()

### Descrevo as variáveis categóricas

In [None]:
df_categoricas = df[["Car Name","Fuel","Location","Drive","Type"]].astype(str)

qtd_unico = df_categoricas.nunique()
valores_unicos = df_categoricas.apply(lambda x: x.unique())

pd.DataFrame({'Quantidade de valores únicos': qtd_unico, 'Valores únicos': valores_unicos})

### Tiro a coluna do Id, Car Name e Location"

In [None]:
df = df.drop(["id","Car Name","Location"], axis=1)

### Faço a One-Hot encoding para variáveis categóricas

In [None]:
df_encoded = pd.get_dummies(df, columns=["Fuel", "Drive", "Type"]) # One-Hot encoding 

df_encoded.drop(["Fuel_LPG"], axis=1, inplace=True) # Das 8k linhas só tem um caso que usa esse combustível

df_encoded.info()

In [None]:

from correlation import show_pearson_correlation

x = df_encoded.drop("Price", axis=1)[:-1]
y = df_encoded["Price"]

show_pearson_correlation(x, y)

### Vejo a ocorrência de cada variável categórica

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Seleciona colunas com apenas 0 e 1
one_hot_cols = [col for col in df_encoded.columns if sorted(df_encoded[col].dropna().unique()) in [[0], [1], [0,1], [1,0]]]

n_cols = 5
n_rows = (len(one_hot_cols) + n_cols - 1) // n_cols

fig, axes = plt.subplots(n_rows, n_cols, figsize=(15,6))
axes = axes.flatten()

for i, col in enumerate(one_hot_cols):
    sns.countplot(x=col, data=df_encoded, ax=axes[i])
    axes[i].set_title(col)

# remove subplots extras
for j in range(i+1, len(axes)):
    fig.delaxes(axes[j])

plt.tight_layout()
plt.show()
