# 1. Introdução

Nosso trabalho aqui consiste em criar um modelo para prever preços de diamantes a partir de suas características.

Fonte: https://www.kaggle.com/datasets/nancyalaswad90/diamonds-prices

# 2. Importando bibliotecas

In [None]:
# Para tratar os dados
import pandas as pd
import numpy as np

# Pré-processamento
from sklearn.model_selection import train_test_split
from sklearn.compose import ColumnTransformer # pipeline com colunas de tipos diferentes
from sklearn.impute import SimpleImputer # missing
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, OrdinalEncoder # escala das features / tratar categóricas numéricas
from category_encoders import TargetEncoder, OneHotEncoder # tratamento de categóricas
from sklearn.feature_selection import SelectKBest, mutual_info_classif, f_regression # selecao de features

# Modelagem
import lightgbm as lgb


### Importando o Dataset

In [None]:
diamonds_data = pd.read_csv('Diamonds Prices2022.csv')

In [None]:
diamonds_data.head()

In [None]:
diamonds_data.shape

In [None]:
diamonds_data.describe()

In [None]:
diamonds_data.isna().sum() # mean para ver a taxa de missing

Digamos que a gente queira excluir linhas com mais de 30% de missing. O que fazer?
```python
diamonds_data = (diamonds_data.isna().mean() <= 0.3).index
```

# 3. Análise Exploratória

Dessa vez, não vamos fazer análise exploratória. Vamos olhar mais sob a perspectiva de um projeto automatizado onde não é possível ficar olhando as features uma a uma. Além disso, nem sempre vamos conseguir confiar 100% na EDA. Então é importante conhecer técnicas de feature selection e não achar que a EDA é a resposta final.

# 4. Modelo preditivo de preço

In [None]:
diamonds_data.columns

In [None]:
# Vamos começar removendo a 'Unnamed: 0' que não vai nos servir de nada.
diamonds_data.drop('Unnamed: 0', axis=1, inplace=True)

In [None]:
diamonds_data.head()

A descrição no Kaggle nos informou que as variáveis cut, color e clarity são categóricas ordinais. Então a ordem delas importa.

In [None]:
diamonds_data['cut'].value_counts()

 Fair ➡ Good ➡ Very Good ➡ Premium ➡ Ideal (Do pior para o melhor)

In [None]:
diamonds_data['color'].value_counts()

J ➡ I ➡ H ➡ G ➡ F ➡ E ➡ D (Do pior para o melhor)

In [None]:
diamonds_data['clarity'].value_counts()

 I1 ➡ SI2 ➡ SI1 ➡ VS2 ➡ VS1 ➡ VVS2 ➡ VVS1 ➡ IF (Do pior para o melhor)

Removendo duplicatas

In [None]:
diamonds_data[diamonds_data.duplicated()]

In [None]:
diamonds_data.drop_duplicates(inplace=True)

Agora vamos verificar a presença de outliers. No caso de diamantes, é esperado que tenhamos uma variação considerável nos preços. Então vamos ver qual a porcentagem de outliers em cada coluna. Se a quantidade for pequena, podemos considerar que podem ser dados legítimos e/ou o impacto no modelo não deve ser significativo.

In [None]:
# Verificando quais são as colunas numéricas. Vamos aproveitar pra criar a lista de categóricas também.

numerical_columns = diamonds_data.select_dtypes(include="number").columns.to_list()
categorical_columns = diamonds_data.select_dtypes(exclude="number").columns.to_list()

In [None]:
numerical_columns

In [None]:
categorical_columns

Caso fosse necessário, uma forma de criar dataframes de features numéricas e categóricas seria:
```python
cols = diamonds_data.dtypes.reset_index().rename(columns={'index': 'coluna', 0: 'tipo'})
num_cols = cols[cols['tipo'] != object]
categ_cols = cols[cols['tipo'] == object]
```
Dessa forma teríamos um dataframe com as colunas e seus tipos (int, float, object, etc.).

In [None]:
# Detectando outliers

nomes_colunas = []
qtt_outliers = []

for i in numerical_columns:
    
    contador = 0
    
    q1 = np.quantile(diamonds_data[i], 0.25) # primeiro quartil
    q3 = np.quantile(diamonds_data[i], 0.75) # terceiro quartil
    li = q1 - 1.5*(q3-q1) # limite inferior
    ls = q3 + 1.5*(q3-q1) # limite superior
    
    for j in diamonds_data.index:
        if li <= diamonds_data[i][j] <= ls:
            pass
        else:
            contador += 1
    
    perc_outliers = (contador / diamonds_data[i].count())*100 # porcentagem da quantidade de outliers nessa coluna
    
    nomes_colunas.append(i)
    qtt_outliers.append(perc_outliers)

In [None]:
nomes_colunas

In [None]:
outliers = pd.DataFrame()
outliers['coluna'] = nomes_colunas
outliers['perc_outliers'] = qtt_outliers
outliers

Se eu quisesse filtrar as colunas com mais de X% de outliers, por exemplo, poderia fazer assim:
```python
outliers[outliers['perc_outliers'] > X]
```

Como pudemos visualizar, a quantidade de outliers é bem pequena. A coluna Price é a que tem a maior quantidade de outliers com 6,5%. Então, nesse caso, não vamos optar pela remoção desses outliers.

Agora vamos remover a coluna price da nossa lista de colunas numéricas, afinal, ele é o nosso target.

In [None]:
numerical_columns = [feature for feature in numerical_columns if feature != 'price']
numerical_columns

In [None]:
target = 'price'

Antes de fazer a divisão, vamos fazer um mapeamento nas colunas categóricas. Como foi dito anteriormente, a ordem delas importa, então vamos fazer um Ordinal Encoder manualmente. O ideal é sempre fazer o pré-processamento após o split, porém, como nesse caso não estamos usando informações da coluna inteira para preencher um missing, por exemplo, não teremos risco de data leakage. Portanto, podemos fazer esse encoding antes da divisão (e nesse caso, é até mais prático).

In [None]:
diamonds_data['cut'] = diamonds_data['cut'].map({'Fair':0, 'Good':1, 'Very Good':2, 'Premium':3, 'Ideal':4})
diamonds_data['color'] = diamonds_data['color'].map({'J':0, 'I':1, 'H':2, 'G':3, 'F':4, 'E':5, 'D':6})
diamonds_data['clarity'] = diamonds_data['clarity'].map({'I1':0, 'SI2':1, 'SI1':2, 'VS2':3, 'VS1':4, 'VVS2':5, 'VVS1':6, 'IF':7})

In [None]:
X = diamonds_data[numerical_columns + categorical_columns]
y = diamonds_data[target]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print(f"X_train shape: {X_train.shape}")
print(f"X_test shape: {X_test.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"y_test shape: {y_test.shape}")

In [None]:
lgb_model = lgb.LGBMRegressor()

numerical_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy='median')),
    ("scaler", StandardScaler())
])

# Obs.: Nesse nosso caso, as colunas categóricas já foram transformadas em numéricas. Vamos manter o nome
# assim por uma questão de organização, mas na prática o nosso categorical_transformer vai funcionar assim
# como o numerical_transformer.
categorical_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy='most_frequent'))
])

preprocessor = ColumnTransformer(transformers=[
    ('num', numerical_transformer, numerical_columns),
    ('cat', categorical_transformer, categorical_columns)
]
)

pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('feature_selection', SelectKBest(score_func=f_regression, k='all')), 
    ('model', lgb_model)
])

# Treina o modelo
pipeline.fit(X_train, y_train)

Vamos enfim realizar a nossa predição e verificar o desempenho do modelo com algumas métricas.

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

y_pred = pipeline.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error (MSE) test:  {mse:.4f}')
print(f'Root Mean Squared Error (RMSE) test:  {rmse:.4f}')
print(f'Mean Absolute Error (MAE) test:  {mae:.4f}')
print(f'R-squared (R2) test:  {r2:.4f}')

Vamos comparar as mesmas métricas do modelo fazendo predições com os dados de treino agora.

In [None]:
y_pred_train = pipeline.predict(X_train)
mse = mean_squared_error(y_train, y_pred_train)
mae = mean_absolute_error(y_train, y_pred_train)
rmse = np.sqrt(mse)
r2 = r2_score(y_train, y_pred_train)

print(f'Mean Squared Error (MSE) train:  {mse:.4f}')
print(f'Root Mean Squared Error (RMSE) train:  {rmse:.4f}')
print(f'Mean Absolute Error (MAE) train:  {mae:.4f}')
print(f'R-squared (R2) train:  {r2:.4f}')

Agora uma comparação direta de 50 valores que o algoritmo preveu com os dados de teste.

In [None]:
y_test_list = y_test.to_list()
for x in range(0, 50):
    print(f'y_test: {y_test_list[x]} / y_pred: {y_pred[x]}')

Visualizando graficamente a comparação de y_test e y_pred

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.style.use('ggplot')

In [None]:
# Criar um DataFrame com y_test e y_pred
df = pd.DataFrame({'y_test': y_test, 'y_pred': y_pred})

# Plotar a relação entre as duas colunas
sns.relplot(data=df, x='y_test', y='y_pred')
plt.show()