In [None]:
import pandas as pd
import seaborn as sns
import ppscore as pps
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, LogisticRegression

### Carregar dados - Regressão

In [None]:
df = pd.read_csv('./datasets/dataset_colesterol.csv')

In [None]:
df.info()

In [None]:
# Ajustar DataFrame
df.drop('ID', axis=1, inplace=True)

df = pd.get_dummies(df, columns=['Grupo Sanguíneo', 'Fumante', 'Nível de Atividade'])

### Calcular PPS - Regressão

In [None]:
# Calcular PPS entre as variáveis
pps_matrix_reg = pps.matrix(df)
pps_matrix_reg

In [None]:
pps_matrix_reg_pivot = pps_matrix_reg[['x', 'y', 'ppscore']].pivot(columns='x', index='y', values='ppscore')
pps_matrix_reg_pivot

In [None]:
plt.figure(figsize=(10,8))
sns.heatmap(pps_matrix_reg_pivot, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Predictive Power Score (PPS) - Modelo Colesterol')

In [None]:
# Calcular PPS entre duas variáveis específicas
pps.score(df, 'Peso', 'Colesterol')

### Matriz de correlação - Regressão

In [None]:
corr_matrix_reg = df.corr()
corr_matrix_reg

In [None]:
plt.figure(figsize=(10,8))
sns.heatmap(corr_matrix_reg, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matriz de Correlação - Modelo Colesterol')

### Treinar Modelo Linear - Regressão

In [None]:
X = df.drop('Colesterol', axis=1)
y = df['Colesterol']

In [None]:
model_reg = LinearRegression()
model_reg.fit(X, y)

In [None]:
# Avaliar importância das features com base nos coeficientes do modelo
feat_importance_reg = pd.Series(model_reg.coef_, index=X.columns)
feat_importance_reg.plot(kind='barh')
plt.xlabel('Importância')
plt.ylabel('Feature')
plt.title('Importância das features na Regressão Linear')

### Carregar e preparar dados - Classificação

In [None]:
df2 = pd.read_csv('./datasets/fruit_quality.csv')

In [None]:
df2.info()

In [None]:
df2.head(10)

In [None]:
df2.drop('A_id', axis=1, inplace=True)

df2['Quality'] = (df2['Quality'] == 'good').astype(int)

df2

### Calcular PPS - Classificação

In [None]:
# Calcular PPS entre as variáveis
pps_matrix_class = pps.matrix(df2)
pps_matrix_class

In [None]:
pps_matrix_class_pivot = pps_matrix_class[['x', 'y', 'ppscore']].pivot(columns='x', index='y', values='ppscore')
pps_matrix_class_pivot

In [None]:
plt.figure(figsize=(10,8))
sns.heatmap(pps_matrix_class_pivot, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Predictive Power Score (PPS) - Modelo Qualidade de Frutas')

In [None]:
# Calcular PPS entre duas variáveis específicas
pps.score(df2, 'Size', 'Quality')

### Matriz de correlação - Classificação

In [None]:
corr_matrix_class = df2.corr()
corr_matrix_class

In [None]:
plt.figure(figsize=(10,8))
sns.heatmap(corr_matrix_class, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matriz de Correlação - Modelo Qualidade de Frutas')

### Treinar Modelo Linear - Classificação

In [None]:
X = df2.drop('Quality', axis=1)
y = df2['Quality']

In [None]:
model_lr = LogisticRegression()
model_lr.fit(X, y)

In [None]:
# Avaliar importância das features com base nos coeficientes do modelo
feat_importance_class = pd.Series(model_lr.coef_[0], index=X.columns)
feat_importance_class.plot(kind='barh')
plt.xlabel('Importância')
plt.ylabel('Feature')
plt.title('Importância das features na Regressão Logística')