In [1]:
import pandas as pd
import seaborn as sns
from sklearn.linear_model import Lasso,LassoCV,Ridge,RidgeCV
import matplotlib.pyplot as plt
from sklearn.feature_selection import SelectFromModel
from sklearn.model_selection import train_test_split
from sklearn.metrics import root_mean_squared_error
import numpy as np

In [2]:
## Carregar e visualizar os dados  - Regressão

df_colesterol = pd.read_csv('./dataset_colesterol.csv')

df_colesterol.drop(columns=['Id'],axis=1,inplace=True)

# Aplicar OneHotEncoding nas variáveis Categoricas
df_colesterol = pd.get_dummies(df_colesterol,columns=['Grupo Sanguíneo', 'Fumante', 'Nível de Atividade']).astype("int64")
df_colesterol.head()

Unnamed: 0,Idade,Peso,Altura,Colesterol,Grupo Sanguíneo_A,Grupo Sanguíneo_AB,Grupo Sanguíneo_B,Grupo Sanguíneo_O,Fumante_Não,Fumante_Sim,Nível de Atividade_Alto,Nível de Atividade_Baixo,Nível de Atividade_Moderado
0,33,85,186,199,0,0,1,0,0,1,0,1,0
1,68,105,184,236,1,0,0,0,1,0,0,0,1
2,25,64,180,161,0,0,0,1,1,0,1,0,0
3,43,120,167,336,1,0,0,0,1,0,1,0,0
4,79,88,175,226,0,1,0,0,1,0,0,1,0


## Treinar modelo de Regressão L1

In [3]:
X = df_colesterol.drop('Colesterol', axis=1)
y = df_colesterol['Colesterol']

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=51)

In [6]:
# Quanto maior o alpha maior a penalização e mais coeficientes tendem a ser reduzidos a zero
model_lasso = Lasso(alpha=0.1)
model_lasso.fit(X_train,y_train)

0,1,2
,alpha,0.1
,fit_intercept,True
,precompute,False
,copy_X,True
,max_iter,1000
,tol,0.0001
,warm_start,False
,positive,False
,random_state,
,selection,'cyclic'


In [7]:
# mostrar importancia de features

def importancia_features(modelo):
    importance = np.abs(modelo.coef_)
    print('Importância das Features')

    for i, feature in enumerate(modelo.feature_names_in_):
        print(f'{feature}: {importance[i]}')

In [8]:
# importância das Features - Lasso
importancia_features(model_lasso)

Importância das Features
Idade: 0.01916465496993952
Peso: 2.487369617667124
Altura: 2.2095109375368005
Grupo Sanguíneo_A: 0.0
Grupo Sanguíneo_AB: 1.006869492653915
Grupo Sanguíneo_B: 0.0
Grupo Sanguíneo_O: 0.0
Fumante_Não: 1.7179038941767972
Fumante_Sim: 0.0
Nível de Atividade_Alto: 1.4939249712318474
Nível de Atividade_Baixo: 0.0
Nível de Atividade_Moderado: 0.18829298059765062


In [11]:
# Função para Avaliar performance

def performance_regressao(modelo, X_test, y_test):

    # Faz a predição com o modelo no conjunto de testes
    y_pred = modelo.predict(X_test)

    # Avalaiar desempenho
    return root_mean_squared_error(y_test,y_pred)

In [13]:
# Performance Regressão com Lasso
performance_regressao(model_lasso, X_test,y_test)

9.00427352078739

In [17]:
# Treinar com LassoCV
modelo_lasso_cv = LassoCV(alphas=[0.1,0.5,1],cv=5,random_state=51)
modelo_lasso_cv.fit(X,y)

0,1,2
,eps,0.001
,n_alphas,'deprecated'
,alphas,"[0.1, 0.5, ...]"
,fit_intercept,True
,precompute,'auto'
,max_iter,1000
,tol,0.0001
,copy_X,True
,cv,5
,verbose,False


In [18]:
# importância das Features - LassoCv
importancia_features(modelo_lasso_cv)

Importância das Features
Idade: 0.01846858468199213
Peso: 2.483274367041952
Altura: 2.201656402923497
Grupo Sanguíneo_A: 0.0
Grupo Sanguíneo_AB: 1.68977730096262
Grupo Sanguíneo_B: 0.0
Grupo Sanguíneo_O: 0.0
Fumante_Não: 1.876592430636444
Fumante_Sim: 0.0
Nível de Atividade_Alto: 0.7142594813183004
Nível de Atividade_Baixo: 0.15260819358809577
Nível de Atividade_Moderado: 0.0


In [19]:
# Performance Regressão com LassoCv
performance_regressao(modelo_lasso_cv, X_test,y_test)

8.914930340154728

## Treinar modelo de Regressão L2

In [20]:
# Quanto maior o alpha maior a penalização e mais coeficientes tendem a ser reduzidos a zero
model_ridge = Ridge(alpha=0.1)
model_ridge.fit(X_train,y_train)

0,1,2
,alpha,0.1
,fit_intercept,True
,copy_X,True
,max_iter,
,tol,0.0001
,solver,'auto'
,positive,False
,random_state,


In [21]:
# importância das Features - Lasso
importancia_features(model_ridge)

Importância das Features
Idade: 0.01668180948641204
Peso: 2.482623255003451
Altura: 2.206115314941441
Grupo Sanguíneo_A: 0.5556561450555675
Grupo Sanguíneo_AB: 1.2157883542011316
Grupo Sanguíneo_B: 0.8641374295723611
Grupo Sanguíneo_O: 0.20400522039528443
Fumante_Não: 1.1119630893346648
Fumante_Sim: 1.1119630893087606
Nível de Atividade_Alto: 1.4297485596332893
Nível de Atividade_Baixo: 0.42379839709846856
Nível de Atividade_Moderado: 1.005950162516998


In [22]:
# Performance Regressão com Lasso
performance_regressao(model_ridge, X_test,y_test)

9.06001634701223

In [23]:
# Treinar com RidgeCV
modelo_ridge_cv = RidgeCV(alphas=[0.1,0.5,1],cv=5)
modelo_ridge_cv.fit(X,y)

0,1,2
,alphas,"[0.1, 0.5, ...]"
,fit_intercept,True
,scoring,
,cv,5
,gcv_mode,
,store_cv_results,False
,alpha_per_target,False


In [24]:
# importância das Features - LassoCv
importancia_features(modelo_ridge_cv)

Importância das Features
Idade: 0.017805689255385653
Peso: 2.47205083519898
Altura: 2.1921722297622317
Grupo Sanguíneo_A: 0.5017678605531042
Grupo Sanguíneo_AB: 1.6237072711548155
Grupo Sanguíneo_B: 0.5151249563986711
Grupo Sanguíneo_O: 0.6068144542023017
Fumante_Não: 1.1772081335180424
Fumante_Sim: 1.17720813351732
Nível de Atividade_Alto: 0.8735525999896847
Nível de Atividade_Baixo: 0.6359911798508886
Nível de Atividade_Moderado: 0.2375614201367663


In [25]:
# Performance Regressão com LassoCv
performance_regressao(modelo_ridge_cv, X_test,y_test)

8.892127104102602