# Decidindo o Melhor Modelo de Regressão Linear

Neste notebook teremos uma função que aplicará todos os modelos de Regressão Linear a fim de sabermos qual é o melhor modelo, para está função será usado todos os parâmetros como *default*.

In [1]:
#Importando os dados
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))




/kaggle/input/graduate-admissions/Admission_Predict.csv
/kaggle/input/graduate-admissions/Admission_Predict_Ver1.1.csv


In [2]:
#Leitura prévia dos dados
df = pd.read_csv("../input/graduate-admissions/Admission_Predict.csv")
df.head()

Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,1,337,118,4,4.5,4.5,9.65,1,0.92
1,2,324,107,4,4.0,4.5,8.87,1,0.76
2,3,316,104,3,3.0,3.5,8.0,1,0.72
3,4,322,110,3,3.5,2.5,8.67,1,0.8
4,5,314,103,2,2.0,3.0,8.21,0,0.65


In [3]:
# Número de linhas e de colunas da tabela
df.shape

(400, 9)

In [4]:
#Tipo de dados de cada coluna
df.dtypes

Serial No.             int64
GRE Score              int64
TOEFL Score            int64
University Rating      int64
SOP                  float64
LOR                  float64
CGPA                 float64
Research               int64
Chance of Admit      float64
dtype: object

In [5]:
#Examinando as colunas vazias (NaN)
faltantes = df.isnull().sum()
print(faltantes)

Serial No.           0
GRE Score            0
TOEFL Score          0
University Rating    0
SOP                  0
LOR                  0
CGPA                 0
Research             0
Chance of Admit      0
dtype: int64


In [6]:
#Descartando uma coluna inútil aos modelos
df.drop('Serial No.',axis=1,inplace=True)

In [7]:
#Separando variável target com variáveis independentes
y = df['Chance of Admit ']
x = df.drop('Chance of Admit ',axis=1)

In [8]:
# Separando os dados entre treino e teste
x_treino,x_teste,y_treino,y_teste = train_test_split(x,y,test_size = 0.3, random_state = 14)

In [9]:
#Aplicação da função
def modelosRegressao(a, b, c, d):

    from sklearn.linear_model import LinearRegression,Ridge,Lasso,ElasticNet

    x_treino = a
    y_treino = b
    x_teste = c
    y_teste = d

    reg = LinearRegression()
    ridge = Ridge()
    lasso = Lasso()
    elastic = ElasticNet()

    reg.fit(x_treino, y_treino)
    ridge.fit(x_treino, y_treino)
    lasso.fit(x_treino, y_treino)
    elastic.fit(x_treino, y_treino)

    result_reg = reg.score(x_teste, y_teste) 
    result_ridge = ridge.score(x_teste, y_teste)
    result_lasso = lasso.score(x_teste, y_teste)
    result_elastic = elastic.score(x_teste, y_teste)

    print("Resultado Linear: ", result_reg)
    print("Resultado Ridge: ", result_ridge)
    print("Resultado Lasso: ", result_lasso)
    print("Resultado Elastic: ", result_elastic)

    dic_regModels = {'Linear':result_reg,'Ridge':result_ridge,'Lasso':result_lasso,'Elastic':result_elastic}
    melhor_modelo = max(dic_regModels,key=dic_regModels.get)

    print()
    print("Melhor modelo: ",melhor_modelo, ' com o valor de: ',dic_regModels[melhor_modelo])

In [10]:
# MOstrando os resultados
modelosRegressao(x_treino,y_treino,x_teste,y_teste)

Resultado Linear:  0.8074301329952366
Resultado Ridge:  0.8086244883902471
Resultado Lasso:  0.2880440026881922
Resultado Elastic:  0.6153065342269577

Melhor modelo:  Ridge  com o valor de:  0.8086244883902471


### Conclusão

O modelo de Ridge obteve o melhor resultado, com 80,86% de acurácia, os outros modelos tiveram resultados bem parecidos, com exceção do modelo de Lasso, que registrou apenas 28,80%, o que indica que resultados melhores poderiam ser obtidos com modelos ajustados com penalidades maiores.