# Aplicação dos Modelos de Regressão Linear

Usando outro dataset, este exercício é uma continuação do: 
> [Kaggle Notebook | Escolhendo um modelo de Regressão](https://github.com/git-wpsilva/Projetos-do-Kaggle/blob/main/escolhendo-um-modelo-de-regress-o.ipynb)

In [1]:
import numpy as np 
import pandas as pd 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))





/kaggle/input/housesalesprediction/kc_house_data.csv


In [2]:
#Essa função garante a visibilidade do head() com todas as colunas, no caso, 21 colunas
pd.set_option('display.max_columns',21)
df = pd.read_csv("../input/housesalesprediction/kc_house_data.csv")
df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,3,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,5,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,3,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


In [3]:
#Excluindo features irrelevantes
df.drop('id',axis = 1, inplace = True)
df.drop('date',axis = 1, inplace = True)
df.drop('zipcode',axis = 1, inplace = True)
df.drop('lat',axis = 1, inplace = True)
df.drop('long',axis = 1, inplace = True)

**axis** é o parâmetro que diz se a alteração será feita em linhas inteiras ou em uma coluna inteira.
* axis = 1 coluna
* axis = 0 linha

Já o **inplace** indica se a alteração será feita em uma cópia do dataframe (inplace = False), ou substituirá o dataframe original (inplace = True), o default deste parâmetro é false.

In [4]:
df.head()

Unnamed: 0,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,sqft_living15,sqft_lot15
0,221900.0,3,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,1340,5650
1,538000.0,3,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,1690,7639
2,180000.0,2,1.0,770,10000,1.0,0,0,3,6,770,0,1933,0,2720,8062
3,604000.0,4,3.0,1960,5000,1.0,0,0,5,7,1050,910,1965,0,1360,5000
4,510000.0,3,2.0,1680,8080,1.0,0,0,3,8,1680,0,1987,0,1800,7503


In [5]:
#Definindo variáveis preditoras e variável target
y = df['price']
x = df.drop('price', axis=1)

In [6]:
#Separando os dados em treino e teste
x_treino,x_teste,y_treino,y_teste = train_test_split(x,y,test_size = 0.3, random_state = 14)

### Com Regressão Linear

In [7]:
#Criando o modelo
modelo = LinearRegression()
modelo.fit(x_treino,y_treino)

In [8]:
#Calculando o coeficiente R2
resultado = modelo.score(x_teste,y_teste)
print(resultado)

0.6538094196280744


### Com Regressão de Ridge

In [9]:
from sklearn.linear_model import Ridge
modeloRidge = Ridge(alpha=100,tol=0.1)
modeloRidge.fit(x_treino,y_treino)
ResultadoRidge = modeloRidge.score(x_teste,y_teste)
print(ResultadoRidge)

0.6533596081720607


### Com Regressão de Lasso

In [10]:
from sklearn.linear_model import Lasso
modeloLasso = Lasso(alpha=1000,tol=0.1)
modeloLasso.fit(x_treino,y_treino)
ResultadoLasso = modeloLasso.score(x_teste,y_teste)
print(ResultadoLasso)

0.6547706041742776


### Com Elastic Net

In [11]:
from sklearn.linear_model import ElasticNet
modeloElasticNet = ElasticNet(alpha=1,tol=0.2, l1_ratio = 0.9)
modeloElasticNet.fit(x_treino,y_treino)
ResultadoElasticNet = modeloElasticNet.score(x_teste,y_teste)
print(ResultadoElasticNet)

0.6429961330013113


### Juntando tudo em uma única função

In [12]:
def modelosRegressao(a, b, c, d):

    from sklearn.linear_model import LinearRegression,Ridge,Lasso,ElasticNet

    x_treino = a
    y_treino = b
    x_teste = c
    y_teste = d

    reg = LinearRegression()
    ridge = Ridge()
    lasso = Lasso()
    elastic = ElasticNet()

    reg.fit(x_treino, y_treino)
    ridge.fit(x_treino, y_treino)
    lasso.fit(x_treino, y_treino)
    elastic.fit(x_treino, y_treino)

    result_reg = reg.score(x_teste, y_teste) 
    result_ridge = ridge.score(x_teste, y_teste)
    result_lasso = lasso.score(x_teste, y_teste)
    result_elastic = elastic.score(x_teste, y_teste)

    print("Resultado Linear: ", result_reg)
    print("Resultado Ridge: ", result_ridge)
    print("Resultado Lasso: ", result_lasso)
    print("Resultado Elastic: ", result_elastic)

    dic_regModels = {'Linear':result_reg,'Ridge':result_ridge,'Lasso':result_lasso,'Elastic':result_elastic}
    melhor_modelo = max(dic_regModels,key=dic_regModels.get)

    print()
    print("Melhor modelo: ",melhor_modelo, ' com o valor de: ',dic_regModels[melhor_modelo])

In [13]:
modelosRegressao(x_treino,y_treino,x_teste,y_teste)

  model = cd_fast.enet_coordinate_descent(


Resultado Linear:  0.6538094196280744
Resultado Ridge:  0.6539029726255621
Resultado Lasso:  0.653811715690852
Resultado Elastic:  0.6241134858939881

Melhor modelo:  Ridge  com o valor de:  0.6539029726255621


  model = cd_fast.enet_coordinate_descent(


### Conclusão

Rodando a função com todos os modelos com os parametros em *default*, tivemos como melhor modelo o Ridge, com 65,39%, porém, rodando os modelos separadamente e ajustando seus parâmetros individualmente o resultado foi que o modelo Lasso foi o mais preciso, com 65,47% de acuracidade.