### Regressão Linear

In [1]:
# importação e configuração para manipulação dos dados
import pandas as pd
pd.set_option('display.max_columns', 21)

In [2]:
# importação do dataset para um variavel
house_data = pd.read_csv('./datasets/kc_house_data.csv')

In [3]:
# primeiros registros
house_data.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,3,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,5,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,3,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


In [4]:
# retirando variaveis que não serão utilizadas
house_data.drop('id',
                axis= 1,
                inplace= True)

house_data.drop('date',
                axis= 1,
                inplace= True)

house_data.drop('zipcode',
                axis= 1,
                inplace= True)

house_data.drop('lat',
                axis= 1,
                inplace= True)

house_data.drop('long',
                axis= 1,
                inplace= True)

In [5]:
# registros após as modificações
house_data.head()

Unnamed: 0,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,sqft_living15,sqft_lot15
0,221900.0,3,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,1340,5650
1,538000.0,3,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,1690,7639
2,180000.0,2,1.0,770,10000,1.0,0,0,3,6,770,0,1933,0,2720,8062
3,604000.0,4,3.0,1960,5000,1.0,0,0,5,7,1050,910,1965,0,1360,5000
4,510000.0,3,2.0,1680,8080,1.0,0,0,3,8,1680,0,1987,0,1800,7503


In [6]:
# definindo variaveis
y = house_data['price']
x = house_data.drop('price', axis= 1)

In [7]:
# separação dos dados de treino e teste
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, 
                                                        test_size= 0.30,
                                                        random_state= 14)

In [8]:
# importando modelo
from sklearn.linear_model import LinearRegression
modelo = LinearRegression()

In [9]:
# Treinamento do modelo
modelo.fit(x_treino, y_treino)
resultado = modelo.score(x_teste, y_teste)
print(resultado) 

0.653809419628106


#### Ridge

In [10]:
# peso maor para regularização  ( ^2)

# importação do modelo Ridge
from sklearn.linear_model import Ridge

# treinamento
modeloRidge = Ridge(alpha= 10)
modeloRidge.fit(x_treino, y_treino)

# resultado do score
resultadoRidge = modeloRidge.score(x_teste, y_teste)
print(resultadoRidge)

0.6545037069731696


#### Lasso

In [11]:
# importação do modelo Lasso
from sklearn.linear_model import Lasso

# treinamento
modeloLasso = Lasso(alpha= 10,       # valor que multiplica o peso na função
                    max_iter= 1000,  # iterações do modelo
                    tol= 0.1)        # tolerancia de otimização

modeloLasso.fit(x_treino, y_treino)

# resultado do score
resultadoLasso = modeloLasso.score(x_teste, y_teste)
print(resultadoLasso)

0.6538322613120117


#### Elastic Net

In [12]:
# importação do modelo ElasticNet
from sklearn.linear_model import ElasticNet

# treinamento
modeloElasticNet = ElasticNet(alpha= 1,       # valor que multiplica o peso na função
                              l1_ratio= 0.9,  # correspondente ao peso usao em L1(Lasso)
                              tol= 0.2,       # tolerancia de otimização
                              max_iter= 5000) # iterações do modelo

modeloElasticNet.fit(x_treino, y_treino)

# resultado do score
resultadoElasticNet = modeloElasticNet.score(x_teste, y_teste)
print(resultadoElasticNet)

0.6429961330013111


#### Comparação dos modelos

In [13]:
def modelosRegressao(a, b, c, d):
    from sklearn.linear_model import LinearRegression
    from sklearn.linear_model import Ridge
    from sklearn.linear_model import Lasso
    from sklearn.linear_model import ElasticNet
    
    x_treino = a
    y_treino = b
    x_teste = c
    y_teste = d
     
    reg = LinearRegression()
    ridge = Ridge()
    lasso = Lasso()
    elastic = ElasticNet()
    
    reg.fit(x_treino, y_treino)
    ridge.fit(x_treino, y_treino)
    lasso.fit(x_treino, y_treino)
    elastic.fit(x_treino, y_treino)
    
    resul_reg = reg.score(x_teste, y_teste)
    resul_ridge = ridge.score(x_teste, y_teste)
    resul_lasso = lasso.score(x_teste, y_teste)
    resul_elastic = elastic.score(x_teste, y_teste)
    
    print(f' Regressão Linear: {resul_reg.mean()},\n Regressão Ridge: {resul_ridge.mean()},\
          \n Regressão Lasso: {resul_lasso.mean()},\n Regressão ElasticNet: {resul_elastic.mean()}')

In [14]:
modelosRegressao(x_treino, y_treino, x_teste, y_teste)

  model = cd_fast.enet_coordinate_descent(


 Regressão Linear: 0.653809419628106,
 Regressão Ridge: 0.6539029726255621,          
 Regressão Lasso: 0.653811715690852,
 Regressão ElasticNet: 0.6241134858939881


  model = cd_fast.enet_coordinate_descent(


#### Escolha de modelos

link dataset: https://www.kaggle.com/datasets/mohansacharya/graduate-admissions

In [15]:
adminssion_data = pd.read_csv('./datasets/Admission_predict.csv')

In [16]:
adminssion_data.head()

Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,1,337,118,4,4.5,4.5,9.65,1,0.92
1,2,324,107,4,4.0,4.5,8.87,1,0.76
2,3,316,104,3,3.0,3.5,8.0,1,0.72
3,4,322,110,3,3.5,2.5,8.67,1,0.8
4,5,314,103,2,2.0,3.0,8.21,0,0.65


In [17]:
# tamanho e tipos de dados
print(adminssion_data.shape)
print(adminssion_data.dtypes)

(400, 9)
Serial No.             int64
GRE Score              int64
TOEFL Score            int64
University Rating      int64
SOP                  float64
LOR                  float64
CGPA                 float64
Research               int64
Chance of Admit      float64
dtype: object


In [18]:
# dados faltantes do dataset
dados_faltantes = adminssion_data.isnull().sum()
print(dados_faltantes)

Serial No.           0
GRE Score            0
TOEFL Score          0
University Rating    0
SOP                  0
LOR                  0
CGPA                 0
Research             0
Chance of Admit      0
dtype: int64


In [19]:
# retirando colunas que não utilizadas
adminssion_data.drop('Serial No.', 
                     axis= 1,
                     inplace= True)

In [20]:
# separação do target
x = adminssion_data.drop('Chance of Admit ', axis= 1)
y = adminssion_data['Chance of Admit ']

In [21]:
# divisão os dados treino e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, 
                                                        test_size= 0.3,
                                                        random_state= 45)

In [22]:
x_treino.shape, x_teste.shape, y_treino.shape, y_teste.shape

((280, 7), (120, 7), (280,), (120,))

In [23]:
modelosRegressao(x_treino, y_treino, x_teste, y_teste)

 Regressão Linear: 0.809342876333398,
 Regressão Ridge: 0.8085345281885279,          
 Regressão Lasso: 0.2855728845758697,
 Regressão ElasticNet: 0.5647447563640624


In [24]:
import sklearn

In [25]:
# Versões dos pacotes usados neste notebook

%reload_ext watermark
%watermark -a "Caique Miranda" -gu "caiquemiranda" -iv

Author: Caique Miranda

Github username: caiquemiranda

sys    : 3.10.5 (tags/v3.10.5:f377153, Jun  6 2022, 16:14:13) [MSC v.1929 64 bit (AMD64)]
sklearn: 1.1.1
pandas : 1.4.3



### FIM.