<a href="https://colab.research.google.com/github/wallisonferreira/data-science-tce/blob/main/aula4_ex1_RegressaoLinear_notes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Algoritmos de aprendizado de máquina Linear

## Dataset

Os exemplos utilizarão o conjunto de dados Boston House Price. Este é um problema de regressão onde todos os atributos são numéricos.

A validação cruzada k=10 é usada para avaliar cada algoritmo de aprendizado de máquina e a medida do erro quadrático médio medidas é usada para indicar o desempenho do algoritmo.

Observe que os valores de erro quadrático médio são invertidos (negativos). Esta é uma peculiaridade da função cross_val_score() usada que requer que todas as métricas do algoritmo sejam classificadas em ordem crescente (valor maior é melhor).

**Descrição das features:**
CRIM: Taxa de criminalidade per capita por cidade

ZN: Proporção de terrenos residenciais zoneados para lotes com mais de 25.000 pés quadrados

INDUS: Proporção de acres de negócios não varejistas por cidade

CHAS: (= 1 se a área limita o rio; 0 caso contrário)

NOX: concentração de óxido nítrico (partes por 10 milhões)

RM: Número médio de quartos por habitação

AGE: Proporção de unidades ocupadas pelo proprietário construídas antes de 1940

DIS: distâncias ponderadas até cinco centros de traablho Boston

RAD: Índice de acessibilidade às rodovias radiais

TAX: Taxa de imposto de propriedade de valor total por 10.000

PTRATIO: Proporção aluno-professor por cidade

B: 1000 (Bk - 0,63), onde Bk é a proporção de [descendentes de afro-americanos] por cidade

LSTAT: Porcentagem de status inferior da população

MEDV: valor médio das casas ocupadas pelo proprietário em US $ 1.000

## Regressão Linear

A regressão linear assume que as variáveis de entrada têm uma distribuição gaussiana. Assume-se também que as variáveis de entrada são relevantes para a variável de saída e que não são altamente correlacionadas entre si (um problema chamado colinearidade).

In [1]:
# Linear Regression
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression

names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']

df = pd.read_csv('https://gitlab.com/jdallyson/curso_bi/-/raw/main/datasets/housing.csv', delimiter=',', names=names)

df.head()


Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [2]:
df.describe()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


In [4]:


array = df.values
X = array[:,0:13] # predictors
Y = array[:,13] # target

kfold = KFold(n_splits=10, random_state=None)
model = LinearRegression()

scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)

print(results.mean())

-34.70525594452492


## Ridge Regression

A regressão Ridge é uma extensão da regressão linear onde a função de perda é modificada para minimizar a complexidade do modelo medido como o valor da soma ao quadrado dos valores de coeficiente (também chamado de norma L2).

In [5]:
# Regressão Ridge
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Ridge

names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']

df = pd.read_csv('https://gitlab.com/jdallyson/curso_bi/-/raw/main/datasets/housing.csv', delimiter=',', names=names)
array = df.values
X = array[:,0:13]
Y = array[:,13]
num_folds = 10
kfold = KFold(n_splits=10, random_state=None)
model = Ridge()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-34.07824620925938


## Regressão Lasso

O Least Absolute Shrinkage and Selection Operator (LASSO), (Operador de Encolhimento e Seleção Mínimo Absoluto) é uma modificação da regressão linear, como regressão Ridge, onde a função de perda é modificada para minimizar a complexidade do modelo medido como o valor absoluto da soma dos valores coeficientes (também chamado de norma L1)

In [7]:

# Regressão LASSO
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Lasso

names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']
df = pd.read_csv('https://gitlab.com/jdallyson/curso_bi/-/raw/main/datasets/housing.csv', delimiter=',', names=names)
array = df.values
X = array[:,0:13]
Y = array[:,13]

num_folds = 10
kfold = KFold(n_splits=10, random_state=None)
model = Lasso(alpha=0.6)
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-32.983600451412656


# Regressão ElasticNet

O ElasticNet é uma forma de regressão de regularização que combina as propriedades da regressão de Ridge e da regressão LASSO. Ele busca minimizar a complexidade do modelo de regressão (magnitude e número de coeficientes de regressão) penalizando o modelo usando tanto a norma L2 (soma ao quadrado dos valores dos coeficientes) quanto a norma L1 (soma dos valores absolutos dos coeficientes).

In [8]:
# Regressão ElasticNet
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import ElasticNet

names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']
df = pd.read_csv('https://gitlab.com/jdallyson/curso_bi/-/raw/main/datasets/housing.csv', delimiter=',', names=names)
array = df.values
X = array[:,0:13]
Y = array[:,13]

num_folds = 10
kfold = KFold(n_splits=10, random_state=None)
model = ElasticNet()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-31.16457371424976


## Polynomial Regression

In [11]:
import pandas as pd
import numpy as np
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures

names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']
df = pd.read_csv('https://gitlab.com/jdallyson/curso_bi/-/raw/main/datasets/housing.csv', delimiter=',', names=names)
array = df.values
X = array[:,0:13]
y = array[:,13]

poly = PolynomialFeatures(degree=2, include_bias=False)
poly_features = poly.fit_transform(X)

num_folds = 10
kfold = KFold(n_splits=10, random_state=None)
model = LinearRegression()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, poly_features, y, cv=kfold, scoring=scoring)
print(results.mean())


-94.04553918892334


In [None]:
print(poly_features)

[[6.32000000e-03 1.80000000e+01 2.31000000e+00 ... 1.57529610e+05
  1.97656200e+03 2.48004000e+01]
 [2.73100000e-02 0.00000000e+00 7.07000000e+00 ... 1.57529610e+05
  3.62766600e+03 8.35396000e+01]
 [2.72900000e-02 0.00000000e+00 7.07000000e+00 ... 1.54315409e+05
  1.58310490e+03 1.62409000e+01]
 ...
 [6.07600000e-02 0.00000000e+00 1.19300000e+01 ... 1.57529610e+05
  2.23851600e+03 3.18096000e+01]
 [1.09590000e-01 0.00000000e+00 1.19300000e+01 ... 1.54802902e+05
  2.54955600e+03 4.19904000e+01]
 [4.74100000e-02 0.00000000e+00 1.19300000e+01 ... 1.57529610e+05
  3.12757200e+03 6.20944000e+01]]
