#**Machine Learning**
## **REGRESSÃO LINEAR MÚLTIPLA**
A Regressão Linear Múltipla é um modelo de análise que usamos quando modelamos a relação linear entre uma variável de desfecho contínua e múltiplas variáveis preditoras que podem ser contínuas ou categóricas.

In [89]:
# Importação das bibliotecas que usaremos no projeto
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns 
import warnings # para desabilitar alguns avisos chatos
warnings.filterwarnings("ignore") 
import plotly.express as px
# Montando o drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [90]:
# Abrindo o dataset
dados_filtrados = pd.read_csv("/content/drive/MyDrive/machine_learning/dados_filtrados.csv", sep=';', encoding='ISO-8859-1')

# Ativando a opção de visualizar todas as colunas do dataframe
pd.set_option('display.max_columns', None)
dados_filtrados.sample(5)

Unnamed: 0,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_ESCOLA,TP_ENSINO,TP_DEPENDENCIA_ADM_ESC,SG_UF_ESC,TP_LOCALIZACAO_ESC,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,Q001,Q002,Q005,Q006,Q025,Nota_Geral,REGIAO
460253,2,M,1,1,Privada,1.0,4.0,SC,1.0,513.6,553.9,563.6,418.0,640.0,F,D,3.0,M,Sim,537.82,Sul
504461,2,M,1,1,Privada,1.0,4.0,SP,1.0,450.6,547.5,450.2,475.2,560.0,D,G,6.0,L,Sim,496.7,Sudeste
361404,4,F,1,1,Privada,1.0,4.0,SP,1.0,562.2,553.1,545.6,488.8,900.0,H,E,5.0,L,Sim,609.94,Sudeste
299881,2,M,1,1,Pública,1.0,2.0,SP,1.0,563.9,572.8,469.4,541.3,540.0,E,F,5.0,G,Sim,537.48,Sudeste
237371,2,M,1,1,Privada,1.0,4.0,MG,1.0,628.4,717.0,610.8,768.5,880.0,F,G,3.0,L,Sim,720.94,Sudeste


In [91]:
independente = dados_filtrados[['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']]
independente = independente.iloc[2000:12000, :]
independente = (independente)/100
independente = independente.values

In [92]:
independente.shape

(10000, 5)

In [93]:
dependente = dados_filtrados[['Nota_Geral']]
dependente = dependente[2000:12000]
dependente = (dependente)/100
dependente.values

array([[5.5832],
       [5.0942],
       [5.3408],
       ...,
       [4.6422],
       [5.471 ],
       [5.1908]])

In [94]:
dependente.shape

(10000, 1)

In [95]:
from sklearn.linear_model import LinearRegression

In [96]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(independente, dependente, test_size = 0.3, random_state = 0)

In [97]:
x_treino.shape, x_teste.shape

((7000, 5), (3000, 5))

In [98]:
multipla = LinearRegression()
multipla.fit(x_treino, y_treino)

LinearRegression()

In [99]:
multipla.intercept_

array([-6.21724894e-15])

In [100]:
multipla.coef_

array([[0.2, 0.2, 0.2, 0.2, 0.2]])

In [101]:
# Coeficiente de Determinação
multipla.score(x_treino, y_treino)

1.0

##**Teste**

In [102]:
previsoes = multipla.predict(x_teste)
previsoes

array([[4.9538],
       [4.3848],
       [7.9586],
       ...,
       [6.2792],
       [6.3642],
       [4.5466]])

In [103]:
y_teste

Unnamed: 0,Nota_Geral
11394,4.9538
2898,4.3848
4398,7.9586
7906,4.1230
4343,5.2540
...,...
6004,3.4826
9375,4.1140
11307,6.2792
10394,6.3642


In [104]:
# Coeficiente de Determinação
multipla.score(x_teste, y_teste)

1.0

In [105]:
# Fazendo previsões para valores distintos
nota_previsao = multipla.predict([[6,5,7,8,4]])
nota_previsao

array([[6.]])

##**Métricas**

In [106]:
# Erro absoluto
abs(y_teste - previsoes).mean()

Nota_Geral    3.312387e-15
dtype: float64

In [107]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [108]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes)

3.312387401403309e-15

In [109]:
# Erro quadrático médio
mean_squared_error(y_teste, previsoes)

1.171992568824446e-29

In [110]:
# Raiz do erro quadrático médio
np.sqrt(mean_squared_error(y_teste, previsoes))

3.423437700359751e-15

##**Validação cruzada**

In [111]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [112]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [113]:
# Criando o modelo
from sklearn.linear_model import LinearRegression
modelo = LinearRegression()
resultado = cross_val_score(modelo, independente, dependente, cv = kfold)
resultado

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [114]:
# Usamos a média e o desvio padrão
print("Coeficiente de Determinação Médio: %.2f%%" % (resultado.mean() * 100.0))

Coeficiente de Determinação Médio: 100.00%
