[<- Anterior](pipeline_columntransform.ipynb) |

# Regressão Linear Multipla

Um modelo de Regressão Linear é um modelo que assume uma relação linear entre os valores de entrada e sáida, isso é, a variação dos valores de saída (y) é sempre porporcional à variação dos valores de entrada (x).

Em especial, os modelos de Regressão Linear Multipla, se caracterizam por utilizarem varias features (x) para estimar um target(y).

**O que será abordado**
- [Imports]()
- [Dados de teste](#dados-de-teste)
- [Linear Regression](#linear-regression)
- [Treinamento do Modelo](#treinamento-do-modelo)
- [Predict](#predict)

> AVISO: Temas relacionados ao pré-processamento dos dados não serão aprofundados nesse documento, porém, explicações sobre esse processo (que envolve a separação de Dataset de treio e teste, por exemplo) podem ser encontradas na pasta [PreProcessamento](../PreProcessamento/)

# Imports

In [None]:
# Import da biblioteca Pandas -> Utilizada na visualização dos dados e criação do Dataframe
import pandas as pd

# Import da biblioteca matplotlib -> Utilizada para criar visualizações durante os testes
import matplotlib.pyplot as plt

# Import da função train_test_split
from sklearn.model_selection import train_test_split

# Import da Classe LinearRegression -> Utilizada para criar o modelo de regressão linear
from sklearn.linear_model import LinearRegression

# Dados de teste


Nesse tópico será abordada a criação de um modelo de regressão linear múltipla utilizando um Dataset ficticio com dados sobre preço de carros de forma que o preço de um veiculo possa ser associado aos demais valores apresentados como: ano, km_rodados, num_portas e preço.

O dataset utilizado está disponível na pasta Data desse diretório [(aperte aqui para acessar)](../Data/multilinearregression.csv) e possui 100 linhas, com valores numéricos e nenhum elemento nulo, de forma que o processo de imputing não é necessário.

In [2]:
#leitura do dataset
df = pd.read_csv('../Data/multilinearregression.csv')
df.head()

Unnamed: 0,ano,km_rodado,num_portas,preco
0,2012,60624,4,9557.521209
1,2015,50133,4,8862.174782
2,2021,103790,4,1082.340815
3,2000,72756,2,19852.921917
4,2003,134834,4,15053.799335


# Linear Regression

Para criar o modelo de Rergessão Linear Multipla, é necessário criar um objeto da classe LinearRegression. Isso pode ser feito através da sintáxe:

*nome_do_modelo* = LinearRegression()

Veja no exemplo abaixo:

In [3]:
# Criação do modelo
multi_lr = LinearRegression()

Com esse processo, foi criado um modelo de Regressão Linear com o nome de multi_lr. Sendo assim, agora a maior parte dos processos envolvendo o modelo pode ser realizado por esse objeto.

# treinamento do modelo

O treinamento é realizado com o método .fit() do modelo que se deseja treinar.

Esse método necessita de dois parâmetros, sendo eles:

- x -> Features de treino.
- y - > Targets de treino

Ainda é importante ressaltar que, conforme foi abordado no documento [train_test.ipynb](../PreProcessamento/scaling_normalization.ipynb), pode ser necessário dividir o conjunto de dados utilizado em treino e teste, sendo que, APENAS os dados de treino são usados durante o processp de treinamento do modelo.

Veja no exemplo abaixo:

In [None]:
# Definição de um Dataframe com os dados de features
x = df.drop(columns='preco')

# Definição de um Dataframe com os dados de targets
y = df['preco']

# Separação dos dados em treino e teste
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.8, random_state=42)

# Treinamento do modelo
multi_lr.fit(x_train, y_train)

Após a aplicação do método .fit() com os conjuntos de treino o modelo esta treinado, podendo assim ser utilizado para realizar previsões com base em novos conjuntos de dados.

# Predict

Uma vez que um modelo de Regressão Linear multipla tenha sido treinado, é possivel usa-lo para realizar previsões à partir de novos dados. 

Esse processo é realizado com o método predict() do modelo, esse método precisa de um unico parametro:

x -> Conjunto de dados com os quais se deseja realizar previsões. Esses dados devem ser fornecidos na forma de um Array , que deve conter arrays com as features necessárias para realizar as previsões. Pode tabém ser fornecido da forma de um Dataframe com os dados necessários.

O retorno dessa função é um Array, que contém um conjunto de Arrays com os targets previstos. Ou, no caso de um Dataframe ser utilizado como parametro de entrada, a saída é um único array com os dados previstos.

Veja um exemplo abaixo:

In [None]:
# Exibição dos vaores de entrada
print('Dados de Entrada')
print(x_test)

print('-'*20) # Adiciona um separador entre as entradas e saídas -> Utilizada nessa parte para melhorar a representação visual

# Previsão dos dados de teste
pred = multi_lr.predict(x_test)

# Previsão dos dados de Teste
print('Dados Previstos')
print(pred)

Dessa forma, percebe-se que para realizar uma previsão é necessário que os dados estejam ordenados na forma de um Array com a seguinte estrutura.

features = [[x¹¹, x¹²], [x²¹, x²²], ..., [x, x]] ou um dataframe cujas colunas sejam as necessárias para as previsões.

Da mesma forma, após aplicar o método .predict() o resultado é um Array de mesma estrutura, porém, contendo os valores previstos (isso é, o valor de y para a respectiva entrada x, no array forncecido). Sendo assim:

*nome_do_modelo*.predict(features), retorna: [[y¹], [y²], ..., [y]]   

onde:   

y¹ é a previsão feita com a entrada x¹¹, x¹² [...] x - y² é a previsão feita com a entrada x²¹, x²² [...] - etc...

#
[<- Anterior](pipeline_columntransform.ipynb) | 