# Multiple Linear Regression

## Importing the libraries

In [27]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Importing the dataset

In [28]:
data = pd.read_csv('./50_Startups.csv')

In [29]:
data.head()

Unnamed: 0,R&D Spend,Administration,Marketing Spend,State,Profit
0,165349.2,136897.8,471784.1,New York,192261.83
1,162597.7,151377.59,443898.53,California,191792.06
2,153441.51,101145.55,407934.54,Florida,191050.39
3,144372.41,118671.85,383199.62,New York,182901.99
4,142107.34,91391.77,366168.42,Florida,166187.94


In [30]:
x = data[['R&D Spend','Administration','Marketing Spend','State']].values

In [31]:
y = data.Profit.values

## Encoding categorical data

In [32]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

#Aqui o indice tem que ser o índice da coluna onde tem que ser dividido em categorias
# -1 é a coluna onde temos as cidades
ct = ColumnTransformer(transformers=[('encoder',OneHotEncoder(),[-1])], remainder='passthrough')
x = np.array(ct.fit_transform(x))

## Splitting the dataset into the Training set and Test set

In [33]:
from sklearn.model_selection import train_test_split

X_train , X_test, Y_train, Y_test = train_test_split(x , y, test_size=0.2, random_state = 0)

Em regressão linear múltipla, não precisamos escalar os coeficientes. O coeficiente **b** compensa o valor das variáveis desequilibradas. <br>
a fórmula é: <br>
y = b0+ b1x1 + b2x2 +...

## Training the Multiple Linear Regression model on the Training set

Não precisa se preocupar com o **"Dummy Variable Trap"**

In [37]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()

In [39]:
lr.fit(X_train,Y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

## Predicting the Test set results

Como temos mais de 2 dimensoes, temos 5. Nós plotaremos um gráfico comparando o que o modelo prediz com o que realmente é

In [42]:
y_pred = lr.predict(X_test)

In [44]:
# Para mostrar somente após 2 casas decimais
np.set_printoptions(precision=2)

In [52]:
#para transformar o array em vertical, utilizamos a funcao reshape
# o primeiro argumento diz que tem que ter o número de linhas do tamanho do y_pred
# o segundo argumento diz o número de colunas, queremos ter uma coluna só
#y_pred.reshape(len(y_pred),1)


#0 quer dizer que queremos fazer uma concatenação vertical e 1 uma horizontal no concatenate

print(np.concatenate((y_pred.reshape(len(y_pred),1),Y_test.reshape(len(Y_test),1)),1))

[[103015.2  103282.38]
 [132582.28 144259.4 ]
 [132447.74 146121.95]
 [ 71976.1   77798.83]
 [178537.48 191050.39]
 [116161.24 105008.31]
 [ 67851.69  81229.06]
 [ 98791.73  97483.56]
 [113969.44 110352.25]
 [167921.07 166187.94]]
