# 📈 Regressão Linear simples

#### 🔎  Case:
Uma empresa do ramo imobiliário quer criar um modelo preditivo que utiliza os **dados de valor do custo da diária e quantidade de pessoas**. Ela possui uma base de dados histórica que contém a quantidade pessoas e o valor cobrado no custo da diária.

Diante disso, a empresa contratou uma consultoria de tecnologia para auxiliar no processo de predição. Os analistas perceberam que a melhor abordagem para esse problema é criar um algoritmo de Machine Learning de regressão linear para predizer o **valor da diária do imóvel baseado na quantidade de pessoas que realizaram a diária**.

In [29]:
# import das bilbiotecas.
import pandas as pd
import plotly as px
import plotly.express as px
import seaborn as sns 
import numpy as np


In [8]:
# Selecionando a base de dados que será utilizada.
base = pd.read_csv('custo_diaria.csv', sep= ';' ) # arquivo que será aberto e armazenado na variável base
base.head # visualizar os dado

<bound method DataFrame.head of     qtd_pessoas  valor_diaria
0             1           150
1             3           200
2             4           650
3             6           499
4             7           549
5            10           980
6            12           700
7            13           735
8            15           859
9            16           900
10           20          1100
11           18           989
12           22          1075
13           23          1378
14           25          1500
15           27          1755
16           30          1850
17           32          2500
18           33          2000
19           40          1900
20           42          2089
21           43          2500
22           45          2250
23           47          2488
24           50          2680
25           51          2803
26           52          2890
27           53          3040
28           58          3150
29           60          3300>


In [9]:
# Informações estatísticas básicas da base.
base.describe() 

Unnamed: 0,qtd_pessoas,valor_diaria
count,30.0,30.0
mean,28.6,1648.633333
std,18.189804,950.522197
min,1.0,150.0
25%,13.5,869.25
50%,26.0,1627.5
75%,44.5,2497.0
max,60.0,3300.0


In [11]:
# Declarar as variaveis x e y
x_pessoas = base.iloc[:,0].values
y_custo_diaria = base.iloc[:,1].values



##### Verificação da correlação

In [12]:
# Plot da matriz de correlação 
correlation = base.corr()
plot = sns.heatmap(correlation, annot = True, linewidths=.3) 
plot  # Perceba que temos uma correlação positiva, podemos dizer que em  98% do valor cobrado pelas diárias podem ser explicado pela quantidade de pessoas alugando o imóvel.

<matplotlib.axes.AxesSubplot at 0x121613e10>

##### Tratamento dos dados

In [13]:
# Transformando em matriz o array
x_pessoas = x_pessoas.reshape(-1,1) 

In [17]:
# Criando um objeto  do tipo  regressão linear 
from sklearn.linear_model import LinearRegression 
previsao_custo_diaria = LinearRegression()

In [18]:
# Aplicando os dados ao algoritimo  de machine de regressão  
previsao_custo_diaria.fit(x_pessoas,y_custo_diaria)
previsao_custo_diaria.intercept_ # Verificando o interceptação
previsao_custo_diaria.coef_ # Verificando o coeficiente angular da reta 
previsao_preco = previsao_custo_diaria.predict(x_pessoas) # Baseado nos valores de n de pessoas 
x_pessoas.ravel() # Transformando em um vetor

array([ 1,  3,  4,  6,  7, 10, 12, 13, 15, 16, 20, 18, 22, 23, 25, 27, 30,
       32, 33, 40, 42, 43, 45, 47, 50, 51, 52, 53, 58, 60])

In [42]:
# Visualização dos dados antes de realizar a previsão.
grafico = px.scatter(x = x_pessoas.ravel(), y = y_custo_diaria) 
grafico # se ao executar for exibido um erro , utilize --> grafico.show()

ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

In [41]:
# Visualização dos dados com a linha de previsão.
grafico = px.scatter(x = x_pessoas.ravel(), y = y_custo_diaria)
grafico.add_scatter(x = x_pessoas.ravel(), y = previsao_preco, name= 'previsões') 

grafico # se ao executar for exibido um erro , utilize --> grafico.show()

ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

In [43]:
# Indicação de qualidade do algoritimo.
previsao_custo_diaria.score(x_pessoas,y_custo_diaria)

0.957787164932263

In [44]:
# Passando outras quantidades de pessoas para simular o quanto seria cobrado.
qtd_pessoas = 2
previsao_custo_diaria.intercept_ + previsao_custo_diaria.coef_ * qtd_pessoas

array([288.28418376])

In [45]:
# Visualizacao dos erros do modelo
from sklearn.metrics import mean_squared_error, mean_absolute_error
MSE = mean_squared_error(y_custo_diaria,previsao_preco)
mean_absolute_error(y_custo_diaria,previsao_preco)
np.sqrt(MSE)

192.0095789285297