# Regressão Linear simples

A base foi gerada aleatória, e esse é apenas um exemplo simples da implementação.

In [22]:
import pandas as pd
import numpy as np
import seaborn as sns
import plotly.express as px
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Carregar a base de dados

In [23]:
bd = pd.read_csv("db.csv", delimiter=";", nrows=25)
bd

Unnamed: 0,Salario,Idade,Custo
0,11177.78,23,748.27
1,2633.9,59,196.82
2,11026.95,49,804.84
3,6739.66,49,462.12
4,9799.03,48,692.7
5,2520.08,28,181.86
6,1536.44,22,111.79
7,9299.25,41,743.4
8,11487.56,43,819.04
9,3389.47,23,213.46


In [24]:
# Observar os dados
# Outras analises podem ser feitas
bd.describe()

Unnamed: 0,Salario,Idade,Custo
count,25.0,25.0,25.0
mean,6712.6992,39.52,490.0616
std,3785.781008,11.597845,280.392484
min,1536.44,21.0,111.79
25%,2896.92,29.0,214.71
50%,6739.66,43.0,479.88
75%,10394.05,48.0,748.27
max,11487.56,59.0,882.67


# Agora é separar a base em X e Y

In [25]:
x = bd.iloc[:,0].values # Nesse caso, estou levando em consideração só a coluna de salario
y = bd.iloc[:,2].values # Aqui a coluna que quero prever, no caso a de custo

In [26]:
# Visualizando x e y
# display(x)
display(y)

array([748.27, 196.82, 804.84, 462.12, 692.7 , 181.86, 111.79, 743.4 ,
       819.04, 213.46, 231.55, 246.92, 882.67, 224.06, 701.65, 761.58,
       479.88, 715.11, 650.09, 232.7 , 168.13, 796.67, 153.45, 818.07,
       214.71])

In [27]:
# Vamos ver a correlação entre as colunas
np.corrcoef(x, y)

array([[1.        , 0.99122941],
       [0.99122941, 1.        ]])

# Precisamos fazer o reshape do X antes de enviar para o Sklearn

In [28]:
x = x.reshape(-1, 1)
x

array([[11177.78],
       [ 2633.9 ],
       [11026.95],
       [ 6739.66],
       [ 9799.03],
       [ 2520.08],
       [ 1536.44],
       [ 9299.25],
       [11487.56],
       [ 3389.47],
       [ 2876.39],
       [ 3181.83],
       [11431.13],
       [ 3270.25],
       [10872.05],
       [10383.22],
       [ 6113.69],
       [ 8975.79],
       [ 8837.5 ],
       [ 2896.92],
       [ 2417.69],
       [10394.05],
       [ 2373.24],
       [10739.36],
       [ 3444.25]])

# Vamos separar a base de treino e teste

In [29]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.33, random_state=30)

# Vamos treinar o modelo

In [30]:
regressor = LinearRegression()
regressor.fit(x_treino, y_treino)

regressor.score(x_teste, y_teste)
previsao = regressor.predict(x_teste)

# Vamos observar o modelo através de um gráfico

In [31]:
grafico = px.scatter(x=x.ravel(), y=y)
grafico.add_scatter(x=x_teste.ravel(), y=previsao, name="Linha de regressão")
grafico.show()