In [None]:
import numpy as np
import pandas as pd

In [None]:
vendas = pd.read_excel('/content/drive/MyDrive/python_tests/regression.xlsx')

In [None]:
vendas.head(50)

In [None]:
vendas.shape

In [None]:
vendas.dtypes

In [None]:
vendas = vendas.astype({"comissao": float})

In [None]:
vendas.dtypes

**Valores Missing (NAN)**

In [None]:
# RELAÇÃO DA QUANTIDADE
vendas.isnull().sum()

**Gráfico para análise inicial**

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.scatter(vendas.quantidade, vendas.comissao)
plt.title('Correlação')
plt.xlabel('Quantidade')
plt.ylabel('Comissão')
plt.grid(True)
plt.show()

**NORMALIDADE**

In [None]:
import scipy.stats as stats

In [None]:
stats.probplot(vendas['comissao'], dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

Teste Shapiro-Wilk

Ho = distribuição normal : p > 0.05

Ha = distribuição != normal : p <= 0.05

In [None]:
estatistica, p = stats.shapiro(vendas.comissao)
print('Estatística do teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))

Ho = não há corrrelação linear: p > 0,05

Ha = existe correlação linear: p <= 0,05

In [None]:
# Spearman
coef,p = stats.spearmanr(vendas.quantidade, vendas.comissao)
print('Coeficiente de correlação: {}'.format(coef))
print('p-valor: {}'.format(p))

In [None]:
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms

In [None]:
# Criação do modelo
regressao = smf.ols('comissao ~ quantidade', data = vendas).fit()

In [None]:
print(regressao.summary())

Estatística t:

Ho = coeficiente igual a zero : p > 0,05 (coeficiente não validado)

Ha = coeficiente diferente de zero: p <= 0,05 (coeficiente validado)

**Equação: Comissão = -626 + 178.quantidade**

**R^2 ajustado = 0,954**

In [None]:
plt.scatter(y=vendas.comissao, x=vendas.quantidade, color='blue', s=50, alpha=0.6)
X_plot = np.linspace(0, 70)
plt.plot(X_plot, X_plot*regressao.params[1] + regressao.params[0], color='r')
plt.title('Reta de regressão')
plt.ylabel('COMISSÃO')
plt.xlabel('QUANTIDADE')
plt.show()

In [None]:
regressao.params

**y = b0 + b1.x + b2.x^2**

In [None]:
modelo2 = np.poly1d(np.polyfit(vendas.quantidade, vendas.comissao, 2))

In [None]:
y2 = modelo2(vendas.quantidade)
y2

In [None]:
modelo2.coef

In [None]:
print("Equação: COMISSÃO = {:.1f} + {:.1f}*quantidade + {:.1f}*quantidade^2".format(modelo2.coef[2], modelo2.coef[1], modelo2.coef[0]))

In [None]:
plt.scatter(vendas.quantidade, vendas.comissao)
plt.plot(vendas.quantidade,y2,color='red');


**y = b0 + b1.x + b2.x^2 + b3.x^3**

In [None]:
modelo3 = np.poly1d(np.polyfit(vendas.quantidade, vendas.comissao, 3))

In [None]:
y3 = modelo3(vendas.quantidade)
y3

In [None]:
modelo3.coef

In [None]:
print("Equação: COMISSÃO = {:.1f} + {:.1f}*quantidade + {:.1f}*quantidade^2 + {:.1f}*quantidade^3".format(modelo3.coef[3], modelo3.coef[2], modelo3.coef[1], modelo3.coef[0]))

In [None]:
plt.scatter(vendas.quantidade, vendas.comissao)
plt.plot(vendas.quantidade,y3,color='red');

In [None]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

In [None]:
# Pré Processamento
pre_process = PolynomialFeatures(degree=2)

In [None]:
x = vendas[['quantidade']]
y = vendas.comissao

In [None]:
x

In [None]:
y

In [None]:
x_poly = pre_process.fit_transform(x)
x_poly

**Criação do modelo**

In [None]:
modelo_sk = LinearRegression()

In [None]:
modelo_sk.fit(x_poly, y)

In [None]:
y_pred = modelo_sk.predict(x_poly)

In [None]:
plt.scatter(x, y, c = "gray")
plt.xlabel("Quantidade")
plt.ylabel("Comissão")
plt.plot(x, y_pred);

In [None]:
modelo_sk.coef_

In [None]:
modelo_sk.intercept_

In [None]:
print("Equação: COMISSÃO = {:.1f} + {:.1f}*quantidade + {:.1f}*quantidade^2".format(modelo_sk.intercept_, modelo_sk.coef_[1], modelo_sk.coef_[2]))

**Previsão**

In [None]:
quantidade = 72
previsao = modelo_sk.predict(pre_process.fit_transform([[quantidade]]))
print("Se vender {}, irá ganhar {:.2f} reais de comissão".format(quantidade, previsao[0]))


In [None]:
# Gráfico com valor previsto
plt.scatter(x, y, c = "gray")
plt.xlabel("Quantidade")
plt.ylabel("Comissão")
plt.plot(x, y_pred)
plt.scatter(72, previsao, c = "red");

**Avaliação do modelo**

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error


In [None]:
# Erro médio quadrático (MSE)
mean_squared_error(y, y_pred)

In [None]:
# Erro médio absoluto (MAE)
mean_absolute_error(y, y_pred)