## Conceitos Estatísticos para IA

### Trabalho prático usando o Python
 
### Modelo de regressão linear simples



### Exemplo 
Faça a previsão das vendas (R$) mensal no período de 12 meses
da empresa XYZ a partir dos dados disponíveis de Vendas (R$) e Budget Advertising (R$) da empresa.

### Dicionário de variáveis
![dic_vendas-2.png](attachment:dic_vendas-2.png)


In [None]:
# Importar as bibliotecas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns



In [None]:
# Importar os dados

df = pd.read_csv('Vendas_2016a2018.csv', ";")

In [None]:
df.head()

In [None]:
df.info()

In [None]:
# Análise exploratória dos dados

df.describe().round(2)

In [None]:
# Gráfico de dispersão ou scatterplot (Gráfico(X,Y))
plt.scatter('Budget_Advertising', 'Vendas', data=df)
plt.xlabel('Budget_Advertising')
plt.ylabel('Vendas')
plt.title('Gráfico de dispersão entre Vendas e Budget')

In [None]:
sns.jointplot(x='Budget_Advertising', y = 'Vendas', data=df, kind='scatter')

In [None]:
sns.jointplot(x='Budget_Advertising', y = 'Vendas', data=df, kind='reg')

In [None]:
sns.jointplot(x='Budget_Advertising', y = 'Vendas', data=df, kind='resid')

In [None]:
sns.jointplot(x='Budget_Advertising', y = 'Vendas', data=df, kind='hex')

In [None]:
sns.lmplot(x='Budget_Advertising', y = 'Vendas', data=df, hue='ano')

In [None]:
help(sns.jointplot)

### Análise de correlação de Pearson

![fig_correlacao.png](attachment:fig_correlacao.png)

In [None]:

from scipy.stats.stats import pearsonr

from scipy.stats import pearsonr

In [None]:
#variaveis_quantitativas = df['Vendas', 'Budget_Advertising']

# Correlação de Pearson
pearsonr(df['Vendas'], df['Budget_Advertising'])

#(correlação de Pearson, p-value)

# Teste de hipótese
# H0: correlação = 0
# H1: correlação <> 0
# erro decisão: 0,05 ou 5%
# Critério de decisão:
# p-valor < erro decisão então rejeito H0
#p-valor >= erro decisão então não rejeito H0

# 4.5750154547011517e-11 --> aritmética -> 0,0000000000457

# conclusão: p-valor = 0,0000000000457 < 0,05, logo existe correlação positva entre Vendas e Budget
# 

# Correlação de Pearson
#corr = df[var_num].corr(method='pearson')
#corr

![fig_reg_simples.png](attachment:fig_reg_simples.png)

In [None]:
# Importar biblioteca
from sklearn.linear_model import LinearRegression
# linear Model
lm = LinearRegression()

In [None]:
# Definir a variável resposta (Y) e a preditora (X)
X = df[['Budget_Advertising']]

y = df[['Vendas']]

In [None]:
# Ajustar o modelo linear
lm.fit(X,y)

In [None]:
# Itercepto do modelo (b0)
print(lm.intercept_)

In [None]:
# Coeficiente angular (b1)
coeff_df = pd.DataFrame(lm.coef_,X.columns, columns=['Coefficiente'])
coeff_df.round(4)

In [None]:
# modelo téorico
# y = b0 + b1*X

# modelo ajustado

# Vendas = 1060550.39605172 + 4.9641 * Budget_Advertising

# Vendas = 1060550.39605172 + 4.9641 *72800 = 1421939 

In [None]:
# Importar a biblioteca (Rn quadrado (R2) ou coeficiente de determinação do modelo)
# Medida de acurácia do modelo: R2 varia de 0 a 1, quanto mais próxima de 1 melhor o acerto

from sklearn.metrics import r2_score

In [None]:
predictions = lm.predict(X)

In [None]:
predictions

In [None]:
# R2 = 0.73 -> o Budget explica 73% da variação das Vendas e o erro de 27%
print(r2_score(y, predictions))

In [None]:
sns.jointplot(x='Budget_Advertising', y = 'Vendas', data=df, kind='reg')

In [None]:
# Calcular a estimativa das Vendas pelo modelo

df["Vendas_estimadas"] = lm.predict(X).round(2)

In [None]:
df.head()

In [None]:
# Calcular o resíduo do modelo
df["Residuos"] = df['Vendas'] - df['Vendas_estimadas']

In [None]:
df.head()

In [None]:
df.describe().round(2)

In [None]:
plt.hist(df['Residuos'])

In [None]:
# Calcular o resíduo padronizado (Normal(0,1))
# desvio padrão dos resíduos = 344546.91
media = df['Residuos'].mean()
dp = df['Residuos'].std()
df["residuo_padr"] = (df['Residuos']-media)/dp

In [None]:
df.head()

In [None]:
df.describe().round(2)

In [None]:
plt.subplot(1, 2, 1)
plt.hist(df['Residuos'])
plt.subplot(1, 2, 2)
plt.hist(df['residuo_padr'])


In [None]:
# Gráfico do resíduo
sns.jointplot(x='Budget_Advertising', y = 'Vendas', data=df, kind='resid')

### Previsão do modelo para  as Vendas em 2019 

In [None]:
# Importar a base de dados de 2019
Budget_2019 = pd.read_csv('Budget_2019.csv')

In [None]:
Budget_2019.head()

In [None]:
# Calcular as estimativas das Vendas para 2019

Budget_2019["Vendas_estimadas"] = (?? + ?? * Budget_2019['Budget_Advertising']).round(2)

In [None]:
Budget_2019.head(12)

In [None]:
# Calcular a estimativa do total de Vendas para 2019 
total = Budget_2019['Vendas_estimadas'].sum()
print('Vendas estimadas para 2019: Budget_2019 R$', total)