# Projeto Ciência de Dados - Previsão de Vendas

- Nosso desafio é conseguir prever as vendas que vamos ter em determinado período com base nos gastos em anúncios nas 3 grandes redes que a empresa Hashtag investe: TV, Jornal e Rádio

- Base de Dados: https://drive.google.com/drive/folders/1o2lpxoi9heyQV1hIlsHXWSfDkBPtze-V?usp=sharing

### Passo a Passo de um Projeto de Ciência de Dados

- Passo 1: Entendimento do Desafio
- Passo 2: Entendimento da Área/Empresa
- Passo 3: Extração/Obtenção de Dados
- Passo 4: Ajuste de Dados (Tratamento/Limpeza)
- Passo 5: Análise Exploratória
- Passo 6: Modelagem + Algoritmos (Aqui que entra a Inteligência Artificial, se necessário)
- Passo 7: Interpretação de Resultados

# Projeto Ciência de Dados - Previsão de Vendas

- Nosso desafio é conseguir prever as vendas que vamos ter em determinado período com base nos gastos em anúncios nas 3 grandes redes que a empresa Hashtag investe: TV, Jornal e Rádio
- TV, Jornal e Rádio estão em milhares de reais
- Vendas estão em milhões

#### Importar a Base de dados

In [None]:
import pandas as pd

tabela = pd.read_csv("advertising.csv")
display(tabela)



#### Análise Exploratória
- Vamos tentar visualizar como as informações de cada item estão distribuídas
- Vamos ver a correlação entre cada um dos itens

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

display(tabela.corr())

# criar grafico

sns.heatmap(tabela.corr(), cmap="Wistia", annot=True)

# mostrar
plt.show()

#### Com isso, podemos partir para a preparação dos dados para treinarmos o Modelo de Machine Learning

- Separando em dados de treino e dados de teste

In [None]:
# y -> quem quero prever
# x -> resto


y = tabela["Vendas"]
x = tabela[["TV", "Radio", "Jornal"]]

from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.4)

#### Temos um problema de regressão - Vamos escolher os modelos que vamos usar:

- Regressão Linear
- RandomForest (Árvore de Decisão)

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor

modelo_regressaolinear = LinearRegression()
modelo_arvoredecisao = RandomForestRegressor()

modelo_regressaolinear.fit(x_treino, y_treino)
modelo_arvoredecisao.fit(x_treino, y_treino)


#### Teste da AI e Avaliação do Melhor Modelo

- Vamos usar o R² -> diz o % que o nosso modelo consegue explicar o que acontece

In [None]:
# fazer as previsões 

p_regressaolinear = modelo_regressaolinear.predict(x_teste)
p_arvoredecisao = modelo_arvoredecisao.predict(x_teste)

from sklearn.metrics import r2_score

print("previsão da regreção linear:  ", r2_score(y_teste, p_regressaolinear))
print("previsão da arvore de decisão:", r2_score(y_teste, p_arvoredecisao))

#### Visualização Gráfica das Previsões

In [None]:
tbl_ax = pd.DataFrame()
tbl_ax["y_teste"] = y_teste
tbl_ax["arvore decisao"] = p_arvoredecisao
tbl_ax["regressao linear"] = p_regressaolinear

plt.figure(figsize=(15, 6))
sns.lineplot(data=tbl_ax)

plt.show()

#### Como fazer uma nova previsão?

In [None]:
novos_dados = pd.read_csv("novos.csv")
display(novos_dados)

In [None]:
display(modelo_arvoredecisao.predict(novos_dados))