# Projeto Ciência de Dados - Previsão de Vendas

- Nosso desafio é conseguir prever as vendas que vamos ter em determinado período com base nos gastos em anúncios nas 3 grandes redes que a empresa Hashtag investe: TV, Jornal e Rádio

- Base de Dados: https://drive.google.com/drive/folders/1o2lpxoi9heyQV1hIlsHXWSfDkBPtze-V?usp=sharing

### Passo a Passo de um Projeto de Ciência de Dados

- Passo 1: Entendimento do Desafio
- Passo 2: Entendimento da Área/Empresa
- Passo 3: Extração/Obtenção de Dados
- Passo 4: Ajuste de Dados (Tratamento/Limpeza)
- Passo 5: Análise Exploratória
- Passo 6: Modelagem + Algoritmos (Aqui que entra a Inteligência Artificial, se necessário)
- Passo 7: Interpretação de Resultados

# Projeto Ciência de Dados - Previsão de Vendas

- Nosso desafio é conseguir prever as vendas que vamos ter em determinado período com base nos gastos em anúncios nas 3 grandes redes que a empresa Hashtag investe: TV, Jornal e Rádio
- TV, Jornal e Rádio estão em milhares de reais
- Vendas estão em milhões

### Instalar bibliotecas:

!pip install matplotlib
!pip install seaborn
!pip install scikit-learn

#### Importar a Base de dados

In [None]:
# Passo 1: Importar a base de dados

import pandas as pd

tabela = pd.read_csv('advertising.csv')

#### Análise Exploratória
- Vamos tentar visualizar como as informações de cada item estão distribuídas
- Vamos ver a correlação entre cada um dos itens

In [None]:
# Passo 2: Visualizar a base e fazer os ajustes

display(tabela)

In [None]:
# Passo 3: Análise exploratória --> entender como a sua base de dados está se comportando

correlacao = tabela.corr()
display(correlacao)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.heatmap(correlacao, annot=True, cmap='Wistia')  # cmap --> Escala de cores
plt.show()

In [None]:
sns.pairplot(tabela)
plt.show()

#### Com isso, podemos partir para a preparação dos dados para treinarmos o Modelo de Machine Learning

- Separando em dados de treino e dados de teste

In [None]:
# Passo 4: Criar a Inteligência Artificial e fazer as previsões

# y --> quem você quer prever (Vendas)
# x --> o resto da base de dados (quem será usado pra fazer a previsão)

y = tabela['Vendas']
x = tabela[['TV', 'Radio', 'Jornal']]

from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3)
# test_size=0.3  --> 30% para teste e 70% para treino 

#### Temos um problema de regressão - Vamos escolher os modelos que vamos usar:

- Regressão Linear
- RandomForest (Árvore de Decisão)

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor

# Criar as IAs
modelo_regressaolinear = LinearRegression()
modelo_arvoredecisao = RandomForestRegressor()

# Treinar as IAs
modelo_regressaolinear.fit(x_treino, y_treino)
modelo_arvoredecisao.fit(x_treino, y_treino)

#### Teste da IA e Avaliação do Melhor Modelo

- Vamos usar o R² -> diz o % que o nosso modelo consegue explicar o que acontece

In [None]:
# Testar pra ver qual IA é melhor

from sklearn.metrics import r2_score

# Criar as previsões
previsao_regressaolinear = modelo_regressaolinear.predict(x_teste)
previsao_arvoredecisao = modelo_arvoredecisao.predict(x_teste)

# Comparar modelos
print(r2_score(y_teste, previsao_regressaolinear))  # 86%
print(r2_score(y_teste, previsao_arvoredecisao))    # 94% --> melhor

#### Visualização Gráfica das Previsões

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

tabela_auxiliar = pd.DataFrame()
tabela_auxiliar['y_teste'] = y_teste
tabela_auxiliar['Previsões Árvore de Decisão'] = previsao_arvoredecisao
tabela_auxiliar['Previsões Regressão Linear'] = previsao_regressaolinear

plt.figure(figsize=(15,6))
sns.lineplot(data=tabela_auxiliar)
plt.show()

#### Como fazer uma nova previsão?

In [None]:
novos = pd.read_csv('novos.csv')
display(novos)

In [None]:
previsao = modelo_arvoredecisao.predict(novos)
print(previsao)