Desafio 04 - Consiste em analisar uma tabela com dados sobre vendas e realizar uma previsão de vendas a partir de novos dados utilizando machine learning com python.

    - Para isso, o primeiro passo é entender o desafio e o segundo passo é entender a área, o nicho que se vai trabalhar e realizar a previsão, para saber o nível de confiança necessário para a previsão de acordo com área de atuação. 
    
- Nosso desafio é conseguir prever as vendas que vamos ter em determinado período com base nos gastos em anúncios nas 3 grandes redes que a empresa Hashtag investe: TV, Jornal e Rádio.
- TV, Jornal e Rádio estão em milhares de reais;
- Vendas estão em milhões.

In [None]:
#Antes de iniciar, é necessário instalar algumas bibliotecas que vão ser utilizadas para esse projeto.

!pip install matplotlib
!pip install seaborn
!pip install scikit-learn

In [None]:
#Passo 03 - Importar a base de dados que vai se trabalhar 

import pandas as pd 

tabela = pd.read_csv("advertising.csv")
display(tabela)

# Para ver se os tipos de dados estão corretos, se alguma coluna ou linha contém dados que não serão utéis para a análise, utilizar esse comando: print(tabela.info())
# Depois de verificar se tudo está correto: Continuar, se algo estiver errado, tratar os dados e depois continuar;

In [None]:
#Passo 04 - Análise exploratória(explorar a base de dados de forma eficiente); 
#Realizar a correlação entre todos os itens;

display(tabela.corr())


In [None]:
#Para uma melhor visualização desses dados, vamos colocar essa tabela da correlação em formato de gráfico;

import seaborn as sns 
import matplotlib.pyplot as plt

# 2 etapas são necessárias para criar o gráfico, a 01 - Criação do Gráfico e a 02 - Exibir o Gráfico 

#01 - Criar o gráfico de calor

sns.heatmap(tabela.corr(), cmap ="Blues",annot=True)

#02 - Exibir o gráfico de calor 

plt.show()

#01 - Criar o gráfico de dispersão
sns.pairplot(tabela)

#02 - Exibir o gráfico de dispersão
plt.show()


In [None]:
#Passo 05 - Modelagem dos dados

from sklearn.model_selection import train_test_split 

#Definição das colunas da tabela que serão usadas para prever a coluna vendas
x = tabela.drop("Vendas",axis=1)

#A coluna que será prevista
y = tabela["Vendas"]

#Separação dos dados da tabela em 2, dados de treino e dados de teste, para fornecer aos modelos de IA;

x_treino, x_teste, y_treino, y_teste = train_test_split(x,y,test_size=0.25,random_state=1)

# Para criar a IA, é necessário 3 etapas: Importar, Criar e Treinar

#Etapa 01 - importar 

from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor 
from sklearn import metrics  
from sklearn.metrics import r2_score
import numpy as np 

#Etapa02 - Criar 

mod_reg_linear = LinearRegression()
mod_reg_random = RandomForestRegressor()

#Etapa 03 - Treina-las 

mod_reg_linear.fit(x_treino,y_treino)
mod_reg_random.fit(x_treino,y_treino)

#Depois de treinar os 2 modelos com os dados de treino, vamos atribuir agora a variaveis os dados de teste;

previsao_reg_linear= mod_reg_linear.predict(x_teste)
previsao_reg_random= mod_reg_random.predict(x_teste)

print(r2_score(y_teste,previsao_reg_linear ))
print(r2_score(y_teste,previsao_reg_random))

In [None]:
#Parte 06 - Entender o projeto e o quanto de % de confiança esta bom para o projeto:
# Interpretação dos Resultados

tabela_auxiliar = pd.DataFrame()
tabela_auxiliar['y_teste']= y_teste

tabela_auxiliar['Previsão Regressão Linear'] = previsao_reg_linear
tabela_auxiliar['Previsão Árvore de Decisão'] = previsao_reg_random
tabela_auxiliar = tabela_auxiliar.reset_index(drop=True)
display(tabela_auxiliar)

#Para visualizar melhor esses dados para interpretação dos resultados, vamos criar um gráfico:

plt.figure(figsize=(15,5))
sns.lineplot(data=tabela_auxiliar)
plt.show()



importancia_features = pd.DataFrame(mod_reg_random.feature_importances_, x_treino.columns)
plt.figure(figsize=(5,5))
sns.barplot(x=importancia_features.index, y= importancia_features[0])
plt.show()


Para o modelo de árvore de decisão, em termos de importância: o investimento em TV é 85% relevante para vendas, o investimento em rádio 10% e o investimento em jornal 2~3%;

In [None]:
#Como Realizar uma nova previsão:

tabela_nova = pd.read_csv("novos.csv")
display(tabela_nova)

In [None]:
previsao = mod_reg_random.predict(tabela_nova)
print(previsao)

Isso quer dizer que a partir da linha 0, teriamos uma previsão de vendas de R$7.921.000 reais;
-A partir da linha 1, teriamos uma previsão de vendas de R$8.631.000 reais;
-A partir da linha 2, teriamos uma previsão de vendas de R$19.871.000 reais;