In [None]:
#importando a base de dados
import pandas as pd
tabela = pd.read_csv("advertising.csv")
display(tabela)

In [None]:
#identificando se há valores vazios ou em formato errado
display(tabela.info())
print(tabela.columns)

In [None]:
# iniciando a análise exploratória por meio da correlação
import seaborn as sns
import matplotlib.pyplot as plt

display(tabela.corr())

# criando e exibindo o gráfico em forma de mapa de calor para a correlação entre as colunas
sns.heatmap(tabela.corr(), annot=True, cmap="Wistia")
plt.show()

In [None]:
from sklearn.model_selection import train_test_split

# escolha das colunas a serem usadas. y é a coluna que queremos que o modelo calcule (vendas) e x são todas as outras colunas (TV, rádio e jornal)
y = tabela["Vendas"]
x = tabela.drop("Vendas", axis=1)

# separando os dados em treino e teste. 70% de treino para os modelos aprenderem e 30% de teste para observar se o modelo aprendeu corretamente
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3, random_state=1)

In [None]:
# problema de regressão -> valores de venda são contínuos
# modelos selecionados para fazer o teste: regressão linear, Random Forest, KNN-nearest neighbors e Gradient Boosting 

# importando as inteligências
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import GradientBoostingRegressor

# criando as inteligencias aritificiais
modelo_regressaolinear = LinearRegression()
modelo_arvoredecisao = RandomForestRegressor()
modelo_knn = KNeighborsRegressor()
modelo_boost = GradientBoostingRegressor()

# treinando as inteligencias artificias
modelo_regressaolinear.fit(x_treino, y_treino)
modelo_arvoredecisao.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)
modelo_boost.fit(x_treino, y_treino)

In [None]:
from sklearn import metrics

# calculando as previsões
previsao_regressaolinear = modelo_regressaolinear.predict(x_teste)
previsao_arvoredecisao = modelo_arvoredecisao.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste)
previsao_boost = modelo_boost.predict(x_teste)

# comparando as previsões com o y_teste por meio do R²
print(metrics.r2_score(y_teste, previsao_regressaolinear))
print(metrics.r2_score(y_teste, previsao_arvoredecisao))  
print(metrics.r2_score(y_teste, previsao_knn))  
print(metrics.r2_score(y_teste, previsao_boost))  

#melhor modelo para esse projeto = Random Forest
#96.05% de coeficiente de determinação

In [None]:
# tabela auxiliar apenas para visualizar o desempenho de cada modelo
tabela_auxiliar = pd.DataFrame()
tabela_auxiliar["y_teste"] = y_teste
tabela_auxiliar["Previsoes ArvoreDecisao"] = previsao_arvoredecisao
tabela_auxiliar["Previsoes Regressao Linear"] = previsao_regressaolinear
tabela_auxiliar["Previsoes KNN"] = previsao_knn
tabela_auxiliar["Previsoes Boost"] = previsao_boost

plt.figure(figsize=(15,6))
sns.lineplot(data=tabela_auxiliar)
plt.show()

In [None]:
# executando novas previsões

nova_tabela = pd.read_csv("novos.csv")
display(nova_tabela)
previsao = modelo_arvoredecisao.predict(nova_tabela)
print(previsao)

In [None]:
# qual a influência de cada variável (TV, rádio e jornal) para as vendas?
colunas = list(x_teste.columns)
importancia = pd.DataFrame(index=colunas, data=modelo_arvoredecisao.feature_importances_)
importancia = importancia * 100
print(importancia)

sns.barplot(x=x_treino.columns, y=modelo_arvoredecisao.feature_importances_)
plt.show()

# TV exerce uma influência de um pouco menos do que 90%