# Data Set

A relação da venda de produtos de uma loja, onde ele é representado pelos seguintes atributos:
- TV: Orçamento disponível para promover via TV (em Milhões).
- Radio: Orçamento disponível para promover via radio (em Milhões).
- Social Media: Promoção via rede social (em Milhões).
- Influencer: Se a pessoa que ira pomover é um:
    - Mega: Mínimo 1 milhão de seguidores
    - Macro: 500 mil a 1 milhão de seguidores
    - Micro: 10 mil a 500 mil seguidores
    - Nano: 1 mil e 10 mil seguidores 
- Sales: Ganho bruto (em Milhões). **Atributo Dependente**

## Como os dados estão clusterizados

Os dados estão relacionados atráves do Orçamento gasto no Marketing na TV, RADIO e SOCIAL_MEDIA em relação ao aumento de Sales da Loja. Onde o investimento no Marketing afeta diretamente no Sales da Loja. 


In [21]:
# Importando o dataset
import pandas as pd
import numpy as np
import seaborn as sn
import matplotlib.pyplot as plt

dataset = pd.read_csv("Marketing_and_Sales.csv")

# Tratando os dados


In [2]:
# Vendo a ocorrencia de NULL em todas as features do dataset
dataset.isna().sum()

TV              10
Radio            4
Social Media     6
Influencer       0
Sales            6
dtype: int64

In [3]:
# Tratando os campos nulos da Tabela

dataset.isna().sum()

dataset["TV"].fillna(dataset["TV"].median(), inplace=True)
dataset["Social Media"].fillna(dataset["Social Media"].median(), inplace=True)
dataset["Radio"].fillna(dataset["Radio"].median(), inplace=True)

dataset.dropna(subset=["Sales"], inplace=True)

dataset.isna().sum()


TV              0
Radio           0
Social Media    0
Influencer      0
Sales           0
dtype: int64

In [4]:
# Cell para olhar as features da tabela 
dataset.head()

Unnamed: 0,TV,Radio,Social Media,Influencer,Sales
0,16.0,6.566231,2.907983,Mega,54.732757
1,13.0,9.237765,2.409567,Mega,46.677897
2,41.0,15.886446,2.91341,Mega,150.177829
3,83.0,30.020028,6.922304,Mega,298.24634
4,15.0,8.437408,1.405998,Micro,56.594181


In [22]:
# Pegar os atributos do database e Remover o atributo dependende 

# X = pd.DataFrame(dataset.iloc[:,:-1])

# # Pegar o atributo dependente
# y = pd.DataFrame(dataset.iloc[:,-1])

# Pegar os atributos do database e Remover o atributo dependende 



# Pegar o atributo dependente
y = pd.DataFrame(dataset["Sales"])
dataset = dataset.drop("Sales", axis=1)

X = dataset




In [34]:
# #  Convertendo as labels em números
# #  Obs: Fazer isso para as que são do tipo Obj
# from sklearn.preprocessing import LabelEncoder

# df = pd.read_csv("Marketing_and_Sales.csv")

# columns = ["Influencer"]
# le = LabelEncoder()
# for feature in columns:
#     df[feature] = le.fit_transform(df[feature])

# #  Extraindo o dados a ser analizado (DEPEDENTE)

# y = df["Sales"]
# df = df.drop(columns=["Sales"], axis=1)

# # Plotando a Mariz Correlacional para ver a relação do DEPENDENTE

# plt.figure(figsize=(24,16))
# sn.heatmap(pd.concat([df,y],axis=1).corr(), annot=True, cmap="coolwarm")

In [6]:
X

Unnamed: 0,TV,Radio,Social Media,Influencer
0,16.0,6.566231,2.907983,Mega
1,13.0,9.237765,2.409567,Mega
2,41.0,15.886446,2.913410,Mega
3,83.0,30.020028,6.922304,Mega
4,15.0,8.437408,1.405998,Micro
...,...,...,...,...
4567,26.0,4.472360,0.717090,Micro
4568,71.0,20.610685,6.545573,Nano
4569,44.0,19.800072,5.096192,Micro
4570,71.0,17.534640,1.940873,Macro


In [7]:
y

Unnamed: 0,Sales
0,54.732757
1,46.677897
2,150.177829
3,298.246340
4,56.594181
...,...
4567,94.685866
4568,249.101915
4569,163.631457
4570,253.610411


In [26]:
# Fazendo um One Hot enconder da feature Influencer para os valores =[Nano, Micro, Macro e Mega]
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [3])], remainder='passthrough')
X = np.array(ct.fit_transform(X))
X = pd.DataFrame(X)


# Treinamento do Modelo

In [9]:
#  Analisar sobre a influencia do Marketing nos canais de Comunicação  na Vendas
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.2, random_state=42)


## Regressão Linear

In [10]:
from sklearn.linear_model import LinearRegression

regressor = LinearRegression()
regressor.fit(X_train, y_train)


In [11]:
# Os valores previstos 20% de dados
y_pred = regressor.predict(X_test)

y_pred

array([[127.23304242],
       [182.82771933],
       [ 74.10323909],
       [306.90622744],
       [125.32637373],
       [304.05519907],
       [327.90104151],
       [ 60.31985367],
       [106.78832516],
       [210.10078753],
       [ 71.4949712 ],
       [174.09228826],
       [ 35.50920394],
       [174.23741917],
       [353.18176738],
       [302.06758608],
       [163.49468278],
       [113.35070325],
       [161.03387927],
       [ 52.98254808],
       [259.65399781],
       [163.15259564],
       [ 39.26430919],
       [131.51432697],
       [253.19591896],
       [167.02009282],
       [342.18595854],
       [218.64126947],
       [252.48494822],
       [289.11015962],
       [340.69252306],
       [ 52.99380916],
       [ 54.08643473],
       [149.81184466],
       [ 90.1932181 ],
       [217.04207453],
       [278.25466451],
       [188.76335998],
       [293.31343634],
       [288.75896131],
       [181.10884499],
       [269.32750763],
       [270.19531306],
       [ 96

In [12]:
y_test

Unnamed: 0,Sales
1123,127.664697
422,180.374609
3593,75.124159
2482,310.350396
887,118.101651
...,...
2479,304.783007
4041,254.380687
789,271.126009
4200,99.014871


In [39]:
from sklearn import metrics

print(f"R2: {metrics.r2_score(y_test, y_pred)}")
print(f"MAE: {metrics.mean_absolute_error(y_test, y_pred)} ")
print(f"MSE: {metrics.mean_squared_error(y_test, y_pred)} ")

R2: 0.9959781597544966
MAE: 2.6224815802291 
MSE: 34.68278024385513 


# Gradiente


In [15]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [16]:
from sklearn.linear_model import SGDRegressor

#APlicando o Gradiente e usando hiper parametros
sgd_regressor = SGDRegressor(max_iter=1000, alpha=0.0001, random_state=42)
sgd_regressor.fit(X_train, y_train)

  y = column_or_1d(y, warn=True)


In [17]:
from sklearn.metrics import mean_squared_error, r2_score

y_pred = sgd_regressor.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)


print(f"R2: {r2}")
print(f"MSE: {mse} ")

R2: 0.9959781597544966
MSE: 34.68278024385513 
