# Notebook

Inicialmente eu busquei um dataset que se encaixasse com os requisitos do projeto, mas não consegui achar algo que se aproximasse. Então decidi criar um artificialmente (assim como foi dito que poderia ser na documentação) de acordo com minha interpretação da situação-problema.

Por se tratar de um dataset fictício e randômico, os dados não possuem nenhuma relação entre sí e não haverá necessidade de realizar um tratamento profundo dos dados por não haver dados nulos e/ou "sujos" como se esperaria caso os dados fossem coletados da vida real.

In [1]:
import pandas as pd
import random
import plotly.express as px
# importando os módulos para este notebook

In [2]:
date_interval = pd.date_range('2020-1-1', '2022-12-31')
# definindo um intervalo de tempo para os dados

In [3]:
df = pd.DataFrame({
  'date': date_interval,
  'invested': [random.randrange(20_000, 100_000) for i in range(len(date_interval))],
  'returned': [random.randrange(10_000, 140_000) for i in range(len(date_interval))],
  'selling_chanel': [random.choice(['TV', 'Radio', 'Social Media', 'Print Advertising']) for i in range(len(date_interval))]
})
# gerando o dataframe artificial e randômico com o intervalo de data anteriormente definido

# foi determinado um intervalo (min, max) para os valores de investimento e retorno, que são selecionados randômicamente

# foi determinado randômicamente dentre os valores fornecidos, o valor para a coluna dos canais de venda

# em todas as colunas, com excessão da data, é feito um "list comprehesion" onde gerou-se a quantidade de registros
# necessários para bater com a quantidade de dias na coluna das datas, usando o range(len(date_interval)

In [4]:
df
# como o dataframe ficou afinal

Unnamed: 0,date,invested,returned,selling_chanel
0,2020-01-01,90226,74527,Radio
1,2020-01-02,97447,130217,TV
2,2020-01-03,60744,103071,Print Advertising
3,2020-01-04,54435,108568,Print Advertising
4,2020-01-05,44942,44451,Radio
...,...,...,...,...
1091,2022-12-27,40500,135747,Social Media
1092,2022-12-28,90040,114727,TV
1093,2022-12-29,60184,99169,Radio
1094,2022-12-30,36833,54670,TV


In [5]:
df['roi'] = ((df['returned'] - df['invested']) / df['invested']) * 100
df
# adicionando a coluna do ROI de acordo com o calculo apropriado e multiplicando por 100 para receber a porcentagem

Unnamed: 0,date,invested,returned,selling_chanel,roi
0,2020-01-01,90226,74527,Radio,-17.399641
1,2020-01-02,97447,130217,TV,33.628537
2,2020-01-03,60744,103071,Print Advertising,69.680956
3,2020-01-04,54435,108568,Print Advertising,99.445210
4,2020-01-05,44942,44451,Radio,-1.092519
...,...,...,...,...,...
1091,2022-12-27,40500,135747,Social Media,235.177778
1092,2022-12-28,90040,114727,TV,27.417814
1093,2022-12-29,60184,99169,Radio,64.776353
1094,2022-12-30,36833,54670,TV,48.426683


In [6]:
df['month'] = df['date'].dt.month_name()
df['day_of_week'] = df['date'].dt.day_name()
df['day_of_month'] = df['date'].dt.day
df.head()
# definindo colunas para nome do mês, dia da semana e dia do mês
# com o intuito de ajudar na previsão do ROI (reconhecer padrões) ao treinar o modelo de ML (machine learning)

Unnamed: 0,date,invested,returned,selling_chanel,roi,month,day_of_week,day_of_month
0,2020-01-01,90226,74527,Radio,-17.399641,January,Wednesday,1
1,2020-01-02,97447,130217,TV,33.628537,January,Thursday,2
2,2020-01-03,60744,103071,Print Advertising,69.680956,January,Friday,3
3,2020-01-04,54435,108568,Print Advertising,99.44521,January,Saturday,4
4,2020-01-05,44942,44451,Radio,-1.092519,January,Sunday,5


In [7]:
df.info()
# verificando valores nulos assim como se o tipo de dado das colunas estão adequados

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1096 entries, 0 to 1095
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   date            1096 non-null   datetime64[ns]
 1   invested        1096 non-null   int64         
 2   returned        1096 non-null   int64         
 3   selling_chanel  1096 non-null   object        
 4   roi             1096 non-null   float64       
 5   month           1096 non-null   object        
 6   day_of_week     1096 non-null   object        
 7   day_of_month    1096 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(3), object(3)
memory usage: 68.6+ KB


In [8]:
df.describe().round()
# verificando dados estatísticos para as colunas numéricas
# e arredondando os valores decimais para uma melhor visualização

Unnamed: 0,invested,returned,roi,day_of_month
count,1096.0,1096.0,1096.0,1096.0
mean,59734.0,74860.0,51.0,16.0
std,22896.0,37010.0,110.0,9.0
min,20008.0,10048.0,-89.0,1.0
25%,40306.0,42530.0,-27.0,8.0
50%,59654.0,75435.0,27.0,16.0
75%,79056.0,106839.0,96.0,23.0
max,99927.0,139572.0,538.0,31.0


In [9]:
df['selling_chanel'].value_counts()
# verificando a distribuição dos canais de venda

Radio                308
TV                   271
Print Advertising    264
Social Media         253
Name: selling_chanel, dtype: int64

In [14]:
px.line(df, x='date', y=['invested', 'returned'])
# observando a série temporal dos valores investidos e retornados

# por conta de nossa base de dados randômica, a visualização acaba não
# sendo muito efetiva por não condizer com condições normais da realidade

In [18]:
px.histogram(df, x='selling_chanel', color='month')
# observando a distribuição dos canais de venda com uma
# dimensionalidade extra baseada nos meses

# novamente podemos ver que, por conta dos dados terem sido gerados artificialmente,
# não há muita diferença entre os canais de venda e principalmente entre os meses

In [21]:
px.box(df, y=['invested', 'returned'])
# visualizando a distribuição dos valores investidos e retornados

In [22]:
px.box(df['roi'])
# visualizando a distribuição do ROI onde pudemos detectar outliers em seu topo (bolinhas azuis)
# outliers são valores que estão muito afastados dos valores comuns mais agregados entre sí (valores atípicos)

In [None]:
px.histogram(df, x='roi')
# verificando a distribuição do ROI através de um histograma

In [27]:
px.scatter(df, x='invested', y='returned', color='month')
# visualizando a correlação entre os valores investidos e retornados
# com a dimensionalidade extra baseada nos meses

# aqui é possível ver a perfeita ramdomicidade dos dados que geramos,
# porém em um caso real, poderiamos ver aqui algum tipo de relação

In [35]:
df.to_csv('data.csv', index=False)

# exportando o dataset criado em um csv sem a coluna index