# Criando o Dataset Artificialmente

Inicialmente eu busquei um dataset que se encaixasse com os requisitos do projeto, mas não consegui achar algo que se encaixasse com os requisitos. Então decidi criar um artificialmente (assim como foi dito na documentação que poderia ser feito) de acordo com minha interpretação da situação-problema.

Por se tratar de um dataset fictício e randômico, os dados não possuem nenhuma relação entre sí, logo os dados e gráficos não terão nenhum sentido ao comparar com um exemplo real.

Neste dataset "artificial" eu tentei adicionar inconsistências (valores nulos, duplicados, etc...) a fim de simular um dataset real, e então por em prática minhas habilidades em tratamento de dados.

In [1]:
import pandas as pd
import random
# importando os módulos para este notebook

## 1. Definindo as Variáveis

In [2]:
date_interval = pd.date_range('2020-1-1', '2022-12-31')
# definindo um intervalo de tempo para os dados

In [3]:
df = pd.DataFrame({
  'date': date_interval,
  'invested': [random.randrange(20_000, 100_000) for i in range(len(date_interval))],
  'returned': [random.randrange(10_000, 140_000) for i in range(len(date_interval))],
  'sales_channel': [random.choice(['TV', 'Radio', 'Social Media', 'Print Advertising', 'social media', 'tv']) for i in range(len(date_interval))]
})
# gerando o dataframe artificial e randômico com o intervalo de data anteriormente definido

# foi determinado um intervalo (min, max) para os valores de investimento e retorno, que são selecionados randômicamente

# foi determinado randômicamente dentre os valores fornecidos, o valor para a coluna dos canais de venda
# onde aproveitei para adicionar alguns valores inconsistêntes para simular um dataset real, que necessita de tratamento

# em todas as colunas, com excessão da data, é feito um "list comprehesion" onde gerou-se a quantidade de registros
# necessários para bater com a quantidade de dias na coluna das datas, usando o range(len(date_interval)

In [4]:
df
# como o df (dataframe) ficou afinal

Unnamed: 0,date,invested,returned,sales_channel
0,2020-01-01,74025,108610,Print Advertising
1,2020-01-02,33993,137278,tv
2,2020-01-03,92217,28635,Social Media
3,2020-01-04,79190,34487,Radio
4,2020-01-05,40134,43405,Social Media
...,...,...,...,...
1091,2022-12-27,34306,14006,tv
1092,2022-12-28,42139,37726,Print Advertising
1093,2022-12-29,87553,47059,Radio
1094,2022-12-30,20543,13637,TV


## 2. Gerando dados inconsistentes para simular um dataset real

### 2.1 Gerando dados nulos

In [5]:
for feature, n_nulls in [('invested', 20), ('returned', 50), ('sales_channel', 80)]:
  df.loc[df.sample(n_nulls).index, feature] = None

# gerando valores nulos em amostras aleatórias do df nas três columas acima

In [6]:
df.isnull().sum()
# verificando a criação dos valore nulos

date              0
invested         20
returned         50
sales_channel    80
dtype: int64

### 2.2 Gerando dados duplicados

In [7]:
df = pd.concat([df, df.sample(50)])
# gerando valores 50 registros duplicados ao final do df

In [8]:
df.duplicated().sum()

50

### 2.3 Gerando valores nulos e negativos nas colunas de investimento e retorno, simulando uma inconsistência

In [9]:
for i in range(30):
  for feature in ['invested', 'returned']:
    df.loc[df.sample().index, feature] = random.randrange(-5_000, 0)

# gerando valores menores que 1 para as culunas de investimento e retorno,
# simulando uma inconsistência que, ao menos neste caso em específico, não
# há a possibilidade de haver um investimento ou retorno monetário menor do que 1

In [13]:
df.query('invested < 1 or returned < 1').head()
# verificando os registros nulos e negativos criados

Unnamed: 0,date,invested,returned,sales_channel
7,2020-01-08,66152.0,-1347.0,social media
56,2020-02-26,92236.0,-1853.0,Social Media
58,2020-02-28,-4143.0,56365.0,social media
70,2020-03-11,85854.0,-326.0,Radio
77,2020-03-18,-1598.0,41756.0,TV


### 2.4 Visualizando o resultado final e exportando o dataset

In [11]:
df

Unnamed: 0,date,invested,returned,sales_channel
0,2020-01-01,74025.0,108610.0,Print Advertising
1,2020-01-02,33993.0,137278.0,tv
2,2020-01-03,92217.0,28635.0,Social Media
3,2020-01-04,79190.0,34487.0,Radio
4,2020-01-05,40134.0,43405.0,Social Media
...,...,...,...,...
1041,2022-11-07,-346.0,138362.0,Radio
358,2020-12-24,76492.0,123577.0,tv
367,2021-01-02,34097.0,127769.0,Social Media
1058,2022-11-24,68731.0,51069.0,Social Media


In [12]:
df.to_csv('../data.csv', index=False)

# exportando o dataset criado artificialmente, e com inconsistências (nulos, duplicatas, etc...), em um csv sem a coluna index