### Etapa 1 - Projeto desafio 1: vendas online

O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

A base de dados utilizada nessa análise é a dados_vendas_clientes.json e contém informações importantes sobre os clientes como, o nome de cadastro do cliente, o valor total pago na compra e o dia da compra.

Sabendo essas informações, o desafio do projeto 1: vendas online será abrir a base de dados com Pandas e aplicar o json_normalize.

In [16]:
# Biblioteca
import pandas as pd

In [17]:
# Carregar os dados do arquivo Json
dados_vendas = pd.read_json('dados_vendas_clientes.json')
dados_vendas

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [18]:
# Normalizando os dados para transformar em tabela
dados_vendas = pd.json_normalize(dados_vendas['dados_vendas'])

In [19]:
# Visualizando
dados_vendas

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


### Etapa 2 - Projeto desafio 1: vendas online

Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, o novo desafio do projeto 1 será dividido em algumas metas:

- Remover os dados em listas dentro do DataFrame;
- Verificar os tipos de dados;
- Identificar colunas numéricas;
- Transformar a coluna numérica para o tipo numérico.

In [20]:
# Colunas a tratar
col_exp = ['Cliente','Valor da compra']

In [21]:
# Explode nas colunas para tirar os dados de lista
dados_vendas = dados_vendas.explode(col_exp[:])

In [22]:
# Visualizando
dados_vendas.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"


In [23]:
# Tipo dos dados
dados_vendas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 640.0+ bytes


In [24]:
# Alterando o valores
dados_vendas['Valor da compra'] = dados_vendas['Valor da compra'].str.extract(r'(\d+,\d+)')[0].str.replace(',', '.').astype(float)


In [25]:
# Alterando a coluna de clientes
dados_vendas['Cliente'] = dados_vendas['Cliente'].str.replace(r'[^a-zA-Z\s]', '', regex=True).str.strip()
dados_vendas['Cliente'] = dados_vendas['Cliente'].str.title()

In [26]:
# Tipo dos dados
dados_vendas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 640.0+ bytes


### Etapa 3 - Projeto desafio 1: vendas online

Na etapa 2, trabalhamos na transformação dos dados numéricos. Agora, podemos trabalhar com valores textuais.

Devido a uma instabilidade no site da empresa, tivemos problemas com os nomes dos clientes durante o salvamento. Isso resultou em uma coluna de nomes de clientes com uma mistura de letras, maiúsculas e minúsculas, números e outros caracteres.

Sabendo disso, manipule os textos presentes na coluna Cliente para que seja obtido como resultado os nomes dos clientes em letras minúsculas, com a ausência de caracteres especiais ou números.

In [27]:
# Visualizando
dados_vendas.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,Ana Lucia,836.5
0,06/06/2022,Diego Armandiu,573.33
0,06/06/2022,Diego Armandiu,392.8
0,06/06/2022,Diego Armandiu,512.34
1,07/06/2022,Isabely Joanes,825.31


### Etapa 4 - Projeto desafio 1: vendas online
Nas etapas anteriores, já trabalhamos com vários tipos de dados, agora podemos trabalhar com os dados de tempo.

Na coluna Data de venda, temos datas em formato 'dia/mês/ano' (dd/mm/AAAA). Transforme esses dados para o tipo datetime e busque uma forma de visualização de subconjunto que possa contribuir no objetivo do contexto que os dados estão inseridos.

In [28]:
# Alterando o tipo dos dados para data
dados_vendas['Data de venda'] = pd.to_datetime(dados_vendas['Data de venda'], format='%d/%m/%Y')

In [None]:
# Agrupando os dados pela data para extrair o valor total de venda por dia
dados_vendas.groupby('Data de venda')['Valor da compra'].sum()

Data de venda
2022-06-06    2314.97
2022-06-07    1647.25
2022-06-08    2321.83
2022-06-09    2162.71
2022-06-10    2409.79
Name: Valor da compra, dtype: float64

In [31]:
# Agrupando pelos clientes para extrair o valor total de venda por clientes
dados_vendas.groupby('Cliente')['Valor da compra'].sum()

Cliente
Ana Lucia          836.50
Diego Armandiu    1478.47
Isabely Joanes    2329.30
Joo Gabriel        386.34
Julya Meireles    1643.74
Maria Julia       2086.65
Paulo Castro       899.16
Pedro Pasco        311.15
Thiago Fritzz      885.24
Name: Valor da compra, dtype: float64