## Desafio 1 - vendas online

O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

In [87]:
# Importando os dados 
import pandas as pd

dados = pd.read_json('dados_vendas_clientes.json')
dados.head(2)

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."


In [88]:
# Normalizando o Dataframe
dados = pd.json_normalize(dados['dados_vendas'])
dados.head(2)

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"


Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, o novo desafio do projeto 1 será dividido em algumas metas:

In [90]:
#Remover os dados em listas dentro do DataFrame
colunas = list(dados.columns[1:])
dados = dados.explode(colunas)
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"


In [91]:
#Verificar os tipos de dados
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 640.0+ bytes


In [92]:
#Identificar colunas numéricas
dados['Valor da compra'].head()

0     R$ 836,5
0    R$ 573,33
0     R$ 392,8
0    R$ 512,34
1    R$ 825,31
Name: Valor da compra, dtype: object

In [93]:
#Transformar a coluna numérica para o tipo numérico
import numpy as np

dados['Valor da compra'] = dados['Valor da compra'].apply(lambda x: x.replace('R$','').replace(',','.').strip()).astype(np.float64)
dados['Valor da compra']

0    836.50
0    573.33
0    392.80
0    512.34
1    825.31
1    168.07
1    339.18
1    314.69
2    682.05
2    386.34
2    622.65
2    630.79
3    390.30
3    759.16
3    334.47
3    678.78
4    314.24
4    311.15
4    899.16
4    885.24
Name: Valor da compra, dtype: float64

In [94]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 640.0+ bytes


Devido a uma instabilidade no site da empresa, tivemos problemas com os nomes dos clientes durante o salvamento. Isso resultou em uma coluna de nomes de clientes com uma mistura de letras, maiúsculas e minúsculas, números e outros caracteres.

In [96]:
dados['Cliente']

0       @ANA _LUCIA 321
0    DieGO ARMANDIU 210
0    DieGO ARMANDIU 210
0    DieGO ARMANDIU 210
1    Isabely JOanes 738
1    Isabely JOanes 738
1    Isabely JOanes 738
1    Isabely JOanes 738
2    Isabely JOanes 738
2      JOãO Gabriel 671
2    Julya meireles 914
2    Julya meireles 914
3    Julya meireles 914
3       MaRIA Julia 444
3       MaRIA Julia 444
3       MaRIA Julia 444
4       MaRIA Julia 444
4       PEDRO PASCO 812
4      Paulo castro 481
4     Thiago fritzz 883
Name: Cliente, dtype: object

In [97]:
# Removendo caracteres especiais ou números da coluna 'Cliente'

#Transformando os dados em letras minusculas 
dados['Cliente'] = dados['Cliente'].str.lower()

#Removendo os caracter especiais e numeros
dados['Cliente'] = dados['Cliente'].str.replace('[^a-z\\ã]', ' ', regex=True)

#Removendo os espação de cada linha 
dados['Cliente'] = dados['Cliente'].apply(lambda x: x.strip())

In [98]:
dados['Cliente']

0        ana  lucia
0    diego armandiu
0    diego armandiu
0    diego armandiu
1    isabely joanes
1    isabely joanes
1    isabely joanes
1    isabely joanes
2    isabely joanes
2      joão gabriel
2    julya meireles
2    julya meireles
3    julya meireles
3       maria julia
3       maria julia
3       maria julia
4       maria julia
4       pedro pasco
4      paulo castro
4     thiago fritzz
Name: Cliente, dtype: object

In [15]:
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
0,06/06/2022,diego armandiu,573.33
0,06/06/2022,diego armandiu,392.8
0,06/06/2022,diego armandiu,512.34
1,07/06/2022,isabely joanes,825.31


In [109]:
# Alterando o tipo da coluna Data de venda para 'datetime'
dados['Data de venda'] = pd.to_datetime(dados['Data de venda'])
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     object        
 2   Valor da compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 640.0+ bytes


In [111]:
dados['Data de venda'] = dados['Data de venda'].dt.strftime('%m-%d')
dados['Data de venda']

0    06-06
0    06-06
0    06-06
0    06-06
1    07-06
1    07-06
1    07-06
1    07-06
2    08-06
2    08-06
2    08-06
2    08-06
3    09-06
3    09-06
3    09-06
3    09-06
4    10-06
4    10-06
4    10-06
4    10-06
Name: Data de venda, dtype: object

In [151]:
subconjunto = dados.groupby(['Cliente'])['Valor da compra'].sum().reset_index()
subconjunto 

Unnamed: 0,Cliente,Valor da compra
0,ana lucia,836.5
1,diego armandiu,1478.47
2,isabely joanes,2329.3
3,joão gabriel,386.34
4,julya meireles,1643.74
5,maria julia,2086.65
6,paulo castro,899.16
7,pedro pasco,311.15
8,thiago fritzz,885.24


In [153]:
# identificar o cliente com a maior compra na semana
subconjunto['Valor da compra'].idxmax()

2