O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

https://caelum-online-public.s3.amazonaws.com/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json

#Importando o dado

In [None]:
import pandas as pd
url = 'https://caelum-online-public.s3.amazonaws.com/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json'

In [None]:
dados = pd.read_json(url)
dados

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


Agora vamos normalizar a coluna dados_vendas

In [None]:
dados= pd.json_normalize(dados['dados_vendas'])

In [None]:
dados

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


## ETAPA 2

 novo desafio do projeto 1 será dividido em algumas metas:

* Remover os dados em listas dentro do DataFrame;
* Verificar os tipos de dados;
* Identificar colunas numéricas;
* Transformar a coluna numérica para o tipo numérico.

In [None]:
colunas = list(dados.columns)
colunas


['Data de venda', 'Cliente', 'Valor da compra']

In [None]:
dados=dados.explode(colunas[1:])
dados.reset_index(inplace=True , drop=True)

podemos observar que apenas a ultima coluna é numerica

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 608.0+ bytes


os dados estão como object vamos converter


In [None]:
dados['Valor da compra'] = dados['Valor da compra'].apply(lambda x: x.replace('R$' , '').replace(',','.').strip())

Removendo o 'R$' e a ',' da coluna Valor  da compra

In [None]:
dados['Valor da compra'] = dados['Valor da compra'].astype(float)
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 608.0+ bytes


transformando a coluna em float

# ETAPA 3

Devido a uma instabilidade no site da empresa, tivemos problemas com os nomes dos clientes durante o salvamento. Isso resultou em uma coluna de nomes de clientes com uma mistura de letras, maiúsculas e minúsculas, números e outros caracteres.

Sabendo disso, manipule os textos presentes na coluna Cliente para que seja obtido como resultado os nomes dos clientes em letras minúsculas, com a ausência de caracteres especiais ou números.

In [None]:
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,836.5
1,06/06/2022,DieGO ARMANDIU 210,573.33
2,06/06/2022,DieGO ARMANDIU 210,392.8
3,06/06/2022,DieGO ARMANDIU 210,512.34
4,07/06/2022,Isabely JOanes 738,825.31


In [None]:
dados['Cliente'] =dados['Cliente'].str.lower()
dados['Cliente']

0        @ana _lucia 321
1     diego armandiu 210
2     diego armandiu 210
3     diego armandiu 210
4     isabely joanes 738
5     isabely joanes 738
6     isabely joanes 738
7     isabely joanes 738
8     isabely joanes 738
9       joão gabriel 671
10    julya meireles 914
11    julya meireles 914
12    julya meireles 914
13       maria julia 444
14       maria julia 444
15       maria julia 444
16       maria julia 444
17       pedro pasco 812
18      paulo castro 481
19     thiago fritzz 883
Name: Cliente, dtype: object

In [None]:
dados['Cliente'] = dados['Cliente'].str.replace('[^a-z]' , ' ' , regex=True)
dados['Cliente']

0         ana  lucia    
1     diego armandiu    
2     diego armandiu    
3     diego armandiu    
4     isabely joanes    
5     isabely joanes    
6     isabely joanes    
7     isabely joanes    
8     isabely joanes    
9       jo o gabriel    
10    julya meireles    
11    julya meireles    
12    julya meireles    
13       maria julia    
14       maria julia    
15       maria julia    
16       maria julia    
17       pedro pasco    
18      paulo castro    
19     thiago fritzz    
Name: Cliente, dtype: object

#ETAPA 4

Na coluna Data de venda, temos datas em formato 'dia/mês/ano' (dd/mm/AAAA). Transforme esses dados para o tipo datetime e busque uma forma de visualização de subconjunto que possa contribuir no objetivo do contexto que os dados estão inseridos.

O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

In [None]:
import datetime
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31


In [None]:
dados['Data de venda'] = pd.to_datetime(dados['Data de venda'] )
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     object        
 2   Valor da compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 608.0+ bytes


In [None]:
ordem= dados.groupby('Cliente')['Valor da compra'].sum()
ordem=ordem.sort_values(ascending =False)
ordem

Cliente
isabely joanes        2329.30
maria julia           2086.65
julya meireles        1643.74
diego armandiu        1478.47
paulo castro           899.16
thiago fritzz          885.24
 ana  lucia            836.50
jo o gabriel           386.34
pedro pasco            311.15
Name: Valor da compra, dtype: float64