<a href="https://colab.research.google.com/github/strawndri/python-ds-pandas-transformacao-manipulacao-dados/blob/main/Desafio_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto desafio 1: *vendas on-line*

O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

### 1. Entendendo o problema

Diante do conjunto de dados de vendas on-line, será necessário abri-lo com o Pandas e aplicar o método `json_normalize` para normalização do arquivo JSON.

In [68]:
import pandas as pd

In [69]:
dados = pd.read_json('https://raw.githubusercontent.com/strawndri/python-ds-pandas-transformacao-manipulacao-dados/main/dados/dados_vendas_clientes.json')
dados.head()

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [70]:
dados = pd.json_normalize(dados['dados_vendas'])
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


### 2. Dados numéricos

Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, o novo desafio do projeto 1 será dividido em algumas metas.

#### Remover os dados em listas dentro do DataFrame

In [71]:
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


In [72]:
colunas = list(dados.columns)
colunas

['Data de venda', 'Cliente', 'Valor da compra']

In [73]:
dados = dados.explode(colunas[1:])

In [74]:
dados.reset_index(inplace = True, drop = True)
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"


#### Verificar os tipos de dados

In [75]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 608.0+ bytes


#### Identificar colunas numéricas

In [76]:
dados['Valor da compra']

0      R$ 836,5
1     R$ 573,33
2      R$ 392,8
3     R$ 512,34
4     R$ 825,31
5     R$ 168,07
6     R$ 339,18
7     R$ 314,69
8     R$ 682,05
9     R$ 386,34
10    R$ 622,65
11    R$ 630,79
12     R$ 390,3
13    R$ 759,16
14    R$ 334,47
15    R$ 678,78
16    R$ 314,24
17    R$ 311,15
18    R$ 899,16
19    R$ 885,24
Name: Valor da compra, dtype: object

#### Transformar a coluna numérica para o tipo numérico

In [77]:
import numpy as np

In [78]:
dados['Valor da compra'] = dados['Valor da compra'].apply(lambda x: x.replace('R$', '').replace(',', '.').strip())

In [79]:
dados['Valor da compra']

0      836.5
1     573.33
2      392.8
3     512.34
4     825.31
5     168.07
6     339.18
7     314.69
8     682.05
9     386.34
10    622.65
11    630.79
12     390.3
13    759.16
14    334.47
15    678.78
16    314.24
17    311.15
18    899.16
19    885.24
Name: Valor da compra, dtype: object

In [80]:
dados['Valor da compra'] = dados['Valor da compra'].astype(np.float64)

In [81]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 608.0+ bytes


### 3. Dados textuais

Na etapa 2, trabalhamos na transformação dos dados numéricos. Agora, podemos trabalhar com valores textuais.

Devido a uma instabilidade no site da empresa, tivemos problemas com os nomes dos clientes durante o salvamento. Isso resultou em uma coluna de nomes de clientes com uma mistura de letras, maiúsculas e minúsculas, números e outros caracteres.

Sabendo disso, manipule os textos presentes na coluna `Cliente` para que seja obtido como resultado os nomes dos clientes em letras minúsculas, com a ausência de caracteres especiais ou números.

In [82]:
pip install unidecode



In [83]:
from unidecode import unidecode

In [84]:
dados['Cliente']

0        @ANA _LUCIA 321
1     DieGO ARMANDIU 210
2     DieGO ARMANDIU 210
3     DieGO ARMANDIU 210
4     Isabely JOanes 738
5     Isabely JOanes 738
6     Isabely JOanes 738
7     Isabely JOanes 738
8     Isabely JOanes 738
9       JOãO Gabriel 671
10    Julya meireles 914
11    Julya meireles 914
12    Julya meireles 914
13       MaRIA Julia 444
14       MaRIA Julia 444
15       MaRIA Julia 444
16       MaRIA Julia 444
17       PEDRO PASCO 812
18      Paulo castro 481
19     Thiago fritzz 883
Name: Cliente, dtype: object

In [85]:
dados['Cliente'] = dados['Cliente'].str.lower()

In [86]:
dados['Cliente'] = dados['Cliente'].apply(lambda x: unidecode(x))

In [87]:
dados['Cliente'] = dados['Cliente'].replace('[^a-z ]', '', regex = True)

In [88]:
dados['Cliente'] = dados['Cliente'].str.strip(' ')

In [89]:
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31


### 4. Dados de tempo

Nas etapas anteriores, já trabalhamos com vários tipos de dados, agora podemos trabalhar com os dados de tempo.

Na coluna `Data de venda`, temos datas em formato 'dia/mês/ano' (`dd/mm/AAAA`). Transforme esses dados para o tipo datetime e busque uma forma de visualização de subconjunto que possa contribuir no objetivo do contexto que os dados estão inseridos.

Se você não lembra o problema do projeto desafio 1, vou deixar abaixo o texto da situação para facilitar o encontro da informação:

> O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

In [90]:
dados['Data de venda']

0     06/06/2022
1     06/06/2022
2     06/06/2022
3     06/06/2022
4     07/06/2022
5     07/06/2022
6     07/06/2022
7     07/06/2022
8     08/06/2022
9     08/06/2022
10    08/06/2022
11    08/06/2022
12    09/06/2022
13    09/06/2022
14    09/06/2022
15    09/06/2022
16    10/06/2022
17    10/06/2022
18    10/06/2022
19    10/06/2022
Name: Data de venda, dtype: object

In [91]:
dados['Data de venda'] = pd.to_datetime(dados['Data de venda'], format = '%d/%m/%Y')

In [92]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     object        
 2   Valor da compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 608.0+ bytes


In [93]:
total_de_compras = dados.groupby(['Cliente'])['Valor da compra'].sum()
total_de_compras

Cliente
ana lucia          836.50
diego armandiu    1478.47
isabely joanes    2329.30
joao gabriel       386.34
julya meireles    1643.74
maria julia       2086.65
paulo castro       899.16
pedro pasco        311.15
thiago fritzz      885.24
Name: Valor da compra, dtype: float64