DsChPj: Data Science Challenge Project

# Online Sales - Data transformation and manipulation

O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

A base de dados utilizada nessa análise é a dados_vendas_clientes.json e contém informações importantes sobre os clientes como, o nome de cadastro do cliente, o valor total pago na compra e o dia da compra.

---

The objective of this project is to analyze the results of an event with the customers of an online sales company. A dataset containing the customers who spent the most with products within 5 days of sales, which is the duration of the event, was collected. This analysis will identify the customer with the biggest purchase in the week, who will receive a prize from the store, and later on, it can help the company create new strategies to attract more customers.

The database used in this analysis is dados_vendas_clientes.json and contains important information about customers, such as the customer's registration name, the total amount paid for the purchase and the day of purchase.

### Step 1

O desafio do projeto 1: vendas online será abrir a base de dados com Pandas e aplicar o json_normalize.

---

The challenge for project 1: online sales will be to open the database with Pandas and apply json_normalize.

In [1]:
import pandas as pd

In [2]:
data = pd.read_json('https://caelum-online-public.s3.amazonaws.com/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json')
data.head(5)

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [3]:
data = pd.json_normalize(data['dados_vendas'])
data

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


### Step 2

Remover os dados em listas dentro do DataFrame;

Verificar os tipos de dados;

Identificar colunas numéricas;

Transformar a coluna numérica para o tipo numérico.

---

Remove data in lists within the DataFrame;

Check data types;

Identify numeric columns;

Transform numeric column to numeric type.

In [4]:
columns = list(data.columns)
columns

['Data de venda', 'Cliente', 'Valor da compra']

In [5]:
data = data.explode(columns[1:])
data.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"


In [6]:
data.reset_index(inplace = True, drop = True)

In [7]:
import numpy as np

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 608.0+ bytes


In [9]:
numerical_columns = 'Valor da compra'

In [10]:
data[numerical_columns] = data[numerical_columns].apply(lambda x: x.replace('$', '').replace('R', '').replace(',', '.').strip())

In [11]:
data[numerical_columns] = data[numerical_columns].astype(np.float64)

In [12]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 608.0+ bytes


### Step 3

Devido a uma instabilidade no site da empresa, tivemos problemas com os nomes dos clientes durante o salvamento. Isso resultou em uma coluna de nomes de clientes com uma mistura de letras, maiúsculas e minúsculas, números e outros caracteres.

Sabendo disso, manipule os textos presentes na coluna Cliente para que seja obtido como resultado os nomes dos clientes em letras minúsculas, com a ausência de caracteres especiais ou números.

---

Due to instability on the company's website, we had problems with customer names during the save. This resulted in a column of customer names with a mix of letters, upper and lower case, numbers and other characters.

Knowing this, manipulate the texts present in the Cliente column so that the client's names are obtained in lowercase letters, with the absence of special characters or numbers.

In [13]:
data['Cliente'] = data['Cliente'].str.replace('[^áàâãéèêíïóôõöúçña-zA-Z]', ' ', regex=True).str.replace('[0-9]', ' ', regex=True).str.lower().str.strip()

In [14]:
data['Cliente'].unique()

array(['ana  lucia', 'diego armandiu', 'isabely joanes', 'joão gabriel',
       'julya meireles', 'maria julia', 'pedro pasco', 'paulo castro',
       'thiago fritzz'], dtype=object)

### Step 4

Na coluna Data de venda, temos datas em formato 'dia/mês/ano' (dd/mm/AAAA). Transforme esses dados para o tipo datetime e busque uma forma de visualização de subconjunto que possa contribuir no objetivo do contexto que os dados estão inseridos.

---

In the Date of sale column, we have dates in 'day/month/year' format (dd/mm/YYYY). Transform this data to the datetime type and look for a subset view that can contribute to the purpose of the context in which the data is inserted.

In [15]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 608.0+ bytes


In [16]:
data['Data de venda'] = pd.to_datetime(data['Data de venda'], format='%d/%m/%Y')

In [17]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     object        
 2   Valor da compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 608.0+ bytes


In [18]:
data.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,2022-06-06,ana lucia,836.5
1,2022-06-06,diego armandiu,573.33
2,2022-06-06,diego armandiu,392.8
3,2022-06-06,diego armandiu,512.34
4,2022-06-07,isabely joanes,825.31


In [19]:
data['Data de venda'].dt.strftime('%d')

0     06
1     06
2     06
3     06
4     07
5     07
6     07
7     07
8     08
9     08
10    08
11    08
12    09
13    09
14    09
15    09
16    10
17    10
18    10
19    10
Name: Data de venda, dtype: object

In [20]:
subset = data.groupby(data['Data de venda'].dt.strftime('%d'))['Valor da compra'].sum()
subset

Data de venda
06    2314.97
07    1647.25
08    2321.83
09    2162.71
10    2409.79
Name: Valor da compra, dtype: float64