# Extraindo dados de um arquivo pdf para análise de vendas

# Introdução

Uma plataforma de e-commerce de moda necessita extrair dados de um arquivo pdf para investigar as métricas-chave relacionadas aos produtos da empresa.

## Objetivo do projeto

Desenvolver as seguintes métricas:

* Lucro por produto;
* Produto mais lucrativo;
* Produtos mais e menos vendidos;
* 5 primeiros clientes que mais compram;
* Frequência de compra por cliente.

## Importando os dados do arquivo pdf

Para realizar a importação do dataset que se encontra em um arquivo pdf, é necessário a instalação da biblioteca Tabula. Feito isso, importa-se tal biblioteca para leitura do arquivo.

In [1]:
import tabula

path = 'sales_data - dataset.pdf'
sales = tabula.read_pdf(input_path = path, stream = True, pages = 1, multiple_tables = False)

Visualizando os dados importados,

In [2]:
sales

[     sale_id                      sale_date customer    product  quantity  \
 0          0            2020-01-01 00:00:00     José  Produto C         4   
 1          1  2020-01-01 17:33:18.396793587    Paulo  Produto A         9   
 2          2  2020-01-02 11:06:36.793587174     José  Produto C         1   
 3          3  2020-01-03 04:39:55.190380761    Maria  Produto B         9   
 4          4  2020-01-03 22:13:13.587174348      Ana  Produto B         8   
 ..       ...                            ...      ...        ...       ...   
 495      495  2020-12-28 01:46:46.412825652    Paulo  Produto C         5   
 496      496  2020-12-28 19:20:04.809619236     José  Produto A         5   
 497      497  2020-12-29 12:53:23.206412824    Maria  Produto C         3   
 498      498  2020-12-30 06:26:41.603206412    Maria  Produto B         2   
 499      499            2020-12-31 00:00:00    Paulo  Produto B         9   
 
      unit_price  total_sale  month  year        cost product_

Verificando-se o tipo de objeto importado,

In [3]:
type(sales)

list

Percebe-se que tem-se um objeto do tipo lista. Para acessar somente a tabela com os dados de interesse, informamos a posição dela na lista, conforme abaixo descrito.

In [4]:
sales[0]

Unnamed: 0,sale_id,sale_date,customer,product,quantity,unit_price,total_sale,month,year,cost,product_group
0,0,2020-01-01 00:00:00,José,Produto C,4,32.18,128.72,1,2020,112.392212,C
1,1,2020-01-01 17:33:18.396793587,Paulo,Produto A,9,67.42,606.78,1,2020,505.560688,B
2,2,2020-01-02 11:06:36.793587174,José,Produto C,1,14.92,14.92,1,2020,12.334824,A
3,3,2020-01-03 04:39:55.190380761,Maria,Produto B,9,65.09,585.81,1,2020,472.851216,C
4,4,2020-01-03 22:13:13.587174348,Ana,Produto B,8,28.02,224.16,1,2020,174.989413,B
...,...,...,...,...,...,...,...,...,...,...,...
495,495,2020-12-28 01:46:46.412825652,Paulo,Produto C,5,76.71,383.55,12,2020,300.355944,A
496,496,2020-12-28 19:20:04.809619236,José,Produto A,5,53.42,267.10,12,2020,192.526496,A
497,497,2020-12-29 12:53:23.206412824,Maria,Produto C,3,64.18,192.54,12,2020,161.742229,B
498,498,2020-12-30 06:26:41.603206412,Maria,Produto B,2,86.15,172.30,12,2020,145.558499,B


## Criando o Data Frame

Agora, criou-se um Data Frame a partir da tabela de dados importada do arquivo pdf. Isto é necessário para serem feitas as métricas e posteriores plotagem dos resultados. Para isso, utilizou-se da biblioteca Pandas, conforme segue.

In [33]:
import pandas as pd

sales_df = pd.DataFrame(sales[0])
sales_df.head()

Unnamed: 0,sale_id,sale_date,customer,product,quantity,unit_price,total_sale,month,year,cost,product_group
0,0,2020-01-01 00:00:00,José,Produto C,4,32.18,128.72,1,2020,112.392212,C
1,1,2020-01-01 17:33:18.396793587,Paulo,Produto A,9,67.42,606.78,1,2020,505.560688,B
2,2,2020-01-02 11:06:36.793587174,José,Produto C,1,14.92,14.92,1,2020,12.334824,A
3,3,2020-01-03 04:39:55.190380761,Maria,Produto B,9,65.09,585.81,1,2020,472.851216,C
4,4,2020-01-03 22:13:13.587174348,Ana,Produto B,8,28.02,224.16,1,2020,174.989413,B


A fim de melhor organização dos dados no dataset, utilizou-se a coluna "sale_id" como index,

In [34]:
sales_df = pd.DataFrame(sales_df, index= sales_df['sale_id'])
sales_df.drop(columns= ['sale_id'], inplace= True)
sales_df.head()

Unnamed: 0_level_0,sale_date,customer,product,quantity,unit_price,total_sale,month,year,cost,product_group
sale_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
0,2020-01-01 00:00:00,José,Produto C,4,32.18,128.72,1,2020,112.392212,C
1,2020-01-01 17:33:18.396793587,Paulo,Produto A,9,67.42,606.78,1,2020,505.560688,B
2,2020-01-02 11:06:36.793587174,José,Produto C,1,14.92,14.92,1,2020,12.334824,A
3,2020-01-03 04:39:55.190380761,Maria,Produto B,9,65.09,585.81,1,2020,472.851216,C
4,2020-01-03 22:13:13.587174348,Ana,Produto B,8,28.02,224.16,1,2020,174.989413,B


In [35]:
sales_df.tail()

Unnamed: 0_level_0,sale_date,customer,product,quantity,unit_price,total_sale,month,year,cost,product_group
sale_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
495,2020-12-28 01:46:46.412825652,Paulo,Produto C,5,76.71,383.55,12,2020,300.355944,A
496,2020-12-28 19:20:04.809619236,José,Produto A,5,53.42,267.1,12,2020,192.526496,A
497,2020-12-29 12:53:23.206412824,Maria,Produto C,3,64.18,192.54,12,2020,161.742229,B
498,2020-12-30 06:26:41.603206412,Maria,Produto B,2,86.15,172.3,12,2020,145.558499,B
499,2020-12-31 00:00:00,Paulo,Produto B,9,5.96,53.64,12,2020,43.178814,C


## Análise Descritiva dos dados

Importado o dataset, verificou-se o tipo de dado presente em cada coluna e quantidade de dados nulos.

In [36]:
sales_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 500 entries, 0 to 499
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   sale_date      500 non-null    object 
 1   customer       476 non-null    object 
 2   product        500 non-null    object 
 3   quantity       500 non-null    int64  
 4   unit_price     500 non-null    float64
 5   total_sale     500 non-null    float64
 6   month          500 non-null    int64  
 7   year           500 non-null    int64  
 8   cost           500 non-null    float64
 9   product_group  500 non-null    object 
dtypes: float64(3), int64(3), object(4)
memory usage: 43.0+ KB


Tem-se no dataset as seguintes colunas:
* sale_date = data de venda
* customer = cliente
* product = produto
* quantity = quantidade do produto vendida
* unit_price = preço unitário do produto
* total_sale = valor total arrecadado com a respectiva venda
* month = mês da venda
* year = ano da venda
* cost = preço de custo do produto
* product_group = categoria do produto

Avaliando estes resultados, que as colunas apresentam tipo de dados condizente com a informação que representam, exceto a coluna de datas "sales_date" que está como tipo objeto. Logo, converteu-se estes dados para datetime. Para tal, foi observado anteriormente, na visualização do dataset, que as datas apresentam também as horas, onde a primeira e última linha do dataset tem valores das horas diferentes das demais. Portanto, o format com que está escrito estes valores de datas variam ao longo da coluna, sendo necessário então o argumento format = 'mixed' dentro da função de conversão to_datetime( ) da biblioteca Pandas, para que a seja avaliada linha a linha a string presente e a conversão para data seja feita de forma correta.

In [37]:
sales_df['sale_date'] = pd.to_datetime(sales_df['sale_date'], format='mixed')

In [38]:
sales_df.dtypes

sale_date        datetime64[ns]
customer                 object
product                  object
quantity                  int64
unit_price              float64
total_sale              float64
month                     int64
year                      int64
cost                    float64
product_group            object
dtype: object

In [39]:
sales_df.head()

Unnamed: 0_level_0,sale_date,customer,product,quantity,unit_price,total_sale,month,year,cost,product_group
sale_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
0,2020-01-01 00:00:00.000000000,José,Produto C,4,32.18,128.72,1,2020,112.392212,C
1,2020-01-01 17:33:18.396793587,Paulo,Produto A,9,67.42,606.78,1,2020,505.560688,B
2,2020-01-02 11:06:36.793587174,José,Produto C,1,14.92,14.92,1,2020,12.334824,A
3,2020-01-03 04:39:55.190380761,Maria,Produto B,9,65.09,585.81,1,2020,472.851216,C
4,2020-01-03 22:13:13.587174348,Ana,Produto B,8,28.02,224.16,1,2020,174.989413,B


Feita esta conversão, as colunas de mês e ano da venda não são mais necessárias, portanto elas foram excluídas do dataset.

In [40]:
sales_df.drop(columns = ['month', 'year'], inplace = True)

In [41]:
sales_df.head()

Unnamed: 0_level_0,sale_date,customer,product,quantity,unit_price,total_sale,cost,product_group
sale_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,2020-01-01 00:00:00.000000000,José,Produto C,4,32.18,128.72,112.392212,C
1,2020-01-01 17:33:18.396793587,Paulo,Produto A,9,67.42,606.78,505.560688,B
2,2020-01-02 11:06:36.793587174,José,Produto C,1,14.92,14.92,12.334824,A
3,2020-01-03 04:39:55.190380761,Maria,Produto B,9,65.09,585.81,472.851216,C
4,2020-01-03 22:13:13.587174348,Ana,Produto B,8,28.02,224.16,174.989413,B


### Missing Data

Feita a conversão necessário, avaliou-se então os dados nulos. Pelos resultados retornados da função info( ) acima, a coluna "customer" apresenta 476 entradas não nulas, sendo que o dataset completo tem 500 entradas. Assim, esta coluna tem 500-476 = 24 dados nulos. A linha de código abaixo confirma esta informação,

In [42]:
sales_df.isnull().sum()

sale_date         0
customer         24
product           0
quantity          0
unit_price        0
total_sale        0
cost              0
product_group     0
dtype: int64

Definindo uma função para calcular a percentagem de dados ausentes por coluna,

In [43]:
def show_missing(df):
    if isinstance(df, pd.core.frame.DataFrame):
        return (df.isnull().sum()/df.shape[0])*100   

Passando o dataset em questão como argumento,

In [44]:
show_missing(sales_df)

sale_date        0.0
customer         4.8
product          0.0
quantity         0.0
unit_price       0.0
total_sale       0.0
cost             0.0
product_group    0.0
dtype: float64

Tem-se então 4,8% dos dados da coluna 'customer' como nulos. Visualizando as linhas dos dados nulos no dataset

In [45]:
nulos = sales_df['customer'].isnull()
sales_df[nulos]

Unnamed: 0_level_0,sale_date,customer,product,quantity,unit_price,total_sale,cost,product_group
sale_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
24,2020-01-18 13:19:21.523046092,,Produto C,2,94.48,188.96,146.753708,C
25,2020-01-19 06:52:39.919839679,,Produto B,5,67.88,339.4,264.327474,B
36,2020-01-27 07:59:02.284569138,,Produto A,9,68.96,620.64,464.536704,B
65,2020-02-17 13:04:55.791583166,,Produto B,1,10.35,10.35,7.677423,A
73,2020-02-23 09:31:22.965931864,,Produto A,1,78.6,78.6,64.096957,B
76,2020-02-25 14:11:18.156312625,,Produto D,9,68.67,618.03,445.684551,C
86,2020-03-03 21:44:22.124248497,,Produto B,9,44.41,399.69,309.677417,A
124,2020-03-31 16:50:01.202404809,,Produto C,2,41.98,83.96,64.255502,C
177,2020-05-09 11:15:16.232464930,,Produto D,9,32.09,288.81,268.322978,C
273,2020-07-18 16:32:42.324649298,,Produto B,3,76.24,228.72,183.722036,A


Observando as linhas em que o dado de "customer" é nulo, percebe-se não existir um padrão nos dados. Tem-se produtos de todas as categorias, com diversas quantidades e em dias de compras aleatórios. Contudo, todas as compras foram feitas de 2020. Verificando abaixo somente as compras de 2020,

In [49]:
sales_df[sales_df['sale_date'].dt.year == 2020]

Unnamed: 0_level_0,sale_date,customer,product,quantity,unit_price,total_sale,cost,product_group
sale_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,2020-01-01 00:00:00.000000000,José,Produto C,4,32.18,128.72,112.392212,C
1,2020-01-01 17:33:18.396793587,Paulo,Produto A,9,67.42,606.78,505.560688,B
2,2020-01-02 11:06:36.793587174,José,Produto C,1,14.92,14.92,12.334824,A
3,2020-01-03 04:39:55.190380761,Maria,Produto B,9,65.09,585.81,472.851216,C
4,2020-01-03 22:13:13.587174348,Ana,Produto B,8,28.02,224.16,174.989413,B
...,...,...,...,...,...,...,...,...
495,2020-12-28 01:46:46.412825652,Paulo,Produto C,5,76.71,383.55,300.355944,A
496,2020-12-28 19:20:04.809619236,José,Produto A,5,53.42,267.10,192.526496,A
497,2020-12-29 12:53:23.206412824,Maria,Produto C,3,64.18,192.54,161.742229,B
498,2020-12-30 06:26:41.603206412,Maria,Produto B,2,86.15,172.30,145.558499,B


Pela quantidade de linhas retornadas (500) tem-se então que todas as compras presentes no dataset foram feitas no ano de 2020. Para confirmar isto, basta acessarmos os anos que aparecem na coluna "sale_date".

Logo, os nulos não estão relacionadas também ao ano das compras. Como não existe um padrão aparente nestes dados nulos, eles poderiam ser substituídos pela moda da coluna "customer", ou seja, pelo nome do comprador que mais aparece no dataset. Porém, como estes dados representam apenas 4,8% do total, decidiu-se por excluí-los.

- verificação de dados nulos
- verificação de dados duplicados


## Análise Exploratória dos dados

- describe
- outliers (boxplot)

## Calculando as métricas

### Lucro por produto

### Produto mais lucrativo

### Produtos mais e menos vendidos

### 5 primeiros clientes que mais compram

### Frequência de compra por cliente

## Visualização dos resultados