# Extraindo dados de um arquivo pdf para análise de vendas

# Introdução

Uma plataforma de e-commerce de moda necessita extrair dados de um arquivo pdf para investigar as métricas-chave relacionadas aos produtos da empresa.

## Objetivo do projeto

Desenvolver as seguintes métricas:

* Lucro por produto;
* Produto mais lucrativo;
* Produtos mais e menos vendidos;
* 5 primeiros clientes que mais compram;
* Frequência de compra por cliente.

## Importando os dados do arquivo pdf

Para realizar a importação do dataset que se encontra em um arquivo pdf, é necessário a instalação da biblioteca Tabula. Feito isso, importa-se tal biblioteca para leitura do arquivo.

In [1]:
import tabula

path = 'sales_data - dataset.pdf'
sales = tabula.read_pdf(input_path = path, stream = True, pages = 1, multiple_tables = False)

Visualizando os dados importados,

In [7]:
sales

[     sale_id                      sale_date customer    product  quantity  \
 0          0            2020-01-01 00:00:00     José  Produto C         4   
 1          1  2020-01-01 17:33:18.396793587    Paulo  Produto A         9   
 2          2  2020-01-02 11:06:36.793587174     José  Produto C         1   
 3          3  2020-01-03 04:39:55.190380761    Maria  Produto B         9   
 4          4  2020-01-03 22:13:13.587174348      Ana  Produto B         8   
 ..       ...                            ...      ...        ...       ...   
 495      495  2020-12-28 01:46:46.412825652    Paulo  Produto C         5   
 496      496  2020-12-28 19:20:04.809619236     José  Produto A         5   
 497      497  2020-12-29 12:53:23.206412824    Maria  Produto C         3   
 498      498  2020-12-30 06:26:41.603206412    Maria  Produto B         2   
 499      499            2020-12-31 00:00:00    Paulo  Produto B         9   
 
      unit_price  total_sale  month  year        cost product_

Verificando-se o tipo de objeto importado,

In [9]:
type(sales)

list

Percebe-se que tem-se um objeto do tipo lista. Para acessar somente a tabela com os dados de interesse, informamos a posição dela na lista, conforme abaixo descrito.

In [11]:
sales[0]

Unnamed: 0,sale_id,sale_date,customer,product,quantity,unit_price,total_sale,month,year,cost,product_group
0,0,2020-01-01 00:00:00,José,Produto C,4,32.18,128.72,1,2020,112.392212,C
1,1,2020-01-01 17:33:18.396793587,Paulo,Produto A,9,67.42,606.78,1,2020,505.560688,B
2,2,2020-01-02 11:06:36.793587174,José,Produto C,1,14.92,14.92,1,2020,12.334824,A
3,3,2020-01-03 04:39:55.190380761,Maria,Produto B,9,65.09,585.81,1,2020,472.851216,C
4,4,2020-01-03 22:13:13.587174348,Ana,Produto B,8,28.02,224.16,1,2020,174.989413,B
...,...,...,...,...,...,...,...,...,...,...,...
495,495,2020-12-28 01:46:46.412825652,Paulo,Produto C,5,76.71,383.55,12,2020,300.355944,A
496,496,2020-12-28 19:20:04.809619236,José,Produto A,5,53.42,267.10,12,2020,192.526496,A
497,497,2020-12-29 12:53:23.206412824,Maria,Produto C,3,64.18,192.54,12,2020,161.742229,B
498,498,2020-12-30 06:26:41.603206412,Maria,Produto B,2,86.15,172.30,12,2020,145.558499,B


## Criando o Data Frame

Agora, criou-se um Data Frame a partir da tabela de dados importada do arquivo pdf. Isto é necessário para serem feitas as métricas e posteriores plotagem dos resultados. Para isso, utilizou-se da biblioteca Pandas, conforme segue.

In [5]:
import pandas as pd

sales_df = pd.DataFrame(sales[0])
sales_df.head()

Unnamed: 0,sale_id,sale_date,customer,product,quantity,unit_price,total_sale,month,year,cost,product_group
0,0,2020-01-01 00:00:00,José,Produto C,4,32.18,128.72,1,2020,112.392212,C
1,1,2020-01-01 17:33:18.396793587,Paulo,Produto A,9,67.42,606.78,1,2020,505.560688,B
2,2,2020-01-02 11:06:36.793587174,José,Produto C,1,14.92,14.92,1,2020,12.334824,A
3,3,2020-01-03 04:39:55.190380761,Maria,Produto B,9,65.09,585.81,1,2020,472.851216,C
4,4,2020-01-03 22:13:13.587174348,Ana,Produto B,8,28.02,224.16,1,2020,174.989413,B


## Análise Descritiva dos dados

- verificação do tipo de dado das colunas (se está coerente)
- verificação de dados nulos
- verificação de dados duplicados


## Análise Exploratória dos dados

- describe
- outliers (boxplot)

## Calculando as métricas

### Lucro por produto

### Produto mais lucrativo

### Produtos mais e menos vendidos

### 5 primeiros clientes que mais compram

### Frequência de compra por cliente

## Visualização dos resultados