In [151]:
import pandas as pd
import numpy as np

### Leitura do arquivo.csv

In [152]:
df_payments = pd.read_csv('../data/olist_order_payments_dataset.csv')
df_payments

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71
3,ba78997921bbcdc1373bb41e913ab953,1,credit_card,8,107.78
4,42fdf880ba16b47b59251dd489d4441a,1,credit_card,2,128.45
...,...,...,...,...,...
103881,0406037ad97740d563a178ecc7a2075c,1,boleto,1,363.31
103882,7b905861d7c825891d6347454ea7863f,1,credit_card,2,96.80
103883,32609bbb3dd69b3c066a6860554a77bf,1,credit_card,1,47.77
103884,b8b61059626efa996a60be9bb9320e10,1,credit_card,5,369.54


### Verificação de Métodos de Pagamento existentes no df

In [153]:
payment = df_payments.loc[:, ('payment_type', 'payment_installments', 'payment_value')]
pt = np.array(payment['payment_type'])
pi = np.array(payment['payment_installments'])

type_payments = payment['payment_type'].unique()
list(np.sort(type_payments))

['boleto', 'credit_card', 'debit_card', 'not_defined', 'voucher']

### Verificação de existência de valores nulos e retorno de máscara booleana dos dados da coluna de métodos de pagamento com verificação de pagamentos por boleto 

In [154]:
print('Verificando se existe algum campo com valores nulos:')
print(df_payments.isnull().sum())
print('')
print('Retornando uma máscara booleana com os tipos de pagamento no boleto')
print(pt == 'boleto')
print('')

Verificando se existe algum campo com valores nulos:
order_id                0
payment_sequential      0
payment_type            0
payment_installments    0
payment_value           0
dtype: int64

Retornando uma máscara booleana com os tipos de pagamento no boleto
[False False False ... False False  True]



### Verificação da quantidade de produtos comprados através de cada método de pagamento

In [155]:
print('Informação de quantos produtos comprados com cada método de pagamento')
print('-----------------------------------------------------------')
print(f'Boleto: {(pt == "boleto").sum()} produtos;')
print(f'Cartão de Crédito: {(pt == "credit_card").sum()} produtos;')
print(f'Cartão de Débito: {(pt == "debit_card").sum()} produtos;')
print(f'Voucher: {(pt == "voucher").sum()} produtos;')
print(f'Não informado: {(pt == "not_defined").sum()} produtos;')
print('-----------------------------------------------------------')
print('')

Informação de quantos produtos comprados com cada método de pagamento
-----------------------------------------------------------
Boleto: 19784 produtos;
Cartão de Crédito: 76795 produtos;
Cartão de Débito: 1529 produtos;
Voucher: 5775 produtos;
Não informado: 3 produtos;
-----------------------------------------------------------



### Verificação de Quantidade de produtos comprados com 2 ou mais parcelas em cada método de pagamento

Obs: Lembrando que as verificações a baixo para Débito e Voucher, foram realizadas apenas para teste de possíveis lançamentos incorretos, visto que sabe-se que não é possível realizar compras parceladas através desses métodos de pagamento.

In [156]:
qtd_bol_parc = (payment['payment_type'] == 'boleto') & (payment['payment_installments'] >= 2)
qtd_cred_parc = (payment['payment_type'] == 'credit_card') & (payment['payment_installments'] >= 2)
qtd_deb_parc = (payment['payment_type'] == 'debit_card') & (payment['payment_installments'] >= 2)
qtd_vch_parc = (payment['payment_type'] == 'voucher') & (payment['payment_installments'] >= 2)
qtd_ni_parc = (payment['payment_type'] == 'not_defined') & (payment['payment_installments'] >= 2)

print('Informação de quantos produtos foram comprados com 2 ou mais parcelas por método de pagamento')
print('-----------------------------------------------------------')
print(f'Boleto: {(qtd_bol_parc == True).sum()} produtos;')
print(f'Cartão de Crédito: {(qtd_cred_parc == True).sum()} produtos;')
print(f'Cartão de Débito: {(qtd_deb_parc == True).sum()} produtos;')
print(f'Voucher: {(qtd_vch_parc == True).sum()} produtos;')
print(f'Não informado: {(qtd_ni_parc == True).sum()} produtos;')
print('-----------------------------------------------------------')
print('')


Informação de quantos produtos foram comprados com 2 ou mais parcelas por método de pagamento
-----------------------------------------------------------
Boleto: 0 produtos;
Cartão de Crédito: 51338 produtos;
Cartão de Débito: 0 produtos;
Voucher: 0 produtos;
Não informado: 0 produtos;
-----------------------------------------------------------



### Verificação de Quantidade de produtos comprados com 1 parcela ou à vista em cada método de pagamento

In [157]:
qtd_bol_not_parc = (payment['payment_type'] == 'boleto') & (payment['payment_installments'] <= 1)
qtd_cred_not_parc = (payment['payment_type'] == 'credit_card') & (payment['payment_installments'] <= 1)
qtd_deb_not_parc = (payment['payment_type'] == 'debit_card') & (payment['payment_installments'] <= 1)
qtd_vch_not_parc = (payment['payment_type'] == 'voucher') & (payment['payment_installments'] <= 1)
qtd_ni_not_parc = (payment['payment_type'] == 'not_defined') & (payment['payment_installments'] <= 1)

print('Informação de quantos produtos foram comprados com 2 ou mais parcelas por método de pagamento')
print('-----------------------------------------------------------')
print(f'Boleto: {(qtd_bol_not_parc == True).sum()} produtos;')
print(f'Cartão de Crédito: {(qtd_cred_not_parc == True).sum()} produtos;')
print(f'Cartão de Débito: {(qtd_deb_not_parc == True).sum()} produtos;')
print(f'Voucher: {(qtd_vch_not_parc == True).sum()} produtos;')
print(f'Não informado: {(qtd_ni_not_parc == True).sum()} produtos;')
print('-----------------------------------------------------------')
print('')

Informação de quantos produtos foram comprados com 2 ou mais parcelas por método de pagamento
-----------------------------------------------------------
Boleto: 19784 produtos;
Cartão de Crédito: 25457 produtos;
Cartão de Débito: 1529 produtos;
Voucher: 5775 produtos;
Não informado: 3 produtos;
-----------------------------------------------------------



### Análises Estatísticas dos preços dos produtos

In [158]:
payment_value = payment.loc[:, ('payment_value')]
payment_value.describe()

count    103886.000000
mean        154.100380
std         217.494064
min           0.000000
25%          56.790000
50%         100.000000
75%         171.837500
max       13664.080000
Name: payment_value, dtype: float64

### Produtos que custam abaixo do valor médio dos produtos vendidos

In [159]:
valor_medio = payment['payment_value'].mean()

In [160]:
menor_que_medio = payment[payment['payment_value'] < valor_medio]
print(menor_que_medio)
print('')
print('Retorno ordenado do maior para p menor valor')
sort_desc = menor_que_medio.sort_values(by='payment_value', ascending=False)
print(sort_desc)


       payment_type  payment_installments  payment_value
0       credit_card                     8          99.33
1       credit_card                     1          24.39
2       credit_card                     1          65.71
3       credit_card                     8         107.78
4       credit_card                     2         128.45
...             ...                   ...            ...
103874  credit_card                     1           3.57
103876  credit_card                     2         127.92
103878  credit_card                     4          47.62
103882  credit_card                     2          96.80
103883  credit_card                     1          47.77

[72874 rows x 3 columns]

Retorno ordenado do maior para p menor valor
       payment_type  payment_installments  payment_value
48297        boleto                     1          154.1
32440   credit_card                     3          154.1
46996        boleto                     1          154.1
25518        bol

### Produtos que custam acima do valor médio dos produtos vendidos

In [161]:
maior_que_medio = payment[payment['payment_value'] > valor_medio]
print(maior_que_medio)
print('')
print('Retorno ordenado do menor para o maior valor')
sort_asc = maior_que_medio.sort_values(by='payment_value')
print(sort_asc)


       payment_type  payment_installments  payment_value
8       credit_card                     6         341.09
10      credit_card                     8         188.73
15      credit_card                    10         157.45
18      credit_card                     4         244.15
21      credit_card                     2         170.57
...             ...                   ...            ...
103879  credit_card                     2         198.94
103880  credit_card                     4         280.65
103881       boleto                     1         363.31
103884  credit_card                     5         369.54
103885       boleto                     1         191.58

[31012 rows x 3 columns]

Retorno ordenado do menor para o maior valor
      payment_type  payment_installments  payment_value
1849   credit_card                     4         154.11
92909  credit_card                     2         154.11
68318  credit_card                     8         154.11
39152  credit_card  