# Análise das transações de cartões de Crédito

## Carregamento dos dados

O ETL gerou um banco SQLite no qual faremos uma análise exploratória.

In [1]:
import sqlite3
import pandas as pd

# Estabelecer conexão com a base de dados
con = sqlite3.connect('src/datasets/etlbcb.db')

# Query para selecionar todas as linhas de determinada tabela, como por exemplo "meios_pagamentos_tri"
query = "SELECT * FROM meios_pagamentos_tri"

# Usar pandas para ler o resultado da Query SQL num DataFrame
df = pd.read_sql(query, con=con)

# Mostrar o Display
print(df)

#Fechar conexão
con.close()


          datatrimestre    valorPix     valorTED  valorTEC  valorCheque  \
0   2025-03-31 00:00:00  7472953.76  10767686.14      0.00    170637.93   
1   2024-12-31 00:00:00  7714129.51  11647265.67      0.00    187486.45   
2   2024-09-30 00:00:00  6976429.47  11180217.68      0.00    194330.60   
3   2024-06-30 00:00:00  6284296.05  10662555.73      0.00    221553.82   
4   2024-03-31 00:00:00  5429305.43   9651625.56    925.26    190457.25   
5   2023-12-31 00:00:00  5300155.00  10090921.81   5787.89    221424.78   
6   2023-09-30 00:00:00  4469529.57   9960251.89   4156.38    218121.88   
7   2023-06-30 00:00:00  3900377.43  10657463.13   4770.74    228408.82   
8   2023-03-31 00:00:00  3447198.28   9919602.84   4535.17    240686.19   
9   2022-12-31 00:00:00  3342913.94  10382121.63   5609.53    242259.61   
10  2022-09-30 00:00:00  2936413.95  10437763.16   3735.46    267090.22   
11  2022-06-30 00:00:00  2543384.40  10449574.67   4786.14    271008.09   
12  2022-03-31 00:00:00  

## Estudo das Médias

Para entender melhor os dados obtidos vamos gerar a média dos valores.

In [2]:
soma = df ['valorPix'].sum()
total = df ['valorPix'].count()

print ("Média das transações PIX pro trimestre: R$", round(soma/total,2))

Média das transações PIX pro trimestre: R$ 2689556.99


In [3]:
#Qual a média do valor por transação PIX?

soma_valores = df ['valorPix'].sum()*1e3
soma_transacoes = df['quantidadePix'].sum()

(soma_valores)/(soma_transacoes)


np.float64(430.1963384692981)

In [4]:
#Utilizando o pandas para resolver

soma1 = df['valorPix'].mean()*1e3
soma2 = df['quantidadePix'].mean()

soma1/soma2

np.float64(430.1963384692981)

In [5]:
# Verifica os tipos de dados para identificar as variáveis numéricas
print(df.dtypes)

# Filtra apenas as colunas numéricas
numericas = df.select_dtypes(include=['int64', 'float64'])

# Exibe a média de todas as variáveis numéricas
medias = numericas.mean()
print("Médias das variáveis numéricas:")
print(medias)


datatrimestre                    object
valorPix                        float64
valorTED                        float64
valorTEC                        float64
valorCheque                     float64
valorBoleto                     float64
valorDOC                        float64
valorCartaoCredito              float64
valorCartaoDebito               float64
valorCartaoPrePago              float64
valorTransIntrabancaria         float64
valorConvenios                  float64
valorDebitoDireto               float64
valorSaques                     float64
quantidadePix                   float64
quantidadeTED                   float64
quantidadeTEC                   float64
quantidadeCheque                float64
quantidadeBoleto                float64
quantidadeDOC                   float64
quantidadeCartaoCredito         float64
quantidadeCartaoDebito          float64
quantidadeCartaoPrePago         float64
quantidadeTransIntrabancaria    float64
quantidadeConvenios             float64


## Estudo da mediana do valorPix

Para encontrar a mediana precisamos ordenar os valores e encontrar os elementos centrais.

Para determinar o elemento central, se o número de elementos for par, usamos a fórmula:
$$\frac{X_\frac{n}{2} + X_(\frac {n}{2} + 1)}{2}$$

In [9]:
ordenados = df ['valorPix'].sort_values()
n = len(ordenados)

print("A lista possui:", n, "elementos")

A lista possui: 25 elementos


Para determinar a mediana devemos encontrar os números que estão na posição 12 e 13, 
mas as listas em python começam a contar da posição 0, logo a mediana é o valor médio
entre os elementos na posição 11 e 12.


In [10]:
inf = ordenados[n/2 - 1]
sup = ordenados[n/2]

mediana = (inf+sup)/2
mediana


KeyError: 11.5

Para o caso de um número de elementos ímpar a mediana é o valor central:

$$ \frac {X_{n+1}}{2}$$

### Cálculo da mediana no Pandas

In [11]:
df['valorPix'].median()

np.float64(2067826.55)

## Medidas de Dispersão

### Variância

É a média das diferenças quadrada entre os valores observados e o valor médio do conjunto de dados. Isso também é conhecido como dispersão média.

$$ \frac {|X_1-\bar{X}|^2+...+|X_n-\bar{X}|^2}{n}$$

In [12]:
df['valorPix'].var()

np.float64(6899559724979.766)

Observação: A variância apresenta valores altos e a unidade de medida é quadrada.

### Desvio Padrão
É a raiz quadrada da variância

In [13]:
df['valorPix'].std()

np.float64(2626701.3010579953)

Observação: Em muitos casos, 66% dos dados estão a um desvio-padrão da média do seu conjunto de dados.