## Carregamento dos Dados

O ETL gerou um banco sqlite no qual faremos uma análise exploratória 

In [None]:
import pandas as pd
import sqlite3

con = sqlite3.connect("src/datasets/etlBCB.db")
query = "SELECT * FROM meios_pagamentos_tri"
df = pd.read_sql(query, con)

## DELETANDO A TABELA ERRADA

In [None]:
import sqlite3

con = sqlite3.connect("src/datasets/etlBCB.db")
cursor = con.cursor()

cursor.execute("DROP TABLE IF EXISTS meios_pagamenos_tri")
con.commit()
con.close()

## MÉDIAS

Para entender melhor os dados obitidos vamos gerar a média dos valores

In [None]:
soma = df['valorPix'].sum()
total = df['valorPix'].count()

In [None]:
print("Média das transações PIX por trimestre: ",round(soma/total,2))

In [None]:
print("\nANÁLISE DETALHADA DAS TRANSAÇÕES PIX DE ACORDO COM O BANCO BEL CENTRAL")

print(f"\nPor trimestre o brasileiro gasta em media: R$ {df['valorPix'].mean():,.2f} milhões com pix")

soma_valores = df['valorPix'].sum()*1e6
soma_transacoes = df['quantidadePix'].sum()*1e3
Media_Valor = soma_valores/soma_transacoes
print(f"\nPorém, o valor pix médio que o brasileiro passa é de: R$ {Media_Valor:,.2f} reais")

## ANÁLISE DESCRITIVA DAS VARIÁVEIS NUMÉRICAS

In [None]:
# Identificando as colunas numéricas p poder começar a analisar
colunas_numericas = df.select_dtypes(include=['int64', 'float64']).columns

# Calculo das estatísticas descritivas
estatisticas = df[colunas_numericas].describe()
print("Estatísticas Descritivas das Variáveis Numéricas:")
print(estatisticas)

# Dai o ca´lculo das médias específicas para cada variável
print("\nMédias por Variável:")
for coluna in colunas_numericas:
    media = df[coluna].mean()
    print(f"{coluna}: {media:,.2f}")


# E por fim a anaalise de correlação entre as variáveis
print("\nMatriz de Correlação:")
correlacao = df[colunas_numericas].corr()
print(correlacao)
"""""
Dicionário das estatísticas:
 count: número de observações
 mean: média aritmética
 std: desvio padrão
 min: valor mínimo
 25%: primeiro quartil
 50%: mediana (segundo quartil)
 75%: terceiro quartil
max: valor máximo
"""""

## Estudo da mediana do valorPix

Para encontrar a mediana precisamos ordenar os valores e encontrar os elementos centrais.

Se o número de elemetos **n** for par, usamos a fórmula:
$$ \frac{X_\frac{n}{2} + X_{(\frac{n}{2}+1)}}{2} $$

para determinar o elemento cetral.

In [None]:
ordenados = df['valorPix'].sort_values()
n = len(ordenados)

print("A lista possui:", n, " elementos")

Para determinar a mediana devemos encontrar os números que estão na posição 12 e 13, mas as listas em python começam a contar da posição **0**. Logo, a mediana é o valor médio entre os elementos na posição 11 e 12.

In [None]:
inf = ordenados[n/2 - 1]
sup = ordenados[n/2]

mediana = (inf + sup)/2
mediana

Para o caso de um número de elementos ímpar a mediana é o valor central:

$$ \frac{X_{n+1}}{2}$$

Nessa maneira, ele conta até o próprio 0 das listas em python.

## Forma de fazer pelo método do pandas

In [None]:
mediana_pandas = df['valorPix'].median()
print(f"Mediana usando pandas: {mediana_pandas:,.2f}")

## Medidas de Dispersão

### Variância

A média das diferenças entre os valores e o valor médio do conjunto de dados. Isso também é conhecido como dispersão média.

$$ \frac{|X_1-\bar{X}|^2 +...+ |X_n-\bar{X}|^2}{n}$$

In [38]:
df['valorPix'].var()

np.float64(6162872150374.747)

OBS.: A variância apresenta valores altos e a unidade de medida é quadrada.

## Desvio-Padrão

É a raiz quadrada da variância.

In [None]:
df['valorPix'].std()

np.float64(2482513.2729503675)

OBS.: Em muitos casos, 66% dos dados estão a um desvio-padrã da média do seu conjunto de dados.