# Análise Estatística – Cartões (Base: estoque_cartoes.db)

Este notebook tem como objetivo realizar uma análise estatística descritiva sobre os dados de cartões emitidos e ativos, segmentados por trimestre.

**Foco:**
- Médias, medianas, modas
- Desvios padrão
- Agrupamentos por mês e trimestre


## Carregamento dos Dados

Aqui conectamos ao banco de dados SQLite `estoque_cartoes.db` e carregamos os dados da tabela `estoque_cartoes` para um DataFrame.


In [14]:
import pandas as pd
import sqlite3

con = sqlite3.connect("datasets/estoque_cartoes.db")
df = pd.read_sql("SELECT * FROM estoque_cartoes", con)
con.close()

In [13]:
df.head()

Unnamed: 0,trimestre,nomebandeira,nomefuncao,produto,qtdcartoesemitidos,qtdcartoesativos,ano_mes,trimestre_periodo
0,2023-03-01,American Express,Crédito,Intermediário,433549,335542,2023-03,2023Q1
1,2023-03-01,American Express,Crédito,Empresarial,26598,18382,2023-03,2023Q1
2,2023-03-01,American Express,Crédito,Corporativo,68432,49995,2023-03,2023Q1
3,2023-09-01,American Express,Crédito,Empresarial,27741,19039,2023-09,2023Q3
4,2024-06-01,American Express,Crédito,Premium,537851,414197,2024-06,2024Q2


## Conversão da Coluna `trimestre`

A coluna `trimestre` está em formato texto como "20231", "20232", etc. Vamos converter para date de cada trimestre para facilitar o agrupamento por tempo.


In [None]:
def converter_trimestre_para_data(trimestre_str):
    trimestre_str = str(trimestre_str)
    ano = int(trimestre_str[:4])
    trimestre = int(trimestre_str[-1])
    mes_final = trimestre * 3
    return pd.Timestamp(year=ano, month=mes_final, day=1)

df["trimestre"] = df["trimestre"].apply(converter_trimestre_para_data)

## Estatísticas Descritivas

Exibimos um resumo estatístico geral das colunas numéricas da base de dados.


In [None]:
df.describe(include="all")

Unnamed: 0,trimestre,nomebandeira,nomefuncao,produto,qtdcartoesemitidos,qtdcartoesativos
count,100,100,100,100,100.0,100.0
unique,,7,3,8,,
top,,MasterCard,Crédito,Empresarial,,
freq,,34,47,17,,
mean,2024-01-09 08:38:24,,,,13649540.0,4565303.0
min,2023-03-01 00:00:00,,,,218.0,0.0
25%,2023-06-01 00:00:00,,,,422389.2,142577.0
50%,2024-03-01 00:00:00,,,,2017354.0,638978.5
75%,2024-09-01 00:00:00,,,,9618478.0,3449852.0
max,2024-12-01 00:00:00,,,,208475100.0,47669280.0


## Tendência Central

Aqui calculamos as principais medidas de tendência central:
- Média
- Mediana
- Moda

Os resultados são formatados com separadores de milhar.


In [None]:
colunas = ["qtdcartoesemitidos", "qtdcartoesativos"]

media = df[colunas].mean().apply(lambda x: f"{x:,.2f}")
mediana = df[colunas].median().apply(lambda x: f"{x:,.2f}")
moda = df[colunas].mode().iloc[0].apply(lambda x: f"{x:,.2f}")

print("Médias:\n", media)
print("\nMedianas:\n", mediana)
print("\nModas:\n", moda)

Médias:
 qtdcartoesemitidos    13,649,544.93
qtdcartoesativos       4,565,302.72
dtype: object

Medianas:
 qtdcartoesemitidos    2,017,354.00
qtdcartoesativos        638,978.50
dtype: object

Modas:
 qtdcartoesemitidos    218.00
qtdcartoesativos        0.00
Name: 0, dtype: object


## Desvio Padrão

O desvio padrão mede a dispersão dos dados em torno da média.

In [None]:
desvio = df[colunas].std().apply(lambda x: f"{x:,.2f}")
print("Desvio padrão:\n", desvio)

Desvio padrão:
 qtdcartoesemitidos    32,090,516.97
qtdcartoesativos       8,931,789.88
dtype: object


## Agrupamento por Mês

Agrupamos os dados por mês (`ano_mes`) e calculamos as médias mensais para os cartões emitidos e ativos.


In [None]:
df['ano_mes'] = df['trimestre'].dt.to_period('M')
media_mensal = df.groupby('ano_mes')[colunas].mean().applymap(lambda x: f"{x:,.2f}")
media_mensal

  media_mensal = df.groupby('ano_mes')[colunas].mean().applymap(lambda x: f"{x:,.2f}")


Unnamed: 0_level_0,qtdcartoesemitidos,qtdcartoesativos
ano_mes,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-03,7395850.54,2371899.0
2023-06,14438696.4,5944957.33
2023-09,14484573.15,5194776.31
2023-12,37431728.83,8564547.5
2024-03,9983917.47,4794751.33
2024-06,10592426.08,2681535.33
2024-09,4147889.28,1582701.28
2024-12,35976035.5,10626691.38


## Agrupamento por Trimestre

Agrupamos os dados por trimestre e calculamos as médias trimestrais para cartões emitidos e ativos.


In [None]:
df['trimestre_periodo'] = df['trimestre'].dt.to_period('Q')
media_trimestral = df.groupby('trimestre_periodo')[colunas].mean().applymap(lambda x: f"{x:,.2f}")
media_trimestral

  media_trimestral = df.groupby('trimestre_periodo')[colunas].mean().applymap(lambda x: f"{x:,.2f}")


Unnamed: 0_level_0,qtdcartoesemitidos,qtdcartoesativos
trimestre_periodo,Unnamed: 1_level_1,Unnamed: 2_level_1
2023Q1,7395850.54,2371899.0
2023Q2,14438696.4,5944957.33
2023Q3,14484573.15,5194776.31
2023Q4,37431728.83,8564547.5
2024Q1,9983917.47,4794751.33
2024Q2,10592426.08,2681535.33
2024Q3,4147889.28,1582701.28
2024Q4,35976035.5,10626691.38
