# Análise Exploratória de Dados - Case Técnico

## 1. Carregando os Dados

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

cards = pd.read_csv('../data/cards.csv')
cards_status = pd.read_csv('../data/cards_status.csv')
cards_transactions = pd.read_csv('../data/cards_transactions.csv')

## 2. Exploração Inicial dos Dados

### 2.1. Visualizando as primeiras linhas dos DataFrames

In [2]:
print('Cards:')
display(cards.head())

Cards:


Unnamed: 0,card_number,card_model,company_id,employee_id,valid_thru
0,150152835,PIN,5cf5818c6b3492639dabdf0e,606247fac815510007c03376,01/23
1,150162990,PIN,5e28a0d99311c2000897dc46,6128dfe52c16150009d1a945,01/23
2,150203565,PIN,5d9408e9b0d899000754c19b,5fb6fb67e2cd9c0008efd80a,01/23
3,150225330,PIN,5d9408e9b0d899000754c19b,6031be104968020008c40350,01/23
4,150234270,PIN,5d93b30434e9070007b85109,6035501ad6f91b000714abec,01/23


In [3]:
print('Cards Status:')
display(cards_status.head())

Cards Status:


Unnamed: 0,card_number,card_model,card_type,card_status,started_at,ended_at
0,150152835,PIN,PLASTIC,OPEN,2022-07-25,
1,150162990,PIN,PLASTIC,OPEN,2022-05-02,
2,150167805,PIN,PLASTIC,OPEN,2022-05-27,
3,150203565,PIN,PLASTIC,PERMANENTLY_TERMINATED,2023-03-03,
4,150203565,PIN,PLASTIC,OPEN,2022-12-14,2023-03-03


In [4]:
print('Cards Transactions:')
display(cards_transactions.head())

Cards Transactions:


Unnamed: 0,card_number,transaction_id,transaction_date,amount
0,155311860.0,n1VLMBoEMqFt0pu9PxOv1,2023-03-06T18:04:54.000Z,12.37
1,155311860.0,ZS8SJu9GwSE1GFSym-eoJ,2023-03-02T19:13:37.000Z,78.95
2,155311860.0,wGxeX4SZsuqTKE5R-qg_Z,2023-02-16T12:54:34.000Z,31.9
3,155311860.0,rAKeKeZBYoa2H9J8HJPyq,2023-02-19T22:40:56.000Z,15.35
4,155311860.0,g_jo96pp0ZRRxbqQQck1Q,2023-03-04T15:00:41.000Z,76.75


### 2.2. Informações sobre os DataFrames

In [5]:
print('Cards Info:')
cards.info()

Cards Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 288093 entries, 0 to 288092
Data columns (total 5 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   card_number  288093 non-null  int64 
 1   card_model   288093 non-null  object
 2   company_id   287987 non-null  object
 3   employee_id  288018 non-null  object
 4   valid_thru   288093 non-null  object
dtypes: int64(1), object(4)
memory usage: 11.0+ MB


In [6]:
print('Cards Status Info:')
cards_status.info()

Cards Status Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 498219 entries, 0 to 498218
Data columns (total 6 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   card_number  498219 non-null  int64 
 1   card_model   498219 non-null  object
 2   card_type    498219 non-null  object
 3   card_status  498219 non-null  object
 4   started_at   498219 non-null  object
 5   ended_at     210126 non-null  object
dtypes: int64(1), object(5)
memory usage: 22.8+ MB


In [7]:
print('Cards Transactions Info:')
cards_transactions.info()

Cards Transactions Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13979889 entries, 0 to 13979888
Data columns (total 4 columns):
 #   Column            Dtype  
---  ------            -----  
 0   card_number       float64
 1   transaction_id    object 
 2   transaction_date  object 
 3   amount            float64
dtypes: float64(2), object(2)
memory usage: 426.6+ MB


### 2.3. Estatísticas Descritivas

In [8]:
print('Cards Describe:')
display(cards.describe())

Cards Describe:


Unnamed: 0,card_number
count,288093.0
mean,418985500.0
std,188908400.0
min,114602300.0
25%,239982600.0
50%,521756200.0
75%,602483600.0
max,686749100.0


In [9]:
print('Cards Status Describe:')
display(cards_status.describe())

Cards Status Describe:


Unnamed: 0,card_number
count,498219.0
mean,412651200.0
std,184790300.0
min,114602300.0
25%,242072800.0
50%,311198600.0
75%,594947100.0
max,686749100.0


In [10]:
print('Cards Transactions Describe:')
display(cards_transactions.describe())

Cards Transactions Describe:


Unnamed: 0,card_number,amount
count,13979890.0,13979890.0
mean,432563700.0,54.52401
std,167804100.0,104.4204
min,155243900.0,0.01
25%,257946200.0,12.43
50%,524583500.0,25.9
75%,586572100.0,53.31
max,686722600.0,82616.47


### 2.4. Verificando Valores Nulos

In [11]:
print('Cards Nulls:')
print(cards.isnull().sum())

Cards Nulls:
card_number      0
card_model       0
company_id     106
employee_id     75
valid_thru       0
dtype: int64


In [12]:
print('Cards Status Nulls:')
print(cards_status.isnull().sum())

Cards Status Nulls:
card_number         0
card_model          0
card_type           0
card_status         0
started_at          0
ended_at       288093
dtype: int64


### 2.5. Verificando Valores Duplicados


In [13]:
print('Cards Duplicados:')
print(cards.duplicated().sum())

print('\nCards Status Duplicados:')
print(cards_status.duplicated().sum())

print('\nCards Transactions Duplicados:')
print(cards_transactions.duplicated().sum())


Cards Duplicados:
0

Cards Status Duplicados:
24066

Cards Transactions Duplicados:
0


### 2.6. Consistência de Chaves


In [14]:
print('Verificando card_ids em cards_status que não estão em cards:')
missing_in_cards_status = cards_status[~cards_status['card_number'].isin(cards['card_number'])]
print(f'Número de card_ids ausentes: {len(missing_in_cards_status)}')

print('\nVerificando card_ids em cards_transactions que não estão em cards:')
missing_in_cards_transactions = cards_transactions[~cards_transactions['card_number'].isin(cards['card_number'])]
print(f'Número de card_ids ausentes: {len(missing_in_cards_transactions)}')


Verificando card_ids em cards_status que não estão em cards:
Número de card_ids ausentes: 0

Verificando card_ids em cards_transactions que não estão em cards:
Número de card_ids ausentes: 0


### 2.7. Conversão de Colunas de Data para Datetime


In [16]:
# --- Etapa de Limpeza e Padronização de Dados (Versão Robusta) ---

print("Padronizando 'cards'...")

if pd.api.types.is_string_dtype(cards['valid_thru']):
    cards['valid_thru'] = pd.to_datetime(cards['valid_thru'], format='%m/%y', errors='coerce') + pd.offsets.MonthEnd(1)
if pd.api.types.is_datetime64_any_dtype(cards['valid_thru']):
    if cards['valid_thru'].dt.tz is None:
        cards['valid_thru'] = cards['valid_thru'].dt.tz_localize('UTC')

print("Padronizando 'cards_status'...")
# Primeiro, converte para datetime
cards_status['started_at'] = pd.to_datetime(cards_status['started_at'], errors='coerce')
cards_status['ended_at'] = pd.to_datetime(cards_status['ended_at'], errors='coerce')

# Adiciona fuso horário APENAS se as colunas forem 'naive' (sem fuso)
if pd.api.types.is_datetime64_any_dtype(cards_status['started_at']):
    if cards_status['started_at'].dt.tz is None:
        cards_status['started_at'] = cards_status['started_at'].dt.tz_localize('UTC')
if pd.api.types.is_datetime64_any_dtype(cards_status['ended_at']):
    if cards_status['ended_at'].dt.tz is None:
        cards_status['ended_at'] = cards_status['ended_at'].dt.tz_localize('UTC')

print("Padronizando 'cards_transactions'...")
cards_transactions['transaction_date'] = pd.to_datetime(cards_transactions['transaction_date'], errors='coerce')

# Converte a coluna 'amount' APENAS se ela for do tipo string/object
if pd.api.types.is_string_dtype(cards_transactions['amount']):
    cards_transactions['amount'] = cards_transactions['amount'].str.replace(',', '.').astype(float)

print("\nConversão e padronização concluídas com sucesso!")

Padronizando 'cards'...
Padronizando 'cards_status'...
Padronizando 'cards_transactions'...

Conversão e padronização concluídas com sucesso!



## 3. Observações da Análise Exploratória de Dados (EDA)



Durante a etapa de EDA, foram identificadas as seguintes observações nos conjuntos de dados:

### 3.1. Valores Nulos
- `cards`: Colunas `company_id` (106 nulos) e `employee_id` (75 nulos).  
- `cards_status`: Coluna `ended_at` com 288.093 nulos, representando status ativos ou bloqueios ainda vigentes.  
- `cards_transactions`: Nenhum valor nulo encontrado.  

### 3.2. Valores Duplicados
- `cards`: Nenhuma duplicata encontrada.  
- `cards_status`: 24.066 registros duplicados, o que é esperado, pois o DataFrame armazena o histórico de status de cada cartão (múltiplas entradas para o mesmo `card_number` refletem transições de status).  
- `cards_transactions`: Nenhuma duplicata encontrada.  

### 3.3. Consistência de Chaves (`card_number`)
- `cards_status`: Todos os `card_number` encontrados estão presentes em `cards`.  
- `cards_transactions`: Todos os `card_number` encontrados estão presentes em `cards`.  

### 3.4. Pontos a Verificar (Potenciais Inconsistências)
- `valid_thru`: Confirmar se existem datas de validade já expiradas.  
- `started_at` x `ended_at`: Validar se `ended_at` ocorre sempre após `started_at`.  
- `transaction_amount`: Investigar valores negativos ou fora de escala (muito altos/baixos sem justificativa).  
- `transaction_date`: Checar se as datas estão dentro de um intervalo esperado e sem anomalias.  




## 4. Limpeza & Preparação


### 4.1. Validação de Integridade (`card_id`)


Após a execução da célula anterior (2.6), verificamos que **não foram encontradas** inconsistências de `card_number`s em `cards_status` e `cards_transactions` que não estejam presentes no DataFrame `cards`. Isso indica uma boa integridade referencial dos dados em relação aos IDs de cartão. Caso houvesse inconsistências, a estratégia de tratamento seria reavaliada conforme a necessidade das métricas e análises subsequentes. Idealmente, em um ambiente de produção, a origem desses dados seria investigada para corrigir a raiz do problema.


### 4.2. Tratamento de Nulos em `company_id` e `employee_id`


In [17]:
# Preenchendo valores nulos em 'company_id' e 'employee_id'
cards['company_id'] = cards['company_id'].fillna('Unknown')
cards['employee_id'] = cards['employee_id'].fillna('Unknown')

print('Valores nulos em company_id e employee_id tratados.')
print('\nCards Nulls após tratamento:')
print(cards.isnull().sum())


Valores nulos em company_id e employee_id tratados.

Cards Nulls após tratamento:
card_number    0
card_model     0
company_id     0
employee_id    0
valid_thru     0
dtype: int64


### 4.3. Função `get_status_on_date`


In [18]:
# "Qual era o status do cartão X no dia Y?"

def get_status_on_date_vectorized(status_df, ref_date):
    """
    Função VETORIZADA que retorna o status mais recente de TODOS os cartões
    em uma data de referência. Essencial para a performance.
    """
    ref_date = pd.to_datetime(ref_date)
    active_statuses = status_df[
        (status_df['started_at'] <= ref_date) &
        ((status_df['ended_at'] > ref_date) | (pd.isna(status_df['ended_at'])))
    ]
    final_statuses = active_statuses.sort_values('started_at').drop_duplicates('card_number', keep='last')
    return final_statuses


## 5. Métricas QMR (Questão 1)


In [19]:
### 5.1. Definição dos Trimestres e Estrutura do DataFrame QMR

quarters = {
    'Q1 2023': {'start': pd.Timestamp('2023-01-01', tz='UTC'), 'end': pd.Timestamp('2023-03-31', tz='UTC')},
    'Q2 2023': {'start': pd.Timestamp('2023-04-01', tz='UTC'), 'end': pd.Timestamp('2023-06-30', tz='UTC')},
    'Q3 2023': {'start': pd.Timestamp('2023-07-01', tz='UTC'), 'end': pd.Timestamp('2023-09-30', tz='UTC')}
}

qmr_metrics = pd.DataFrame(columns=[
    'Quarter',
    'Cards at Beginning (Open)',
    'Cards at Beginning (Blocked)',
    'New Cards Obtained',
    'Cards Terminated',
    'Cards at End (Open)',
    'Cards at End (Blocked)',
    'Cards with at Least One Transaction'
])




In [20]:
# --- Pré-cálculo das primeiras datas de ativação para evitar reprocessamento no loop. ---
# Isso garante que apenas cartões genuinamente novos sejam contados.
first_open_dates = cards_status[cards_status['card_status'] == 'OPEN'].groupby('card_number')['started_at'].min()

# --- Loop Principal Corrigido e Otimizado ---

# Lista para armazenar os resultados. É mais eficiente que adicionar linhas a um DataFrame em um loop.
qmr_results_list = []

for quarter_name, dates in quarters.items():
    start_date = dates['start']
    end_date = dates['end']
    
    # --- Cartões no Início do Trimestre ---
    # Usamos a data final do dia anterior para a fotografia do início.
    beginning_df = get_status_on_date_vectorized(cards_status, start_date - pd.Timedelta(days=1))
    beginning_counts = beginning_df['card_status'].value_counts()
    beginning_open = beginning_counts.get('OPEN', 0)
    beginning_blocked = beginning_counts.get('TEMPORARILY_BLOCKED', 0)

    # --- Novos Cartões Obtidos (Lógica Corrigida) ---
    new_cards = first_open_dates[
        (first_open_dates >= start_date) & (first_open_dates <= end_date)
    ].nunique()

    # --- Cartões Terminados (Status Corrigido) ---
    terminated_cards = cards_status[
        (cards_status['started_at'] >= start_date) & 
        (cards_status['started_at'] <= end_date) & 
        (cards_status['card_status'] == 'PERMANENTLY_TERMINATED') # CORREÇÃO: Usando o status correto
    ]['card_number'].nunique()

    # --- Cartões no Fim do Trimestre ---
    end_df = get_status_on_date_vectorized(cards_status, end_date)
    end_counts = end_df['card_status'].value_counts()
    end_open = end_counts.get('OPEN', 0)
    end_blocked = end_counts.get('TEMPORARILY_BLOCKED', 0)

    # --- Transações (Placeholder) ---
    # Métrica zerada devido à indisponibilidade de dados válidos.
    # Vou manter a contagem original para a transacao, mas a flag no README será tratada
    transactions_in_quarter = cards_transactions[
        (cards_transactions['transaction_date'] >= start_date) &
        (cards_transactions['transaction_date'] <= end_date)
    ]
    cards_with_transactions = transactions_in_quarter['card_number'].nunique()

    # Adiciona um dicionário com os resultados do trimestre à lista
    qmr_results_list.append({
        'Quarter': quarter_name,
        'Cards at Beginning (Open)': beginning_open,
        'Cards at Beginning (Blocked)': beginning_blocked,
        'New Cards Obtained': new_cards,
        'Cards Terminated': terminated_cards,
        'Cards at End (Open)': end_open,
        'Cards at End (Blocked)': end_blocked,
        'Cards with at Least One Transaction': cards_with_transactions
    })

# Cria o DataFrame final a partir da lista, de uma só vez.
qmr_metrics = pd.DataFrame(qmr_results_list)

print("--- Relatório QMR Final ---")
display(qmr_metrics)


# --- Validação da Equação de Balanço ---
print("\n--- Validação da Equação (Fim ≈ Início + Novos - Terminados) ---")
qmr_metrics['Beginning Total'] = qmr_metrics['Cards at Beginning (Open)'] + qmr_metrics['Cards at Beginning (Blocked)']
qmr_metrics['End Total'] = qmr_metrics['Cards at End (Open)'] + qmr_metrics['Cards at End (Blocked)']
qmr_metrics['Calculated End Total'] = qmr_metrics['Beginning Total'] + qmr_metrics['New Cards Obtained'] - qmr_metrics['Cards Terminated']
qmr_metrics['Difference'] = qmr_metrics['End Total'] - qmr_metrics['Calculated End Total']

display(qmr_metrics[['Quarter', 'Beginning Total', 'New Cards Obtained', 'Cards Terminated', 'End Total', 'Calculated End Total', 'Difference']])


--- Relatório QMR Final ---


Unnamed: 0,Quarter,Cards at Beginning (Open),Cards at Beginning (Blocked),New Cards Obtained,Cards Terminated,Cards at End (Open),Cards at End (Blocked),Cards with at Least One Transaction
0,Q1 2023,158599,1168,90,4686,181508,5373,126560
1,Q2 2023,181508,5373,91,8687,215200,5681,153578
2,Q3 2023,215200,5681,92,11061,251915,6092,173232



--- Validação da Equação (Fim ≈ Início + Novos - Terminados) ---


Unnamed: 0,Quarter,Beginning Total,New Cards Obtained,Cards Terminated,End Total,Calculated End Total,Difference
0,Q1 2023,159767,90,4686,186881,155171,31710
1,Q2 2023,186881,91,8687,220881,178285,42596
2,Q3 2023,220881,92,11061,258007,209912,48095


## 6. Análise Contactless (Questão 2)


### 6.1. Percentual de Cartões Contactless no final do Q3/2023


In [21]:
# Definir a data final do Q3 2023
q3_end_2023 = quarters['Q3 2023']['end']

# Obter o status de cada cartão no final do Q3 2023 usando a função vetorizada
q3_end_status_df = get_status_on_date_vectorized(cards_status, q3_end_2023)

# Fazer merge do status no DataFrame 'cards'
# Usamos um novo DataFrame para não modificar o 'cards' original
# CORREÇÃO: Usando 'cards' em vez de 'df_cards' para merge
cards_with_status = cards.merge(
    q3_end_status_df[['card_number', 'card_status']],
    on='card_number',
    how='left'
)
cards_with_status = cards_with_status.rename(columns={'card_status': 'status_q3_end'})

# Filtrar apenas cartões ativos (OPEN) no final do Q3
# É importante preencher NaNs (cartões sem status no fim do Q3) para o filtro funcionar corretamente
active_cards_q3_end = cards_with_status[cards_with_status['status_q3_end'] == 'OPEN']

# Calcular o percentual de cartões contactless usando a coluna correta: 'card_model'
contactless_counts = active_cards_q3_end['card_model'].value_counts()
total_active_cards = contactless_counts.sum()

if total_active_cards > 0:
    # Usamos .get('CONTACTLESS', 0) para buscar o valor correto e evitar erros se não houver nenhum
    percent_contactless = (contactless_counts.get('CONTACTLESS', 0) / total_active_cards) * 100
    print(f'Percentual de cartões Contactless ativos no final do Q3/2023: {percent_contactless:.2f}%')
else:
    print('Não há cartões ativos no final do Q3/2023 para calcular o percentual Contactless.')




Percentual de cartões Contactless ativos no final do Q3/2023: 79.80%


### 6.2. Segmentação de Cartões PIN por Empresa


In [22]:
# --- Segmentação de Cartões PIN por Empresa (Questão 2.2) ---

# Filtrar cartões ativos no Q3/2023 que são do tipo 'PIN', usando a coluna correta 'card_model'.
pin_cards_q3_end = active_cards_q3_end[active_cards_q3_end['card_model'] == 'PIN']

# Agrupar por company_id e contar o número de cartões PIN
pin_cards_by_company = pin_cards_q3_end['company_id'].value_counts().reset_index()
pin_cards_by_company.columns = ['Company_ID', 'Contagem de Cartões PIN']

print('Top 10 Empresas com maior concentração de cartões PIN no final do Q3/2023:')
display(pin_cards_by_company.head(10))


Top 10 Empresas com maior concentração de cartões PIN no final do Q3/2023:


Unnamed: 0,Company_ID,Contagem de Cartões PIN
0,5e5845d509555e0007d06483,575
1,5d9408e9b0d899000754c19b,575
2,5f15f3ed20f6540008628942,499
3,6023d0e9f22b98000701db6f,392
4,60d1f118462483000902d83d,284
5,602faf45145da600073b1b1f,256
6,5f299d66b18f850008c4e289,249
7,60509c5a9964610007cc0031,243
8,61489736429d920009ff62eb,242
9,60d9d19a7751350008fcb408,208


### 6.3. Cartões PIN com Validade Próxima (Candidatos a Contactless)


In [23]:
# Definir a data limite para validade próxima (ex: 6 meses a partir do final do Q3/2023)
expiration_cutoff_date = q3_end_2023 + pd.DateOffset(months=6)

# Filtrar cartões PIN ativos no Q3/2023 com validade próxima
pin_cards_expiring_soon = active_cards_q3_end[
  
    (active_cards_q3_end['card_model'] == 'PIN') &
    
    (active_cards_q3_end['valid_thru'] <= expiration_cutoff_date)
]

print(f'Número de cartões PIN ativos no Q3/2023 expirando nos próximos 6 meses: {len(pin_cards_expiring_soon)}')
print('Detalhes dos cartões PIN com validade próxima:')
display(pin_cards_expiring_soon.head())

# Opcional: Analisar a distribuição por empresa desses cartões
print('\nDistribuição de cartões PIN com validade próxima por empresa:')
display(pin_cards_expiring_soon['company_id'].value_counts().head(10))


Número de cartões PIN ativos no Q3/2023 expirando nos próximos 6 meses: 50887
Detalhes dos cartões PIN com validade próxima:


Unnamed: 0,card_number,card_model,company_id,employee_id,valid_thru,status_q3_end
0,150152835,PIN,5cf5818c6b3492639dabdf0e,606247fac815510007c03376,2023-01-31 00:00:00+00:00,OPEN
1,150162990,PIN,5e28a0d99311c2000897dc46,6128dfe52c16150009d1a945,2023-01-31 00:00:00+00:00,OPEN
3,150225330,PIN,5d9408e9b0d899000754c19b,6031be104968020008c40350,2023-01-31 00:00:00+00:00,OPEN
4,150234270,PIN,5d93b30434e9070007b85109,6035501ad6f91b000714abec,2023-01-31 00:00:00+00:00,OPEN
5,150238845,PIN,5d9408e9b0d899000754c19b,6031ba64651165000736689b,2023-01-31 00:00:00+00:00,OPEN



Distribuição de cartões PIN com validade próxima por empresa:


company_id
5e5845d509555e0007d06483    575
5d9408e9b0d899000754c19b    575
5f15f3ed20f6540008628942    499
6023d0e9f22b98000701db6f    392
60d1f118462483000902d83d    284
602faf45145da600073b1b1f    256
5f299d66b18f850008c4e289    249
60509c5a9964610007cc0031    243
61489736429d920009ff62eb    242
60d9d19a7751350008fcb408    208
Name: count, dtype: int64

### 6.4. Gráfico de Pizza: Contactless vs. PIN no Q3/2023


In [26]:
import pandas as pd
import plotly.express as px
import os  # Adicionado para corrigir o erro

labels = contactless_counts.index
sizes = contactless_counts.values
total = sum(sizes)

df = pd.DataFrame({
    'Tipo de Cartão': labels,
    'Quantidade': sizes,
    'Percentual': [f'{(v/total):.1%}' for v in sizes]
})

# Escolher rosa claro e escuro da marca Flash
cores_flash = ['#FFC1E3', '#F30062']

fig = px.bar(
    df,
    x='Quantidade',
    y='Tipo de Cartão',
    orientation='h',
    color='Tipo de Cartão',
    color_discrete_sequence=cores_flash,
    hover_data={'Quantidade': True, 'Percentual': True}
)

fig.update_layout(
    title='Distribuição de Cartões Ativos (Contactless vs. PIN) no Final do Q3/2023',
    xaxis_title='Quantidade de Cartões',
    yaxis_title='',
    template='plotly_white',
    showlegend=False
)

fig.write_html(os.path.join(output_dir, 'contactless_vs_pin_flash.html'))
fig.show()



### 6.5. Gráfico de Barras: Top Empresas com maior concentração de PIN


In [25]:
import plotly.express as px
import os

output_dir = 'flash_case/outputs'
os.makedirs(output_dir, exist_ok=True)

top_10_pin_companies = pin_cards_by_company.head(10)

fig = px.bar(
    top_10_pin_companies,
    x='Contagem de Cartões PIN',
    y='Company_ID',
    orientation='h',
    color='Contagem de Cartões PIN',
    color_continuous_scale=['#FFC1E3', '#F30062'],  # gradiente rosa Flash
    hover_data={'Contagem de Cartões PIN': True}
)

fig.update_layout(
    title='Top 10 Empresas com Maior Concentração de Cartões PIN (Q3/2023)',
    xaxis_title='Número de Cartões PIN',
    yaxis_title='ID da Empresa',
    yaxis=dict(autorange="reversed"),
    template='plotly_white',
    coloraxis_showscale=False
)

fig.write_html(os.path.join(output_dir, 'top_companies_pin_flash.html'))
fig.show()




## 7. Insights Estratégicos (Questão 3)


### 7.1. Bloqueios Retidos e Tempo Médio de Bloqueio


In [27]:
# Identificar cartões que ficaram 'temporariamente bloqueados' e não mudaram de status no trimestre seguinte
# Vamos considerar os status iniciados no Q1 e Q2 de 2023
# 1. ORDENAÇÃO: Garante que os status de cada cartão estão em ordem cronológica.

cards_status_sorted = cards_status.sort_values(by=['card_number', 'started_at'])

# 2. CRIAÇÃO DA COLUNA 'next_status':
# Usamos groupby() e shift(-1) para criar uma nova coluna que contém o status
# subsequente para cada cartão. Para o último status de um cartão, o valor será NaT (Not a Time).
cards_status_sorted['next_status'] = cards_status_sorted.groupby('card_number')['card_status'].shift(-1)

# 3. FILTRO VETORIZADO PARA BLOQUEIOS RETIDOS:
# Um bloqueio é considerado 'retido' se o status atual é 'TEMPORARILY_BLOCKED' E
# o próximo status não existe (é o último status conhecido) OU o próximo status não é 'OPEN' nem 'PERMANENTLY_TERMINATED'.
retained_blocked_cards = cards_status_sorted[
    (cards_status_sorted['card_status'] == 'TEMPORARILY_BLOCKED') &
    (~cards_status_sorted['next_status'].isin(['OPEN', 'PERMANENTLY_TERMINATED']))
]

print(f"Número de eventos de bloqueio que não foram reativados ou terminados: {len(retained_blocked_cards)}")
print("\nExemplos de cartões com bloqueios retidos:")
display(retained_blocked_cards[['card_number', 'started_at', 'card_status', 'next_status']].head())


# --- Cálculo do Tempo Médio para Bloqueios RESOLVIDOS ---
# Esta parte do seu código já estava correta e otimizada.
# Ela calcula a duração média dos bloqueios que tiveram uma data de término.
blocked_durations = cards_status[
    (cards_status['card_status'] == 'TEMPORARILY_BLOCKED') &
    (cards_status['ended_at'].notna())
].copy()

if not blocked_durations.empty:
    blocked_durations['duration_days'] = (blocked_durations['ended_at'] - blocked_durations['started_at']).dt.days
    avg_block_duration = blocked_durations['duration_days'].mean()
    print(f'\nTempo médio de bloqueio (dias) para bloqueios com data de término: {avg_block_duration:.2f} dias')
else:
    print('\nNão há registros de bloqueio com data de término para calcular o tempo médio.')


# --- Recomendações Estratégicas ---
print('\nRecomendações para Cartões com Bloqueios Retidos (ou longos):')
print('- Implementar um sistema de alertas para bloqueios que excedam um certo período (ex: 30 dias).')
print('- Propor campanhas de reativação para clientes com cartões bloqueados temporariamente por longos períodos.')
print('- Oferecer suporte proativo para entender a causa do bloqueio e auxiliar na resolução.')
print('- Analisar os motivos mais comuns de bloqueio para identificar tendências e pontos de melhoria no processo.')


Número de eventos de bloqueio que não foram reativados ou terminados: 36217

Exemplos de cartões com bloqueios retidos:


Unnamed: 0,card_number,started_at,card_status,next_status
279662,114613725,2022-12-23 00:00:00+00:00,TEMPORARILY_BLOCKED,
78401,114659880,2023-02-02 00:00:00+00:00,TEMPORARILY_BLOCKED,
358993,114719160,2023-02-02 00:00:00+00:00,TEMPORARILY_BLOCKED,
319743,116680095,2023-01-11 00:00:00+00:00,TEMPORARILY_BLOCKED,
159744,117405135,2023-02-01 00:00:00+00:00,TEMPORARILY_BLOCKED,



Tempo médio de bloqueio (dias) para bloqueios com data de término: 3.75 dias

Recomendações para Cartões com Bloqueios Retidos (ou longos):
- Implementar um sistema de alertas para bloqueios que excedam um certo período (ex: 30 dias).
- Propor campanhas de reativação para clientes com cartões bloqueados temporariamente por longos períodos.
- Oferecer suporte proativo para entender a causa do bloqueio e auxiliar na resolução.
- Analisar os motivos mais comuns de bloqueio para identificar tendências e pontos de melhoria no processo.


### 7.2. Impacto da Taxa de Bloqueios


In [28]:
# --- 7.2. Impacto da Taxa de Bloqueios (Corrigido e Refinado) ---

print('Efeitos do Impacto da Taxa de Bloqueios:')
print('- Perda de receita: Cartões bloqueados não geram transações.')
print('- Churn (abandono): Insatisfação pode levar ao cancelamento do cartão.')
print('- Aumento de custos de suporte: Aumento de chamados para resolução.')
print('- Impacto na reputação da marca: Experiências negativas com bloqueios.')

# --- Estimativa de Perda de Receita ---

# Filtrar o total de transações no Q3/2023
total_transactions_q3 = cards_transactions[
    (cards_transactions['transaction_date'] >= quarters['Q3 2023']['start']) &
    (cards_transactions['transaction_date'] <= quarters['Q3 2023']['end'])
]

#  Calcular o número de cartões que efetivamente transacionaram no Q3
num_transacting_cards_q3 = total_transactions_q3['card_number'].nunique()

# Calcular o valor médio por cartão que transacionou
if num_transacting_cards_q3 > 0:
    # CORREÇÃO: Usando a coluna correta 'amount'
    avg_value_per_transacting_card = total_transactions_q3['amount'].sum() / num_transacting_cards_q3
else:
    avg_value_per_transacting_card = 0

print(f'\nValor médio transacionado por cartão ativo (no Q3/2023): R$ {avg_value_per_transacting_card:.2f}')

# Contar o número de cartões bloqueados no final do Q3
num_blocked_cards_q3_end = (cards_with_status['status_q3_end'] == 'TEMPORARILY_BLOCKED').sum()

# Estimar a perda de receita potencial
estimated_total_revenue_loss = num_blocked_cards_q3_end * avg_value_per_transacting_card

print(f'Número de cartões bloqueados no final do Q3/2023: {num_blocked_cards_q3_end}')
print(f'Estimativa de perda de receita potencial devido a cartões bloqueados (no Q3/2023): R$ {estimated_total_revenue_loss:,.2f}') # Adicionada formatação de milhar
print('\nNota: Esta é uma estimativa simplificada para quantificar o impacto do problema.')


Efeitos do Impacto da Taxa de Bloqueios:
- Perda de receita: Cartões bloqueados não geram transações.
- Churn (abandono): Insatisfação pode levar ao cancelamento do cartão.
- Aumento de custos de suporte: Aumento de chamados para resolução.
- Impacto na reputação da marca: Experiências negativas com bloqueios.

Valor médio transacionado por cartão ativo (no Q3/2023): R$ 1585.02
Número de cartões bloqueados no final do Q3/2023: 6092
Estimativa de perda de receita potencial devido a cartões bloqueados (no Q3/2023): R$ 9,655,917.62

Nota: Esta é uma estimativa simplificada para quantificar o impacto do problema.


### 7.3. Expiração de Cartões


In [29]:
# Definir o período do Q4/2023

q4_2023_start = pd.Timestamp('2023-10-01', tz='UTC')
q4_2023_end = pd.Timestamp('2023-12-31', tz='UTC')

# Filtrar cartões com valid_thru no Q4/2023
cards_expiring_q4 = cards[
    (cards['valid_thru'] >= q4_2023_start) &
    (cards['valid_thru'] <= q4_2023_end)
].copy()

# Obter o status dos cartões no momento em que entram no período de expiração (final do Q3)
current_status_df = get_status_on_date_vectorized(cards_status, q4_2023_start - pd.Timedelta(days=1))

# Fazer merge do status atual no DataFrame cards_expiring_q4
cards_expiring_q4 = cards_expiring_q4.merge(
    current_status_df[['card_number', 'card_status']],
    on='card_number',
    how='left'
)
cards_expiring_q4 = cards_expiring_q4.rename(columns={'card_status': 'current_status'})

print(f'Volume de cartões expirando no Q4/2023: {len(cards_expiring_q4)}')
print('Distribuição de status dos cartões expirando no Q4/2023:')
display(cards_expiring_q4['current_status'].value_counts())

print("\n📌 Recomendações para cartões expirando no Q4/2023:\n")

print("1️⃣ Renovação automática para cartões ativos")
print("   🔹 Para cartões com status 'OPEN', implementar um processo de renovação automática ou proativa,")
print("     garantindo a continuidade do serviço e a retenção do cliente.\n")

print("2️⃣ Campanhas de reengajamento para cartões inativos")
print("   🔹 Para cartões com status 'TEMPORARILY_BLOCKED' ou inativos, criar campanhas personalizadas")
print("     para entender o motivo da inatividade e incentivar a reativação com um novo cartão Contactless.\n")

print("3️⃣ Análise de perfil")
print("   🔹 Investigar o perfil dos cartões que estão expirando (empresa, tipo de uso) para identificar padrões")
print("     e otimizar estratégias de renovação e reengajamento.\n")

print("4️⃣ Oferta de upgrade")
print("   🔹 Aproveitar a renovação para oferecer um upgrade para cartões Contactless,")
print("     promovendo a tecnologia e seus benefícios.")


Volume de cartões expirando no Q4/2023: 25267
Distribuição de status dos cartões expirando no Q4/2023:


current_status
OPEN                      21592
PERMANENTLY_TERMINATED     2757
TEMPORARILY_BLOCKED         916
Name: count, dtype: int64


📌 Recomendações para cartões expirando no Q4/2023:

1️⃣ Renovação automática para cartões ativos
   🔹 Para cartões com status 'OPEN', implementar um processo de renovação automática ou proativa,
     garantindo a continuidade do serviço e a retenção do cliente.

2️⃣ Campanhas de reengajamento para cartões inativos
   🔹 Para cartões com status 'TEMPORARILY_BLOCKED' ou inativos, criar campanhas personalizadas
     para entender o motivo da inatividade e incentivar a reativação com um novo cartão Contactless.

3️⃣ Análise de perfil
   🔹 Investigar o perfil dos cartões que estão expirando (empresa, tipo de uso) para identificar padrões
     e otimizar estratégias de renovação e reengajamento.

4️⃣ Oferta de upgrade
   🔹 Aproveitar a renovação para oferecer um upgrade para cartões Contactless,
     promovendo a tecnologia e seus benefícios.


### 8.1. Evolução das Métricas QMR (Gráfico de Linha Interativo)

In [30]:
import plotly.express as px
import os

# Garante que o diretório de saída exista
output_dir = 'flash_case/outputs'
os.makedirs(output_dir, exist_ok=True)

# 1. Preparar os dados para o Plotly (formato "longo")
qmr_metrics_long = qmr_metrics.melt(
    id_vars=['Quarter'], 
    value_vars=[
        'Cards at Beginning (Open)', 
        'New Cards Obtained', 
        'Cards Terminated',
        'Cards at End (Open)', 
        'Cards at End (Blocked)',
        'Cards with at Least One Transaction'
    ],
    var_name='Métrica', 
    value_name='Número de Cartões'
)

# 2. Criar o gráfico de linha interativo
fig_line = px.line(
    qmr_metrics_long,
    x='Quarter',
    y='Número de Cartões',
    color='Métrica',
    markers=True, # Adiciona marcadores, como no seu original
    template='plotly_white',
    title='Evolução das Métricas QMR por Trimestre'
)

# 3. Melhorar o layout
fig_line.update_layout(
    xaxis_title='Trimestre',
    yaxis_title='Número de Cartões',
    legend_title_text='Métricas'
)

# 4. Salvar e exibir
fig_line.write_html(os.path.join(output_dir, 'qmr_metrics_line_chart_interactive.html'))
fig_line.show()


### 8.2. Composição de Cartões (Gráfico de Barras Empilhadas Interativo)


In [31]:
import plotly.express as px
import os

# Garante que o diretório de saída exista
output_dir = 'flash_case/outputs'
os.makedirs(output_dir, exist_ok=True)

# 1. Preparar os dados para o Plotly (formato "longo")
stacked_data_long = qmr_metrics.melt(
    id_vars=['Quarter'],
    value_vars=['Cards at End (Open)', 'Cards at End (Blocked)'],
    var_name='Status no Fim do Trimestre',
    value_name='Número de Cartões'
)

# 2. Criar o gráfico de barras empilhadas interativo
fig_bar = px.bar(
    stacked_data_long,
    x='Quarter',
    y='Número de Cartões',
    color='Status no Fim do Trimestre',
    title='Composição de Cartões no Fim do Trimestre (Abertos vs. Bloqueados)',
    template='plotly_white',
    text_auto=True, # Adiciona os valores automaticamente nas barras
    
    color_discrete_map={ 
        'Cards at End (Open)': '#F30062', # Rosa forte para o status principal
        'Cards at End (Blocked)': '#FFC1E3'  # Rosa claro para o status secundário
    }
)

# 3. Melhorar o layout
fig_bar.update_layout(
    xaxis_title='Trimestre',
    yaxis_title='Número de Cartões',
    legend_title_text='Status'
)

# 4. Salvar e