<a href="https://colab.research.google.com/github/CraftingInsights00/Dashboard-Inadimpl-ncia-Power-BI/blob/main/Case_Analise_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Análise de Dados – Case Apoio Financeiro | Grupo Escolar**

**Autor:** Andres Silva

**Vaga:** Analista de Dados – Apoio Financeiro

**Data:** 15/08/2025

**Descrição:**

Este notebook apresenta a análise exploratória de dados (EDA) realizada para o case proposto pelo Grupo Escolar, com foco na avaliação do funil de cobrança e na identificação dos principais fatores associados à inadimplência. As etapas incluem análise da estrutura dos dados, identificação de padrões e tendências, e recomendações baseadas em dados para aumento de eficiência operacional na recuperação de receita.

# **1. Importação das Bibliotecas e Preparação Inicial**
Nesta etapa inicial, iremos:

* Importar as bibliotecas necessárias para análise (pandas, os, glob, datetime e o módulo files do Google Colab).
* Remover arquivos Excel antigos para evitar erros de duplicidade ao carregar novos dados.
* Realizar o upload da base de dados e carregar as abas relevantes do arquivo Excel.

Esta preparação permite rodar o notebook várias vezes de forma limpa, sem conflitar com arquivos anteriores.

In [None]:
# Importação das bibliotecas essenciais
import pandas as pd             # Manipulação de dados
import os                       # Operações com o sistema operacional
import glob                     # Busca de arquivos no diretório
from datetime import datetime   # Verificação de datas
from google.colab import files  # Upload de arquivos no Colab



# Limpeza: remove arquivos Excel antigos para evitar duplicidades ao recarregar dados
for arquivo in glob.glob('Base de dados.xlsx*'):
    os.remove(arquivo)
print("Arquivos antigos removidos.")

# Upload do novo arquivo de dados
uploaded = files.upload()

# Carregamento das duas abas principais da planilha em DataFrames separados
caminho = 'Base de dados.xlsx'
base = pd.read_excel(caminho, sheet_name='Base')      # Dados principais (inadimplência)
funil = pd.read_excel(caminho, sheet_name='Funil')    # Dados do funil de cobrança


Arquivos antigos removidos.


Saving Base de dados.xlsx to Base de dados.xlsx


# **2. Análise Exploratória Inicial dos Dados**
Nesta etapa, faço uma análise geral das tabelas para:

* Visualizar as primeiras linhas, estrutura e principais estatísticas das bases;
* Verificar valores ausentes, possíveis duplicatas e exemplos de valores únicos em colunas-chave.

O objetivo é entender rapidamente a estrutura, as inconsistências e a variedade dos dados para planejar próximos passos do tratamento e análise.

In [None]:
#EDA inicial - visualização geral, estrutura e valores únicos/relevantes

# Visualização das primeiras linhas das tabelas
print("Primeiras linhas da Base:")
display(base.head())
print("\nPrimeiras linhas do Funil:")
display(funil.head())

# Estrutura e informações das tabelas
print("\nInfo da Base:")
base.info()
print("\nInfo do Funil:")
funil.info()

# Estatísticas descritivas (incluindo texto/categorias)
print("\nDescrição numérica e categórica Base:")
display(base.describe(include='all'))
print("\nDescrição numérica e categórica Funil:")
display(funil.describe(include='all'))

# Valores ausentes e duplicidade
print("\nValores ausentes Base:", base.isnull().sum())
print("\nValores ausentes Funil:", funil.isnull().sum())
print("\nDuplicados Base:", base.duplicated().sum())
print("Duplicados Funil:", funil.duplicated().sum())

# Exemplos de valores únicos em colunas-chave
print("\nRegiões únicas:", base['Região'].unique())
print("Status de pagamento:", base['Status de pagamento'].unique())
print("Tentativa Final (Funil):", funil['Tentativa Final'].unique())
print("Atendimento Final (Funil):", funil['Atendimento Final'].unique())


Primeiras linhas da Base:


Unnamed: 0,Mês de Vencimento,Ano Letivo,Marca,Unidade,Região,ID do Aluno,Nome do aluno,Série / Ano escolar,Data de Vencimento,Data de Pagamento,Nome do Serviço,Nome do Serviço agrupado,Status de pagamento,Valor Previsto,Valor Em Aberto
0,1,2022,Escola Maris,Unidade C,Centro Oeste,10010100000.0,GIOVANNA,1° ano EM,2022-01-10,2022-01-10 00:00:00,Mensalidade EM,Mensalidade,Pago parcialmente,1568.65,1168.65
1,1,2022,Escola Maris,Unidade C,Centro Oeste,10010100000.0,Maria,2° ano EM,2022-01-10,2022-01-10 00:00:00,Mensalidade EM,Mensalidade,Pago,356.2,0.0
2,1,2022,Escola Maris,Unidade C,Centro Oeste,1001010000.0,Gabriel,3° ano EM,2022-01-10,2022-01-04 00:00:00,Mensalidade EM,Mensalidade,Pago,1579.32,0.0
3,1,2022,Escola Maris,Unidade C,Centro Oeste,1001010000.0,Alice,5° ano EF,2022-01-10,2022-01-10 00:00:00,Mensalidade EM,Mensalidade,Pago parcialmente,1440.6,1040.6
4,1,2022,Escola Maris,Unidade C,Centro Oeste,1001011000.0,Enzo,6° ano EF,2022-01-10,2022-01-03 00:00:00,Mensalidade EM,Mensalidade,Pago,1517.96,0.0



Primeiras linhas do Funil:


Unnamed: 0,ID do Aluno,Marca - Unidade,Tentativa Final,Atendimento Final
0,10010100000.0,Escola Maris - Unidade C,Sim,Não
1,10010100000.0,Escola Maris - Unidade C,Sim,Não
2,1001010000.0,Escola Maris - Unidade C,Sim,Não
3,1001010000.0,Escola Maris - Unidade C,Sim,Não
4,1001011000.0,Escola Maris - Unidade C,Sim,Sim



Info da Base:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 151995 entries, 0 to 151994
Data columns (total 15 columns):
 #   Column                    Non-Null Count   Dtype         
---  ------                    --------------   -----         
 0   Mês de Vencimento         151995 non-null  int64         
 1   Ano Letivo                151995 non-null  int64         
 2   Marca                     151995 non-null  object        
 3   Unidade                   151995 non-null  object        
 4   Região                    151995 non-null  object        
 5   ID do Aluno               151986 non-null  float64       
 6   Nome do aluno             151994 non-null  object        
 7   Série / Ano escolar       151995 non-null  object        
 8   Data de Vencimento        151995 non-null  datetime64[ns]
 9   Data de Pagamento         123013 non-null  object        
 10  Nome do Serviço           151995 non-null  object        
 11  Nome do Serviço agrupado  151995 non-null  object 

Unnamed: 0,Mês de Vencimento,Ano Letivo,Marca,Unidade,Região,ID do Aluno,Nome do aluno,Série / Ano escolar,Data de Vencimento,Data de Pagamento,Nome do Serviço,Nome do Serviço agrupado,Status de pagamento,Valor Previsto,Valor Em Aberto
count,151995.0,151995.0,151995,151995,151995,151986.0,151994,151995,151995,123013,151995,151995,151995,151995.0,151995.0
unique,,,7,7,5,,1306,8,,619,110,5,3,,
top,,,Escola Petrolina,Unidade F,Sudeste,,Maria,5° ano EF,,2022-02-10 00:00:00,Mensalidade EM,Mensalidade,Pago,,
freq,,,37126,37126,37126,,10198,19040,,4643,27323,109157,122241,,
mean,6.672983,2022.510642,,,,32669930000.0,,,2023-01-04 10:10:31.962893568,,,,,761.512802,153.546429
min,1.0,2022.0,,,,1040400.0,,,2022-01-03 00:00:00,,,,,0.01,0.0
25%,4.0,2022.0,,,,11144010.0,,,2022-07-11 00:00:00,,,,,156.86,0.0
50%,7.0,2023.0,,,,109119400.0,,,2023-01-10 00:00:00,,,,,771.34,0.0
75%,9.0,2023.0,,,,1090101000.0,,,2023-07-10 00:00:00,,,,,1122.47,0.0
max,12.0,2023.0,,,,10910410000000.0,,,2023-12-29 00:00:00,,,,,23774.9,22667.46



Descrição numérica e categórica Funil:


Unnamed: 0,ID do Aluno,Marca - Unidade,Tentativa Final,Atendimento Final
count,85331.0,24574,24574,24574
unique,,6,1,2
top,,Escola Correas - Unidade A,Sim,Não
freq,,6381,24574,16245
mean,12939800000.0,,,
std,273948600000.0,,,
min,1040400.0,,,
25%,11140440.0,,,
50%,109111100.0,,,
75%,1001011000.0,,,



Valores ausentes Base: Mês de Vencimento               0
Ano Letivo                      0
Marca                           0
Unidade                         0
Região                          0
ID do Aluno                     9
Nome do aluno                   1
Série / Ano escolar             0
Data de Vencimento              0
Data de Pagamento           28982
Nome do Serviço                 0
Nome do Serviço agrupado        0
Status de pagamento             0
Valor Previsto                  0
Valor Em Aberto                 0
dtype: int64

Valores ausentes Funil: ID do Aluno           66664
Marca - Unidade      127421
Tentativa Final      127421
Atendimento Final    127421
dtype: int64

Duplicados Base: 2
Duplicados Funil: 133653

Regiões únicas: ['Centro Oeste' 'Nordeste' 'Sul' 'Sudeste' 'Norte']
Status de pagamento: ['Pago parcialmente' 'Pago' 'Inadimplente']
Tentativa Final (Funil): ['Sim' nan]
Atendimento Final (Funil): ['Não' 'Sim' nan]


Após a análise exploratória inicial das tabelas “Base” e “Funil”, observei alguns pontos-chave sobre a estrutura e a qualidade dos dados:

* **Estrutura Geral:**
As tabelas foram carregadas corretamente, apresentando as colunas esperadas para ambos os conjuntos de dados. A base principal (“Base”) contém cerca de 152 mil registros, enquanto o “Funil” apresenta a mesma quantidade de linhas, porém com muitos valores ausentes.

* **Valores Ausentes:**
A “Base” possui poucos campos ausentes, com destaque para a coluna “Data de Pagamento” (cerca de 29 mil valores nulos), refletindo provavelmente inadimplência. Já o “Funil” apresenta alto volume de dados faltantes, principalmente em “ID do Aluno” (quase metade dos registros), além de mais de 127 mil linhas sem informações de tentativa ou atendimento, o que pode indicar falhas de preenchimento ou integração desses dados.

* **Duplicidades:**
Identificamos duplicidade em ambas as bases, sendo o problema mais grave no “Funil” (quase 134 mil registros duplicados), o que requer tratamento para evitar viés nas análises de eficiência do processo de cobrança.

* **Valores Únicos:**
Em termos de diversidade, os campos “Região”, “Status de pagamento”, “Tentativa Final” e “Atendimento Final” têm poucos valores distintos, facilitando segmentações futuras e validação de hipóteses sobre perfis de inadimplência e eficácia da cobrança.

* **Próximos Passos:**
O próximo passo será tratar valores ausentes e duplicados, para garantir dados confiáveis. Em seguida, aprofundarei a análise da inadimplência ao longo do tempo e por diferentes agrupamentos, além de relacionar o andamento do funil de cobrança com os resultados de recuperação de receita.

# **3. Análise de Duplicidades e Consistência dos IDs de Aluno**
Nesta etapa, exploro mais a fundo os registros duplicados em ambas as tabelas e examino a estrutura dos IDs de aluno. O objetivo é entender a natureza das duplicidades, avaliar possíveis impactos no cruzamento entre as bases e preparar o caminho para a unificação dos dados de cobrança e do funil de contato.

In [None]:
# Verificação detalhada das duplicatas antes de remover

print("Duplicatas na Base:")
print(base[base.duplicated(keep=False)])  # Exibe todas as linhas duplicadas, facilitando análise do padrão de repetição

print("\nDuplicatas no Funil:")
print(funil[funil.duplicated(keep=False)])  # Idem para a tabela Funil

# Avaliação dos IDs de Aluno (tipagem, exemplos e contagem de unicidade)

print("\nID do Aluno - Base (tipos e exemplos):")
print(base['ID do Aluno'].dtype)  # Tipo da coluna
print(base['ID do Aluno'].dropna().unique()[:5])  # Exemplos reais dos IDs, removendo nulos

print("\nID do Aluno - Funil (tipos e exemplos):")
print(funil['ID do Aluno'].dtype)  # Tipo da coluna
print(funil['ID do Aluno'].dropna().unique()[:5])

print("\nQuantidade de IDs únicos Base:", base['ID do Aluno'].nunique())  # Quantidade distinta de alunos na Base
print("Quantidade de IDs únicos Funil:", funil['ID do Aluno'].nunique())  # Quantidade distinta de alunos no Funil


Duplicatas na Base:
       Mês de Vencimento  Ano Letivo          Marca    Unidade Região  \
7055                   2        2022  Escola Social  Unidade G  Norte   
7154                   2        2022  Escola Social  Unidade G  Norte   
46132                  8        2022  Escola Social  Unidade G  Norte   
46187                  8        2022  Escola Social  Unidade G  Norte   

        ID do Aluno Nome do aluno Série / Ano escolar Data de Vencimento  \
7055   1.090101e+09         Maria           2° ano EM         2022-02-10   
7154   1.090101e+09         Maria           2° ano EM         2022-02-10   
46132  1.010101e+11         Maria           1° ano EM         2022-08-15   
46187  1.010101e+11         Maria           1° ano EM         2022-08-15   

         Data de Pagamento    Nome do Serviço   Nome do Serviço agrupado  \
7055   2022-02-10 00:00:00      Parcela 1 EF1                 1° Parcela   
7154   2022-02-10 00:00:00      Parcela 1 EF1                 1° Parcela   
46132

A análise detalhada das duplicatas revela que, na tabela "Base", embora haja alguns registros repetidos, eles afetam um número restrito de alunos e meses, envolvendo transações ou serviços idênticos em todos os campos. No entanto, no "Funil", o volume de duplicidades é massivo — aproximadamente 141 mil linhas, muitas vezes associadas a alunos que sequer possuem informações completas de tentativa e atendimento, ou que foram lançados múltiplas vezes sem diferença relevante entre os registros.

Além disso, a investigação dos identificadores mostra que ambos os datasets utilizam o mesmo formato de "ID do Aluno" (float64), com exemplos idênticos nas duas tabelas. Contudo, notamos que o "Funil" cobre apenas uma parcela da base de alunos: são 5.398 IDs únicos na "Base" contra 4.382 no "Funil". Isso sugere que cerca de 19% dos alunos da base principal não passaram por nenhuma etapa de cobrança registrada no funil atual, apontando para oportunidades de ganho de cobertura operacional neste processo.

# **4. Remoção de Registros Duplicados**
Nesta etapa, removo registros completamente idênticos das duas bases ("Base" e "Funil"). Esse procedimento é fundamental para garantir que cada linha represente um evento único de cobrança ou contato, eliminando ruídos e redundâncias que poderiam distorcer os próximos cálculos de inadimplência, de penetração do funil e das análises de eficiência.

In [None]:
# Remove duplicatas totalmente idênticas das duas tabelas principais
base_clean = base.drop_duplicates()
funil_clean = funil.drop_duplicates()

# Verifica o número de registros após a limpeza
print(f'Registros após limpeza - Base: {base_clean.shape}, Funil: {funil_clean.shape}')


Registros após limpeza - Base: (151993, 15), Funil: (18342, 4)


Após a remoção das duplicatas exatas, a "Base" praticamente não foi alterada, restando praticamente o mesmo volume de linhas (151993). Por outro lado, o "Funil" sofreu uma redução drástica, indo de mais de 151 mil registros para 18.342, comprovando que a maior parte dos registros iniciais era composta por repetições.

Essa limpeza é importante para assegurar que, daqui em diante, as análises levem em conta apenas eventos únicos e confiáveis, sem superestimar a quantidade de ações ou cobranças realizadas pela instituição.

# **5. Verificação e Remoção de Datas Inválidas**
Nesta etapa, realizo a identificação e eliminação de registros contendo datas impossíveis nos campos-chave das tabelas, como por exemplo o dia 29 de fevereiro em anos que não são bissextos ou datas inexistentes, como 31 de novembro. A presença desse tipo de inconsistência pode comprometer indicadores e causar falhas em integrações com sistemas de BI. O processo envolve uma validação cuidadosa das colunas de datas, remoção dos registros com datas incorretas e a documentação detalhada desses casos para avaliar possíveis origens e impactos dessas anomalias.

In [None]:
# Função auxiliar para validar datas (considera inclusive datas inexistentes, como 31/11 ou 29/02 em ano não bissexto)
def data_valida(dt):
    try:
        if pd.isnull(dt):
            return True  # Mantém nulos para análise posterior
        # Se for string, tenta converter para datetime
        if isinstance(dt, str):
            dt_obj = pd.to_datetime(dt, errors='coerce', dayfirst=True)
        else:
            dt_obj = pd.to_datetime(dt, errors='coerce')
        # Retorna True só se não for NaT (ou seja, se a data existe mesmo!)
        return not pd.isna(dt_obj)
    except:
        return False

# Lista de colunas de data para validar em cada base (ajuste conforme necessário!)
colunas_datas_base = ['Data de Vencimento', 'Data de Pagamento']
colunas_datas_funil = []  # Adicione campos de data do funil, se houver

# Validação e remoção da "Base"
for coluna in colunas_datas_base:
    if coluna in base_clean.columns:
        mascara_validas = base_clean[coluna].apply(data_valida)
        n_invalidas = (~mascara_validas).sum()
        print(f'Registros inválidos em {coluna}: {n_invalidas}')
        # Mostra exemplos, mas limita a visualização a no máximo 10 linhas
        if n_invalidas > 0:
            print(base_clean.loc[~mascara_validas, [coluna]].head(10))
        # Remove do DataFrame principal
        base_clean = base_clean[mascara_validas]

# Repetir para 'funil_clean', se necessário (ajuste colunas)
for coluna in colunas_datas_funil:
    if coluna in funil_clean.columns:
        mascara_validas = funil_clean[coluna].apply(data_valida)
        n_invalidas = (~mascara_validas).sum()
        print(f'Registros inválidos em {coluna}: {n_invalidas}')
        if n_invalidas > 0:
            print(funil_clean.loc[~mascara_validas, [coluna]].head(10))
        funil_clean = funil_clean[mascara_validas]

print(f'Base final após limpeza de datas: {base_clean.shape}')
print(f'Funil final após limpeza de datas: {funil_clean.shape}')

Registros inválidos em Data de Vencimento: 0
Registros inválidos em Data de Pagamento: 20
      Data de Pagamento
78970        29/02/2022
79069        29/02/2022
79299        29/02/2022
79301        29/02/2022
79595        29/02/2022
80072        30/02/2022
80075        30/02/2022
80086        29/02/2022
80399        30/02/2022
80974        29/02/2022
Base final após limpeza de datas: (151973, 15)
Funil final após limpeza de datas: (18342, 4)


Após a validação das datas, identifiquei 20 registros na coluna “Data de Pagamento” com datas impossíveis, como 29/02/2022 e 30/02/2022, enquanto “Data de Vencimento” não apresentou valores inválidos. Esses registros foram excluídos, resultando em uma base final com 151.973 registros, assegurando que todas as datas presentes sejam válidas e compatíveis com análises futuras. No funil de cobrança, não foram encontradas datas a serem tratadas, mantendo seu tamanho original após esta etapa.

# **6. Padronização dos IDs de Aluno e Diagnóstico dos Dados Tratados**
Nesta etapa, padronizo o formato dos "ID do Aluno" para string em ambas as bases limpas, eliminando possíveis diferenças de tipagem e facilitando os cruzamentos futuros. Em seguida, faço uma nova checagem dos valores ausentes e de unicidade dos IDs das bases tratadas. O objetivo é assegurar que a consistência dos identificadores e a integridade dos dados foram mantidas após o tratamento de duplicatas, preparando o terreno para a análise cruzada entre inadimplência e o funil de cobrança.

In [None]:
# Garante que as versões limpas são independentes das originais
base_clean = base_clean.copy()
funil_clean = funil_clean.copy()

# Padroniza o ID do Aluno como string em ambas as bases
base_clean['ID do Aluno'] = base_clean['ID do Aluno'].apply(lambda x: str(int(x)) if pd.notnull(x) else None)
funil_clean['ID do Aluno'] = funil_clean['ID do Aluno'].apply(lambda x: str(int(x)) if pd.notnull(x) else None)

# Checa valores ausentes após limpeza e padronização dos IDs
print("Missing values Base_clean:\n", base_clean.isnull().sum())
print("Missing values Funil_clean:\n", funil_clean.isnull().sum())

# Verifica número de IDs únicos nas versões limpas
print("IDs únicos Base:", base_clean['ID do Aluno'].nunique())
print("IDs únicos Funil:", funil_clean['ID do Aluno'].nunique())


Missing values Base_clean:
 Mês de Vencimento               0
Ano Letivo                      0
Marca                           0
Unidade                         0
Região                          0
ID do Aluno                     9
Nome do aluno                   1
Série / Ano escolar             0
Data de Vencimento              0
Data de Pagamento           28982
Nome do Serviço                 0
Nome do Serviço agrupado        0
Status de pagamento             0
Valor Previsto                  0
Valor Em Aberto                 0
dtype: int64
Missing values Funil_clean:
 ID do Aluno             1
Marca - Unidade      2965
Tentativa Final      2965
Atendimento Final    2965
dtype: int64
IDs únicos Base: 5398
IDs únicos Funil: 4382


Após a padronização dos "ID do Aluno" para o tipo string, todas as linhas passaram a ter um formato unificado de identificador, tornando o cruzamento entre as bases mais seguro.

A análise dos valores ausentes revelou pouca alteração em relação ao diagnóstico anterior, com poucos registros sem ID ou dados complementares na "Base" (9 IDs ausentes e cerca de 29 mil datas de pagamento nulas, o que sugere eventos ainda não quitados) e cerca de 2.965 registros no "Funil" sem informações completas de unidade ou atendimento.

A cobertura de IDs únicos permanece a mesma: 5.398 na "Base" e 4.382 no "Funil", consolidando o cenário onde parte dos alunos não foi acionada pelo processo registrado de cobrança.

# **7. Cruzamento dos IDs de Aluno entre Base e Funil**
Agora, cruzo os identificadores únicos das duas bases para identificar dois pontos chave:

* Alunos presentes na Base que nunca foram registrados em nenhuma etapa do Funil de cobrança;
* Alunos presentes no Funil mas que não constam na Base.

Esse diagnóstico é fundamental para mensurar o alcance real do processo de cobrança e avaliar possíveis falhas de integração ou monitoramento.

In [None]:
# Conjunto de IDs únicos em cada base
ids_base = set(base_clean['ID do Aluno'].dropna())
ids_funil = set(funil_clean['ID do Aluno'].dropna())

# Análise de cobertura: alunos não acionados pelo funil e possíveis inconsistências
print('Alunos da Base que NUNCA apareceram no Funil:', len(ids_base - ids_funil))
print('Alunos do Funil que NÃO estão na Base:', len(ids_funil - ids_base))


Alunos da Base que NUNCA apareceram no Funil: 1016
Alunos do Funil que NÃO estão na Base: 0


O resultado aponta que 1.016 alunos presentes na base principal nunca passaram por nenhuma etapa registrada do Funil de cobrança, representando aproximadamente 19% da base após o tratamento. Por outro lado, não há nenhum aluno no Funil que não esteja na Base, garantindo a integridade das análises de inadimplência versus o processo de cobrança.

Esse gap expressivo evidencia uma oportunidade de melhoria operacional, pois uma parcela relevante dos alunos inadimplentes sequer foi formalmente inserida no fluxo de cobrança, potencializando o risco de perdas financeiras recorrentes.

# **8. Perfil dos Alunos da Base que Nunca Foram Acionados pelo Funil**
Agora, aprofundo o diagnóstico identificando o perfil dos alunos que estão presentes na base mas nunca foram registrados nas tentativas do Funil de cobrança. Levanto a quantidade de ocorrências, distribuição por ano letivo, região, série e status financeiro desses alunos, além do valor total em aberto.

Essa caracterização possibilita mapear quais grupos de alunos estão mais subatendidos pelo processo de cobrança e dimensionar o potencial financeiro não trabalhado.

In [None]:
# Seleciona os alunos da Base que nunca foram acionados no Funil
ids_nunca_acionados = ids_base - ids_funil
nunca_acionados = base_clean[base_clean['ID do Aluno'].isin(ids_nunca_acionados)]

# Visão geral dos boletos/ocorrências desses alunos
print("Total de linhas (boletos/ocorrências) desses alunos:", nunca_acionados.shape[0])
print("Ano Letivo destes alunos:", nunca_acionados['Ano Letivo'].unique())
print("Distribuição por Região:")
print(nunca_acionados['Região'].value_counts())
print("Série/Ano escolar dominante:")
print(nunca_acionados['Série / Ano escolar'].value_counts().head(10))
print("Status de pagamento:")
print(nunca_acionados['Status de pagamento'].value_counts())
print("Valor em Aberto (SOMA):")
print(nunca_acionados['Valor Em Aberto'].sum())


Total de linhas (boletos/ocorrências) desses alunos: 2700
Ano Letivo destes alunos: [2022 2023]
Distribuição por Região:
Região
Sul             1165
Sudeste          688
Norte            475
Centro Oeste     300
Nordeste          72
Name: count, dtype: int64
Série/Ano escolar dominante:
Série / Ano escolar
6° ano EF    354
2° ano EM    350
3° ano EM    347
8° ano EF    341
7° ano EF    339
5° ano EF    335
9° ano EF    318
1° ano EM    316
Name: count, dtype: int64
Status de pagamento:
Status de pagamento
Pago                 2134
Inadimplente          564
Pago parcialmente       2
Name: count, dtype: int64
Valor em Aberto (SOMA):
152260.46000000002


O levantamento identificou 2.700 boletos/ocorrências associados a 1.016 alunos que nunca foram acionados no Funil, abrangendo os anos letivos de 2022 e 2023. Observa-se que a maior concentração está na região Sul, seguida de Sudeste e Norte. As séries e anos escolares predominantes são os finais do Ensino Fundamental e Médio, especialmente 6º ao 9º ano e 1º ao 3º do Ensino Médio.

Do ponto de vista financeiro, aproximadamente 564 dessas ocorrências estão inadimplentes, representando um total de R$ 152.260,46 em aberto. Estes números reforçam a magnitude do potencial de recuperação de receita ainda não explorado pela instituição, indicando onde os esforços de cobrança podem ser ainda mais efetivos—especialmente em grupos e regiões com maior frequência de alunos não acionados.

# **9. Comparação do Perfil de Inadimplência – Acionados vs. Nunca Acionados**
Agora, comparo a taxa de inadimplência e o ticket médio dos inadimplentes entre dois grupos:

* Alunos que nunca foram acionados pelo Funil de cobrança;
* Alunos que já passaram por alguma etapa do Funil.

O objetivo é avaliar se o acionamento pelo processo formal de cobrança tem impacto no comportamento de pagamento e no valor médio devido, além de identificar oportunidades para otimizar a abordagem das equipes financeiras.

In [None]:
# Identifica IDs de alunos que já passaram pelo funil de cobrança
ids_acionados = ids_base & ids_funil
acionados = base_clean[base_clean['ID do Aluno'].isin(ids_acionados)]

# 1. Calcula percentual de inadimplentes no grupo nunca acionado
inadimplentes_na = nunca_acionados[nunca_acionados['Status de pagamento'].str.lower() == "inadimplente"]
perc_inadimplente_na = len(inadimplentes_na) / len(nunca_acionados)

# 2. Calcula percentual de inadimplentes no grupo acionado
inadimplentes_ac = acionados[acionados['Status de pagamento'].str.lower() == "inadimplente"]
perc_inadimplente_ac = len(inadimplentes_ac) / len(acionados)

# 3. Calcula ticket médio dos inadimplentes em cada grupo
ticket_medio_na = inadimplentes_na['Valor Em Aberto'].mean()
ticket_medio_ac = inadimplentes_ac['Valor Em Aberto'].mean()

# Exibe resultados
print(f"Inadimplência (Nunca Acionados): {perc_inadimplente_na:.2%}")
print(f"Inadimplência (Acionados): {perc_inadimplente_ac:.2%}")
print(f"Ticket médio inadimplente - Nunca Acionados: R$ {ticket_medio_na:,.2f}")
print(f"Ticket médio inadimplente - Acionados: R$ {ticket_medio_ac:,.2f}")


Inadimplência (Nunca Acionados): 20.89%
Inadimplência (Acionados): 19.03%
Ticket médio inadimplente - Nunca Acionados: R$ 264.13
Ticket médio inadimplente - Acionados: R$ 796.13


Os resultados mostram que a taxa de inadimplência entre alunos nunca acionados pelo Funil (20,89%) é levemente superior à observada entre aqueles que já passaram por etapas formais de cobrança (19,03%). No entanto, o ticket médio dos inadimplentes nunca acionados é significativamente menor (R$ 264,13) do que o dos inadimplentes que já foram acionados pelo Funil (R$ 796,13).

Esses números sugerem que, embora o grupo não acionado apresente maior proporção de inadimplência, os maiores valores em aberto estão concentrados entre alunos já abordados pelo processo de cobrança. Isso indica que esforços direcionados nos inadimplentes de maior valor, em paralelo à ampliação do alcance do Funil para cobrir todos os inadimplentes, podem contribuir para recuperar receita de forma mais eficiente

# **10. Estruturação Temporal e Análise Mensal da Inadimplência**
Nesta etapa, padronizo os campos de período e crio uma coluna auxiliar de "AnoMes" para permitir o agrupamento dos dados mensalmente. A partir disso, calculo a quantidade total de boletos, número absoluto de inadimplentes, valor em aberto e o percentual de inadimplência mês a mês.

O objetivo é identificar padrões sazonais, picos de inadimplência e possíveis meses críticos para tomada de decisão e reforço de ações de cobrança.

In [None]:
# Padroniza os campos de período para int e cria coluna auxiliar de AnoMes (ano-mês)
base_clean['Mês de Vencimento'] = base_clean['Mês de Vencimento'].astype(int)
base_clean['Ano Letivo'] = base_clean['Ano Letivo'].astype(int)

# Cria coluna 'AnoMes' no formato yyyy-mm
base_clean['AnoMes'] = base_clean['Ano Letivo'].astype(str) + '-' + base_clean['Mês de Vencimento'].astype(str).str.zfill(2)
# Alternativamente, poderia usar base_clean['AnoMes'] = base_clean['Data de Vencimento'].dt.to_period('M')

# Agrupa dados mensalmente para análise de inadimplência
inad_implencia_mes = base_clean.groupby('AnoMes').agg(
    total_boletos=('Status de pagamento', 'count'),
    inadimplentes=('Status de pagamento', lambda x: (x.str.lower() == 'inadimplente').sum()),
    valor_em_aberto=('Valor Em Aberto', lambda x: x[base_clean.loc[x.index, 'Status de pagamento'].str.lower() == 'inadimplente'].sum())
)
# Calcula o percentual mensal de inadimplência
inad_implencia_mes['perc_inadimplencia'] = inad_implencia_mes['inadimplentes'] / inad_implencia_mes['total_boletos']

# Mostra a tabela com os resultados mensais
print(inad_implencia_mes)


         total_boletos  inadimplentes  valor_em_aberto  perc_inadimplencia
AnoMes                                                                    
2022-01           3897            197        167007.55            0.050552
2022-02           6725            869        637492.80            0.129219
2022-03           5785            901        678042.72            0.155748
2022-04           6488           1003        763524.22            0.154593
2022-05           6554           1142        821714.11            0.174245
2022-06           6370           1191        897524.54            0.186970
2022-07           6062           1279        978290.21            0.210986
2022-08           6679           1307        993857.62            0.195688
2022-09           6761           1371       1049717.35            0.202781
2022-10           6536           1390       1105853.74            0.212668
2022-11           6316           1382       1022611.62            0.218809
2022-12           6205   

A análise mês a mês revela que a inadimplência apresenta uma tendência crescente ao longo dos anos letivos, especialmente do meio para o final do ano, atingindo picos percentuais significativos (acima de 22% em vários meses de 2023 e quase 25% em dezembro de 2022). O valor absoluto em aberto também acompanha esse aumento, ultrapassando R$ 1,2 milhão nos meses mais críticos.

Esses resultados reforçam a necessidade de ações preventivas e intensificação das estratégias de cobrança nos meses em que a inadimplência tende a escalar, além de contribuir para prognósticos e recomendações mais assertivas ao setor financeiro da instituição.

# **11. Análise de Inadimplência por Região**
Nesta etapa, agrupo os dados por região para avaliar o volume total de cobranças, quantidade e percentual de inadimplência e valor absoluto em aberto em cada área de atuação da instituição.

O objetivo é identificar quais regiões concentram os maiores desafios de inadimplência, tanto em quantidade quanto em valor financeiro, subsidiando decisões regionais de reforço de cobrança.

In [None]:
df_regiao = base_clean.groupby('Região').agg(
    total=('Status de pagamento', 'count'),
    inadimplentes=('Status de pagamento', lambda x: (x.str.lower() == 'inadimplente').sum()),
    valor_em_aberto=('Valor Em Aberto', lambda x: x[base_clean.loc[x.index, 'Status de pagamento'].str.lower() == 'inadimplente'].sum())
)
df_regiao['perc_inadimplencia'] = df_regiao['inadimplentes'] / df_regiao['total']
print(df_regiao)


              total  inadimplentes  valor_em_aberto  perc_inadimplencia
Região                                                                 
Centro Oeste  37055           7989       8235900.19            0.215598
Nordeste      11999           1911        970070.17            0.159263
Norte         30759           4538       6143271.50            0.147534
Sudeste       37126           7497       3411381.48            0.201934
Sul           35034           7047       4013415.35            0.201147


A análise regional indica que o Centro-Oeste tem a maior taxa de inadimplência (21,56%), seguido de Sudeste (20,19%) e Sul (20,11%). O Norte e o Nordeste apresentam percentuais menores, com destaque para o Nordeste, que tem a menor inadimplência percentual (15,93%).

Em valores absolutos, o Centro-Oeste também lidera no montante em aberto (R$ 8,2 milhões), seguido pelo Norte (R$ 6,1 milhões). Esses achados sugerem a necessidade de ações específicas e maior intensidade nos processos de cobrança nas regiões Centro-Oeste, Sudeste e Sul, onde os riscos financeiros são mais elevados.

# **12. Penetração do Funil de Cobrança por Segmento**
Nessa etapa, cruzo a base tratada com os IDs do funil para identificar, em cada segmento, o percentual de alunos realmente acionados pelo processo de cobrança (“penetração do funil”).

Calculo essa métrica para regiões, unidades, séries/anos escolares e faixas de valor em aberto, permitindo identificar onde a abrangência do funil é maior ou menor e onde há mais espaço para otimização das estratégias financeiras

In [None]:
# Seleciona colunas relevantes e marca se o aluno foi acionado no funil
base_clean_seg = base_clean[['ID do Aluno', 'Região', 'Unidade', 'Série / Ano escolar', 'Valor Em Aberto']].copy()
funil_ids = set(funil_clean['ID do Aluno'].dropna())
base_clean_seg['acionado'] = base_clean_seg['ID do Aluno'].isin(funil_ids)

# Penetração do funil por Região
penet_regiao = base_clean_seg.groupby('Região').agg(
    total_alunos=('ID do Aluno', 'nunique'),
    alunos_acionados=('acionado', 'sum')
)
penet_regiao['penet_funil'] = penet_regiao['alunos_acionados'] / penet_regiao['total_alunos']
print("\n--- Penetração do funil por Região ---")
print(penet_regiao)

# Penetração do funil por Unidade (top 10 unidades)
penet_unidade = base_clean_seg.groupby('Unidade').agg(
    total_alunos=('ID do Aluno', 'nunique'),
    alunos_acionados=('acionado', 'sum')
)
penet_unidade['penet_funil'] = penet_unidade['alunos_acionados'] / penet_unidade['total_alunos']
print("\n--- Penetração do funil por Unidade (top 10) ---")
print(penet_unidade.sort_values('total_alunos', ascending=False).head(10))

# Penetração do funil por Série/Ano Escolar (top 10 séries)
penet_serie = base_clean_seg.groupby('Série / Ano escolar').agg(
    total_alunos=('ID do Aluno', 'nunique'),
    alunos_acionados=('acionado', 'sum')
)
penet_serie['penet_funil'] = penet_serie['alunos_acionados'] / penet_serie['total_alunos']
print("\n--- Penetração do funil por Série/Ano escolar (top 10) ---")
print(penet_serie.sort_values('total_alunos', ascending=False).head(10))

# Penetração do funil por faixa de valor em aberto
faixas_valor = pd.cut(base_clean_seg['Valor Em Aberto'], bins=[-0.01,1,100,500,1000,5000,10000,1e7],
                      labels=['0','1-100','101-500','501-1000','1001-5000','5001-10mil','10mil+'])
base_clean_seg['faixa_valor_aberto'] = faixas_valor
penet_valor = base_clean_seg.groupby('faixa_valor_aberto').agg(
    total_alunos=('ID do Aluno','nunique'),
    alunos_acionados=('acionado','sum')
)
penet_valor['penet_funil'] = penet_valor['alunos_acionados'] / penet_valor['total_alunos']
print("\n--- Penetração do funil por Faixa de Valor em Aberto ---")
print(penet_valor)



--- Penetração do funil por Região ---
              total_alunos  alunos_acionados  penet_funil
Região                                                   
Centro Oeste          1979             36753    18.571501
Nordeste               676             11925    17.640533
Norte                 1533             30283    19.754077
Sudeste               1334             36438    27.314843
Sul                   2012             33865    16.831511

--- Penetração do funil por Unidade (top 10) ---
           total_alunos  alunos_acionados  penet_funil
Unidade                                               
Unidade C          1578             27939    17.705323
Unidade G          1533             30283    19.754077
Unidade F          1334             36438    27.314843
Unidade E          1136             17464    15.373239
Unidade D           994             16401    16.500000
Unidade A           676             11925    17.640533
Unidade B           544              8814    16.202206

--- Pene

  penet_valor = base_clean_seg.groupby('faixa_valor_aberto').agg(


Os resultados mostram forte variação na penetração do funil de cobrança entre os diferentes segmentos.

* **Por Região:** Há regiões bem abaixo do ideal, como Sul (16,8%), Centro-Oeste (18,6%) e Nordeste (17,6%), enquanto o Sudeste (27,3%) apresenta maior abrangência nos contatos de cobrança.
* **Por Unidade:** Unidades com maior número de alunos, como Unidade C (17,7%) e Unidade G (19,8%), têm penetração semelhante à média regional, reforçando a homogeneidade do desafio em grandes operações.
* **Por Série/Ano:** As maiores séries e anos escolares apresentam penetração muito baixa, pouco acima de 4,5%, indicando possível despriorização dessas faixas no processo atual.
* **Por Faixa de Valor em Aberto:** Chama atenção que alunos com valores em aberto mais altos (“10 mil+”, “5 mil a 10 mil”) têm penetração no funil muito baixa (em torno de 1,2%), enquanto os de faixas menores (“até 1000”) mantêm penetração entre 3,7% e 7,7%. Alunos sem valor em aberto (possivelmente já regularizados ou pagos) têm penetração acima de 23%.

Esses dados revelam claras oportunidades de atuação: priorizar cobrança efetiva nas faixas de maior valor em aberto, aumentar a abrangência das séries finais e reforçar contatos especialmente em regiões abaixo da média. São segmentos onde o impacto da recuperação financeira tende a ser maior e mais rápido.

# **13. Exportação das Bases Tratadas**
Finalizo as etapas de tratamento de dados exportando as versões limpas e estruturadas das bases “Base” e “Funil”. Esses arquivos serão utilizados na construção dos dashboards de acompanhamento e análise no Power BI, garantindo que as visualizações baseiem-se em dados confiáveis e prontos para exploração visual e tomada de decisão.

In [None]:
#salvando CSV
base_clean.to_csv('base_clean.csv', index=False)
funil_clean.to_csv('funil_clean.csv', index=False)

#download de bases para utilizar no Power BI
files.download('base_clean.csv')
files.download('funil_clean.csv')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# **Conclusão da Preparação Analítica**
Com todas as etapas de análise, tratamento de inconsistências e exportação finalizadas, as bases “Base” e “Funil” encontram-se agora alinhadas, limpas e totalmente aptas para uso em ferramentas de inteligência de negócios. Um destaque importante deste processo foi a identificação e remoção de registros com datas inválidas, como 29 de fevereiro em anos não bissextos e outras datas impossíveis. Esses registros foram excluídos para garantir a confiabilidade das análises.

Ressalto que, em um ambiente real de negócios, tal inconsistência seria levada imediatamente ao conhecimento da área responsável, para avaliarmos conjuntamente a origem do problema e decidirmos, em alinhamento com o gestor, a melhor forma de tratá-la—seja correção, complementação ou eventual exclusão. Neste estudo de caso, optei diretamente pela remoção, seguindo a proposta e os objetivos deste desafio.

Assim, as bases estão devidamente preparadas para a próxima etapa: a construção dos dashboards no Power BI, para traduzir os achados quantitativos em visualizações claras e acionáveis. Todo o caminho percorrido, desde a depuração minuciosa dos dados até a eliminação de gargalos de qualidade, oferece uma base sólida para o monitoramento contínuo da inadimplência e para a tomada de decisões estratégicas pela equipe financeira do Grupo Escolar.