
# Diagn√≥stico de Dados Financeiros do ERP

**M√≥dulo 4 ‚Äî Dados do T2Ti ERP para IA: Manipula√ß√£o e Limpeza**  
**V√≠deo 03 ‚Äî Diagn√≥stico de Dados Financeiros**

Neste notebook realizamos o **diagn√≥stico completo dos dados financeiros**
extra√≠dos do ERP **antes de qualquer limpeza ou transforma√ß√£o**.

> ‚ö†Ô∏è Importante  
> - N√£o corrigimos dados neste est√°gio  
> - N√£o removemos registros  
> - Apenas medimos, observamos e entendemos os problemas  

Este notebook ser√° **incrementado nos pr√≥ximos v√≠deos** do m√≥dulo.



## Conex√£o com o Banco de Dados

Utilizaremos:
- MySQL
- SQLAlchemy
- PyMySQL (driver est√°vel e 100% Python)


In [16]:

import pandas as pd
from sqlalchemy import create_engine
import pymysql

# Garante compatibilidade com SQLAlchemy
pymysql.install_as_MySQLdb()

DATABASE_URL = "mysql+pymysql://root:root@localhost/fenix"
engine = create_engine(DATABASE_URL)



## Dataset Base do M√≥dulo

Este dataset representa **Contas a Receber** e ser√° usado at√© o final do m√≥dulo.


In [17]:

sql = """
SELECT
    pr.id                             AS parcela_id,
    pr.numero_parcela                 AS numero_parcela,
    pr.data_emissao                   AS data_emissao,
    pr.data_vencimento                AS data_vencimento,
    pr.data_recebimento               AS data_recebimento,
    pr.valor                          AS valor_parcela,
    pr.valor_recebido                 AS valor_recebido,
    pr.valor_juro                     AS valor_juro,
    pr.valor_multa                    AS valor_multa,
    pr.valor_desconto                 AS valor_desconto,
    pr.emitiu_boleto                  AS emitiu_boleto,
		pr.boleto_nosso_numero            AS boleto_nosso_numero,
    s.situacao                        AS codigo_status,
    s.descricao                       AS descricao_status,
    lr.id                             AS lancamento_id,
    lr.valor_a_receber                AS valor_total_lancamento,
    lr.data_lancamento                AS data_lancamento,
    c.id                              AS cliente_id,
    c.nome                            AS cliente_nome,
    c.tipo                            AS cliente_tipo,
    c.limite_credito                  AS limite_credito,
    nf.codigo                         AS natureza_codigo,
    nf.descricao                      AS natureza_descricao,
    nf.tipo                           AS natureza_tipo
FROM fin_parcela_receber pr
JOIN fin_lancamento_receber lr
    ON lr.id = pr.id_fin_lancamento_receber
JOIN view_pessoa_cliente c
    ON c.id = lr.id_cliente
JOIN fin_status_parcela s
    ON s.id = pr.id_fin_status_parcela
JOIN fin_natureza_financeira nf
    ON nf.id = lr.id_fin_natureza_financeira
"""

df = pd.read_sql(sql, engine)
df.head()


Unnamed: 0,parcela_id,numero_parcela,data_emissao,data_vencimento,data_recebimento,valor_parcela,valor_recebido,valor_juro,valor_multa,valor_desconto,...,lancamento_id,valor_total_lancamento,data_lancamento,cliente_id,cliente_nome,cliente_tipo,limite_credito,natureza_codigo,natureza_descricao,natureza_tipo
0,13,1,2023-02-15,2025-03-20,2025-03-20,1800.5,1746.485,0.0,0.0,54.015,...,2,1800.5,2025-02-15,2,TESTE PESSOA FISICA,F,1000.0,2103,Despesa Comercial,D
1,57,1,2025-10-26,2025-11-25,,196.057167,0.0,,,,...,21,588.171501,2025-12-25,2,TESTE PESSOA FISICA,F,1000.0,101,Venda de Mercadorias,R
2,58,2,2025-10-26,2025-12-25,,196.057167,0.0,,,,...,21,588.171501,2025-12-25,2,TESTE PESSOA FISICA,F,1000.0,101,Venda de Mercadorias,R
3,59,3,2025-10-26,2026-01-24,,196.057167,0.0,,,,...,21,588.171501,2025-12-25,2,TESTE PESSOA FISICA,F,1000.0,101,Venda de Mercadorias,R
4,270,1,2025-10-26,2025-11-25,2025-11-25,267.914668,267.914668,,,,...,60,535.829336,2025-12-25,2,TESTE PESSOA FISICA,F,1000.0,101,Venda de Mercadorias,R



## Vis√£o Geral do Dataset

Antes de qualquer decis√£o, precisamos entender:
- Volume de dados
- Estrutura
- Tipos de colunas


In [18]:
df.shape

(2677, 24)

In [4]:
df.columns

Index(['parcela_id', 'numero_parcela', 'data_emissao', 'data_vencimento',
       'data_recebimento', 'valor_parcela', 'valor_recebido', 'valor_juro',
       'valor_multa', 'valor_desconto', 'emitiu_boleto', 'boleto_nosso_numero',
       'codigo_status', 'descricao_status', 'lancamento_id',
       'valor_total_lancamento', 'data_lancamento', 'cliente_id',
       'cliente_nome', 'cliente_tipo', 'limite_credito', 'natureza_codigo',
       'natureza_descricao', 'natureza_tipo'],
      dtype='object')

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2677 entries, 0 to 2676
Data columns (total 24 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   parcela_id              2677 non-null   int64  
 1   numero_parcela          2677 non-null   int64  
 2   data_emissao            2677 non-null   object 
 3   data_vencimento         2677 non-null   object 
 4   data_recebimento        336 non-null    object 
 5   valor_parcela           2677 non-null   float64
 6   valor_recebido          2671 non-null   float64
 7   valor_juro              9 non-null      float64
 8   valor_multa             9 non-null      float64
 9   valor_desconto          9 non-null      float64
 10  emitiu_boleto           14 non-null     object 
 11  boleto_nosso_numero     4 non-null      object 
 12  codigo_status           2677 non-null   object 
 13  descricao_status        2677 non-null   object 
 14  lancamento_id           2677 non-null   


## Diagn√≥stico de Valores Ausentes

Nem todo valor ausente √© erro.
Em dados financeiros, muitas aus√™ncias s√£o **leg√≠timas**.


In [6]:
df.isnull().sum()

parcela_id                   0
numero_parcela               0
data_emissao                 0
data_vencimento              0
data_recebimento          2341
valor_parcela                0
valor_recebido               6
valor_juro                2668
valor_multa               2668
valor_desconto            2668
emitiu_boleto             2663
boleto_nosso_numero       2673
codigo_status                0
descricao_status             0
lancamento_id                0
valor_total_lancamento       0
data_lancamento              0
cliente_id                   0
cliente_nome                 0
cliente_tipo                 0
limite_credito               0
natureza_codigo              0
natureza_descricao           0
natureza_tipo                0
dtype: int64

In [7]:
(df.isnull().mean() * 100).sort_values(ascending=False)

boleto_nosso_numero       99.850579
valor_juro                99.663803
valor_multa               99.663803
valor_desconto            99.663803
emitiu_boleto             99.477027
data_recebimento          87.448637
valor_recebido             0.224131
parcela_id                 0.000000
valor_parcela              0.000000
numero_parcela             0.000000
data_emissao               0.000000
data_vencimento            0.000000
codigo_status              0.000000
descricao_status           0.000000
lancamento_id              0.000000
valor_total_lancamento     0.000000
data_lancamento            0.000000
cliente_id                 0.000000
cliente_nome               0.000000
cliente_tipo               0.000000
limite_credito             0.000000
natureza_codigo            0.000000
natureza_descricao         0.000000
natureza_tipo              0.000000
dtype: float64


## Diagn√≥stico de Duplicidades

Duplicidade pode indicar:
- Problema t√©cnico (JOIN)
- Situa√ß√£o v√°lida de neg√≥cio


In [8]:
df.duplicated().sum()

np.int64(0)

In [21]:

#df[df.duplicated(subset=["parcela_id"], keep=False)]
#df[df.duplicated(subset=["boleto_nosso_numero"], keep=False)]
df[df["boleto_nosso_numero"].notna()].duplicated(subset=["boleto_nosso_numero"], keep=False)


308     False
1416    False
1417    False
1572    False
dtype: bool


## Diagn√≥stico de Datas Financeiras

Datas erradas causam impactos severos em modelos de IA.


In [13]:

df["data_emissao"] = pd.to_datetime(df["data_emissao"], errors="coerce")
df["data_vencimento"] = pd.to_datetime(df["data_vencimento"], errors="coerce")
df["data_recebimento"] = pd.to_datetime(df["data_recebimento"], errors="coerce")

df[["data_emissao", "data_vencimento", "data_recebimento"]].describe()


Unnamed: 0,data_emissao,data_vencimento,data_recebimento
count,2677,2677,336
mean,2025-10-23 22:04:53.163989504,2026-02-21 06:10:05.155024128,2025-11-21 23:42:51.428571392
min,2023-01-10 00:00:00,2023-02-26 00:00:00,2025-02-15 00:00:00
25%,2025-10-26 00:00:00,2025-12-25 00:00:00,2025-11-25 00:00:00
50%,2025-10-26 00:00:00,2026-02-23 00:00:00,2025-11-25 00:00:00
75%,2025-10-26 00:00:00,2026-04-24 00:00:00,2025-11-25 00:00:00
max,2025-10-26 00:00:00,2026-08-22 00:00:00,2025-11-25 00:00:00



## Diagn√≥stico de Valores Financeiros

Analisamos:
- Valores zerados
- Valores negativos
- Inconsist√™ncias entre previsto e recebido


In [15]:

df[
    ["valor_parcela", "valor_recebido", "valor_juro", "valor_multa", "valor_desconto"]
].describe()


Unnamed: 0,valor_parcela,valor_recebido,valor_juro,valor_multa,valor_desconto
count,2677.0,2671.0,9.0,9.0,9.0
mean,311.254725,76.480996,0.0,0.0,19.890556
std,446.848442,374.033473,0.0,0.0,43.275155
min,9.08364,0.0,0.0,0.0,0.0
25%,82.20971,0.0,0.0,0.0,0.0
50%,182.6966,0.0,0.0,0.0,0.0
75%,388.233587,0.0,0.0,0.0,0.0
max,5886.483326,5886.483326,0.0,0.0,125.0



## Diagn√≥stico Cruzado (Regra de Neg√≥cio)

Aqui encontramos problemas que **s√≥ aparecem ao cruzar informa√ß√µes**.


In [22]:

# Parcelas marcadas como pagas sem data de recebimento
df[
    df["descricao_status"].str.contains("Quitado", na=False) &
    df["data_recebimento"].isnull()
]


Unnamed: 0,parcela_id,numero_parcela,data_emissao,data_vencimento,data_recebimento,valor_parcela,valor_recebido,valor_juro,valor_multa,valor_desconto,...,lancamento_id,valor_total_lancamento,data_lancamento,cliente_id,cliente_nome,cliente_tipo,limite_credito,natureza_codigo,natureza_descricao,natureza_tipo
308,17,2,2025-05-11,2025-08-05,,1780.0,66.5,0.0,0.0,0.0,...,5,5340.0,2025-05-30,5,MAIS UMA PESSOA FISICA,F,1800.0,101,Venda de Mercadorias,R


In [23]:

# Valores recebidos maiores que o valor da parcela
df[df["valor_recebido"] > df["valor_parcela"]]


Unnamed: 0,parcela_id,numero_parcela,data_emissao,data_vencimento,data_recebimento,valor_parcela,valor_recebido,valor_juro,valor_multa,valor_desconto,...,lancamento_id,valor_total_lancamento,data_lancamento,cliente_id,cliente_nome,cliente_tipo,limite_credito,natureza_codigo,natureza_descricao,natureza_tipo



## Classifica√ß√£o dos Problemas Encontrados

1. Aus√™ncia leg√≠tima  
2. Erro de cadastro  
3. Erro de processo  
4. Dado v√°lido, mas ruim para IA  
5. Dado que deve virar feature  

Essa classifica√ß√£o guiar√° a limpeza no pr√≥ximo v√≠deo.



## Conclus√£o do V√≠deo 03

Neste notebook:
- N√£o limpamos dados
- N√£o removemos registros
- Apenas entendemos o cen√°rio real

üëâ **No pr√≥ximo v√≠deo**, iniciaremos a limpeza orientada por regra de neg√≥cio.
