# Resolu√ß√£o do Professor - An√°lise Cruzada Otimizada

---

## Bloco 1 - Importa√ß√£o Simplificada

**Abordagem Direta**

In [1]:
import pandas as pd

aposentadorias = pd.read_csv('data/aposentadorias.csv', sep=';', encoding='latin-1', skiprows=2)
devedores = pd.read_csv('data/devedores.csv', sep=';', encoding='latin-1')

Diferen√ßas da abordagem:

- Nomenclatura mais limpa: Sem sufixo `_df_original`

- Importa√ß√µes m√≠nimas: Apenas pandas (sem numpy desnecess√°rio)

- Foco na simplicidade: C√≥digo mais direto

---

# Bloco 2 - An√°lise Explorat√≥ria Inicial

**Compreens√£o dos Dados**

In [2]:
aposentadorias.describe()

Unnamed: 0,UORG,Refer√Ø¬ø¬Ωncia,N√Ø¬ø¬Ωvel,Ingresso no Servi√Ø¬ø¬Ωo P√Ø¬ø¬Ωblico Civil,Data de Publica√Ø¬ø¬Ω√Ø¬ø¬Ωo
count,5405.0,0.0,0.0,0.0,43.0
mean,25201.0,,,,38211.302326
std,0.0,,,,945.571043
min,25201.0,,,,37305.0
25%,25201.0,,,,37740.0
50%,25201.0,,,,37740.0
75%,25201.0,,,,38880.5
max,25201.0,,,,40848.0


In [3]:
devedores.describe()

Unnamed: 0,DATA DE GERA√á√ÉO,CPF/CNPJ DEVEDOR,TIPO DE PESSOA,TIPO DO DEVEDOR,NOME DO DEVEDOR,N√öMERO DO TERMO DE INSCRI√á√ÉO,DATA DA INSCRI√á√ÉO,SEQUENCIAL DO CR√âDITO,SITUA√á√ÉO DO CR√âDITO,MOTIVO DA SUSPENS√ÉO,ORIGEM,CREDOR,SALDO DEVEDOR SEM HONOR√ÅRIOS,OBSERVA√á√ÉO
count,2576,2568,2568,2576,2576,2576,2576,2576,2576,225,2576,2576,2576,13
unique,1,2238,2,2,2241,2306,1398,2315,4,4,4,4,2072,1
top,04/12/2023,XXX.827.945-XX,Pessoa jur√≠dica,Principal,Stephane Joseph Ghislain Mery de Montigny,0002/1984,10/06/2003,CR2013/0005435,Em execu√ß√£o,√â suspensa a cobran√ßa por for√ßa de dep√≥sito in...,Multa,Banco Central,"R$ 38.692,27",O saldo devedor sem honor√°rios n√£o correspond...
freq,2576,17,1669,2315,17,6,23,6,2090,74,2358,2555,16,13


In [5]:
# Verifica√ß√£o de tipos de dados
type(devedores['CPF/CNPJ DEVEDOR'][0])

str

Estrat√©gia de explora√ß√£o:

- `.describe()`: Vis√£o estat√≠stica geral

- Verifica√ß√£o de tipos: Entender formato dos dados

- An√°lise antes da transforma√ß√£o: Conhecer estrutura original

---

## Bloco 3 - Filtragem Eficiente

**Sele√ß√£o de Pessoas F√≠sicas**

In [7]:
devedores_cpf = devedores[devedores['TIPO DE PESSOA'] == "Pessoa f√≠sica"]
# Alternativa comentada: devedores.query('`TIPO DE PESSOA` == "Pessoa f√≠sica"')

devedores_cpf.count()

DATA DE GERA√á√ÉO                 899
CPF/CNPJ DEVEDOR                899
TIPO DE PESSOA                  899
TIPO DO DEVEDOR                 899
NOME DO DEVEDOR                 899
N√öMERO DO TERMO DE INSCRI√á√ÉO    899
DATA DA INSCRI√á√ÉO               899
SEQUENCIAL DO CR√âDITO           899
SITUA√á√ÉO DO CR√âDITO             899
MOTIVO DA SUSPENS√ÉO             100
ORIGEM                          899
CREDOR                          899
SALDO DEVEDOR SEM HONOR√ÅRIOS    899
OBSERVA√á√ÉO                        1
dtype: int64

Vantagens da abordagem:

- Filtragem pr√©via: Reduz volume de dados para processamento

- Foco no target: Apenas pessoas f√≠sicas (CPF, n√£o CNPJ)

- Efici√™ncia: Menos dados = processamento mais r√°pido

üí° Insight: Filtrar primeiro, processar depois!

---

## Bloco 4 - Extra√ß√£o de CPF com String Slicing

**Opera√ß√£o Vetorizada Nativa**

In [10]:
devedores_cpf['CPF/CNPJ DEVEDOR'] = devedores_cpf['CPF/CNPJ DEVEDOR'].str[3:12]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  devedores_cpf['CPF/CNPJ DEVEDOR'] = devedores_cpf['CPF/CNPJ DEVEDOR'].str[3:12]


In [11]:
devedores_cpf['CPF/CNPJ DEVEDOR']

1       .160.007-
6       .340.947-
9       .028.317-
10      .993.977-
11      .402.247-
          ...    
2563    .619.996-
2564    .453.768-
2566    .875.635-
2568    .728.571-
2571    .858.898-
Name: CPF/CNPJ DEVEDOR, Length: 899, dtype: object

In [8]:
# Vers√£o corrigida:
devedores_cpf_copy = devedores[devedores['TIPO DE PESSOA'] == "Pessoa f√≠sica"].copy()

devedores_cpf_copy['CPF/CNPJ DEVEDOR'] = devedores_cpf['CPF/CNPJ DEVEDOR'].str[3:12]

An√°lise da abordagem:

- `.str[3:12]`: Extrai caracteres das posi√ß√µes 3 a 11 (9 d√≠gitos)

- Vetoriza√ß√£o nativa: Pandas otimizado, n√£o `.apply()`

- Formato CPF: Remove prefixos/formata√ß√£o, mant√©m apenas n√∫meros

---

## Bloco 5 - Padroniza√ß√£o Paralela

**Mesmo Tratamento para Ambas as Bases**

In [12]:
aposentadorias['CPF'] = aposentadorias['CPF'].str[3:12]

In [13]:
aposentadorias['CPF']

0       .161.491-
1       .297.631-
2       .895.388-
3       .983.931-
4       .347.385-
          ...    
5400    .533.991-
5401    .454.201-
5402    .828.526-
5403    .113.787-
5404    .805.121-
Name: CPF, Length: 5405, dtype: object

Consist√™ncia:

- Mesmo padr√£o: Ambas as bases com CPF extra√≠do

- Formato uniforme: 9 d√≠gitos centrais do CPF

- Prepara√ß√£o para merge: Chaves compat√≠veis

---

## Bloco 6 - Tentativa de Merge Inicial

**Teste com M√∫ltiplas Chaves**

In [49]:
pd.merge(
    aposentadorias, 
    devedores, 
    left_on=['CPF', 'Nome'], 
    right_on=['CPF/CNPJ DEVEDOR', 'NOME DO DEVEDOR']
)

Unnamed: 0,Nome,CPF,Situa√Ø¬ø¬Ω√Ø¬ø¬Ωo V√Ø¬ø¬Ωnculo,Matr√Ø¬ø¬Ωcula,UORG,√Ø¬ø¬Ωrg√Ø¬ø¬Ωo,√Ø¬ø¬Ωrg√Ø¬ø¬Ωo Superior,Classe,Padr√Ø¬ø¬Ωo,Refer√Ø¬ø¬Ωncia,...,NOME DO DEVEDOR,N√öMERO DO TERMO DE INSCRI√á√ÉO,DATA DA INSCRI√á√ÉO,SEQUENCIAL DO CR√âDITO,SITUA√á√ÉO DO CR√âDITO,MOTIVO DA SUSPENS√ÉO,ORIGEM,CREDOR,SALDO DEVEDOR SEM HONOR√ÅRIOS,OBSERVA√á√ÉO


Estrat√©gia:

- Merge por CPF + Nome: Dupla valida√ß√£o

- Nomes de colunas diferentes: `left_on` vs `right_on`

- Teste explorat√≥rio: Verificar se h√° correspond√™ncias

‚ö†Ô∏è Problema: Nomes das colunas e formatos diferentes impedem matches.

---

## Bloco 7 - Padroniza√ß√£o de Colunas

**Renomea√ß√£o para Compatibilidade**

In [None]:
devedores_cpf.rename(
    columns={
        'CPF/CNPJ DEVEDOR': 'CPF',
        'NOME DO DEVEDOR': 'Nome'
    },
    inplace=True
)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  devedores_cpf.rename(


Vantagens do `.rename()`:

- Padroniza√ß√£o: Nomes de colunas iguais

- `inplace=True`: Modifica DataFrame original (economia de mem√≥ria)

- Prepara√ß√£o para merge: Chaves com nomes id√™nticos

---

## Bloco 8 - Padroniza√ß√£o de Nomes

**Normaliza√ß√£o de Case**

In [52]:
aposentadorias['Nome'] = aposentadorias['Nome'].str.upper()
aposentadorias['Nome']

0                    ABADIA MARCIA CUNHA
1           ABDIAS CASSIO MARROCOS GOMES
2             ABDIEL ANDRIOLO DE ANDRADE
3                 ABDON LOPES DE MENESES
4                     ABEL ALFREDO FILHO
                      ...               
5400               ZULEICA DE MELO TELES
5401           ZULEICA MARIA SOUZA PORTO
5402                ZULMA GONCALVES DIAS
5403                       ZULMAR MAYETA
5404    ZULMIRA MARIA BERNARDES NORMANDO
Name: Nome, Length: 5405, dtype: object

In [53]:
devedores_cpf['Nome'] = devedores_cpf['Nome'].str.upper()
devedores_cpf['Nome']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  devedores_cpf['Nome'] = devedores_cpf['Nome'].str.upper()


1           JOSE CARLOS DA SILVA GOMES
6              ANDRE DE SOUZA OLIVEIRA
9                ADRIANO DIAS OLIVIERI
10               EDUARDO DIAS OLIVIERI
11                     INGRID TEIXEIRA
                     ...              
2563                  SARA ALVES GOMES
2564       GERSON LUIZ MENDES DE BRITO
2566    WALTER FERNANDEZ ALVAREZ FILHO
2568        DORIVAN DELMOND DE GOUVEIA
2571         DEBORAH REGINA FRANCISCON
Name: Nome, Length: 899, dtype: object

Opera√ß√£o vetorizada:

- `.str.upper()`: Converte para mai√∫sculas

- Consist√™ncia: Evita problemas de case sensitivity

- Nativo do Pandas: Otimizado, sem loops Python

---

## Bloco 9 - Merge Final Otimizado

**Uni√£o Eficiente**

In [54]:
pd.merge(
    aposentadorias, 
    devedores_cpf, 
    left_on=['CPF', 'Nome'], 
    right_on=['CPF', 'Nome'],
    how='inner'
)

Unnamed: 0,Nome,CPF,Situa√Ø¬ø¬Ω√Ø¬ø¬Ωo V√Ø¬ø¬Ωnculo,Matr√Ø¬ø¬Ωcula,UORG,√Ø¬ø¬Ωrg√Ø¬ø¬Ωo,√Ø¬ø¬Ωrg√Ø¬ø¬Ωo Superior,Classe,Padr√Ø¬ø¬Ωo,Refer√Ø¬ø¬Ωncia,...,TIPO DO DEVEDOR,N√öMERO DO TERMO DE INSCRI√á√ÉO,DATA DA INSCRI√á√ÉO,SEQUENCIAL DO CR√âDITO,SITUA√á√ÉO DO CR√âDITO,MOTIVO DA SUSPENS√ÉO,ORIGEM,CREDOR,SALDO DEVEDOR SEM HONOR√ÅRIOS,OBSERVA√á√ÉO
0,DAISY MARIA GUSMAO WELLISCH,.976.541-,Aposentado,222*****,25201,BANCO CENTRAL DO BRASIL,BANCO CENTRAL DO BRASIL,BCESPAC,III,,...,Principal,2020.001-060,27/05/2020,CR2020/0000180,Suspenso,Outros motivos,Relativos a servidor,Banco Central,"R$ 84.704,26",
1,DALTON LEAL DIMA,.952.137-,Aposentado,223*****,25201,BANCO CENTRAL DO BRASIL,BANCO CENTRAL DO BRASIL,BCESPAE,IV,,...,Principal,2020.001-079,16/09/2020,CR2020/0000306,Suspenso,Decis√£o judicial,Relativos a servidor,Banco Central,"R$ 74.057,35",
2,DEJAIR CARLOS CARVALHO,.301.821-,Aposentado,235*****,25201,BANCO CENTRAL DO BRASIL,BANCO CENTRAL DO BRASIL,BCESPAE,II,,...,Principal,2017.001-137,10/08/2017,CR2017/0000669,Em execu√ß√£o,,Relativos a servidor,Banco Central,"R$ 35.692,30",
3,ELMO CAVALCANTE GOMES,.823.827-,Aposentado,285*****,25201,BANCO CENTRAL DO BRASIL,BANCO CENTRAL DO BRASIL,BCESPAE,IV,,...,Principal,2017.001-139,10/08/2017,CR2017/0000671,Em execu√ß√£o,,Relativos a servidor,Banco Central,"R$ 63.190,56",
4,EVERALDO JOSE DA SILVA JUNIOR,.013.866-,Aposentado,312*****,25201,BANCO CENTRAL DO BRASIL,BANCO CENTRAL DO BRASIL,BCESPAE,IV,,...,Principal,2019.001-155,30/07/2019,CR2019/0000398,Suspenso,Outros motivos,Relativos a servidor,Banco Central,"R$ 40.881,42",
5,FRANCISCO CARLOS SERRANO,.163.608-,Aposentado,337*****,25201,BANCO CENTRAL DO BRASIL,BANCO CENTRAL DO BRASIL,BCJURPE,I,,...,Principal,2020.001-076,28/08/2020,CR2020/0000277,Em execu√ß√£o,,Relativos a servidor,Banco Central,"R$ 110.139,59",
6,FRANCISCO MACHADO CARNEIRO,.461.231-,Aposentado,344*****,25201,BANCO CENTRAL DO BRASIL,BANCO CENTRAL DO BRASIL,BCESPTE,IV,,...,Principal,2016.001-093,09/06/2016,CR2016/0000440,Em execu√ß√£o,,Relativos a servidor,Banco Central,"R$ 93.983,04",
7,IVAN RAMOS CASTRO,.982.677-,Aposentado,449*****,25201,BANCO CENTRAL DO BRASIL,BANCO CENTRAL DO BRASIL,BCESPAE,IV,,...,Principal,2017.001-150,10/08/2017,CR2017/0000682,Em execu√ß√£o,,Relativos a servidor,Banco Central,"R$ 35.383,53",
8,JANETE RIBEIRO DOS REIS,.272.114-,Aposentado,462*****,25201,BANCO CENTRAL DO BRASIL,BANCO CENTRAL DO BRASIL,BCESPAA,III,,...,Principal,2017.001-216,11/08/2017,CR2017/0000815,Em execu√ß√£o,,Relativos a servidor,Banco Central,"R$ 7.299,35",
9,JOAO CARLOS TEIXEIRA DOS SANTOS,.454.727-,Aposentado,481*****,25201,BANCO CENTRAL DO BRASIL,BANCO CENTRAL DO BRASIL,BCESPAE,IV,,...,Principal,2017.001-209,11/08/2017,CR2017/0000807,Suspenso,Decis√£o judicial,Relativos a servidor,Banco Central,"R$ 29.336,99",


Par√¢metros finais:

- Chaves id√™nticas: `left_on` = `right_on`

- `how='inner'`: Apenas registros presentes em ambas as bases

- Dupla valida√ß√£o: CPF + Nome para maior precis√£o

---

## Compara√ß√£o: Minha Solu√ß√£o vs Professor

### 1. Tabela Comparativa

| Aspecto  | Minha Abordagem | Abordagem do Professor |
| -------- |:---------------:|:----------------------:|
| Padroniza√ß√£o CPF | Fun√ß√£o .apply() | .str[3:12] vetorizado |
| Valida√ß√£o Nomes | Fun√ß√£o complexa de similaridade | .str.upper() simples |
| Intersec√ß√£o      | set() + &     | pd.merge() direto |
| Filtragem     |  M√∫ltiplos passos    | Filtragem pr√©via eficiente |
| Linhas de c√≥digo      | ~40 linhas     | ~15 linhas
| Performance      | Loops Python (lento)     | Vetoriza√ß√£o Pandas (r√°pido) |
| Complexidade      | Alta    | Baixa |
| Manutenibilidade      | Dif√≠cil     | F√°cil |



### 2. Resumo das Li√ß√µes Aprendidas

**Principais Insights da Trilha de Dados**

**Fundamentos s√≥lidos s√£o essenciais**: NumPy √© a base que torna Pandas poss√≠vel - compreender vetoriza√ß√£o e arrays multidimensionais √© fundamental para an√°lise de dados eficiente.


**Explora√ß√£o estruturada**: `.head()`, `.describe()`, `.info()` e `.unique()` devem ser seus primeiros comandos em qualquer dataset novo.


**Indexa√ß√£o importa**: Dominar `.loc[]` vs `.iloc[]` e entender o `SettingWithCopyWarning` evita bugs silenciosos e c√≥digo n√£o-maint√≠vel.


**Vetoriza√ß√£o √© rei**: Substitua `.apply()` por opera√ß√µes nativas (`.str.upper()`, `.str[3:12]`, operadores matem√°ticos). A diferen√ßa pode ser de at√© **25x+ em performance**.


**Filtre primeiro, processe depois**: Reduzir o volume de dados antes das transforma√ß√µes economiza tempo e recursos computacionais.


**Simplicidade vence complexidade**: A solu√ß√£o do professor demonstrou que menos c√≥digo frequentemente significa melhor performance. Sempre questione: "O Pandas j√° faz isso nativamente?"