In [1]:
import pandas as pd
from datetime import date
from validate_docbr import CPF, CNPJ  # Precisa de instalação de pacote externo

# Base de dados
## Dados disponibilazados pelo portal da CAPES

disponível em:
https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps?utm_source=ActiveCampaign&utm_medium=email&utm_content=%237DaysOfCode+-+Ci%C3%AAncia+de+Dados+1%2F7%3A+Data+Cleaning+and+Preparation&utm_campaign=%5BAlura+%237Days+Of+Code%5D%28Java%29+Dia+1%2F7%3A+Consumir+uma+API+de+filmes

<br>
<br>
Cada base de dados é composta por todos os gastos que os senadores brasileiros declararam naquele ano.
<br>

A base de dados é basicamente composta por:
<ul>
    <li>Nome do senador</li>
    <li>Tipo da despesa</li>
    <li>Detalhamento da despesa</li>
    <li>Data</li>
    <li>Fornecedor</li>
    <li>CPF ou CNPJ do fornecedor</li>
    <li>Valor reembolsado</li>
    <li>Documento</li>
    <li>Código do documento</li>
</ul>

## 1 - Leitura de dados

In [2]:
pd.read_csv('dados_primeiro_dia/despesa_ceaps_2022.csv',
            encoding='iso8859-1', on_bad_lines='skip',
            sep=';', header=1).head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,03/01/2022,Despesa com pagamento de aluguel de imóvel par...,6000,2173614
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,04/01/2022,Despesa com divulgação da atividade parlamenta...,1500,2173615
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,14/01/2022,Despesa com produção de texto e edição de víde...,6000,2173616
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,18/01/2022,Divulgação da atividade parlamentar,1000,2173618
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,000000000001772/A,17/01/2022,Divulgação da atividade parlamentar,2000,2173617


In [3]:
pd.read_csv('dados_primeiro_dia/despesa_ceaps_2021.csv',
            encoding='iso8859-1', on_bad_lines='skip',
            sep=';', header=1).head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,023.489.627,21/01/2021,Pagamento de energia elétrica para uso do escr...,7529,2158003
1,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",062.135.728-64,FERNANDO WALDEIR PACINI e ANA LUCIA DA SILVA S...,01/2021,05/01/2021,Despesa com pagamento de aluguel de imóvel par...,1000,2157367
2,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/21,06/01/2021,Despesa com aluguel de imóvel para uso do escr...,6000,2156383
3,2021,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,10,25/01/2021,Divulgação da atividade parlamentar,1500,2154509
4,2021,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,44,07/01/2021,Divulgação da atividade parlamentar,6000,2154507


In [4]:
pd.read_csv('dados_primeiro_dia/despesa_ceaps_2020.csv',
            encoding='iso8859-1', on_bad_lines='skip',
            sep=';', header=1).head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2020,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,14764742,06/01/2020,Despesa com energia elétrica para uso do escri...,12262,2141820
1,2020,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,14764741,06/01/2020,Despesa com energia elétrica para uso do escri...,13775,2141818
2,2020,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",062.135.728-64,FERNANDO WALDEIR PACINI e ANA LUCIA DA SILVA S...,001/2020,06/01/2020,Despesa com pagamento de aluguel de imóvel par...,1000,2139025
3,2020,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/20,02/01/2020,Despesa com pagamento de aluguel de imóvel par...,6000,2139020
4,2020,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,333871612,25/12/2019,Despesa com pagamento de telefone para uso do ...,32395,2139044


In [5]:
pd.read_csv('dados_primeiro_dia/despesa_ceaps_2019.csv',
            encoding='iso8859-1', on_bad_lines='skip',
            sep=';', header=1).head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,31639,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,7236036,04/02/2019,Despesa com pagamento de energia elétrica para...,9945,2116550


In [6]:
dados_2019 = pd.read_csv('dados_primeiro_dia/despesa_ceaps_2019.csv',
            encoding='iso8859-1', on_bad_lines='skip',
            sep=';', header=1)
dados_2020 = pd.read_csv('dados_primeiro_dia/despesa_ceaps_2020.csv',
            encoding='iso8859-1', on_bad_lines='skip',
            sep=';', header=1)
dados_2021 = pd.read_csv('dados_primeiro_dia/despesa_ceaps_2021.csv',
            encoding='iso8859-1', on_bad_lines='skip',
            sep=';', header=1)
dados_2022 = pd.read_csv('dados_primeiro_dia/despesa_ceaps_2022.csv',
            encoding='iso8859-1', on_bad_lines='skip',
            sep=';', header=1)
dados = pd.concat([dados_2019, dados_2020, dados_2021, dados_2022])  # Concatenando os dados
"""
Após concatenar os dadoos obtem-se quatro seções sequenciais de indices repetidos.
Para resolver esse problema utiliza-se o reset_index, criando uma nova sequência 
de índices que vai de zero até a quantidade total de dados das quatro seções.
"""
dados.reset_index(drop=True, inplace=True)
dados

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,006582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,006582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,00119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,31639,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,007236036,04/02/2019,Despesa com pagamento de energia elétrica para...,9945,2116550
...,...,...,...,...,...,...,...,...,...,...,...
68763,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,SGKRFM,02/12/2022,"Companhia Aérea: LATAM, Localizador: SGKRFM. P...",284945,2192276
68764,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WIXHAI,06/12/2022,"Companhia Aérea: LATAM, Localizador: WIXHAI. P...",289304,2191398
68765,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WITOLM,09/12/2022,"Companhia Aérea: GOL, Localizador: WITOLM. Pas...",118019,2192272
68766,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,THPKVQ,20/12/2022,"Companhia Aérea: TAM, Localizador: THPKVQ. Pas...",26719,2192274


In [7]:
dados_2019.head()  # Verificando o topo da tabela

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,31639,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,7236036,04/02/2019,Despesa com pagamento de energia elétrica para...,9945,2116550


In [8]:
dados_2022.tail()  # Verificando o final da tabela

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
16212,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,SGKRFM,02/12/2022,"Companhia Aérea: LATAM, Localizador: SGKRFM. P...",284945,2192276
16213,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WIXHAI,06/12/2022,"Companhia Aérea: LATAM, Localizador: WIXHAI. P...",289304,2191398
16214,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WITOLM,09/12/2022,"Companhia Aérea: GOL, Localizador: WITOLM. Pas...",118019,2192272
16215,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,THPKVQ,20/12/2022,"Companhia Aérea: TAM, Localizador: THPKVQ. Pas...",26719,2192274
16216,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,QNN9HX,21/12/2022,"Companhia Aérea: AZUL, Localizador: QNN9HX. Pa...",133431,2192244


In [9]:
(dados.shape[0], dados_2019.shape[0] + dados_2020.shape[0] + dados_2021.shape[0] + dados_2022.shape[0])
# Verificando a quantidade de linhas

(68768, 68768)

## 2 - Tratamento de dados do tipo data

Foi notado que na coluna "DATA" havia uma grande quantidade de dados com erros de digitação que impediam que ela fosse convertida para o tipo datetime.

Outro fator observado é que as colunas mês e ano tinham algumas diferenças da coluna data, onde uma despesa regristada no final de um mês, na coluna data, entra como despesa do mês seguinte nas colunas mes e ano.

Então, dado esse problema, foi refeita uma coluna data com os valores existentes nas colunas mes e ano e os valores dia, presentes na coluna data, foram descartados.

In [10]:
ano = dados['ANO'].map(str)

In [11]:
mes = dados['MES'].map(str)

In [12]:
dados['DATA'] = ano.str.cat(mes, sep='-')

In [13]:
dados['DATA'] = pd.to_datetime(dados['DATA'])

In [14]:
dados.drop(columns=['ANO', 'MES'], inplace=True)

In [15]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68768 entries, 0 to 68767
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   SENADOR            68768 non-null  object        
 1   TIPO_DESPESA       68768 non-null  object        
 2   CNPJ_CPF           68768 non-null  object        
 3   FORNECEDOR         68768 non-null  object        
 4   DOCUMENTO          65827 non-null  object        
 5   DATA               68768 non-null  datetime64[ns]
 6   DETALHAMENTO       38300 non-null  object        
 7   VALOR_REEMBOLSADO  68768 non-null  object        
 8   COD_DOCUMENTO      68768 non-null  int64         
dtypes: datetime64[ns](1), int64(1), object(7)
memory usage: 4.7+ MB


In [16]:
dados.head()

Unnamed: 0,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,2019-01-01,Despesa com pagamento de energia elétrica do e...,6602,2116543
1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582755,2019-01-01,Despesa com pagamento de energia elétrica do e...,13998,2116546
2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,119,2019-01-01,Despesa com pagamento de aluguel de imóvel par...,6000,2113817
3,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,2019-01-01,Despesa com pagamento de telefonia para o escr...,31639,2116541
4,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,7236036,2019-02-01,Despesa com pagamento de energia elétrica para...,9945,2116550


## 3 - Tratamento de dados do tipo float

In [17]:
dados['VALOR_REEMBOLSADO'] = dados['VALOR_REEMBOLSADO'].map(lambda x: float(x.replace(",",".")))

In [18]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68768 entries, 0 to 68767
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   SENADOR            68768 non-null  object        
 1   TIPO_DESPESA       68768 non-null  object        
 2   CNPJ_CPF           68768 non-null  object        
 3   FORNECEDOR         68768 non-null  object        
 4   DOCUMENTO          65827 non-null  object        
 5   DATA               68768 non-null  datetime64[ns]
 6   DETALHAMENTO       38300 non-null  object        
 7   VALOR_REEMBOLSADO  68768 non-null  float64       
 8   COD_DOCUMENTO      68768 non-null  int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(6)
memory usage: 4.7+ MB


In [19]:
dados.head()

Unnamed: 0,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,2019-01-01,Despesa com pagamento de energia elétrica do e...,66.02,2116543
1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582755,2019-01-01,Despesa com pagamento de energia elétrica do e...,139.98,2116546
2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,119,2019-01-01,Despesa com pagamento de aluguel de imóvel par...,6000.0,2113817
3,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,2019-01-01,Despesa com pagamento de telefonia para o escr...,316.39,2116541
4,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,7236036,2019-02-01,Despesa com pagamento de energia elétrica para...,99.45,2116550


## 4 - Tramento de dados nulos

Foi notado valores de aproximadamente 44% e 4% de dados faltantes nas colunas detalhamento e documento.

Avaliando a semelhança entre as colunas detalhamento e tipo de despesa, foi decidido que a coluna detalhamento seria removida sem tantas perdas.

Caso a quantidade de dados faltantes na coluna detalhamento não fosse tão grande poderia replicar os valores da coluna tipo de despesa nos dados faltantes da coluna detalhamento.

A coluna documento será mantida como está para não comprometer a integridade dos dados.

In [20]:
dados.isnull().sum()

SENADOR                  0
TIPO_DESPESA             0
CNPJ_CPF                 0
FORNECEDOR               0
DOCUMENTO             2941
DATA                     0
DETALHAMENTO         30468
VALOR_REEMBOLSADO        0
COD_DOCUMENTO            0
dtype: int64

In [21]:
dados.isna().sum()

SENADOR                  0
TIPO_DESPESA             0
CNPJ_CPF                 0
FORNECEDOR               0
DOCUMENTO             2941
DATA                     0
DETALHAMENTO         30468
VALOR_REEMBOLSADO        0
COD_DOCUMENTO            0
dtype: int64

In [22]:
dados['DETALHAMENTO'].isnull().sum()/dados.shape[0]

0.443054909260121

In [23]:
dados['DOCUMENTO'].isnull().sum()/dados.shape[0]

0.04276698464402048

In [24]:
dados[['TIPO_DESPESA','DETALHAMENTO']].sample(10)

Unnamed: 0,TIPO_DESPESA,DETALHAMENTO
66512,"Locomoção, hospedagem, alimentação, combustíve...",
52564,Divulgação da atividade parlamentar,Divulgação da atividade parlamentar
26671,"Locomoção, hospedagem, alimentação, combustíve...",DESPESA COM COMBUSTÍVEL EM VEÍCULOS UTILIZADOS...
54290,"Aluguel de imóveis para escritório político, c...",
58863,"Locomoção, hospedagem, alimentação, combustíve...","39,850 litros de gasolina comum 22,050 litros ..."
62220,"Locomoção, hospedagem, alimentação, combustíve...",DESPESAS COM ALIMENTAÇÃO.
66883,"Locomoção, hospedagem, alimentação, combustíve...",Aquisição de combustível para veículos utiliza...
23500,"Locomoção, hospedagem, alimentação, combustíve...",despesa com refeição
47773,"Locomoção, hospedagem, alimentação, combustíve...",Aquisição de combustível para carro utilizado ...
52245,"Aluguel de imóveis para escritório político, c...",


In [25]:
dados[['DOCUMENTO','COD_DOCUMENTO']].sample(10)

Unnamed: 0,DOCUMENTO,COD_DOCUMENTO
10411,000008761,2133323
56458,3242,2191159
16664,T76EKR,2115843
25728,00061290,2150372
55437,000322903,2174039
52314,S/N,2162714
63495,S/N,2179481
7193,201900000000008,2122055
51543,85006,2168299
54718,39259,2188540


In [26]:
dados.drop(columns=['DETALHAMENTO'], inplace=True)

In [27]:
dados.head()

Unnamed: 0,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,2019-01-01,66.02,2116543
1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582755,2019-01-01,139.98,2116546
2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,119,2019-01-01,6000.0,2113817
3,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,2019-01-01,316.39,2116541
4,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,7236036,2019-02-01,99.45,2116550


## 5 - Validação de CPF e CNPJ

In [28]:
cpf = CPF()
cnpj = CNPJ()

In [29]:
validacao = []
for c in dados['CNPJ_CPF']:
    if cpf.validate(c) or cnpj.validate(c):
        validacao.append(True)
    else:
        validacao.append(False)

In [34]:
print('inválidos: {}'.format(dados.shape[0] - dados[validacao].shape[0]))
print('válidos: {}'.format(dados[validacao].shape[0]))

inválidos: 0
válidos: 68768


## 6 - Verificação de Codigos de documento repetidos

In [84]:
if (len(dados['COD_DOCUMENTO'].unique()) - dados.shape[0]) == 0:
    print('Os dados não possuem códigos de documento repetidos')
else:
    print('Os dados possuem códigos de documento repetidos')    

Os dados não possuem códigos de documento repetidos
