# Limpeza de dados utilizando Pandas

## Utilizei dados de 2017 do Cota para Exercício da Atividade Parlamentar dos Senadores para realizar esta limpeza

In [64]:
import pandas as pd

Ao abrir este data frame me deparei com os dado divididos em duas colunas "ULTIMA ATUALIZACAO" e "06/08/2021 02:05". Para anlisar apenas as colunas que se relacionam diretamente aos dados utilizei o **skiprows[0]** para pular a primeira linha e **header=None** para informar que não há cabeçalho no arquivo. Apesar de haver cabeçalho, gostaria de mostrar como torna-lo cabeçalho de outra forma, mas caso queira fazer isso inicialmente basta substituir **None** pelo número da linha que será o cabeçalho. 

In [65]:
df2017 = pd.read_csv('despesa_ceaps_2017.csv', encoding = 'ISO-8859-1', sep = ';', skiprows = [0], header = None)

In [66]:
df2017.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
1,2017,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000034079,18/01/2017,Despesa com pagamento de energia elétrica para...,97,2060286
2,2017,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/17,17/01/2017,Despesa com aluguel de imóvel para uso do escr...,6000,2057638
3,2017,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,744526352,18/01/2017,Despesa com pagamento de telefone celular para...,41804,2060285
4,2017,1,ACIR GURGACZ,"Passagens aéreas, aquáticas e terrestres nacio...",13.419.034/0001-67,e-Destinos.com.br,2LLTII,23/01/2017,"Companhia Aérea: LATAM, Localizador: 2LLTII. P...",195895,2060289


Vamos então transformar a primeira linha em cabeçalho do data frame. 
1. Defini a primeira linha do data frame como cabeçalho e armazenei na váriavel **header**;
2. Como retirei o cabeçalho anterior o progrma definiu um novo cabeçalho numérico. Com **df2017[1:]** removo para que o novo cabeçalho ocupe esse lugar;
3. Com **df2017.columns** defini a váriavel **header** como cabeçalho das colunas.

In [67]:
header =  df2017.iloc[0]
df2017 = df2017[1:]
df2017.columns = header

In [68]:
df2017.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
1,2017,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000034079,18/01/2017,Despesa com pagamento de energia elétrica para...,97,2060286
2,2017,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/17,17/01/2017,Despesa com aluguel de imóvel para uso do escr...,6000,2057638
3,2017,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,744526352,18/01/2017,Despesa com pagamento de telefone celular para...,41804,2060285
4,2017,1,ACIR GURGACZ,"Passagens aéreas, aquáticas e terrestres nacio...",13.419.034/0001-67,e-Destinos.com.br,2LLTII,23/01/2017,"Companhia Aérea: LATAM, Localizador: 2LLTII. P...",195895,2060289
5,2017,1,ACIR GURGACZ,"Passagens aéreas, aquáticas e terrestres nacio...",63.764.211/0001-10,TRANSCONTINENTAL AGÊNCIA DE VIAGENS LTDA,2QXSBC,24/01/2017,"Companhia Aérea: LATAM, Localizador: 2QXSBC. P...",117867,2057639


Para acessar informações do data frame utilizo o método _.info( )_

In [69]:
df2017.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27023 entries, 1 to 27023
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   ANO                27023 non-null  object
 1   MES                27023 non-null  object
 2   SENADOR            27023 non-null  object
 3   TIPO_DESPESA       27023 non-null  object
 4   CNPJ_CPF           27023 non-null  object
 5   FORNECEDOR         27023 non-null  object
 6   DOCUMENTO          25704 non-null  object
 7   DATA               27023 non-null  object
 8   DETALHAMENTO       20866 non-null  object
 9   VALOR_REEMBOLSADO  27023 non-null  object
 10  COD_DOCUMENTO      27023 non-null  object
dtypes: object(11)
memory usage: 2.3+ MB


Apesar de haver colunas de data, código numérico e valores, podemos ver que todos estão como **Dtype = object** 
Para que isso não atrapalhe o uso dos dados vou corrigir seus valores. 
- Altera os as informações da coluna **'DATA'** de object para **datetime64[ns]** utilizando o método _pd.to_datetime_, também formatei com o parâmetro _format_ e o parâmetro _errors_ pois haviam valores inválidos;
- Para as colunas **'VALOR_REEMBOLSO'**, **'COD_DOCUMENTO'** e **'ANO'**, alterei de object para float, int e int respectivamente.

In [70]:
df2017['DATA'] = pd.to_datetime(df2017['DATA'], format = '%d/%m/%Y', errors = 'coerce')

In [71]:
df2017['VALOR_REEMBOLSADO'] = df2017['VALOR_REEMBOLSADO'].str.replace(',','.').astype(float)
df2017['COD_DOCUMENTO'] = df2017['COD_DOCUMENTO'].astype(int)
df2017['ANO'] = df2017['ANO'].astype(int)

In [72]:
df2017.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27023 entries, 1 to 27023
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ANO                27023 non-null  int32         
 1   MES                27023 non-null  object        
 2   SENADOR            27023 non-null  object        
 3   TIPO_DESPESA       27023 non-null  object        
 4   CNPJ_CPF           27023 non-null  object        
 5   FORNECEDOR         27023 non-null  object        
 6   DOCUMENTO          25704 non-null  object        
 7   DATA               27018 non-null  datetime64[ns]
 8   DETALHAMENTO       20866 non-null  object        
 9   VALOR_REEMBOLSADO  27023 non-null  float64       
 10  COD_DOCUMENTO      27023 non-null  int32         
dtypes: datetime64[ns](1), float64(1), int32(2), object(7)
memory usage: 2.1+ MB


Bem melhor!

Agora vou substituir os números do preenchimento da coluna **'MES'** para os meses e texto. Como esta coluna já está como object não há necessidade de alterar.

In [73]:
df2017['MES'] = df2017['MES'].replace({'1': 'Janeiro', '2': 'Fevereiro', '3': 'Março', '4': 'Abril', '5': 'Maio', '6': 'Junho', '7': 'Julho', '8': 'Agosto', '9': 'Setembro', '10': 'Outubro', '11': 'Novembro', '12': 'Dezembro'})

In [74]:
df2017.tail()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
27019,2017,Dezembro,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",09.296.295/0001-60,Azul,JIHS6E,2017-12-18,"Companhia Aérea: AZUL, Localizador: JIHS6E. Pa...",922.03,2091012
27020,2017,Dezembro,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",09.296.295/0001-60,Azul,BBQ4TZ,2017-12-19,"Companhia Aérea: AZUL, Localizador: BBQ4TZ. Pa...",1086.76,2086462
27021,2017,Dezembro,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",33.937.681/0001-78,LATAM,POVS4P,2017-06-06,"Companhia Aérea: LATAM, Localizador: POVS4P. P...",1630.93,2084182
27022,2017,Dezembro,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",33.937.681/0001-78,LATAM,UT2IVY,2017-12-14,"Companhia Aérea: LATAM, Localizador: UT2IVY. P...",675.24,2086768
27023,2017,Dezembro,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",33.937.681/0001-78,LATAM,URKT5P,2017-12-14,"Companhia Aérea: LATAM, Localizador: URKT5P. P...",1926.93,2086454


Sinto que ordem das colunas não favorece uma leitura fluida, por isso vou reorganizar para que fique mais intuitivo

In [75]:
df2017 = df2017.reindex(columns=['COD_DOCUMENTO', 'SENADOR', 'TIPO_DESPESA', 'CNPJ_CPF', 'FORNECEDOR', 'DOCUMENTO', 'DETALHAMENTO', 'VALOR_REEMBOLSADO', 'DATA', 'MES', 'ANO'])

In [76]:
df2017.tail()

Unnamed: 0,COD_DOCUMENTO,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DETALHAMENTO,VALOR_REEMBOLSADO,DATA,MES,ANO
27019,2091012,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",09.296.295/0001-60,Azul,JIHS6E,"Companhia Aérea: AZUL, Localizador: JIHS6E. Pa...",922.03,2017-12-18,Dezembro,2017
27020,2086462,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",09.296.295/0001-60,Azul,BBQ4TZ,"Companhia Aérea: AZUL, Localizador: BBQ4TZ. Pa...",1086.76,2017-12-19,Dezembro,2017
27021,2084182,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",33.937.681/0001-78,LATAM,POVS4P,"Companhia Aérea: LATAM, Localizador: POVS4P. P...",1630.93,2017-06-06,Dezembro,2017
27022,2086768,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",33.937.681/0001-78,LATAM,UT2IVY,"Companhia Aérea: LATAM, Localizador: UT2IVY. P...",675.24,2017-12-14,Dezembro,2017
27023,2086454,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",33.937.681/0001-78,LATAM,URKT5P,"Companhia Aérea: LATAM, Localizador: URKT5P. P...",1926.93,2017-12-14,Dezembro,2017


Algo importante é verificar se há valores nulos para que não interfiram na análise. Vou usar os métodos _.isna( )_ e _.sum( )_ para verificar.

In [77]:
df2017.isna().sum()

0
COD_DOCUMENTO           0
SENADOR                 0
TIPO_DESPESA            0
CNPJ_CPF                0
FORNECEDOR              0
DOCUMENTO            1319
DETALHAMENTO         6157
VALOR_REEMBOLSADO       0
DATA                    5
MES                     0
ANO                     0
dtype: int64

In [78]:
df2017[df2017.isnull().any(axis=1)]

Unnamed: 0,COD_DOCUMENTO,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DETALHAMENTO,VALOR_REEMBOLSADO,DATA,MES,ANO
395,2062907,AIRTON SANDOVAL,"Aluguel de imóveis para escritório político, c...",011.763.248-10,JOSUÉ DIMAS DE MELO PIMENTA,,DESPESA COM O ALUGUEL DAS INSTALAÇÕES DO ESCRI...,4736.00,2017-04-03,Março,2017
406,2064634,AIRTON SANDOVAL,"Aluguel de imóveis para escritório político, c...",002.756.358-80,JOSÉ ROBERTO MARQUES,,DESPESA COM ALUGUEL DO ESCRITÓRIO DE APÓIO EM ...,3500.00,2017-04-25,Abril,2017
407,2065700,AIRTON SANDOVAL,"Aluguel de imóveis para escritório político, c...",011.763.248-10,JOSUÉ DIMAS DE MELO PIMENTA,,DESPESA COM ALUGUEL DO ESCRITÓRIO DE APÓIO EM ...,6766.00,2017-05-02,Abril,2017
409,2063892,AIRTON SANDOVAL,"Aluguel de imóveis para escritório político, c...",46.392.130/0005-41,PREFEITURA DE SÃO PAULO,,IPTU DAS INSTALAÇÕES DO ESCRITÓRIO EM SÃO PAUL...,684.95,2017-04-09,Abril,2017
428,2068203,AIRTON SANDOVAL,"Aluguel de imóveis para escritório político, c...",61.695.227/0001-93,AES ELETROPAULO,,DESPESA COM ENERGIA ELÉTRICA NAS INSTALAÇÕES D...,163.52,2017-05-19,Maio,2017
...,...,...,...,...,...,...,...,...,...,...,...
27012,2086778,ZEZÉ PERRELLA,"Locomoção, hospedagem, alimentação, combustíve...",23.174.519/0006-04,Restaurante e Conveniência D'Angelis,98347,,45.43,2017-12-19,Dezembro,2017
27013,2086470,ZEZÉ PERRELLA,"Locomoção, hospedagem, alimentação, combustíve...",17.062.531/0001-01,Restaurante São Bento Ltda,2914,,171.05,2017-12-20,Dezembro,2017
27014,2084181,ZEZÉ PERRELLA,"Locomoção, hospedagem, alimentação, combustíve...",23.634.655/0001-17,Vila Alimentos e Bebidas Ltda -EPP,0000005,,635.01,2017-12-03,Dezembro,2017
27015,2084442,ZEZÉ PERRELLA,"Locomoção, hospedagem, alimentação, combustíve...",10.348.318/0012-74,Windsor Administração de Hoteis e Serviços Ltda,00059464,,1398.76,2017-12-12,Dezembro,2017


Por fim vou utilizar o método _.duplicated()_ para conferir se existem valores duplicados e o método _.sum()_ para me dizer quantos se existirem.

In [79]:
duplicatas = df2017.duplicated()
print(duplicatas.sum())

0
