In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("ceaps_dataset.csv", skiprows=1, delimiter=";", encoding="latin1")
df.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO
0,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA,000011328,13/01/2016,Despesa com pagamento de energia elétrica para...,736
1,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA,000011327,18/01/2016,Pagamento de energia elétrica para o escritóri...,20684
2,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/16,04/01/2016,"Despesa com pagamento de aluguel, utilizado pa...",6000
3,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,661639001,16/01/2016,despesa com pagamento de telefonia para o escr...,40748
4,2016,1,ACIR GURGACZ,Aquisição de material de consumo para uso no e...,62.652.961/0001-38,AGÊNCIA ESTADO S.A.,00608918,06/01/2016,Aquisição de publicação virtual de conteúdo jo...,550


In [3]:
df.dtypes

ANO                   int64
MES                   int64
SENADOR              object
TIPO_DESPESA         object
CNPJ_CPF             object
FORNECEDOR           object
DOCUMENTO            object
DATA                 object
DETALHAMENTO         object
VALOR_REEMBOLSADO    object
dtype: object

Gotta transform "VALOR_REEMBOLSADO" to Float

In [4]:
df["VALOR_REEMBOLSADO"] = df["VALOR_REEMBOLSADO"].str.replace(",", ".")
df["VALOR_REEMBOLSADO"] = pd.to_numeric(df["VALOR_REEMBOLSADO"])

In [5]:
df.describe()

Unnamed: 0,ANO,MES,VALOR_REEMBOLSADO
count,26691.0,26691.0,26691.0
mean,2016.0,6.470908,947.484513
std,0.0,3.257134,2733.820037
min,2016.0,1.0,0.01
25%,2016.0,4.0,124.0
50%,2016.0,6.0,324.79
75%,2016.0,9.0,956.865
max,2016.0,12.0,256980.0


Transforming "DATA" to date

In [6]:
df["DATA"] = pd.to_datetime(df["DATA"])

OutOfBoundsDatetime: Out of bounds nanosecond timestamp: 5017-07-20 00:00:00

There is a wrong date, let's treat it.

In [7]:
print(df[df["DATA"] == "20/07/5017"])
print(df[df["DATA"] == "02/04/3016"])

       ANO  MES           SENADOR  \
2194  2016   10  ARMANDO MONTEIRO   

                                           TIPO_DESPESA            CNPJ_CPF  \
2194  Aluguel de imóveis para escritório político, c...  41.054.867/0001-07   

               FORNECEDOR   DOCUMENTO        DATA  \
2194  Jadan Office Center  1101610021  20/07/5017   

                                           DETALHAMENTO  VALOR_REEMBOLSADO  
2194  Taxa de condomínio do escritório parlamentar, ...             811.89  
        ANO  MES        SENADOR  \
12424  2016    4  JOSÉ MEDEIROS   

                                            TIPO_DESPESA            CNPJ_CPF  \
12424  Locomoção, hospedagem, alimentação, combustíve...  12.262.251/0001-23   

                  FORNECEDOR DOCUMENTO        DATA            DETALHAMENTO  \
12424  HOTEL GRAN ODARA LTDA     65509  02/04/3016  despesa com hospedagem   

       VALOR_REEMBOLSADO  
12424              259.9  


In [8]:
df["DATA"] = df["DATA"].str.replace("20/07/5017", "20/07/2017")
df["DATA"] = df["DATA"].str.replace("02/04/3016", "02/04/2016")

I think it will be fine to just transform invalid dates to NA

In [9]:
df["DATA"] = pd.to_datetime(df["DATA"], errors = "coerce")

In [10]:
df.dropna(subset=["DATA"], inplace=True)

In [11]:
df.dtypes

ANO                           int64
MES                           int64
SENADOR                      object
TIPO_DESPESA                 object
CNPJ_CPF                     object
FORNECEDOR                   object
DOCUMENTO                    object
DATA                 datetime64[ns]
DETALHAMENTO                 object
VALOR_REEMBOLSADO           float64
dtype: object

In [12]:
df.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO
0,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA,000011328,2016-01-13,Despesa com pagamento de energia elétrica para...,73.6
1,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA,000011327,2016-01-18,Pagamento de energia elétrica para o escritóri...,206.84
2,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/16,2016-04-01,"Despesa com pagamento de aluguel, utilizado pa...",6000.0
3,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,661639001,2016-01-16,despesa com pagamento de telefonia para o escr...,407.48
4,2016,1,ACIR GURGACZ,Aquisição de material de consumo para uso no e...,62.652.961/0001-38,AGÊNCIA ESTADO S.A.,00608918,2016-06-01,Aquisição de publicação virtual de conteúdo jo...,550.0


I'd like to have a "Day" variable

In [13]:
df["DIA"] = df["DATA"].dt.day

Checking how many different values are in "TIPO_DESPESA" 

In [14]:
df["TIPO_DESPESA"].unique()

array([ 'Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.',
       'Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos. ',
       'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar',
       'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes',
       'Passagens aéreas, aquáticas e terrestres nacionais',
       'Divulgação da atividade parlamentar',
       'Serviços de Segurança Privada'], dtype=object)

Names are too large. I'd like simpler explanations

In [15]:
mapper = {'Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.':'Aluguel',
         'Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos. ': 'Aquisição de material',
          'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar': 'Contratações',
         'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes':'Logística',
         'Passagens aéreas, aquáticas e terrestres nacionais':'Passagens',
         'Divulgação da atividade parlamentar':'Divulgações',
          'Serviços de Segurança Privada': 'Segurança'}

In [16]:
df["TIPO_DESPESA"] = df['TIPO_DESPESA'].map(mapper)

In [17]:
df[df["TIPO_DESPESA"].isnull()]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,DIA


In [19]:
df = df.filter(["ANO", 'MES', 'DIA', 'SENADOR', 'TIPO_DESPESA', 'CNPJ_CPF', 'FORNECEDOR', 'DOCUMENTO', 'DATA', 'DETALHAMENTO', 'VALOR_REEMBOLSADO'])

In [24]:
df.to_csv("dados_limpos.csv", encoding="latin1", index=False, sep=';')