In [1]:
import pandas as pd

# List of years
years = range(2008, 2023)

# List to store all files
lista_dfs = []

for year in years:
    # file path
    csv_file_path = f'/home/orlando_linux/alura_challange/csv_site/despesa_ceaps_{year}.csv'
    
    # Reading CSV file with 'latin-1' encoding, semicolon as delimiter, and removal of the first line.
    try:
        data = pd.read_csv(csv_file_path, delimiter=';', encoding='utf-8', skiprows=1)
    except UnicodeDecodeError:
        data = pd.read_csv(csv_file_path, delimiter=';', encoding='latin-1', skiprows=1)
    
    # To create the DataFrame for the current year and add it to the list
    df = pd.DataFrame(data)
    lista_dfs.append(df)

# Concatenating all DataFrames from the list into a single DataFrame
df = pd.concat(lista_dfs, ignore_index=True)



In [2]:
# Contando o número de linhas antes da remoção
total_linhas_antes = len(df)

# Removendo linhas onde a coluna 'DATA' é nula
df_1 = df.dropna(subset=['DATA'])

# Contando o número de linhas após a remoção
total_linhas_depois = len(df_1)

# Calculando o número de linhas eliminadas
linhas_eliminadas = total_linhas_antes - total_linhas_depois

# Calculando o percentual eliminado
linhas_eliminadas_share = round(1-(total_linhas_antes - total_linhas_depois)/total_linhas_antes,2)

print(f"Total de linhas removidas foi de {linhas_eliminadas}")
print(f"Compreendendo a {linhas_eliminadas_share}% do total")


Total de linhas removidas foi de 3144
Compreendendo a 0.99% do total


In [3]:
# Convertendo a coluna 'DATA' para datetime com o formato correto 'dia/mês/ano'
df_1.loc[:, 'DATA'] = pd.to_datetime(df_1['DATA'], format='%d/%m/%Y', errors='coerce')

# Contando o número de valores NaT na coluna 'DATA'
num_errors = df_1['DATA'].isna().sum()

print("Número de linhas com erros após a conversão:", num_errors)

# Removendo linhas com valores NaT na coluna 'DATA'
df_2 = df_1.dropna(subset=['DATA'])

# Calculando o número total de linhas original
total_linhas_original = len(df_1)

# Calculando o percentual de linhas eliminadas
linhas_eliminadas = num_errors
percentual_eliminado = (linhas_eliminadas / total_linhas_original) * 100

print(f"Percentual de linhas eliminadas: {percentual_eliminado:.2f}%")


Número de linhas com erros após a conversão: 23
Percentual de linhas eliminadas: 0.01%


In [4]:
# Remover caracteres indesejados da coluna 'VALOR_REEMBOLSADO'
df_2.loc[:, 'VALOR_REEMBOLSADO'] = df_2['VALOR_REEMBOLSADO'].str.replace('\r\n', '').str.replace(',', '.')

# Converter a coluna 'VALOR_REEMBOLSADO' para float
df_2.loc[:, 'VALOR_REEMBOLSADO'] = df_2['VALOR_REEMBOLSADO'].astype(float)

# Remover o índice
df_3 = df_2.reset_index(drop=True)

In [5]:
df_3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 314796 entries, 0 to 314795
Data columns (total 11 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   ANO                314796 non-null  int64  
 1   MES                314796 non-null  int64  
 2   SENADOR            314796 non-null  object 
 3   TIPO_DESPESA       314796 non-null  object 
 4   CNPJ_CPF           314796 non-null  object 
 5   FORNECEDOR         314796 non-null  object 
 6   DOCUMENTO          293132 non-null  object 
 7   DATA               314796 non-null  object 
 8   DETALHAMENTO       180610 non-null  object 
 9   VALOR_REEMBOLSADO  314796 non-null  object 
 10  COD_DOCUMENTO      314794 non-null  float64
dtypes: float64(1), int64(2), object(8)
memory usage: 26.4+ MB


In [7]:
print(df_3['SENADOR'].unique().tolist())

['ACIR GURGACZ', 'ADELMIR SANTANA', 'ALMEIDA LIMA', 'ALOIZIO MERCADANTE', 'ANTONIO CARLOS JUNIOR', 'ANTÔNIO CARLOS VALADARES', 'ARTHUR VIRGÍLIO', 'AUGUSTO BOTELHO', 'CÉSAR BORGES', 'CÍCERO LUCENA', 'CRISTOVAM BUARQUE', 'DELCIDIO DO AMARAL', 'DEMÓSTENES TORRES', 'EDUARDO AZEREDO', 'EDUARDO SUPLICY', 'EFRAIM MORAIS', 'ELISEU RESENDE', 'EPITÁCIO CAFETEIRA', 'EXPEDITO JUNIOR', 'FÁTIMA CLEIDE', 'FERNANDO COLLOR', 'FLÁVIO ARNS', 'FLÁVIO TORRES', 'FLEXA RIBEIRO', 'FRANCISCO DORNELLES', 'GARIBALDI ALVES FILHO', 'GERALDO MESQUITA JÚNIOR', 'GERSON CAMATA', 'GILBERTO GOELLNER', 'GILVAM BORGES', 'GIM ARGELLO', 'HERÁCLITO FORTES', 'IDELI SALVATTI', 'INÁCIO ARRUDA', 'JARBAS VASCONCELOS', 'JAYME CAMPOS', 'JEFFERSON PRAIA', 'JOÃO DURVAL', 'JOÃO PEDRO', 'JOÃO RIBEIRO', 'JOÃO TENÓRIO', 'JOÃO VICENTE CLAUDINO', 'JOSÉ AGRIPINO', 'JOSÉ NERY', 'JOSÉ SARNEY', 'KÁTIA ABREU', 'LEOMAR QUINTANILHA', 'LOBÃO FILHO', 'LÚCIA VÂNIA', 'MAGNO MALTA', 'MÃO SANTA', 'MARCELO CRIVELLA', 'MARCONI PERILLO', 'MARIA DO CARMO A

In [35]:
print(names_to_correct)

['A�CIO NEVES', 'ANA AM�LIA', '�NGELA PORTELA', 'AN�BAL DINIZ', 'ANT�NIO CARLOS VALADARES', 'ATA�DES OLIVEIRA', 'C�SSIO CUNHA LIMA', 'C�CERO LUCENA', 'D�RIO BERGER', 'EDISON LOB�O', 'ELMANO F�RRER', 'EPIT�CIO CAFETEIRA', 'F�TIMA BEZERRA', 'H�LIO JOS�', 'IN�CIO ARRUDA', 'JO�O ALBERTO SOUZA', 'JO�O CAPIBERIBE', 'JO�O DURVAL', 'JO�O VICENTE CLAUDINO', 'JOS� AGRIPINO', 'JOS� MARANH�O', 'JOS� MEDEIROS', 'JOS� PIMENTEL', 'JOS� SERRA', 'L�DICE DA MATA', 'L�CIA V�NIA', 'MARCO ANT�NIO COSTA', 'M�RIO COUTO', 'RICARDO FERRA�O', 'ROBERTO REQUI�O', 'ROM�RIO', 'ROMERO JUC�', 'RUBEN FIGUEIR�', 'S�RGIO PETEC�O', 'SODR� SANTORO', 'TELM�RIO MOTA', 'ZEZ� PERRELLA']


In [6]:
def correct_names_in_dataframe(df, column_name):
    corrections = {
        'A�CIO NEVES': 'AÉCIO NEVES',
        'ANA AM�LIA': 'ANA AMÉLIA',
        '�NGELA PORTELA': 'ÂNGELA PORTELA',
        'AN�BAL DINIZ': 'ANÍBAL DINIZ',
        'ANT�NIO CARLOS VALADARES': 'ANTÔNIO CARLOS VALADARES',
        'ATA�DES OLIVEIRA': 'ATAÍDES OLIVEIRA',
        'C�SSIO CUNHA LIMA': 'CÁSSIO CUNHA LIMA',
        'C�CERO LUCENA': 'CÍCERO LUCENA',
        'D�RIO BERGER': 'DÁRIO BERGER',
        'EDISON LOB�O': 'EDISON LOBÃO',
        'ELMANO F�RRER': 'ELMANO FÉRRER',
        'EPIT�CIO CAFETEIRA': 'EPITÁCIO CAFETEIRA',
        'F�TIMA BEZERRA': 'FÁTIMA BEZERRA',
        'H�LIO JOS�': 'HÉLIO JOSÉ',
        'IN�CIO ARRUDA': 'INÁCIO ARRUDA',
        'JO�O ALBERTO SOUZA': 'JOÃO ALBERTO SOUZA',
        'JO�O CAPIBERIBE': 'JOÃO CAPIBERIBE',
        'JO�O DURVAL': 'JOÃO DURVAL',
        'JO�O VICENTE CLAUDINO': 'JOÃO VICENTE CLAUDINO',
        'JOS� AGRIPINO': 'JOSÉ AGRIPINO',
        'JOS� MARANH�O': 'JOSÉ MARANHÃO',
        'JOS� MEDEIROS': 'JOSÉ MEDEIROS',
        'JOS� PIMENTEL': 'JOSÉ PIMENTEL',
        'JOS� SERRA': 'JOSÉ SERRA',
        'L�DICE DA MATA': 'LÍDICE DA MATA',
        'L�CIA V�NIA': 'LÚCIA VÂNIA',
        'MARCO ANT�NIO COSTA': 'MARCO ANTÔNIO COSTA',
        'M�RIO COUTO': 'MÁRIO COUTO',
        'RICARDO FERRA�O': 'RICARDO FERRAÇO',
        'ROBERTO REQUI�O': 'ROBERTO REQUIÃO',
        'ROM�RIO': 'ROMÁRIO',
        'ROMERO JUC�': 'ROMERO JUCÁ',
        'RUBEN FIGUEIR�': 'RUBEN FIGUEIRÓ',
        'S�RGIO PETEC�O': 'SÉRGIO PETECÃO',
        'SODR� SANTORO': 'SODRÉ SANTORO',
        'TELM�RIO MOTA': 'TELMÁRIO MOTA',
        'ZEZ� PERRELLA': 'ZEZÉ PERRELLA'
    }
    
    df[column_name] = df[column_name].apply(lambda x: corrections.get(x, x))
    


In [7]:
correct_names_in_dataframe(df_3,'SENADOR')

In [8]:
print(df_3['SENADOR'].unique().tolist())

['ACIR GURGACZ', 'ADELMIR SANTANA', 'ALMEIDA LIMA', 'ALOIZIO MERCADANTE', 'ANTONIO CARLOS JUNIOR', 'ANTÔNIO CARLOS VALADARES', 'ARTHUR VIRGÍLIO', 'AUGUSTO BOTELHO', 'CÉSAR BORGES', 'CÍCERO LUCENA', 'CRISTOVAM BUARQUE', 'DELCIDIO DO AMARAL', 'DEMÓSTENES TORRES', 'EDUARDO AZEREDO', 'EDUARDO SUPLICY', 'EFRAIM MORAIS', 'ELISEU RESENDE', 'EPITÁCIO CAFETEIRA', 'EXPEDITO JUNIOR', 'FÁTIMA CLEIDE', 'FERNANDO COLLOR', 'FLÁVIO ARNS', 'FLÁVIO TORRES', 'FLEXA RIBEIRO', 'FRANCISCO DORNELLES', 'GARIBALDI ALVES FILHO', 'GERALDO MESQUITA JÚNIOR', 'GERSON CAMATA', 'GILBERTO GOELLNER', 'GILVAM BORGES', 'GIM ARGELLO', 'HERÁCLITO FORTES', 'IDELI SALVATTI', 'INÁCIO ARRUDA', 'JARBAS VASCONCELOS', 'JAYME CAMPOS', 'JEFFERSON PRAIA', 'JOÃO DURVAL', 'JOÃO PEDRO', 'JOÃO RIBEIRO', 'JOÃO TENÓRIO', 'JOÃO VICENTE CLAUDINO', 'JOSÉ AGRIPINO', 'JOSÉ NERY', 'JOSÉ SARNEY', 'KÁTIA ABREU', 'LEOMAR QUINTANILHA', 'LOBÃO FILHO', 'LÚCIA VÂNIA', 'MAGNO MALTA', 'MÃO SANTA', 'MARCELO CRIVELLA', 'MARCONI PERILLO', 'MARIA DO CARMO A

In [14]:
df_3['TIPO_DESPESA'].unique()

array(['Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.',
       'Divulgação da atividade parlamentar',
       'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes',
       'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar',
       'Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos. ',
       'Passagens aéreas, aquáticas e terrestres nacionais',
       'Serviços de Segurança Privada',
       'Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos.'],
      dtype=object)

In [13]:
def correct_tipo_despesa(df):
    corrections = {
        'Aluguel de im�veis para escrit�rio pol�tico, compreendendo despesas concernentes a eles.': 'Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.',
        'Divulga��o da atividade parlamentar': 'Divulgação da atividade parlamentar',
        'Locomo��o, hospedagem, alimenta��o, combust�veis e lubrificantes': 'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes',
        'Contrata��o de consultorias, assessorias, pesquisas, trabalhos t�cnicos e outros servi�os de apoio ao exerc�cio do mandato parlamentar': 'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar',
        'Aquisi��o de material de consumo para uso no escrit�rio pol�tico, inclusive aquisi��o ou loca��o de software, despesas postais, aquisi��o de publica��es, loca��o de m�veis e de equipamentos. ': 'Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos.',
        'Passagens a�reas, aqu�ticas e terrestres nacionais': 'Passagens aéreas, aquáticas e terrestres nacionais',
        'Servi�os de Seguran�a Privada': 'Serviços de Segurança Privada'
    }
    
    df['TIPO_DESPESA'] = df['TIPO_DESPESA'].apply(lambda x: corrections.get(x, x))

# Call the function to correct the 'TIPO_DESPESA' column
correct_tipo_despesa(df_3)


