In [36]:
import pandas as pd

# List of years
years = range(2008, 2023)

# List to store all files
lista_dfs = []

for year in years:
    # file path
    csv_file_path = f'/home/orlando_linux/alura_challange/csv_site/despesa_ceaps_{year}.csv'
    
    # Reading CSV file with 'latin-1' encoding, semicolon as delimiter, and removal of the first line.
    try:
        data = pd.read_csv(csv_file_path, delimiter=';', encoding='utf-8', skiprows=1)
    except UnicodeDecodeError:
        data = pd.read_csv(csv_file_path, delimiter=';', encoding='latin-1', skiprows=1)
    
    # To create the DataFrame for the current year and add it to the list
    df = pd.DataFrame(data)
    lista_dfs.append(df)

# Concatenating all DataFrames from the list into a single DataFrame
df = pd.concat(lista_dfs, ignore_index=True)



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 317963 entries, 0 to 317962
Data columns (total 11 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   ANO                317963 non-null  int64  
 1   MES                317963 non-null  int64  
 2   SENADOR            317963 non-null  object 
 3   TIPO_DESPESA       317963 non-null  object 
 4   CNPJ_CPF           314819 non-null  object 
 5   FORNECEDOR         314819 non-null  object 
 6   DOCUMENTO          293153 non-null  object 
 7   DATA               314819 non-null  object 
 8   DETALHAMENTO       180631 non-null  object 
 9   VALOR_REEMBOLSADO  317962 non-null  object 
 10  COD_DOCUMENTO      317959 non-null  float64
dtypes: float64(1), int64(2), object(8)
memory usage: 26.7+ MB
None


In [27]:
# Contando o número de linhas antes da remoção
total_linhas_antes = len(df)

# Removendo linhas onde a coluna 'DATA' é nula
df_1 = df.dropna(subset=['DATA'])

# Contando o número de linhas após a remoção
total_linhas_depois = len(df_1)

# Calculando o número de linhas eliminadas
linhas_eliminadas = total_linhas_antes - total_linhas_depois

# Calculando o percentual eliminado
linhas_eliminadas_share = round(1-(total_linhas_antes - total_linhas_depois)/total_linhas_antes,2)

print(f"Total de linhas removidas foi de {linhas_eliminadas}")
print(f"Compreendendo a {linhas_eliminadas_share}% do total")


Total de linhas removidas foi de 3144
Compreendendo a 0.99% do total


In [28]:
# Convertendo a coluna 'DATA' para datetime com o formato correto 'dia/mês/ano'
df_1.loc[:, 'DATA'] = pd.to_datetime(df_1['DATA'], format='%d/%m/%Y', errors='coerce')

# Contando o número de valores NaT na coluna 'DATA'
num_errors = df_1['DATA'].isna().sum()

print("Número de linhas com erros após a conversão:", num_errors)

# Removendo linhas com valores NaT na coluna 'DATA'
df_2 = df_1.dropna(subset=['DATA'])

# Calculando o número total de linhas original
total_linhas_original = len(df_1)

# Calculando o percentual de linhas eliminadas
linhas_eliminadas = num_errors
percentual_eliminado = (linhas_eliminadas / total_linhas_original) * 100

print(f"Percentual de linhas eliminadas: {percentual_eliminado:.2f}%")


Número de linhas com erros após a conversão: 23
Percentual de linhas eliminadas: 0.01%


In [29]:
# Remover caracteres indesejados da coluna 'VALOR_REEMBOLSADO'
df_2.loc[:, 'VALOR_REEMBOLSADO'] = df_2['VALOR_REEMBOLSADO'].str.replace('\r\n', '').str.replace(',', '.')

# Converter a coluna 'VALOR_REEMBOLSADO' para float
df_2.loc[:, 'VALOR_REEMBOLSADO'] = df_2['VALOR_REEMBOLSADO'].astype(float)

# Remover o índice
df_3 = df_2.reset_index(drop=True)

In [30]:
df_3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 314796 entries, 0 to 314795
Data columns (total 11 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   ANO                314796 non-null  int64  
 1   MES                314796 non-null  int64  
 2   SENADOR            314796 non-null  object 
 3   TIPO_DESPESA       314796 non-null  object 
 4   CNPJ_CPF           314796 non-null  object 
 5   FORNECEDOR         314796 non-null  object 
 6   DOCUMENTO          293132 non-null  object 
 7   DATA               314796 non-null  object 
 8   DETALHAMENTO       180610 non-null  object 
 9   VALOR_REEMBOLSADO  314796 non-null  object 
 10  COD_DOCUMENTO      314794 non-null  float64
dtypes: float64(1), int64(2), object(8)
memory usage: 26.4+ MB


In [33]:
print(df_3['SENADOR'].unique().tolist())

['ACIR GURGACZ', 'ADELMIR SANTANA', 'ALMEIDA LIMA', 'ALOIZIO MERCADANTE', 'ANTONIO CARLOS JUNIOR', 'ANTONIO CARLOS VALADARES', 'ARTHUR VIRGILIO', 'AUGUSTO BOTELHO', 'CESAR BORGES', 'CICERO LUCENA', 'CRISTOVAM BUARQUE', 'DELCIDIO DO AMARAL', 'DEMOSTENES TORRES', 'EDUARDO AZEREDO', 'EDUARDO SUPLICY', 'EFRAIM MORAIS', 'ELISEU RESENDE', 'EPITACIO CAFETEIRA', 'EXPEDITO JUNIOR', 'FATIMA CLEIDE', 'FERNANDO COLLOR', 'FLAVIO ARNS', 'FLAVIO TORRES', 'FLEXA RIBEIRO', 'FRANCISCO DORNELLES', 'GARIBALDI ALVES FILHO', 'GERALDO MESQUITA JUNIOR', 'GERSON CAMATA', 'GILBERTO GOELLNER', 'GILVAM BORGES', 'GIM ARGELLO', 'HERACLITO FORTES', 'IDELI SALVATTI', 'INACIO ARRUDA', 'JARBAS VASCONCELOS', 'JAYME CAMPOS', 'JEFFERSON PRAIA', 'JOAO DURVAL', 'JOAO PEDRO', 'JOAO RIBEIRO', 'JOAO TENORIO', 'JOAO VICENTE CLAUDINO', 'JOSE AGRIPINO', 'JOSE NERY', 'JOSE SARNEY', 'KATIA ABREU', 'LEOMAR QUINTANILHA', 'LOBAO FILHO', 'LUCIA VANIA', 'MAGNO MALTA', 'MAO SANTA', 'MARCELO CRIVELLA', 'MARCONI PERILLO', 'MARIA DO CARMO A

In [32]:
import pandas as pd
from unidecode import unidecode


# Função para normalizar os nomes
def normalizar_nome(nome):
    return unidecode(nome)

# Aplicar a função normalizar_nome à coluna 'SENADOR'
df_3['SENADOR'] = df_3['SENADOR'].apply(normalizar_nome)




In [35]:
df_3.tail()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
314791,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WIXHAI,2022-12-06 00:00:00,"Companhia Aérea: LATAM, Localizador: WIXHAI. P...",2893.04,2191398.0
314792,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WITOLM,2022-12-09 00:00:00,"Companhia Aérea: GOL, Localizador: WITOLM. Pas...",1180.19,2192272.0
314793,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,THPKVQ,2022-12-20 00:00:00,"Companhia Aérea: TAM, Localizador: THPKVQ. Pas...",2671.9,2192274.0
314794,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,QNN9HX,2022-12-21 00:00:00,"Companhia Aérea: AZUL, Localizador: QNN9HX. Pa...",1334.31,2192244.0
314795,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WMQWBX,2022-12-30 00:00:00,"Companhia Aérea: TAM, Localizador: WMQWBX. Pas...",2250.72,2193622.0
