## Leitura dos 6 CSVs escolhidos

In [1]:
import pandas as pd
import os

FILE_PATH = 'Planilhas/'

ANOS = [2011, 2014, 2015, 2018, 2019, 2022]
ESTADOS = ['AC', 'AL', 'AP', 'AM', 'BA', 'CE', 'DF', 'ES', 'GO', 'MA',
           'MT', 'MS', 'MG', 'PA', 'PB', 'PR', 'PE', 'PI', 'RJ', 'RN',
           'RS', 'RO', 'RR', 'SC', 'SP', 'SE', 'TO']
MESES = ['JANEIRO', 'FEVEREIRO', 'MARÇO', 'ABRIL', 'MAIO', 'JUNHO', 
         'JULHO', 'AGOSTO', 'SETEMBRO', 'OUTUBRO', 'NOVEMBRO', 'DEZEMBRO']

COLUNAS = [
    'txNomeParlamentar',
    'cpf',
    'txtCNPJCPF',
    'ideCadastro',
    'nuLegislatura',
    'sgUF',
    'sgPartido',
    'txtDescricao',
    'txtFornecedor',
    'datEmissao',
    'vlrLiquido',
    'numMes',
    'numAno',
    'txtPassageiro',
    'txtTrecho',
    'ideDocumento'
]

PARTIDOS = []

COMPANHIAS_AEREAS = []

TRECHOS = []

PARLAMENTARES = []

dfs = {}
for ano in ANOS:
    dfs[ano] = pd.read_csv(
        FILE_PATH + f'Ano-{ano}.csv',
        delimiter=';',
        usecols=COLUNAS,
        dtype={'cpf': str, 'txtCNPJCPF': str, 'ideCadastro': str},
    )
    dfs[ano] = dfs[ano][COLUNAS]


In [2]:
# pegando siglas dos partidos em todos os anos
for ano in ANOS:
    partidos_ano = dfs[ano]['sgPartido'].unique().tolist()
    for sigla_partido in partidos_ano:
        if sigla_partido not in PARTIDOS:
            PARTIDOS.append(sigla_partido)

# substituindo valores nulos por 'Não Informado'
for i in range(len(PARTIDOS)):
    if pd.isna(PARTIDOS[i]):
        PARTIDOS[i] = 'Não Informado'

print(PARTIDOS)

['Não Informado', 'DEM', 'PRB', 'PSB', 'PSC', 'PTB', 'PSDB', 'PMDB', 'MDB', 'PP**', 'SDD', 'PT', 'PCdoB', 'REPUBLICANOS', 'PR', 'PDT', 'CIDADANIA', 'PPS', 'PSOL', 'PROS', 'PSD', 'PP', 'PHS', 'PV', 'PTC', 'PODE', 'PMN', 'PATRI', 'PTdoB', 'S.PART.', 'AVANTE', 'PL', 'PRP', 'PEN', 'PSDC', 'SOLIDARIEDADE', 'PSL', 'REDE', 'UNIÃO', 'PPL', 'NOVO', 'PATRIOTA']


In [3]:
# funcao para evitar valores vazios
def is_informado(x):
    if pd.isna(x):
        return False
    s = str(x).strip()
    return s != '' and s.lower() != 'não informado'

# pegando apenas as despesas com passagens e populando os arrays de trechos e de companhias aéreas
for ano in ANOS:
    df = dfs[ano]
    mask_passagens = df['txtDescricao'].str.contains('AÉRE', na=False)
    fornecedores_ano = df.loc[mask_passagens, 'txtFornecedor'].dropna().unique().tolist()
    trechos_ano = df.loc[mask_passagens, 'txtTrecho'].dropna().unique().tolist()
    for fornecedor in fornecedores_ano:
        if fornecedor not in COMPANHIAS_AEREAS:
            COMPANHIAS_AEREAS.append(fornecedor)
    for trecho in trechos_ano:
        if trecho not in TRECHOS:
            TRECHOS.append(trecho)

# ordenando os arrays           
COMPANHIAS_AEREAS.sort()
TRECHOS.sort()

print(COMPANHIAS_AEREAS)
print(TRECHOS)

['3R AGÊNCIA DE VEÍCULOS E PASSAGENS AÉREAS LTDA', 'A & S TURISMO E EXCURSÕES LTDA', 'A&T Turismo Ltda.', 'A.R. TURISMO', 'A.R.T TAXI AEREO', 'A.R.T TAXI AEREO LTDA - EPP', 'ABAETE', 'ABAETE AEROTAXI', 'ABAETE LINHAS AÉREAS S/A', 'ABAETÉ', 'ABAETÉ - AEROTAXI', 'ABAETÉ AEROTAXI', 'ABAETÉ AEROTAXI LTDA', 'ABAETÉ LINHAS AÉREAS', 'ABAETÉ LINHAS AÉREAS S/A', 'ABELHA TÁXI AÉREO E MANUTENÇÃO', 'ABELHA TÁXI AÉREO E MANUTENÇÃO LTDA', 'ABELHAS AIR', 'ABELHAS AIR ALIMENTOS LTDA -ME', 'ABELHAS AIR SERVIÇOS EM AVIAÇÃO - LTDA. ME', 'ABELHAS AIR SERVIÇOS EM AVIAÇÃO LTDA', 'ABELHAS AIR SERVIÇOS EM AVIAÇÃO LTDA - ME', 'ABELHAS AIR SERVIÇOS EM AVIAÇÃO LTDA-ME', 'ABELHAS AIR SERVIÇOS EM AVIAÇÃO LTDA. - ME', 'ABELHAS AIR SERVIÇOS EM AVIAÇÃO LTDA.- ME', 'ABELHAS AIR SEVIÇOS EM AVIAÇÃO LTDA. ME', 'ABELHAS AIR SREVIÇOS EM AVIAÇÃO LTDA - ME', 'ABELHAS AIR SRV EM AVIAÇÃO LTDA. - ME', 'ACADEMIC TRAVEL TURISMO LTDA', 'ACRECARGAS AGENCIAMENTO DE CARGAS LTDA', 'ADB TURISMO', 'ADDEY TÁXI AÉREO LTDA', 'ADRIA VIAGENS

In [4]:
#pegando nomes(com upper) dos parlamentares em todos os anos
for ano in ANOS:
    df = dfs[ano]
    parlamentares_ano = df['txNomeParlamentar'].str.upper().unique().tolist()
    for nome_parlamentar in parlamentares_ano:
        if nome_parlamentar not in PARLAMENTARES:
            PARLAMENTARES.append(nome_parlamentar)

#ordenando a lista de parlamentares
PARLAMENTARES.sort()

print(PARLAMENTARES)

['ABEL MESQUITA JR.', 'ABELARDO CAMARINHA', 'ABELARDO LUPION', 'ABOU ANNI', 'ABÍLIO SANTANA', 'ACELINO POPÓ', 'ACÁCIO FAVACHO', 'ACÁCIO JÚNIOR', 'ADAIL CARNEIRO', 'ADALBERTO CAVALCANTI', 'ADELMO CARNEIRO LEÃO', 'ADELSON BARRETO', 'ADEMIR CAMILO', 'ADILTON SACHETTI', 'ADOLFO VIANA', 'ADRIAN', 'ADRIANA VENTURA', 'ADRIANO DO BALDY', 'AELTON FREITAS', 'AFFONSO CAMARGO', 'AFONSO FLORENCE', 'AFONSO HAMM', 'AFONSO MOTTA', 'AGNALDO MUNIZ', 'AGUINALDO RIBEIRO', 'AIRTON FALEIRO', 'AIRTON ROVEDA', 'AJ ALBUQUERQUE', 'AKIRA OTSUBO', 'ALAN RICK', 'ALBANO FRANCO', 'ALBERTO FILHO', 'ALBERTO FRAGA', 'ALBERTO MOURÃO', 'ALCENI GUERRA', 'ALCEU MOREIRA', 'ALCIDES RODRIGUES', 'ALDO REBELO', 'ALENCAR SANTANA', 'ALESSANDRO MOLON', 'ALEX CANZIANI', 'ALEX MANENTE', 'ALEX SANTANA', 'ALEXANDRE BALDY', 'ALEXANDRE CARDOSO', 'ALEXANDRE FIGUEIREDO', 'ALEXANDRE FROTA', 'ALEXANDRE LEITE', 'ALEXANDRE PADILHA', 'ALEXANDRE ROSO', 'ALEXANDRE SANTOS', 'ALEXANDRE SERFIOTIS', 'ALEXANDRE SILVEIRA', 'ALEXANDRE TOLEDO', 'ALEXAND

## Tratamento dos dados
#### - Retirando linhas con CPFs ausentes
#### - Remoção das linhas com valor líquido negativos, zerados e ausentes
#### - Alteração do texto das colunas (txtTrecho e txtPassageiros), que eram ausentes, por "Não Informado" 
#### - Ordenação, filtro e classificação das companhias aéreas (principais companhias, outras e as não identificadas)
#### - Remoção de partidos políticos duplicados e aglomeração das diversas formas de escrita de um mesmo partido
#### - Organização dos trechos por subdivisão (se foi um voo nacional ou internacional e se foi direto ou com escalas) - Discretização

In [5]:
for ano, df in list(dfs.items()):
    df = df[df['cpf'].notna()].copy()
    df['vlrLiquido'] = pd.to_numeric(df['vlrLiquido'], errors='coerce').fillna(0)
    df = df[df['vlrLiquido'] >= 0]
    df.loc[:, 'txtTrecho'] = df['txtTrecho'].fillna('Não Informado')
    df.loc[:, 'txtPassageiro'] = df['txtPassageiro'].fillna('Não Informado')
    dfs[ano] = df

In [6]:
# contadores
nao_identificada = 0
azul = 0
gol = 0
tam_latam = 0
avianca = 0
copa_airlines = 0
outras_companhias = 0
varig = 0
webjet = 0
taxis_aereos = 0

# função para classificação das principais companhias aéreas do dataset
def classificar_companhia_principais(nome):
    if pd.isna(nome):
        global nao_identificada
        nao_identificada += 1
        return 'NÃO IDENTIFICADA'
    
    n = str(nome).upper().strip()

    if 'LATAM' in n or 'TAM' in n:
        global tam_latam
        tam_latam += 1
        return 'TAM/LATAM'

    if 'GOL' in n or 'GOOL' in n or 'VOL' in n:
        global gol
        gol += 1
        return 'GOL'

    if 'AZUL' in n:
        global azul
        azul += 1
        return 'AZUL'

    if 'AVIANCA' in n or 'OCEANAIR' in n:
        global avianca
        avianca += 1
        return 'AVIANCA'

    if 'COPA' in n:
        global copa_airlines
        copa_airlines += 1
        return 'COPA AIRLINES'
    
    if 'VARIG' in n or 'VRG' in n or 'VGR' in n:
        global varig
        varig += 1
        return 'VARIG'
    
    if 'WEBJET' in nome or 'WEB JET' in nome or 'WBJET' in nome:
        global webjet
        webjet += 1
        return 'WEBJET'

    if 'TÁXI AÉREO' in nome or 'TAXI AÉREO' in nome or 'TAXI AEREO' in nome or 'AEROTÁXI' in nome or 'AEROTAXI' in nome or 'AERO TÁXI' in nome or 'AERO TAXI' in nome:
        global taxis_aereos
        taxis_aereos += 1
        return 'TÁXIS AÉREOS'

    global outras_companhias
    outras_companhias += 1
    return 'OUTRAS COMPANHIAS'

COMPANHIAS_AEREAS_PADRONIZADAS = []

# classificando as companhias
for fornecedor in COMPANHIAS_AEREAS:
    empresa = classificar_companhia_principais(fornecedor)
    if empresa not in COMPANHIAS_AEREAS_PADRONIZADAS:
        COMPANHIAS_AEREAS_PADRONIZADAS.append(empresa)

# ordenar a lista de partidos padronizados
COMPANHIAS_AEREAS_PADRONIZADAS.sort()

print("nao_identificadas:", nao_identificada)
print("gol:", gol)
print("azul:", azul)
print("tam_latam:", tam_latam)
print("avianca:", avianca)
print("copa_airlines:", copa_airlines)
print("outras_companhias:", outras_companhias)
print("varig:", varig)
print("webjet:", webjet)
print("taxis_aereos:", taxis_aereos)

nao_identificadas: 0
gol: 97
azul: 41
tam_latam: 90
avianca: 39
copa_airlines: 4
outras_companhias: 446
varig: 34
webjet: 32
taxis_aereos: 161


In [7]:
#aglomerando as variacoes dos nomes dos partidos politicos
def padronizar_nome_partido(sigla):
    sigla = sigla.upper()
    if 'PMDB' in sigla or 'MDB' in sigla:
        return 'MDB'
    elif 'PP' in sigla or 'PP**' in sigla:
        return 'PP'
    elif 'PTdoB' in sigla or 'AVANTE' in sigla:
        return 'AVANTE'
    elif 'PEN' in sigla or 'PATRI' in sigla or 'PATRIOTA' in sigla:
        return 'PATRIOTA'
    elif 'PPS' in sigla or 'CIDADANIA' in sigla:
        return 'CIDADANIA'
    elif 'SDD' in sigla or 'SOLIDARIEDADE' in sigla:
        return 'SOLIDARIEDADE'
    elif 'PR' in sigla or 'PL' in sigla:
        return 'PL'
    elif 'DEM' in sigla or 'PSL' in sigla or 'UNIÃO' in sigla:
        return 'UNIÃO BRASIL'
    else:
        return sigla
    
#aplicar a padronizção na lista PARTIDOS
PARTIDOS_PADRONIZADOS = [padronizar_nome_partido(sigla) for sigla in PARTIDOS]

#aglomerar os partidos padronizados, removendo duplicatas
PARTIDOS_PADRONIZADOS = list(set(PARTIDOS_PADRONIZADOS))

#ordenar a lista de partidos padronizados
PARTIDOS_PADRONIZADOS.sort()

print(PARTIDOS_PADRONIZADOS)

['AVANTE', 'CIDADANIA', 'MDB', 'NOVO', 'NÃO INFORMADO', 'PATRIOTA', 'PCDOB', 'PDT', 'PHS', 'PL', 'PMN', 'PODE', 'PP', 'PSB', 'PSC', 'PSD', 'PSDB', 'PSDC', 'PSOL', 'PT', 'PTB', 'PTC', 'PTDOB', 'PV', 'REDE', 'REPUBLICANOS', 'S.PART.', 'SOLIDARIEDADE', 'UNIÃO BRASIL']


In [8]:
import pandas as pd
import re

internacional = 0
nacional = 0
direto = 0
com_conexao = 0
multiplas_escalas = 0

#contando quantidade de paradas
def count_segmentos_trecho(trecho):
    if pd.isna(trecho):
        return 0
    trechoStr = str(trecho)
    segmentos = re.split(r'[/\-]', trechoStr)
    partes = [parte.strip() for parte in segmentos if parte.strip()]
    return len(partes)

def classificar_trecho(trecho):
    if pd.isna(trecho) or not str(trecho).strip():
        return 'NÃO IDENTIFICADO'
    
    trechoStr = str(trecho).upper()

    #palavras chaves presentes no dataset para voos internacionias
    keyword_voo_internacional = ['MIA', 'MCO', 'IAH', 'EUA', 'USA', 'ORLANDO', 'MIAMI','NEW YORK', 'NYC', 'PARIS', 'LISBOA', 'LISBON', 'LONDON', 'LONDRES', 'MADRID', 'MADRI', 'ROMA', 'BUENOS AIRES', 'EZE', 'AEP', 'SCL', 'MEXICO', 'CDMX', 'MONTEVIDEO', 'MVD']

    if any(keyword in trechoStr for keyword in keyword_voo_internacional):
        tipo_voo = 'INTERNACIONAL'
        global internacional
        internacional += 1
    else:
        tipo_voo = 'NACIONAL'
        global nacional
        nacional += 1

    num_segmentos = count_segmentos_trecho(trechoStr)

    if num_segmentos <= 2:
        tipo_especifico = 'DIRETO'
        global direto
        direto += 1
    elif num_segmentos <= 4:
        tipo_especifico = 'COM CONEXÃO'
        global com_conexao
        com_conexao += 1
    else:
        tipo_especifico = 'MÚLTIPLAS ESCALAS'
        global multiplas_escalas
        multiplas_escalas += 1

    return f'{tipo_voo} - {tipo_especifico}'

TRECHOS_PADRONIZADOS = []

for trecho in TRECHOS:
    categoria = classificar_trecho(trecho)
    TRECHOS_PADRONIZADOS.append(categoria)

TRECHOS_PADRONIZADOS = list(set(TRECHOS_PADRONIZADOS))

TRECHOS_PADRONIZADOS.sort()

print(TRECHOS_PADRONIZADOS)

['INTERNACIONAL - COM CONEXÃO', 'INTERNACIONAL - DIRETO', 'INTERNACIONAL - MÚLTIPLAS ESCALAS', 'NACIONAL - COM CONEXÃO', 'NACIONAL - DIRETO', 'NACIONAL - MÚLTIPLAS ESCALAS']


## Criação das tabelas Ano, Estado, Mes, Partido e Planilha_Geral
#### Neste passo, além de criar as tabelas ano (Anos em que escolhemos os dados), mes (meses do ano), estado (estados brasileiros) e partido(partido dos deputados), fizemos a união das 6 tabelas com os dados dos políticos, em apenas uma tabela (planilha_geral)

In [9]:
os.makedirs('Planilhas_Tratadas', exist_ok=True)

df_mes = pd.DataFrame({'id': range(0, len(MESES)), 'numMes': MESES})
df_estado = pd.DataFrame({'id': range(0, len(ESTADOS)), 'sgUF': ESTADOS})
df_ano = pd.DataFrame({'id': range(0, len(ANOS)), 'numAno': ANOS})
df_parlamentar = pd.DataFrame({'id': range(0, len(PARLAMENTARES)), 'txNomeParlamentar': PARLAMENTARES})
df_partido = pd.DataFrame({'id': range(0, len(PARTIDOS_PADRONIZADOS)), 'sgPartido': PARTIDOS_PADRONIZADOS})
df_companhia_aerea = pd.DataFrame({'id': range(0, len(COMPANHIAS_AEREAS_PADRONIZADAS)), 'nomeEmpresa': COMPANHIAS_AEREAS_PADRONIZADAS})
df_trecho = pd.DataFrame({'id': range(0, len(TRECHOS_PADRONIZADOS)), 'txTrecho': TRECHOS_PADRONIZADOS})

df_mes.to_csv('Planilhas_Tratadas/mes.csv', index=False, encoding='utf-8')
df_estado.to_csv('Planilhas_Tratadas/estado.csv', index=False, encoding='utf-8')
df_ano.to_csv('Planilhas_Tratadas/ano.csv', index=False, encoding='utf-8')
df_parlamentar.to_csv('Planilhas_Tratadas/parlamentar.csv', index=False, encoding='utf-8')
df_partido.to_csv('Planilhas_Tratadas/partido.csv', index=False, encoding='utf-8')
df_companhia_aerea.to_csv('Planilhas_Tratadas/companhia_aerea.csv', index=False, encoding='utf-8')
df_trecho.to_csv('Planilhas_Tratadas/trecho.csv', index=False, encoding='utf-8')

year_to_id = dict(zip(df_ano['numAno'], df_ano['id']))
state_to_id = dict(zip(df_estado['sgUF'], df_estado['id']))
month_name_to_id = dict(zip(df_mes['numMes'], df_mes['id']))
parlamentar_to_id = dict(zip(df_parlamentar['txNomeParlamentar'], df_parlamentar['id']))
political_party_to_id = dict(zip(df_partido['sgPartido'], df_partido['id']))
airline_to_id = dict(zip(df_companhia_aerea['nomeEmpresa'], df_companhia_aerea['id']))
trecho_to_id = dict(zip(df_trecho['txTrecho'], df_trecho['id']))

def substituir_nome_companhia(sigla):
    if isinstance(sigla, str):
        return classificar_companhia_principais(sigla)
    return sigla
def substituir_nome_partido(sigla):
    if isinstance(sigla, str):
        return padronizar_nome_partido(sigla)
    return sigla
def substituir_trecho(trecho):
    if isinstance(trecho, str):
        return classificar_trecho(trecho)
    return trecho

print("Contagem de voos internacionais:", internacional)
print("Contagem de voos nacionais:", nacional)
print("Contagem de voos diretos:", direto)
print("Contagem de voos com conexão:", com_conexao)
print("Contagem de voos com múltiplas escalas:", multiplas_escalas)

processed = []

for ano, df in list(dfs.items()):
    if 'txtFornecedor' in df.columns:
        df['txtFornecedor'] = (df['txtFornecedor'].fillna('Não Informado').apply(substituir_nome_companhia))
    if 'sgPartido' in df.columns:
        df['sgPartido'] = (df['sgPartido'].fillna('Não Informado').apply(substituir_nome_partido))
    if 'txtTrecho' in df.columns:
        df['txtTrecho'] = df['txtTrecho'].apply(substituir_trecho)

    df['id_mes'] = pd.to_numeric(df['numMes'], errors='coerce') - 1
    df['id_ano'] = df['numAno'].map(year_to_id)
    df['id_estado'] = df['sgUF'].str.upper().map(state_to_id)
    df['id_parlamentar'] = df['txNomeParlamentar'].str.upper().map(parlamentar_to_id)
    df['id_partido'] = df['sgPartido'].map(political_party_to_id)
    df['id_companhia_aerea'] = df['txtFornecedor'].map(airline_to_id)
    df['id_trecho'] = df['txtTrecho'].map(trecho_to_id)
    
    drop_columns = ['numMes', 'numAno', 'sgUF', 'sgPartido', 'txtFornecedor', 'txtTrecho', 'txNomeParlamentar']

    df = df.drop(columns=drop_columns)
    dfs[ano] = df
    processed.append(df)

combined = pd.concat(processed, ignore_index=True)
combined.to_csv('Planilhas_Tratadas/planilha_geral.csv', index=False, encoding='utf-8')

Contagem de voos internacionais: 242
Contagem de voos nacionais: 10643
Contagem de voos diretos: 4572
Contagem de voos com conexão: 5381
Contagem de voos com múltiplas escalas: 932


## Divisão da tabela em: 
#### despesas em passagens aéreas **X** outras despesas

In [10]:
df = combined.copy()

def is_informado(x):
    if pd.isna(x):
        return False
    s = str(x).strip()
    return s != '' and s.lower() != 'não informado'

#mask_passagens = df['txtPassageiro'].apply(is_informado) & df['id_trecho'].apply(is_informado)
# mascara realmente so para passagens AEREAS, e não qualquer tipo de passagem
mask_passagens = df['txtDescricao'].str.contains('AÉRE', na=False)

df = df.drop(columns=['txtPassageiro'])

passagens_df = df[mask_passagens].copy()
outras_df = df[~mask_passagens].copy()

colunas_somente_passagens = ['txtPassageiro', 'id_trecho', 'id_companhia_aerea']
outras_df = outras_df.drop(columns=colunas_somente_passagens, errors='ignore')

os.makedirs('Planilhas_Tratadas', exist_ok=True)
passagens_df.to_csv('Planilhas_Tratadas/planilha_passagens_aereas.csv', index=False, encoding='utf-8')
outras_df.to_csv('Planilhas_Tratadas/planilha_outras_despesas.csv', index=False, encoding='utf-8')

#prova real
print("No dataset GLOBAL(combined):")
print(f"Total de parlamentares sem id: {combined['id_parlamentar'].isna().sum()}")
print(f"Total de partidos sem id: {combined['id_partido'].isna().sum()}")
print(f"Total de companhias aéreas sem id: {combined['id_companhia_aerea'].isna().sum()}")
print(f"Total de estados sem id: {combined['id_estado'].isna().sum()}")
print(f"Total de trechos sem id: {combined['id_trecho'].isna().sum()}")

No dataset GLOBAL(combined):
Total de parlamentares sem id: 0
Total de partidos sem id: 0
Total de companhias aéreas sem id: 0
Total de estados sem id: 0
Total de trechos sem id: 0
