# Limpeza de dados

## Ideias
- Ver se consigo achar outra base de dados com o partido dos senadores e juntar com essa

In [263]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

In [264]:
# Checa informações de encoding da base de dados
import chardet

with open('../dados/despesa_ceaps_2022.csv', 'rb') as rawdata:
    result = chardet.detect(rawdata.read(100000))
result

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}

In [265]:
df_2022 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2022.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True) # Configura parâmetros necessárias pra ler o csv corretamente


# transforma valores para o tipo desejado que permita a manipulação
df_2022['VALOR_REEMBOLSADO'] = df_2022['VALOR_REEMBOLSADO'].str.replace(",", ".").astype('float64')
df_2022['TIPO_DESPESA'] = df_2022['TIPO_DESPESA'].astype('string')
df_2022['DETALHAMENTO'] = df_2022['DETALHAMENTO'].astype('string')
df_2022['SENADOR'] = df_2022['SENADOR'].str.title() # Muda todas as palavras para iniciar com maísculo
df_2022.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6160 entries, 0 to 6159
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ANO                6160 non-null   int64         
 1   MES                6160 non-null   int64         
 2   SENADOR            6160 non-null   object        
 3   TIPO_DESPESA       6160 non-null   string        
 4   CNPJ_CPF           6160 non-null   object        
 5   FORNECEDOR         6160 non-null   object        
 6   DOCUMENTO          5858 non-null   object        
 7   DATA               6160 non-null   datetime64[ns]
 8   DETALHAMENTO       3308 non-null   string        
 9   VALOR_REEMBOLSADO  6160 non-null   float64       
 10  COD_DOCUMENTO      6160 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(3), object(4), string(2)
memory usage: 529.5+ KB


In [266]:
df_2022.sample(20)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
3073,2022,2,Jorginho Mello,"Aluguel de imóveis para escritório político, c...",08.336.783/0001-90,CELESC - Distribuição de Energia,0120228422749215-59,2022-02-01,,678.08,2176051
231,2022,5,Alexandre Silveira,"Locomoção, hospedagem, alimentação, combustíve...",18.696.690/0001-20,POSTO TEX KAR LTDA,231767,2022-05-04,,200.0,2179962
6069,2022,3,Zequinha Marinho,"Locomoção, hospedagem, alimentação, combustíve...",14.087.165/0002-38,L. C. COMBUSTIVEIS LTDA.,45576,2022-03-01,,310.03,2175847
5379,2022,3,Soraya Thronicke,"Locomoção, hospedagem, alimentação, combustíve...",01.304.695/0001-68,Auto Posto Paineiras,193430,2022-03-14,,203.62,2176539
2617,2022,1,Jaques Wagner,"Locomoção, hospedagem, alimentação, combustíve...",02.818.012/0002-34,HP COM. E DER. DE PET. LTDA. - POSTO PARALELA 1,000208058,2022-01-20,DESPESA COM COMBUSTÍVEL EM VEÍCULOS UTILIZADOS...,370.49,2174369
5626,2022,3,Veneziano Vital Do Rêgo,Divulgação da atividade parlamentar,40.286.145/0001-15,JOSIANA LINS DE CARVALHO DIAS,48,2022-03-25,,1000.0,2178006
2472,2022,4,Humberto Costa,"Contratação de consultorias, assessorias, pesq...",04.120.966/0021-67,Iron Moutain do Brasil Ltda,00027582,2022-04-03,Despesa com guarda e armazenagem de arquivo do...,542.07,2180000
3081,2022,2,Jorginho Mello,Aquisição de material de consumo para uso no e...,32.550.349/0001-93,ITLABS SOLUÇÕES INTEGRADAS LTDA,8,2022-03-03,,1200.0,2176868
4218,2022,3,Nilda Gondim,Divulgação da atividade parlamentar,15.624.304/0001-05,ALEXANDRE DE SOUSA FREIRE ME,1000531,2022-03-21,,1500.0,2176635
3978,2022,2,Marcos Do Val,"Passagens aéreas, aquáticas e terrestres nacio...",16.978.175/0001-08,ADRIA VIAGENS LTDA,DHYQEQ,2022-02-13,"Companhia Aérea: LATAM, Localizador: DHYQEQ. P...",1342.63,2174962


In [267]:
df_2022['TIPO_DESPESA'].unique() # Checa quantos tipos de despesa existem

<StringArray>
[                                                                                                       'Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.',
                                                                                                                                                             'Divulgação da atividade parlamentar',
                                                                                                                                              'Passagens aéreas, aquáticas e terrestres nacionais',
                                                          'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar',
                                                                                                                                'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes',
 'Aqui

In [268]:
# Existe um padrão na string de detalhamento de passagens aéreas que me permite coletar a informação da companhia aérea de cada passagem.

mask = (df_2022['TIPO_DESPESA'] == 'Passagens aéreas, aquáticas e terrestres nacionais') & (df_2022['DETALHAMENTO'].str.contains("Aérea", case=False)) # Checa se é passagem aérea
df_companhias_aereas = df_2022[mask]

companhias = df_companhias_aereas.loc[:,'DETALHAMENTO'].str.split(",", expand=True)
companhias = companhias[0].str.split(": ", expand=True)
companhias = companhias[1]
df_companhias_aereas = df_companhias_aereas.assign(COMPANHIA_AÉREA = companhias) # Assign foi usado para evitar o o 'SettingWithCopyWarning'
df_companhias_aereas

df_companhias_aereas['COMPANHIA_AÉREA'] = df_companhias_aereas.loc[:,'DETALHAMENTO'].str.split(",", expand=True)[0].str.split(": ", expand=True)[1] # Separa e seleciona apenas o nome da companhia
df_companhias_aereas.loc[:,'COMPANHIA_AÉREA'] = df_companhias_aereas.loc[:,'COMPANHIA_AÉREA'].apply(lambda x : "LATAM" if (x == "TAM") else (x)) # Junta TAM e LATAM



In [269]:
df_2022.describe(include='all')





Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
count,6160.0,6160.0,6160,6160,6160,6160,5858,6160,3308,6160.0,6160.0
unique,,,82,7,1716,1828,5343,185,2107,,
top,,,Humberto Costa,"Locomoção, hospedagem, alimentação, combustíve...",16.978.175/0001-08,ADRIA VIAGENS E TURISMO LTDA,s/n,2022-02-01 00:00:00,DESPESA COM COMBUSTÍVEL EM VEÍCULOS UTILIZADOS...,,
freq,,,215,2351,433,235,25,107,131,,
first,,,,,,,,2002-02-02 00:00:00,,,
last,,,,,,,,2022-05-28 00:00:00,,,
mean,2022.0,2.850487,,,,,,,,1559.44525,2177022.0
std,0.0,1.219217,,,,,,,,2896.67947,2195.34
min,2022.0,1.0,,,,,,,,0.01,2172906.0
25%,2022.0,2.0,,,,,,,,200.15,2175224.0


In [270]:
fig = px.histogram(df_2022, x='TIPO_DESPESA')
fig.show()

In [271]:
# Gráfico leva em consideração a quantidade de despesas e não o valor total acumlado
fig = px.histogram(df_2022, x='SENADOR').update_xaxes(categoryorder="total descending")
fig.show()

In [272]:
df_2022_valor_medio_senador = df_2022.groupby(['SENADOR']).sum()
df_2022_valor_medio_senador
fig = px.bar(df_2022_valor_medio_senador, x=df_2022_valor_medio_senador.index, y='VALOR_REEMBOLSADO', title="Media de Gastos por Senador(a)")
fig.update_xaxes(categoryorder="total descending")
fig.show()

# Juntar com base de outros anos



In [273]:
# lê novamente a base de 2022 pra juntar as bases brutas e fazer toda a limpeza na base já mesclada
df_2022 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2022.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2021 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2021.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2020 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2020.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2019 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2019.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2018 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2018.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2017 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2017.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2016 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2016.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2015 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2015.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2014 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2014.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)

# junta todas as bases
df_total = pd.concat([df_2022, df_2021, df_2020, df_2019, df_2018, df_2017, df_2016, df_2015, df_2014], ignore_index=True)

# transforma valores para o tipo desejado que permita a manipulação
df_total['VALOR_REEMBOLSADO'] = df_total['VALOR_REEMBOLSADO'].str.replace(",", ".").astype('float64')
df_total['TIPO_DESPESA'] = df_total['TIPO_DESPESA'].astype('string')
df_total['DETALHAMENTO'] = df_total['DETALHAMENTO'].astype('string')
df_total['SENADOR'] = df_total['SENADOR'].str.title() # Muda todas as palavras para iniciar com maísculo

df_total.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 185052 entries, 0 to 185051
Data columns (total 11 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   ANO                185052 non-null  int64  
 1   MES                185052 non-null  int64  
 2   SENADOR            185052 non-null  object 
 3   TIPO_DESPESA       185052 non-null  string 
 4   CNPJ_CPF           185052 non-null  object 
 5   FORNECEDOR         185052 non-null  object 
 6   DOCUMENTO          172460 non-null  object 
 7   DATA               185052 non-null  object 
 8   DETALHAMENTO       137909 non-null  string 
 9   VALOR_REEMBOLSADO  185052 non-null  float64
 10  COD_DOCUMENTO      185050 non-null  float64
dtypes: float64(2), int64(2), object(5), string(2)
memory usage: 15.5+ MB


In [274]:
df_total.shape

(185052, 11)

In [275]:
df_total

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,Acir Gurgacz,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,2022-01-03 00:00:00,Despesa com pagamento de aluguel de imóvel par...,6000.00,2173614.0
1,2022,1,Acir Gurgacz,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,2022-01-04 00:00:00,Despesa com divulgação da atividade parlamenta...,1500.00,2173615.0
2,2022,1,Acir Gurgacz,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,2022-01-14 00:00:00,Despesa com produção de texto e edição de víde...,6000.00,2173616.0
3,2022,1,Acir Gurgacz,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,2022-01-18 00:00:00,Divulgação da atividade parlamentar,1000.00,2173618.0
4,2022,1,Acir Gurgacz,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,000000000001772/A,2022-01-17 00:00:00,Divulgação da atividade parlamentar,2000.00,2173617.0
...,...,...,...,...,...,...,...,...,...,...,...
185047,2014,12,Zezé Perrella,"Locomoção, hospedagem, alimentação, combustíve...",34.274.233/0112-10,Petrobras Distribuidora,000061933,2014-12-17 00:00:00,Abastecimento da Aeronave do Senador Zezé Perr...,533.08,989283.0
185048,2014,12,Zezé Perrella,"Locomoção, hospedagem, alimentação, combustíve...",34.274.233/0112-10,Petrobras Distribuidora,000062080,2014-12-23 00:00:00,Abastecimento da Aeronave do Senador Zezé Perr...,533.08,989285.0
185049,2014,12,Zezé Perrella,"Locomoção, hospedagem, alimentação, combustíve...",34.274.233/0060-54,Petrobras Distribuidora,000038400,2014-12-29 00:00:00,Abastecimento da Aeronave do Senador Zezé Perr...,1828.84,989287.0
185050,2014,12,Zezé Perrella,"Locomoção, hospedagem, alimentação, combustíve...",07.642.352/0001-90,União Frota Car,001581,2015-01-02 00:00:00,Aluguel de veiculo sem motorista para escritór...,5000.00,989277.0


In [276]:
df_total.duplicated().value_counts()

False    185052
dtype: int64

- Selecionando apenas pelo tipo de despesa com passagens e filtrando pelo nome das principais companhias aéres

In [277]:
mask1 = df_total['TIPO_DESPESA'] == 'Passagens aéreas, aquáticas e terrestres nacionais'
df_companhias_aereas = df_total[mask1]
lista_companhias = ['LATAM', 'TAM', ' GOL', ' AZUL', 'PASSAREDO', 'ITAPEMIRIM']
df_companhias_aereas['DETALHAMENTO'].str.contains('|'.join(lista_companhias), case=False).value_counts()

True     32673
False    12779
Name: DETALHAMENTO, dtype: Int64

- Filtrando se o nome das companhias está presente ou em detalhamento ou em fornecedor

In [278]:
mask_2 = df_companhias_aereas['DETALHAMENTO'].str.contains('|'.join(lista_companhias), case=False)
mask_3 = df_companhias_aereas['FORNECEDOR'].str.contains('|'.join(lista_companhias), case=False)
df_companhias_aereas = df_companhias_aereas[(mask_2 | mask_3)]
df_companhias_aereas.shape

(36177, 11)

In [279]:
# def separa_companhia_aerea(df_serie, lista):
#     resultado = []
#     for item in lista:
#         for item2 in df_serie:
#             if pd.isna(item2):
#                 resultado.append('Sem Informação')
#             else:
#                 if item.casefold() in item2.casefold():
#                     resultado.append(item)
#     return resultado

def separa_companhia_aerea(df_serie, lista):
    resultado = []
    for item2 in df_serie:
        if pd.isna(item2):
            resultado.append('Sem Informação')
        else:
            count = 0
            for item in lista:                
                if item.casefold() in item2.casefold():
                    resultado.append(item)
                    count = count + 1                    
                if count > 0:
                    break
            if count == 0:
                resultado.append('Sem Informação')
    return resultado

nova_coluna= separa_companhia_aerea(df_companhias_aereas['DETALHAMENTO'], lista_companhias)
df_companhias_aereas['COMPANHIA_AEREA'] = nova_coluna
df_companhias_aereas['COMPANHIA_AEREA'].value_counts()

LATAM             12790
 GOL              11065
TAM                4543
 AZUL              4057
Sem Informação     3504
PASSAREDO           211
ITAPEMIRIM            7
Name: COMPANHIA_AEREA, dtype: int64

In [280]:
df_companhias_aereas['COMPANHIA_AEREA']

5                  LATAM
15                   GOL
16                 LATAM
17                 LATAM
18                   GOL
               ...      
184974    Sem Informação
184975    Sem Informação
184983    Sem Informação
185009    Sem Informação
185027    Sem Informação
Name: COMPANHIA_AEREA, Length: 36177, dtype: object

In [295]:
# Junta a coluna das companhias aéreas com o df completo
# Preenche os valore nulos com "Outras despesas"

df_total_com_companhias = df_total.join(df_companhias_aereas['COMPANHIA_AEREA'])
# df_total.rename(columns={0: 'COMPANHIA_AÉREA'}, inplace=True)
df_total_com_companhias['COMPANHIA_AEREA'].fillna('Outras despesas', inplace=True)
df_total_com_companhias['COMPANHIA_AEREA'].value_counts()
df_total_com_companhias['COMPANHIA_AEREA'].replace('TAM', 'TAM/LATAM', inplace=True)
df_total_com_companhias['COMPANHIA_AEREA'].replace('LATAM', 'TAM/LATAM', inplace=True)

df_total_com_companhias['COMPANHIA_AEREA'].value_counts()


Outras despesas    148875
TAM/LATAM           17333
 GOL                11065
 AZUL                4057
Sem Informação       3504
PASSAREDO             211
ITAPEMIRIM              7
Name: COMPANHIA_AEREA, dtype: int64

In [296]:
df_total_com_companhias.duplicated().value_counts()

False    185052
dtype: int64

In [297]:
df_total_com_companhias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 185052 entries, 0 to 185051
Data columns (total 12 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   ANO                185052 non-null  int64  
 1   MES                185052 non-null  int64  
 2   SENADOR            185052 non-null  object 
 3   TIPO_DESPESA       185052 non-null  string 
 4   CNPJ_CPF           185052 non-null  object 
 5   FORNECEDOR         185052 non-null  object 
 6   DOCUMENTO          172460 non-null  object 
 7   DATA               185052 non-null  object 
 8   DETALHAMENTO       137909 non-null  string 
 9   VALOR_REEMBOLSADO  185052 non-null  float64
 10  COD_DOCUMENTO      185050 non-null  float64
 11  COMPANHIA_AEREA    185052 non-null  object 
dtypes: float64(2), int64(2), object(6), string(2)
memory usage: 16.9+ MB


In [298]:
# Muda os dtypes para tipos mais convenientes e diminui o tamanho em MB dá base de dados

df_total_com_companhias['TIPO_DESPESA'] = df_total_com_companhias['TIPO_DESPESA'].astype('category')
df_total_com_companhias['SENADOR'] = df_total_com_companhias['SENADOR'].astype('category')
df_total_com_companhias['COMPANHIA_AEREA'] = df_total_com_companhias['COMPANHIA_AEREA'].astype('category')
df_total_com_companhias['ANO'] = df_total_com_companhias['ANO'].astype('int8')
df_total_com_companhias['MES'] = df_total_com_companhias['MES'].astype('int8')
df_total_com_companhias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 185052 entries, 0 to 185051
Data columns (total 12 columns):
 #   Column             Non-Null Count   Dtype   
---  ------             --------------   -----   
 0   ANO                185052 non-null  int8    
 1   MES                185052 non-null  int8    
 2   SENADOR            185052 non-null  category
 3   TIPO_DESPESA       185052 non-null  category
 4   CNPJ_CPF           185052 non-null  object  
 5   FORNECEDOR         185052 non-null  object  
 6   DOCUMENTO          172460 non-null  object  
 7   DATA               185052 non-null  object  
 8   DETALHAMENTO       137909 non-null  string  
 9   VALOR_REEMBOLSADO  185052 non-null  float64 
 10  COD_DOCUMENTO      185050 non-null  float64 
 11  COMPANHIA_AEREA    185052 non-null  category
dtypes: category(3), float64(2), int8(2), object(4), string(1)
memory usage: 11.0+ MB


In [299]:
df_total_com_companhias

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO,COMPANHIA_AEREA
0,-26,1,Acir Gurgacz,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,2022-01-03 00:00:00,Despesa com pagamento de aluguel de imóvel par...,6000.00,2173614.0,Outras despesas
1,-26,1,Acir Gurgacz,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,2022-01-04 00:00:00,Despesa com divulgação da atividade parlamenta...,1500.00,2173615.0,Outras despesas
2,-26,1,Acir Gurgacz,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,2022-01-14 00:00:00,Despesa com produção de texto e edição de víde...,6000.00,2173616.0,Outras despesas
3,-26,1,Acir Gurgacz,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,2022-01-18 00:00:00,Divulgação da atividade parlamentar,1000.00,2173618.0,Outras despesas
4,-26,1,Acir Gurgacz,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,000000000001772/A,2022-01-17 00:00:00,Divulgação da atividade parlamentar,2000.00,2173617.0,Outras despesas
...,...,...,...,...,...,...,...,...,...,...,...,...
185047,-34,12,Zezé Perrella,"Locomoção, hospedagem, alimentação, combustíve...",34.274.233/0112-10,Petrobras Distribuidora,000061933,2014-12-17 00:00:00,Abastecimento da Aeronave do Senador Zezé Perr...,533.08,989283.0,Outras despesas
185048,-34,12,Zezé Perrella,"Locomoção, hospedagem, alimentação, combustíve...",34.274.233/0112-10,Petrobras Distribuidora,000062080,2014-12-23 00:00:00,Abastecimento da Aeronave do Senador Zezé Perr...,533.08,989285.0,Outras despesas
185049,-34,12,Zezé Perrella,"Locomoção, hospedagem, alimentação, combustíve...",34.274.233/0060-54,Petrobras Distribuidora,000038400,2014-12-29 00:00:00,Abastecimento da Aeronave do Senador Zezé Perr...,1828.84,989287.0,Outras despesas
185050,-34,12,Zezé Perrella,"Locomoção, hospedagem, alimentação, combustíve...",07.642.352/0001-90,União Frota Car,001581,2015-01-02 00:00:00,Aluguel de veiculo sem motorista para escritór...,5000.00,989277.0,Outras despesas


In [303]:
somente_aereas = df_total_com_companhias[df_total_com_companhias['COMPANHIA_AEREA'] != 'Outras despesas']
fig = px.histogram(somente_aereas, x='COMPANHIA_AEREA')
fig.update_xaxes(categoryorder="total descending")
fig.show()