In [2]:
import polars as pl

In [107]:
# Carga geral dos arquivos.csv
path = "C:/Users/gabri/Downloads/despesas/Ano-*.csv"
df = pl.scan_csv(path, separator=';', 
                 infer_schema_length=1000
                 ).filter(pl.col("codLegislatura") > 55
                 ).collect()

# Expressão auxiliar para verificar valores duplicados
# df.filter(pl.count("ideDocumento").over(df.columns) > 1)

In [108]:
""" Parte das colunas do dataset foram excluídas, por ausência dos dados.
    Colunas como numRessarcimento, vlrRestituição, dataPagamentoRestituicao
    que ao meu ver seriam importantes de termos, constam todas com valores
    vazios. Colunas não relacionadas  à despesas foram removidas. """

dropColumns = df.select([
                      pl.all().exclude(
                      "cpf", "nuCarteiraParlamentar", "numRessarcimento", 
                      "datPagamentoRestituicao", "nuDeputadoId",
                      "codLegislatura", "numSubCota", "numEspecificacaoSubCota", 
                      "vlrRestituicao", "nuLegislatura"
                  )])



""" Etapa da Transformação que substitui as strings vazias por um 
    valor nulo <null>, mais apropriado para futuras consultas à ba
    -se, como -> DataFrame.null_count() e verificações se necessá-
    rio. Com os valores de string vazia <""> determinadas consultas
    não seriam executadas da maneira como planejado. """

stringVaziaToNull = dropColumns.with_columns([
                        pl.when(pl.col(pl.Utf8).str.len_bytes() ==0)
                        .then(pl.lit("NA"))
                        .when(pl.col(pl.Float64).len() ==0)
                        .then(0.0)
                        .when(pl.col(pl.Int64).len() ==0)
                        .then(0)
                        .otherwise(pl.col(pl.Utf8))
                        .name.keep()
                    ])



""" Etapa da Transformação em que os espaços no início, meio e fim
    das strings do dataset são removidos. Justamante para fins de 
    padronização do conteúdo das strings. """

stringCleanExtraSpaces = stringVaziaToNull.with_columns([
                             pl.when(pl.col(pl.Utf8).str.len_bytes() != 0)
                             .then(pl.col(pl.Utf8).str.replace_all(r"\s{2,}", " ").str.strip_chars())
                             .otherwise(pl.col(pl.Utf8))
                             .name.keep()
                         ])

""" Formatando a coluna de data emissao que estava no formato string
    Utf8 para o formato de Datetime """

strToDatetime = stringCleanExtraSpaces.with_columns([
                    pl.col("datEmissao").str.strptime(pl.Datetime, strict=False).name.keep()
                ])



""" Padronizando as strings para todos os caracteres em maiúsculo.
    Dessa forma, não teremos problemas em relação a diferenciação
    de nomes quando determinadas colunas (ex: 'NomeParlamentar')
    forem analisadas. """

stringUpperCase = strToDatetime.with_columns([
                      pl.col(pl.Utf8).str.to_uppercase()
                      .name.keep()
                  ])


stringUpperCase.sample(5)

txNomeParlamentar,ideCadastro,sgUF,sgPartido,txtDescricao,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,ideDocumento,urlDocumento
str,str,str,str,str,str,str,str,str,i64,datetime[μs],f64,f64,f64,i64,i64,i64,str,str,i64,i64,str
"""DR. FREDERICO""","""204518""","""MG""","""PATRIOTA""","""MANUTENÇÃO DE …","""NA""","""SEC MÓVEIS LTD…","""222.188.790/00…","""3279""",0,2021-10-30 00:00:00,1985.0,0.0,1985.0,10,2021,0,"""NA""","""NA""",1811076,7293605,"""HTTPS://WWW.CA…"
"""CARLOS SAMPAIO…","""74262""","""SP""","""PSDB""","""PASSAGEM AÉREA…","""NA""","""CIA AÉREA - AZ…","""092.962.950/00…","""BILHETE: GJ91S…",0,2023-03-01 00:00:00,208.27,0.0,208.27,3,2023,0,"""ANDERSON ALEXA…","""BSB/VCP""",0,1775546,"""NA"""
"""DA VITORIA""","""204355""","""ES""","""PP""","""PASSAGEM AÉREA…","""NA""","""CIA AÉREA - TA…","""020.128.620/00…","""BILHETE: 957-2…",0,2021-06-11 00:00:00,559.0,0.0,559.0,6,2021,0,"""DA VITORIA""","""VIX/BSB""",0,1753089,"""NA"""
"""FLAVIANO MELO""","""141434""","""AC""","""MDB""","""HOSPEDAGEM ,EX…","""NA""","""D. M. S. FILHO…","""155.417.830/00…","""42""",0,2019-08-25 00:00:00,140.0,0.0,140.0,8,2019,0,"""NA""","""NA""",1627319,6904879,"""HTTPS://WWW.CA…"
"""DANIEL FREITAS…","""204367""","""SC""","""PL""","""COMBUSTÍVEIS E…","""VEÍCULOS AUTOM…","""CASCOL COMBUST…","""003.065.970/06…","""440091""",4,2019-08-28 00:00:00,230.68,0.0,230.68,8,2019,0,"""NA""","""NA""",1628544,6907803,"""HTTPS://WWW.CA…"
