In [12]:
import pandas as pd
import numpy as np
from azure.storage.blob import BlobServiceClient
import io
import pyarrow.parquet as pq
import pyarrow as pa
import re
import os

# Credenciais
account_name = 'uvabr'
account_key = os.environ['ACCOUNT_KEY']
container_name_read = 'bronze'
container_name_send = 'silver'

endpoints = [
#    "deputadosDespesas"
#    "proposicoes",
#    "proposicoesTemas",
#    "proposicoesAutores",
#    "frentes",
#    "frentesDeputados",
#    "grupos",
#    "gruposMembros",
#    "gruposHistorico",
#    "legislaturas",
#    "legislaturasMesas",
#    "orgaos",
#    "orgaosDeputados",
#    "deputados",
#    "deputadosOcupacoes",
#    "deputadosProfissoes",
#    "eventos",
#    "eventosOrgaos",
#    "eventosRequerimentos",
#    "votacoes",
#    "votacoesOrientacoes",
#    "votacoesVotos",
#    "votacoesObjetos",
#    "votacoesProposicoes",
#    "funcionarios",
#    "licitacoes",
#    "licitacoesContratos",
#    "licitacoesItens",
#    "licitacoesPedidos",
#    "licitacoesPropostas",
#    "tecadTermos",
#    "tecadCategorias",
    "deputadosCompleto",
    "partidosCompleto"
]

def ler_parquet_azure(account_name, account_key, container_name_read, file_name):
    # Conecte-se ao serviço de armazenamento de blob
    connect_str = f"DefaultEndpointsProtocol=https;AccountName={account_name};AccountKey={account_key};EndpointSuffix=core.windows.net"
    blob_service_client = BlobServiceClient.from_connection_string(connect_str)

    # Acesse o contêiner
    container_client = blob_service_client.get_container_client(container_name_read)

    # Baixe o blob do Azure Blob Storage
    blob_client = container_client.get_blob_client(file_name)
    blob_data = blob_client.download_blob()
    blob_stream = io.BytesIO()
    blob_stream.write(blob_data.readall())

    # Leia o arquivo Parquet usando pyarrow
    parquet_table = pq.read_table(blob_stream)

    # Converta para DataFrame do Pandas
    df = parquet_table.to_pandas()

    return df

def enviar_parquet_azure(account_name, account_key, container_name_send, file_name, dataframe):
    # Conecte-se ao serviço de armazenamento de blob
    connect_str = f"DefaultEndpointsProtocol=https;AccountName={account_name};AccountKey={account_key};EndpointSuffix=core.windows.net"
    blob_service_client = BlobServiceClient.from_connection_string(connect_str)

    # Acesse o contêiner
    container_client = blob_service_client.get_container_client(container_name_send)

    # Converta DataFrame para tabela Parquet
    table = pa.Table.from_pandas(dataframe)

    # Crie um buffer de memória para escrever os dados Parquet
    parquet_buffer = io.BytesIO()
    pq.write_table(table, parquet_buffer)

    # Envie os dados para o Azure Blob Storage
    blob_client = container_client.get_blob_client(file_name)
    blob_client.upload_blob(parquet_buffer.getvalue(), overwrite=True)

    print(f"Arquivo Parquet '{file_name}' enviado com sucesso para o Azure Blob Storage.")

def criar_coluna_uri(dataframe, endpoint):
    # Padronize o prefixo da coluna com base no endpoint
    prefixo_coluna = "uri_" + endpoint

    # Para cada linha no DataFrame
    for indice, linha in dataframe.iterrows():
        # Para cada coluna no DataFrame
        for coluna, valor in linha.items():
            # Se a coluna contiver "uri" em algum lugar no nome
            if "uri" in coluna.lower():
                # Use expressão regular para extrair o ID do URI
                match = re.search(r'(\d+)$', str(valor))

                # Se houver uma correspondência na expressão regular
                if match:
                    # Crie uma nova coluna com o prefixo apropriado e atribua o valor extraído
                    nova_coluna = prefixo_coluna + "_" + coluna.replace("uri", "").strip("_")
                    # Remova o sublinhado no final do nome da coluna, se houver
                    nova_coluna = nova_coluna.rstrip('_')
                    dataframe.at[indice, nova_coluna] = match.group(1)
    return dataframe        

def transformar_coluna_data(dfdata):
    for coluna in dfdata.columns:
        if 'data' in coluna.lower():  # Verifica se o nome da coluna contém 'data'
            try:
                dfdata[coluna] = dfdata[coluna].apply(lambda x: '' if (x == None or x < ('1800-01-01') or x > ('2099-12-31') ) else x)
                dfdata[coluna] = pd.to_datetime(dfdata[coluna])  # Converte para datetime
            except ValueError:
                print(f"Erro ao converter coluna {coluna} para datetime.")
    return dfdata

def transform_id_cod_to_string(df):
    for coluna in df.columns:
        if 'id' in coluna.lower() or 'cod' in coluna.lower():
            df[coluna] = df[coluna].astype(str)
    return df

def transformar_valores(df):
    for column in df.columns:
        if 'url' not in column.lower():  # Verifica se "url" NÃO está no nome da coluna
            if df[column].dtype != 'datetime64[ns]' and df[column].dtype != 'float64':
                df[column] = df[column].replace(['', '<NA>', '[]', pd.NaT, np.nan, None], 'N/A')
            elif df[column].dtype == 'float64':
                print("nada funciona aqui")
                df[column] = df[column].fillna('N/A').astype('str')
    return df

def transformar_valores_float(df):
    for column in df.columns:
        if 'valor' in column.lower():
            print(column)# Verifica se "url" NÃO está no nome da coluna
            if df[column].dtype == 'object' or df[column].dtype == 'string':
                df[column] = df[column].astype(float)
                print("transformacao concluida com sucessso")  
            else:
                print("Deu ruim")             
    return df

def converter_float64_to_int(df):
    float_cols = df.select_dtypes(include=['float64']).columns
    df[float_cols] = df[float_cols].astype('int')
    return df


#tratamento direto

#tratamento global
def processar_endpoints(account_name, account_key, container_name_read, container_name_send, endpoints):
    for endpoint in endpoints:
        df = ler_parquet_azure(account_name, account_key, container_name_read, f'{endpoint}.parquet')
        print(f"Leitura do {endpoint}.parquet concluída")
#        df = criar_coluna_uri(df, endpoint)
        df = transformar_coluna_data(df)
        df = transform_id_cod_to_string(df)
        df = transformar_valores(df)
        df = transformar_valores_float(df)
#        df = converter_float64_to_int(df) 
        print(f"Tratamento do {endpoint}.parquet concluído")
        enviar_parquet_azure(account_name, account_key, container_name_send, f'{endpoint}.parquet', df)
        print(f"Envio do {endpoint}.parquet concluído")
        
# Usando a função para processar todos os endpoints
processar_endpoints(account_name, account_key, container_name_read, container_name_send, endpoints)

Leitura do deputadosCompleto.parquet concluída


  op = lambda x: operator.eq(x, b)


TypeError: Cannot compare types 'ndarray(dtype=object)' and 'str'

In [8]:
import pandas as pd

item='deputadosCompleto'
df=ler_parquet_azure(account_name, account_key, 'bronze', f'{item}.parquet')
df

Unnamed: 0,id,uri,nomeCivil,cpf,sexo,urlWebsite,redeSocial,dataNascimento,dataFalecimento,ufNascimento,...,ultimoStatus.nomeEleitoral,ultimoStatus.gabinete.nome,ultimoStatus.gabinete.predio,ultimoStatus.gabinete.sala,ultimoStatus.gabinete.andar,ultimoStatus.gabinete.telefone,ultimoStatus.gabinete.email,ultimoStatus.situacao,ultimoStatus.condicaoEleitoral,ultimoStatus.descricaoStatus
0,221328,https://dadosabertos.camara.leg.br/api/v2/depu...,ADILSON BARROSO OLIVEIRA,05585378805,M,,[],1964-06-14,,MG,...,Adilson Barroso,750,4,750,7,3215-5750,dep.adilsonbarroso@camara.leg.br,Exercício,Suplente,
1,220714,https://dadosabertos.camara.leg.br/api/v2/depu...,ADAIL JOSÉ FIGUEIREDO PINHEIRO,77267796249,M,,[https://twitter.com/adailfilhoam?s=21&t=O_eoT...,1992-02-16,,AM,...,Adail Filho,531,4,531,5,3215-5531,dep.adailfilho@camara.leg.br,Exercício,Titular,
2,204379,https://dadosabertos.camara.leg.br/api/v2/depu...,ACÁCIO DA SILVA FAVACHO NETO,74287028287,M,,"[https://twitter.com/acaciofavacho, https://ww...",1983-09-28,,AP,...,Acácio Favacho,414,4,414,4,3215-5414,dep.acaciofavacho@camara.leg.br,Exercício,Titular,
3,121948,https://dadosabertos.camara.leg.br/api/v2/depu...,ADRIANO ANTÔNIO AVELAR,50746553153,M,,"[https://twitter.com/adrianodobaldy, https://w...",1969-09-06,,GO,...,Adriano do Baldy,419,4,419,4,3215-5419,dep.adrianodobaldy@camara.leg.br,Exercício,Titular,
4,204528,https://dadosabertos.camara.leg.br/api/v2/depu...,ADRIANA MIGUEL VENTURA,12519851813,F,,"[https://twitter.com/adriventurasp, https://ww...",1969-03-06,,SP,...,Adriana Ventura,802,4,802,8,3215-5802,dep.adrianaventura@camara.leg.br,Exercício,Titular,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7829,170,https://dadosabertos.camara.leg.br/api/v2/depu...,Francisco Xavier Ferreira,,M,,[],1771-12-04,,,...,XAVIER FERREIRA,,,,,,,,Titular,
7830,110,https://dadosabertos.camara.leg.br/api/v2/depu...,José de Souza Mello,,M,,[],,,,...,SOUSA MELO,,,,,,,Vacância,,
7831,121,https://dadosabertos.camara.leg.br/api/v2/depu...,Antonio da Silva Telles,,M,,[],,,BA,...,SILVA TELES,,,,,,,Vacância,Titular,
7832,94,https://dadosabertos.camara.leg.br/api/v2/depu...,Nicolau Pereira de Campos Vergueiro,,M,,[],1778-12-20,,,...,VERGUEIRO,,,,,,,Vacância,,


In [6]:
if df['valorLiquido'].dtype == 'object' or df['valorLiquido'].dtype == 'string':
    print("transformacao concluida com sucessso")  
else:
    print("Deu ruim")             

transformacao concluida com sucessso


In [9]:
import pandas as pd
df['valorLiquido'] = pd.to_numeric(df['valorLiquido'], errors='coerce')
soma_valores = df['valorLiquido'].sum()
soma_valores

529549971.97

In [232]:
item='votacoes'
df=ler_parquet_azure(account_name, account_key, 'bronze', f'{item}.parquet')
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_columns', None)
variacoes_aprovacao = df['aprovacao'].unique()

# Exiba as únicas variações
print(variacoes_aprovacao)

[ 1.  0. nan]
