In [44]:
# Instalar bibliotecas
!pip install pandas google-cloud-storage mysql-connector-python
!pip install --upgrade google-cloud-storage

# Importar bibliotecas
import pandas as pd
from google.cloud import storage
import mysql.connector
from mysql.connector import Error
import os

# Autenticar a conta do Google Cloud
from google.colab import auth
auth.authenticate_user()

# Configurar o cliente do Google Cloud Storage
client = storage.Client()
bucket_name = 'projeto01bucketcolabsql'

# Caminhos dos arquivos
csv_file_path1 = '/content/bal.patrim.petrobras_31.03.09.csv'
csv_file_path2 = '/content/dem.resultado.petrobras.csv'
excel_file_path1 = '/content/balanco_petro.xlsx'
excel_file_path2 = '/content/balanco_petro(editada).xlsx'

# Função para fazer upload de um arquivo para o bucket GCS
def upload_to_gcs(bucket_name, file_path):
    bucket = client.get_bucket(bucket_name)
    file_name = os.path.basename(file_path)
    blob = bucket.blob(f'dados_brutos/{file_name}')
    blob.upload_from_filename(file_path)
    print(f'Arquivo {file_path} carregado para {bucket_name}/dados_brutos/{file_name}')

# Função para ler um arquivo CSV do GCS
def read_csv_from_gcs(bucket_name, file_name):
    bucket = client.get_bucket(bucket_name)
    blob = bucket.blob(file_name)

    # Defina o caminho de destino e crie o diretório se ele não existir
    local_file_path = '/content/' + file_name
    local_dir = os.path.dirname(local_file_path)
    os.makedirs(local_dir, exist_ok=True)

    # Faça o download do arquivo
    blob.download_to_filename(local_file_path)

    # Leia o arquivo CSV para um DataFrame
    df = pd.read_csv(local_file_path)
    return df

# Função para ler um arquivo Excel do GCS
def read_excel_from_gcs(bucket_name, file_name):
    bucket = client.get_bucket(bucket_name)
    blob = bucket.blob(file_name)

    # Defina o caminho de destino e crie o diretório se ele não existir
    local_file_path = '/content/' + file_name
    local_dir = os.path.dirname(local_file_path)
    os.makedirs(local_dir, exist_ok=True)

    # Faça o download do arquivo
    blob.download_to_filename(local_file_path)

    # Leia o arquivo Excel para um DataFrame
    df = pd.read_excel(local_file_path, engine='openpyxl')
    return df

# Fazer upload dos arquivos CSV e Excel para o bucket
upload_to_gcs(bucket_name, csv_file_path1)
upload_to_gcs(bucket_name, csv_file_path2)
upload_to_gcs(bucket_name, excel_file_path1)
upload_to_gcs(bucket_name, excel_file_path2)

# Ler os arquivos CSV e Excel do GCS
df_csv1 = read_csv_from_gcs(bucket_name, 'dados_brutos/bal.patrim.petrobras_31.03.09.csv')
df_csv2 = read_csv_from_gcs(bucket_name, 'dados_brutos/dem.resultado.petrobras.csv')
df_balanco_petro_= read_excel_from_gcs(bucket_name, 'dados_brutos/balanco_petro.xlsx')
df_excel2 = read_excel_from_gcs(bucket_name, 'dados_brutos/balanco_petro(editada).xlsx')


Arquivo /content/bal.patrim.petrobras_31.03.09.csv carregado para projeto01bucketcolabsql/dados_brutos/bal.patrim.petrobras_31.03.09.csv
Arquivo /content/dem.resultado.petrobras.csv carregado para projeto01bucketcolabsql/dados_brutos/dem.resultado.petrobras.csv
Arquivo /content/balanco_petro.xlsx carregado para projeto01bucketcolabsql/dados_brutos/balanco_petro.xlsx
Arquivo /content/balanco_petro(editada).xlsx carregado para projeto01bucketcolabsql/dados_brutos/balanco_petro(editada).xlsx


In [45]:
display(df_balanco_petro_)

Unnamed: 0,"XLSWrite 1.34 Copyright(c) 1999,2000 Axolot Data",Balanço Patrimonial - PETROBRAS,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 51,Unnamed: 52,Unnamed: 53,Unnamed: 54,Unnamed: 55,Unnamed: 56,Unnamed: 57,Unnamed: 58,Unnamed: 59,Unnamed: 60
0,31/03/2009,30/06/2009,30/09/2009,31/12/2009,31/03/2010,30/06/2010,30/09/2010,31/12/2010,31/03/2011,30/06/2011,...,31/12/2021,31/03/2022,30/06/2022,30/09/2022,31/12/2022,31/03/2023,30/06/2023,30/09/2023,31/12/2023,31/03/2024
1,Ativo Total,305265344.512,333789528.064,345607274.496,365998080,382029856.768,507697037.312,519970029.568,544945274.88,554583457.792,...,972950994.944,998662012.928,1004753977.344,947574013.952,976708960.256,978576998.4,990459002.88,1025495990.272,1050887979.008,1067292033.024
2,Ativo Circulante,57621536.768,75719057.408,76674015.232,74459103.232,71980236.8,111415033.856,106685161.472,120036376.576,119493476.352,...,168247001.088,199511998.464,224784990.208,159327010.816,163051995.136,157193994.24,136816001.024,147311001.6,157079011.328,165964005.376
3,Caixa e Equivalentes de Caixa,10072162.304,30088286.208,28795713.536,26951325.696,24209866.752,47291932.672,30323259.392,43344818.176,34672615.424,...,58410000.384,81601003.52,85310996.48,23650000.896,41722998.784,52276998.144,49882001.408,60642000.896,61612998.656,57689001.984
4,Aplicações Financeiras,0,0,0,0,0,0,26017296.384,20015771.648,24969263.104,...,3630000.128,5967000.064,14956999.68,13038000.128,14469999.616,14629000.192,11102999.552,6504999.936,13649999.872,24071999.488
5,Contas a Receber,14555268.096,13643311.104,13984270.336,16200354.816,15961581.568,18407325.696,17333975.04,17777672.192,18762930.176,...,35538001.92,26848999.424,26442999.808,22026000.384,26141999.104,23497000.96,21041000.448,25501999.104,29702000.64,25184000
6,Estoques,19674548.224,20635084.8,21424652.288,20030609.408,19680464.896,21359228.928,19815675.904,23868891.136,25751416.832,...,40485998.592,48350998.528,49821999.104,52825001.984,45803999.232,40483000.32,39240998.912,39509999.616,37184000,40848998.4
7,Ativos Biológicos,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8,Tributos a Recuperar,0,0,0,0,0,0,8934797.312,10178227.2,11322895.36,...,7511000.064,6175000.064,6675999.744,7762999.808,6818999.808,6102000.128,6352999.936,5965000.192,5703000.064,7701000.192
9,Despesas Antecipadas,0,0,0,0,0,0,1006419.008,1282752,1218744.064,...,0,0,0,0,0,0,0,0,0,0


In [46]:
# Extrair a primeira linha como lista de colunas
columns = df_balanco_petro_.iloc[0].to_list()

# Definir os nomes das colunas
df_balanco_petro_.columns = columns

# Remover a primeira linha (agora redundante)
df_balanco_petro_ = df_balanco_petro_.drop(0, axis=0)

# Exibir o DataFrame atualizado
df_balanco_petro_


Unnamed: 0,31/03/2009,30/06/2009,30/09/2009,31/12/2009,31/03/2010,30/06/2010,30/09/2010,31/12/2010,31/03/2011,30/06/2011,...,31/12/2021,31/03/2022,30/06/2022,30/09/2022,31/12/2022,31/03/2023,30/06/2023,30/09/2023,31/12/2023,31/03/2024
1,Ativo Total,305265344.512,333789528.064,345607274.496,365998080.0,382029856.768,507697037.312,519970029.568,544945274.88,554583457.792,...,972950994.944,998662012.928,1004753977.344,947574013.952,976708960.256,978576998.4,990459002.88,1025495990.272,1050887979.008,1067292033.024
2,Ativo Circulante,57621536.768,75719057.408,76674015.232,74459103.232,71980236.8,111415033.856,106685161.472,120036376.576,119493476.352,...,168247001.088,199511998.464,224784990.208,159327010.816,163051995.136,157193994.24,136816001.024,147311001.6,157079011.328,165964005.376
3,Caixa e Equivalentes de Caixa,10072162.304,30088286.208,28795713.536,26951325.696,24209866.752,47291932.672,30323259.392,43344818.176,34672615.424,...,58410000.384,81601003.52,85310996.48,23650000.896,41722998.784,52276998.144,49882001.408,60642000.896,61612998.656,57689001.984
4,Aplicações Financeiras,0.0,0.0,0.0,0.0,0.0,0.0,26017296.384,20015771.648,24969263.104,...,3630000.128,5967000.064,14956999.68,13038000.128,14469999.616,14629000.192,11102999.552,6504999.936,13649999.872,24071999.488
5,Contas a Receber,14555268.096,13643311.104,13984270.336,16200354.816,15961581.568,18407325.696,17333975.04,17777672.192,18762930.176,...,35538001.92,26848999.424,26442999.808,22026000.384,26141999.104,23497000.96,21041000.448,25501999.104,29702000.64,25184000.0
6,Estoques,19674548.224,20635084.8,21424652.288,20030609.408,19680464.896,21359228.928,19815675.904,23868891.136,25751416.832,...,40485998.592,48350998.528,49821999.104,52825001.984,45803999.232,40483000.32,39240998.912,39509999.616,37184000.0,40848998.4
7,Ativos Biológicos,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,Tributos a Recuperar,0.0,0.0,0.0,0.0,0.0,0.0,8934797.312,10178227.2,11322895.36,...,7511000.064,6175000.064,6675999.744,7762999.808,6818999.808,6102000.128,6352999.936,5965000.192,5703000.064,7701000.192
9,Despesas Antecipadas,0.0,0.0,0.0,0.0,0.0,0.0,1006419.008,1282752.0,1218744.064,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
10,Outros Ativos Circulantes,13319559.168,11352375.296,12469380.096,11276813.312,12128328.704,24356546.56,3253737.984,3568239.104,2795610.88,...,22671998.976,30569000.96,41576001.536,40025001.984,28093999.104,20206000.128,9196000.256,9187000.32,9226999.808,10469000.192


In [47]:
# Renomear a primeira coluna para 'Data'
df_balanco_petro_ = df_balanco_petro_.rename(columns={df_balanco_petro_.columns[0]: 'Data'})

# Definir a coluna 'Data' como índice e transpor o DataFrame
df_balanco_petro_ = df_balanco_petro_.set_index('Data').T

# Exibir o DataFrame transposto
display(df_balanco_petro_)

Data,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa,Aplicações Financeiras,Contas a Receber,Estoques,Ativos Biológicos,Tributos a Recuperar,Despesas Antecipadas,Outros Ativos Circulantes,...,Patrimônio Líquido,Capital Social Realizado,Reservas de Capital,Reservas de Reavaliação,Reservas de Lucros,Lucros/Prejuízos Acumulados,Ajustes de Avaliação Patrimonial,Ajustes Acumulados de Conversão,Outros Resultados Abrangentes,Adiantamento para Futuro Aumento Capital
30/06/2009,305265344.512,57621536.768,10072162.304,0.0,14555268.096,19674548.224,0,0.0,0.0,13319559.168,...,149847965.696,78966685.696,514856.992,9920,58865377.28,10918406.144,572716.032,0.0,0.0,0
30/09/2009,333789528.064,75719057.408,30088286.208,0.0,13643311.104,20635084.8,0,0.0,0.0,11352375.296,...,155391688.704,78966685.696,514856.992,9718,58866671.616,16466363.392,567398.976,0.0,0.0,0
31/12/2009,345607274.496,76674015.232,28795713.536,0.0,13984270.336,21424652.288,0,0.0,0.0,12469380.096,...,159464587.264,78966685.696,514856.992,350,79521013.76,0.0,461687.008,0.0,0.0,0
31/03/2010,365998080.0,74459103.232,26951325.696,0.0,16200354.816,20030609.408,0,0.0,0.0,11276813.312,...,170299080.704,78966685.696,514856.992,0,84879695.872,5971459.072,-33617.0,0.0,0.0,0
30/06/2010,382029856.768,71980236.8,24209866.752,0.0,15961581.568,19680464.896,0,0.0,0.0,12128328.704,...,176974135.296,85108547.584,0.0,0,79252692.992,12494328.832,118554.0,0.0,0.0,0
30/09/2010,507697037.312,111415033.856,47291932.672,0.0,18407325.696,21359228.928,0,0.0,0.0,24356546.56,...,297360982.016,200160870.4,164696.0,0,77830742.016,19251855.36,-47178.0,0.0,0.0,0
31/12/2010,519970029.568,106685161.472,30323259.392,26017296.384,17333975.04,19815675.904,0,8934797.312,1006419.008,3253737.984,...,306765188.864,205357105.152,-6257.0,0,101323726.848,0.0,287084.0,-196479.008,0.0,0
31/03/2011,544945274.88,120036376.576,43344818.176,20015771.648,17777672.192,23868891.136,0,10178227.2,1282752.0,3568239.104,...,314781563.904,205357105.152,1847.0,0,101323726.848,8376065.024,177879.008,-455044.992,0.0,0
30/06/2011,554583457.792,119493476.352,34672615.424,24969263.104,18762930.176,25751416.832,0,11322895.36,1218744.064,2795610.88,...,322711576.064,205379731.456,48674.0,0,101301100.544,16710102.016,144754.0,-872763.008,0.0,0
30/09/2011,582124896.256,120493400.064,33659195.392,21410791.424,20466372.608,27397234.688,0,12568754.176,1449747.968,3541307.904,...,328404782.08,205379731.456,101923.0,0,101301100.544,20445116.416,250479.008,926436.992,0.0,0


In [48]:
# Verificar colunas duplicadas
print(df_balanco_petro_.columns[df_balanco_petro_.columns.duplicated()])

Index(['Contas a Receber', 'Estoques', 'Ativos Biológicos',
       'Despesas Antecipadas', 'Empréstimos e Financiamentos',
       'Passivos com Partes Relacionadas', 'Outros', 'Tributos Diferidos',
       'Provisões',
       'Passivos sobre Ativos Não-Correntes a Venda e Descontinuados',
       'Adiantamento para Futuro Aumento Capital'],
      dtype='object', name='Data')


In [49]:
# Manter apenas a primeira ocorrência das colunas duplicadas
df_balanco_petro_ = df_balanco_petro_.loc[:, ~df_balanco_petro_.columns.duplicated()]
print(df_balanco_petro_.columns)

Index(['Ativo Total', 'Ativo Circulante', 'Caixa e Equivalentes de Caixa',
       'Aplicações Financeiras', 'Contas a Receber', 'Estoques',
       'Ativos Biológicos', 'Tributos a Recuperar', 'Despesas Antecipadas',
       'Outros Ativos Circulantes', 'Ativo Realizável a Longo Prazo',
       'Aplicações Financeiras Avaliadas a Valor Justo',
       'Aplicações Financeiras Avaliadas ao Custo Amortizado',
       'Tributos Diferidos', 'Créditos com Partes Relacionadas',
       'Outros Ativos Não Circulantes', 'Investimentos', 'Imobilizado',
       'Intangível', 'Diferido', 'Passivo Total', 'Passivo Circulante',
       'Obrigações Sociais e Trabalhistas', 'Fornecedores',
       'Obrigações Fiscais', 'Empréstimos e Financiamentos',
       'Passivos com Partes Relacionadas', 'Dividendos e JCP a Pagar',
       'Outros', 'Provisões',
       'Passivos sobre Ativos Não-Correntes a Venda e Descontinuados',
       'Passivo Não Circulante', 'Adiantamento para Futuro Aumento Capital',
       'Lucros 

In [50]:
# Contar os valores nulos em cada coluna do Balanço Patrimonial
nulos_balanço = df_balanco_petro_.isnull().sum()
print("Valores nulos por coluna no Balanço Patrimonial:")
display(nulos_balanço)

Valores nulos por coluna no Balanço Patrimonial:


Unnamed: 0_level_0,0
Data,Unnamed: 1_level_1
Ativo Total,0
Ativo Circulante,0
Caixa e Equivalentes de Caixa,0
Aplicações Financeiras,0
Contas a Receber,0
Estoques,0
Ativos Biológicos,0
Tributos a Recuperar,0
Despesas Antecipadas,0
Outros Ativos Circulantes,0


In [51]:
# Função para fazer upload de um arquivo para o bucket GCS em uma pasta específica
def upload_to_gcs(bucket_name, file_path, folder_name='dados_tratados'):
    bucket = client.get_bucket(bucket_name)
    file_name = os.path.basename(file_path)
    blob = bucket.blob(f'{folder_name}/{file_name}')
    blob.upload_from_filename(file_path)
    print(f'Arquivo {file_path} carregado para {bucket_name}/{folder_name}/{file_name}')

# Salvar o DataFrame tratado como um arquivo CSV localmente
csv_balanco_patrimonial_path = '/content/balanco_patrimonial.csv'
df_balanco_petro_.to_csv(csv_balanco_patrimonial_path, index=False)

# Fazer upload do arquivo CSV tratado para o Google Cloud Storage na pasta 'dados_tratados'
upload_to_gcs(bucket_name, csv_balanco_patrimonial_path, folder_name='dados_tratados')



Arquivo /content/balanco_patrimonial.csv carregado para projeto01bucketcolabsql/dados_tratados/balanco_patrimonial.csv


In [52]:
import mysql.connector
from mysql.connector import Error
import pandas as pd

# Definir as credenciais e informações da conexão
servidor = '34.139.197.241'
basededados = 'Petrobras'
usuario = 'Wermelinger,V'
senha = '281431'

# Função para conectar ao banco de dados
def conectar_mysql(servidor, basededados, usuario, senha, use_database=True):
    try:
        conn = mysql.connector.connect(
            host=servidor,
            user=usuario,
            password=senha,
            database=basededados if use_database else None  # Se use_database for True, conecta diretamente ao banco
        )
        if conn.is_connected():
            print(f"Conexão bem-sucedida ao MySQL {'com banco de dados' if use_database else 'sem banco de dados'}")
            return conn
    except Error as e:
        print(f"Erro ao conectar ao MySQL: {e}")
        return None

# Conectar sem usar o banco de dados para criar o banco
conexao = conectar_mysql(servidor, basededados, usuario, senha, use_database=False)

# Função para criar o banco de dados
def criar_banco(conexao, basededados):
    try:
        cursor = conexao.cursor()
        cursor.execute(f"CREATE DATABASE IF NOT EXISTS {basededados}")
        conexao.commit()
        print(f"Banco de dados {basededados} criado ou já existente.")
    except Error as e:
        print(f"Erro ao criar banco de dados: {e}")

criar_banco(conexao, basededados)

# Fechar a conexão inicial
if conexao.is_connected():
    conexao.close()

# Conectar novamente, agora usando o banco de dados criado
conexao = conectar_mysql(servidor, basededados, usuario, senha)


Conexão bem-sucedida ao MySQL sem banco de dados
Banco de dados Petrobras criado ou já existente.
Conexão bem-sucedida ao MySQL com banco de dados


In [53]:
# Função para criar a tabela com base no DataFrame
def criar_tabela(conexao, df, nome_tabela):
    cursor = conexao.cursor()
    columns = ', '.join([f"`{col}` TEXT" for col in df.columns])

    create_table_query = f"""
    CREATE TABLE IF NOT EXISTS `{nome_tabela}` (
        id INT AUTO_INCREMENT PRIMARY KEY,
        {columns}
    )
    """

    try:
        cursor.execute(create_table_query)
        conexao.commit()
        print(f"Tabela '{nome_tabela}' criada com sucesso.")
    except Error as e:
        print(f"Erro ao criar tabela: {e}")

# Exemplo de uso:
nome_tabela = 'Balanço_patrimonial'
criar_tabela(conexao, df_balanco_petro_, nome_tabela)

Tabela 'Balanço_patrimonial' criada com sucesso.


In [54]:
# Função para consultar dados da tabela
def consultar_dados(conexao, nome_tabela):
    try:
        query = f"SELECT * FROM `{nome_tabela}`"
        df_resultado = pd.read_sql(query, con=conexao)
        print(df_resultado)
    except Error as e:
        print(f"Erro ao consultar dados: {e}")

# Exemplo de uso:
consultar_dados(conexao, nome_tabela)


Empty DataFrame
Columns: [id, Ativo Total, Ativo Circulante, Caixa e Equivalentes de Caixa, Aplicações Financeiras, Contas a Receber, Estoques, Ativos Biológicos, Tributos a Recuperar, Despesas Antecipadas, Outros Ativos Circulantes, Ativo Realizável a Longo Prazo, Aplicações Financeiras Avaliadas a Valor Justo, Aplicações Financeiras Avaliadas ao Custo Amortizado, Tributos Diferidos, Créditos com Partes Relacionadas, Outros Ativos Não Circulantes, Investimentos, Imobilizado, Intangível, Diferido, Passivo Total, Passivo Circulante, Obrigações Sociais e Trabalhistas, Fornecedores, Obrigações Fiscais, Empréstimos e Financiamentos, Passivos com Partes Relacionadas, Dividendos e JCP a Pagar, Outros, Provisões, Passivos sobre Ativos Não-Correntes a Venda e Descontinuados, Passivo Não Circulante, Adiantamento para Futuro Aumento Capital, Lucros e Receitas a Apropriar, Participação dos Acionistas Não Controladores, Patrimônio Líquido, Capital Social Realizado, Reservas de Capital, Reservas de

  df_resultado = pd.read_sql(query, con=conexao)


In [55]:
# Fechar a conexão
if conexao.is_connected():
    conexao.close()
    print("Conexão fechada.")


Conexão fechada.
