In [1]:
# Bibliotecas
import pandas as pd
import os
from sqlalchemy import create_engine, inspect
from io import BytesIO
import requests
from utils import sql_to_dbml, edit_sheet # Importando as funções do arquivo utils.py

In [2]:
# Dicionários
# com os caminhos do arquivos e atributos da tabela

base1 = {
    "sheet_id": "1cucnW4yVosO5n5BFgwXYv6rVy8yj6NTasM83RTCMOug",
    "gid_receita": "373473243",
    "gid_despesas": "1859279676",
    "encoding": "latin1",
    "db_path": os.path.abspath("../database/bronze/00_base1.db"),
    "dbml_path": os.path.abspath("../modelagem/00_base1.dbml"),
}

base2 = {
    "url": "https://empregadados-my.sharepoint.com/personal/bianca_empregadados_com_br/_layouts/15/download.aspx?share=EZYutqfo5ldNhDw2lMYRxrIBnpPI6c7OTjBBS_F5yz860Q",
    "db_path": os.path.abspath("../database/bronze/00_base2.db"),
    "dbml_path": os.path.abspath("../modelagem/00_base2.dbml"),
    "encoding": "latin1",
}

## Extraindo Base 1 (Vendas)

### Aba Receita

In [3]:
#Lendo e armazenando em um dataframe as tabelas
df_Receita = pd.read_csv(f"https://docs.google.com/spreadsheets/d/{base1['sheet_id']}/export?format=csv&gid={base1['gid_receita']}", index_col=False)
df_Receita = edit_sheet(df_Receita)

In [4]:
# Inciando tratamento

# Exclusão de linhas sem dados nas colunas Data e Mês
df_Receita = df_Receita.dropna(subset=["Data", "Mes"])

# Transformação da coluna data
df_Receita['Data'] = pd.to_datetime(df_Receita['Data'], dayfirst = True).dt.date

# Transformação das colunas Mês e Ano para inteiro
df_Receita["Mes"] = df_Receita["Mes"].astype(int)
df_Receita["Ano"] = df_Receita["Ano"].astype(int)

# Separação das colunas da Alucar e Consigcar
df_Receita_Alucar = df_Receita.iloc[:, 0:5] \
                    .reset_index(drop = True)

df_Receita_ConsigCar = df_Receita.iloc[:, [1,6]] \
                        .dropna(subset=["Valor"]) \
                        .reset_index(drop = True)

df_Receita_Alucar_estimativa = df_Receita_Alucar.reset_index(drop = True)

# Separação do dataframe da Receita da Alucar e estimativa da Alucar
df_Receita_Alucar_estimativa = df_Receita_Alucar[df_Receita_Alucar["Nome_(Alucar)"] == 'Estimativa'] \
                                .reset_index(drop = True)

df_Receita_Alucar = df_Receita_Alucar[df_Receita_Alucar["Nome_(Alucar)"] != 'Estimativa']

# Criando dataframe Consigcar estimado
df_Receita_ConsigCar_estimativa = df_Receita[df_Receita["Faturamento_ConsigCar"] == "Pagseguro"] \
    .iloc[:, [1,6]].reset_index(drop = True)

for i in range(1,len(df_Receita_ConsigCar_estimativa)):
    if pd.isna(df_Receita_ConsigCar_estimativa.loc[i,'Data']):
        df_Receita_ConsigCar_estimativa.loc[i,'Data'] = df_Receita_ConsigCar_estimativa.loc[i-1, 'Data'] + pd.DateOffset(months=1)

df_Receita_ConsigCar_estimativa['Data'] = pd.to_datetime(df_Receita_ConsigCar_estimativa['Data']).dt.date

# Cria conexão com banco de dados SQLite
engine = create_engine(f"sqlite:///{base1['db_path']}")

# Insere as tabelas no banco
df_Receita_Alucar.to_sql("b_vendas_clientes_alucar", con=engine, if_exists="replace", index=False)
df_Receita_Alucar_estimativa.to_sql("b_vendas_clientes_alucar_estimativa", con=engine, if_exists="replace", index=False)
df_Receita_ConsigCar.to_sql("b_receita_pagseguro_consigcar", con=engine, if_exists="replace", index=False)
df_Receita_ConsigCar_estimativa.to_sql("b_receita_consigcar_estimativa", con=engine, if_exists="replace", index=False)


5

### Aba Despesas 

In [5]:
# Lendo e armazenando em um dataframe as tabelas
df_Despesas = pd.read_csv(f"https://docs.google.com/spreadsheets/d/{base1["sheet_id"]}/export?format=csv&gid={base1["gid_despesas"]}", index_col=False)

# Excluindo colunas desnecessárias
df_Despesas.columns = df_Despesas.iloc[0]
df_Despesas = df_Despesas[1:]
df_Despesas.reset_index(drop = True, inplace = True)

#Separando Despesas da Alucar e ConsigCar

# Encontrar o índice da linha que contém TOTAL na coluna Despesa
index_total = df_Despesas[df_Despesas['DESPESAS'].str.contains("TOTAL", na=False)].index.min()

# Selecionar todas as linhas até a linha anterior à que contém TOTAL
df_Despesas_Alucar = df_Despesas.iloc[:index_total].copy()
df_Despesas_Alucar = df_Despesas_Alucar.reset_index(drop = True) \
                                       .melt(id_vars=["DESPESAS"], var_name="Mês", value_name="Valor")

# Selecionar as linhas referentes a ConsigCar
df_Despesas_ConsigCar = df_Despesas.iloc[index_total+4:-1] \
                        .copy().reset_index(drop = True) \
                        .melt(id_vars=["DESPESAS"], var_name="Mês", value_name="Valor")

# Cria conexão com banco de dados SQLite
engine = create_engine(f"sqlite:///{base1["db_path"]}")

# Insere as tabelas no banco
df_Despesas_Alucar.to_sql("b_despesas_alucar", con=engine, if_exists="replace", index=False)
df_Despesas_ConsigCar.to_sql("b_despesas_consigcar", con=engine, if_exists="replace", index=False)


156

In [6]:
# Transformar o banco de dados em DBML para acompanhamento da modelagem
dbml = sql_to_dbml(engine)

with open(base1["dbml_path"], "w", encoding="utf-8") as f:
    f.write(dbml)

### Extraindo Base 2

In [7]:
# Lendo e aramazenando em um dataframe as tabelas

response = requests.get(base2["url"])
df = pd.read_excel(BytesIO(response.content))

# Remove 'R$', pontos e converte a vírgula decimal para ponto
df['Valor parcela'] = df['Valor parcela'].replace({'R\$': '', '\.': '', ',': '.'}, regex=True).astype(float)

# Converte a coluna de data e remove a hora
df['Data do Pagamento'] = pd.to_datetime(df['Data do Pagamento']).dt.date

# Cria conexão com banco de dados SQLite
engine = create_engine(f"sqlite:///{base2['db_path']}")

# Insere a tabela no banco
df.to_sql("b_vendas_clientes_consigcar", con=engine, if_exists="replace", index=False)

  df['Valor parcela'] = df['Valor parcela'].replace({'R\$': '', '\.': '', ',': '.'}, regex=True).astype(float)
  df['Valor parcela'] = df['Valor parcela'].replace({'R\$': '', '\.': '', ',': '.'}, regex=True).astype(float)


207

In [8]:
# Transformar o banco de dados em DBML para acompanhamento da modelagem
dbml = sql_to_dbml(engine)

with open(base2["dbml_path"], "w", encoding="utf-8") as f:
    f.write(dbml)