In [1]:
import sqlite3
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

conn = sqlite3.connect("src/datasets/etlbcb.db")
df = pd.read_sql_query("SELECT * FROM meios_pagamentos_tri", conn)
conn.close()

print("Colunas disponíveis no dataset:")
print(df.columns.tolist())

alvos = ['valor_cartao_credito', 'valor_cartao_debito']
variaveis_explicativas = ['valor_pix', 'valor_pre_datar', 'valor_cheque']

for alvo in alvos:
    if alvo not in df.columns:
        print(f"Variável alvo '{alvo}' não encontrada. Pulando.")
        continue

    if not all(col in df.columns for col in variaveis_explicativas):
        print(f"Alguma variável explicativa não encontrada. Verifique os nomes.")
        continue

    X = df[variaveis_explicativas]
    y = df[alvo]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    modelo = LinearRegression()
    modelo.fit(X_train, y_train)

    y_pred = modelo.predict(X_test)

    print(f"{alvo.upper()}")
    print(f"MSE: {mean_squared_error(y_test, y_pred):.2f}")
    print(f"R2: {r2_score(y_test, y_pred):.2f}\n")


Colunas disponíveis no dataset:
['datatrimestre', 'valorPix', 'valorTED', 'valorTEC', 'valorCheque', 'valorBoleto', 'valorDOC', 'valorCartaoCredito', 'valorCartaoDebito', 'valorCartaoPrePago', 'valorTransIntrabancaria', 'valorConvenios', 'valorDebitoDireto', 'valorSaques', 'quantidadePix', 'quantidadeTED', 'quantidadeTEC', 'quantidadeCheque', 'quantidadeBoleto', 'quantidadeDOC', 'quantidadeCartaoCredito', 'quantidadeCartaoDebito', 'quantidadeCartaoPrePago', 'quantidadeTransIntrabancaria', 'quantidadeConvenios', 'quantidadeDebitoDireto', 'quantidadeSaques']
Variável alvo 'valor_cartao_credito' não encontrada. Pulando.
Variável alvo 'valor_cartao_debito' não encontrada. Pulando.
