In [24]:
import os
import pandas as pd
from sqlalchemy import create_engine
from dotenv import load_dotenv

In [26]:
load_dotenv()

USER = os.getenv("POSTGRES_USER")
PASSWORD = os.getenv("POSTGRES_PASSWORD")
PORT = os.getenv("POSTGRES_PORT")
HOST = "localhost"
DB_NAME = "db_soccerstats"
    
engine = create_engine(f"postgresql+psycopg2://{USER}:{PASSWORD}@{HOST}:{PORT}/{DB_NAME}")

In [29]:
raw_path = "data/raw/"
csv_files = [f for f in os.listdir(raw_path) if f.endswith(".csv")]
print("Arquivos encontrados:\n", csv_files)

Arquivos encontrados:
 ['2015_scouts.csv', '2014_partidas.csv', '2014_scouts.csv', '2015_atletas.csv', 'posicoes.csv', '2016_scouts.csv', '2016_clubes.csv', '2014_atletas.csv', '2017_clubes.csv', '2014_clubes.csv', '2017_atletas.csv', '2017_partidas.csv', '2016_partidas.csv', '2015_partidas.csv', 'status.csv', '2016_atletas.csv', 'pontuacao.csv', '2015_clubes.csv', '2017_scouts.csv']


In [30]:
def create_table(df, table_name, schema_name):
    df.to_sql(table_name, engine, schema=schema_name, if_exists="replace", index=False)
    print(f"Tabela '{schema_name}.{table_name}' criada com {len(df)} registros!")

In [31]:
for csv_file in csv_files:
    df_raw = pd.read_csv(os.path.join(raw_path, csv_file))
    table_name = csv_file.replace(".csv", "").lower()
    create_table(df_raw, table_name, schema_name="raw")

Tabela 'raw.2015_scouts' criada com 30510 registros!
Tabela 'raw.2014_partidas' criada com 380 registros!
Tabela 'raw.2014_scouts' criada com 31567 registros!
Tabela 'raw.2015_atletas' criada com 1026 registros!
Tabela 'raw.posicoes' criada com 6 registros!
Tabela 'raw.2016_scouts' criada com 31168 registros!
Tabela 'raw.2016_clubes' criada com 20 registros!
Tabela 'raw.2014_atletas' criada com 1033 registros!
Tabela 'raw.2017_clubes' criada com 20 registros!
Tabela 'raw.2014_clubes' criada com 20 registros!
Tabela 'raw.2017_atletas' criada com 944 registros!
Tabela 'raw.2017_partidas' criada com 200 registros!
Tabela 'raw.2016_partidas' criada com 380 registros!
Tabela 'raw.2015_partidas' criada com 380 registros!
Tabela 'raw.status' criada com 5 registros!
Tabela 'raw.2016_atletas' criada com 1001 registros!
Tabela 'raw.pontuacao' criada com 18 registros!
Tabela 'raw.2015_clubes' criada com 20 registros!
Tabela 'raw.2017_scouts' criada com 16313 registros!


In [38]:
from sqlalchemy import text

with engine.connect() as conn:
    result = conn.execute(
        text("""
            SELECT table_name 
            FROM information_schema.tables 
            WHERE table_schema = 'raw';
        """)
    )
    raw_tables = [row[0] for row in result]

# print("Tabelas na Raw:", raw_tables)

for table_name in raw_tables:
    df = pd.read_sql(f'SELECT * FROM "raw"."{table_name}"', engine)
    
    df.columns = [col.strip().lower() for col in df.columns]
    df = df.drop_duplicates()
    # df = df.fillna("")
    
    create_table(df, table_name, schema_name="silver")


Tabela 'silver.2015_scouts' criada com 30510 registros!
Tabela 'silver.2014_partidas' criada com 380 registros!
Tabela 'silver.2014_scouts' criada com 31567 registros!
Tabela 'silver.2015_atletas' criada com 1026 registros!
Tabela 'silver.posicoes' criada com 6 registros!
Tabela 'silver.2016_scouts' criada com 31168 registros!
Tabela 'silver.2016_clubes' criada com 20 registros!
Tabela 'silver.2014_atletas' criada com 1033 registros!
Tabela 'silver.2017_clubes' criada com 20 registros!
Tabela 'silver.2014_clubes' criada com 20 registros!
Tabela 'silver.2017_atletas' criada com 944 registros!
Tabela 'silver.2017_partidas' criada com 200 registros!
Tabela 'silver.2016_partidas' criada com 380 registros!
Tabela 'silver.2015_partidas' criada com 380 registros!
Tabela 'silver.status' criada com 5 registros!
Tabela 'silver.2016_atletas' criada com 1001 registros!
Tabela 'silver.pontuacao' criada com 18 registros!
Tabela 'silver.2015_clubes' criada com 20 registros!
Tabela 'silver.2017_scouts

In [35]:
from sqlalchemy import text

with engine.connect() as conn:
    result = conn.execute(
        text("""
            SELECT table_name 
            FROM information_schema.tables 
            WHERE table_schema = 'raw';
        """)
    )
    raw_tables = [row[0] for row in result]

print("Tabelas disponíveis na camada Raw:", raw_tables)


Tabelas disponíveis na camada Raw: ['2015_scouts', '2014_partidas', '2014_scouts', '2015_atletas', 'posicoes', '2016_scouts', '2016_clubes', '2014_atletas', '2017_clubes', '2014_clubes', '2017_atletas', '2017_partidas', '2016_partidas', '2015_partidas', 'status', '2016_atletas', 'pontuacao', '2015_clubes', '2017_scouts']
