In [1]:
import os
import pandas as pd
from sqlalchemy import create_engine, inspect
from dotenv import load_dotenv

In [2]:
load_dotenv()

USER = os.getenv("POSTGRES_USER")
PASSWORD = os.getenv("POSTGRES_PASSWORD")
PORT = os.getenv("POSTGRES_PORT")
HOST = os.getenv("HOST")
DB_NAME = os.getenv("POSTGRES_DB")
    
engine = create_engine(f"postgresql+psycopg2://{USER}:{PASSWORD}@{HOST}:{PORT}/{DB_NAME}")

print(f"postgresql+psycopg2://{USER}:{PASSWORD}@{HOST}:{PORT}/{DB_NAME}")



postgresql+psycopg2://soccer_stats:p0o9i8u7@localhost:5432/db_soccerstats


In [3]:
import os

root = os.getenv("PATH_ROOT")  
target_path = None

for dirpath, dirnames, filenames in os.walk(root):
    if dirpath.endswith(os.path.join("SoccerStats", "data", "raw")):
        target_path = dirpath
        break

csv_files = [f for f in os.listdir(target_path) if f.endswith(".csv")]


In [4]:
def create_table(df, table_name, schema_name):
    df.to_sql(table_name, engine, schema=schema_name, if_exists="replace", index=False)
    print(f"Tabela '{schema_name}.{table_name}' criada com {len(df)} registros!")

In [5]:

for csv_file in csv_files:
    df_raw = pd.read_csv(os.path.join(target_path, csv_file))
    table_name = csv_file.replace(".csv", "").lower()
    create_table(df_raw, table_name, schema_name="raw")

Tabela 'raw.2014_atletas' criada com 1033 registros!
Tabela 'raw.2014_clubes' criada com 20 registros!
Tabela 'raw.2014_partidas' criada com 380 registros!
Tabela 'raw.2014_scouts' criada com 31567 registros!
Tabela 'raw.2015_atletas' criada com 1026 registros!
Tabela 'raw.2015_clubes' criada com 20 registros!
Tabela 'raw.2015_partidas' criada com 380 registros!
Tabela 'raw.2015_scouts' criada com 30510 registros!
Tabela 'raw.2016_atletas' criada com 1001 registros!
Tabela 'raw.2016_clubes' criada com 20 registros!
Tabela 'raw.2016_partidas' criada com 380 registros!
Tabela 'raw.2016_scouts' criada com 31168 registros!
Tabela 'raw.2017_atletas' criada com 944 registros!
Tabela 'raw.2017_clubes' criada com 20 registros!
Tabela 'raw.2017_partidas' criada com 200 registros!
Tabela 'raw.2017_scouts' criada com 16313 registros!
Tabela 'raw.pontuacao' criada com 18 registros!
Tabela 'raw.posicoes' criada com 6 registros!
Tabela 'raw.status' criada com 5 registros!


In [6]:
from sqlalchemy import text

with engine.connect() as conn:
    result = conn.execute(
        text("""
            SELECT table_name 
            FROM information_schema.tables 
            WHERE table_schema = 'raw';
        """)
    )
    raw_tables = [row[0] for row in result]

# print("Tabelas na Raw:", raw_tables)

for table_name in raw_tables:
    df = pd.read_sql(f'SELECT * FROM "raw"."{table_name}"', engine)
    
    df.columns = [col.strip().lower() for col in df.columns]
    df = df.drop_duplicates()
    # df = df.fillna("")
    
    create_table(df, table_name, schema_name="silver")


Tabela 'silver.2016_clubes' criada com 20 registros!
Tabela 'silver.2016_partidas' criada com 380 registros!
Tabela 'silver.2016_scouts' criada com 31168 registros!
Tabela 'silver.2017_atletas' criada com 944 registros!
Tabela 'silver.2017_clubes' criada com 20 registros!
Tabela 'silver.2017_partidas' criada com 200 registros!
Tabela 'silver.2017_scouts' criada com 16313 registros!
Tabela 'silver.pontuacao' criada com 18 registros!
Tabela 'silver.posicoes' criada com 6 registros!
Tabela 'silver.status' criada com 5 registros!
Tabela 'silver.2014_atletas' criada com 1033 registros!
Tabela 'silver.2014_clubes' criada com 20 registros!
Tabela 'silver.2014_partidas' criada com 380 registros!
Tabela 'silver.2014_scouts' criada com 31567 registros!
Tabela 'silver.2015_atletas' criada com 1026 registros!
Tabela 'silver.2015_clubes' criada com 20 registros!
Tabela 'silver.2015_partidas' criada com 380 registros!
Tabela 'silver.2015_scouts' criada com 30510 registros!
Tabela 'silver.2016_atleta

In [7]:
anos = [2014, 2015, 2016, 2017]

ordem_atributos = [
    'atleta_id', 'clube_id', 'posicao_id', 'partida_id', 'rodada', 'participou',
    'jogos_num', 'pontos_num', 'media_num', 'preco_num', 'variacao_num',
    'mando', 'titular', 'substituido', 'tempo_jogado', 'nota',
    'FS', 'PE', 'A', 'FT', 'FD', 'FF', 'G', 'I', 'PP', 'RB', 'FC', 'GC', 'CA', 'CV', 'SG', 'DD', 'DP', 'GS'
]

dfs = []

inspector = inspect(engine)

for ano in anos:
    table_name = f"{ano}_scouts"
    df = pd.read_sql_table(table_name, engine, schema="raw")

    for col in ordem_atributos:
        if col not in df.columns:
            df[col] = None

    df = df[ordem_atributos]
    
    dfs.append(df)

df_final = pd.concat(dfs, ignore_index=True)

df_final.to_sql('scout', engine, schema="silver", if_exists='replace', index=False)
print(f"Tabela 'silver.scout' criada com {len(df_final)} registros!")

  df_final = pd.concat(dfs, ignore_index=True)


Tabela 'silver.scout' criada com 109558 registros!


In [13]:


script_sql = """
create table if not exists silver.cartola_dw as 
select
	atleta.id as atleta_id,
	atleta.apelido as atleta_apelido,
	atleta.posicao_id as atleta_posicao_id,
	posicao.nome as atleta_posicao,
	clube.id as clube_id,
	clube.nome as clube_nome,
	clube.abreviacao as clube_abreviacao,
	clube.slug as clube_slug,
	partida.id as partida_id,
	partida.rodada as partida_rodada,
	clube_casa.id as partida_clube_casa_id,
	clube_casa.nome as partida_clube_mandante_nome,
	clube_visitante.id as partida_clube_visitante_id,
	clube_visitante.nome as partida_clube_visitante_nome,
	partida.placar_oficial_mandante as partida_placar_mandante,
	partida.placar_oficial_visitante as partida_placar_visitante,
	case
		when partida.clube_casa_id = clube.id then 'CASA'
		when partida.clube_visitante_id = clube.id then 'FORA'
	end as as_partida_casa_fora,
	scout.media_num as scout_media_num,
	scout.preco_num as scout_preco_num,
	scout.variacao_num as scout_variacao_num,
	scout.fs as scout_ponto_por_falta_sofrida,
	scout.pe as scout_ponto_por_passe_errado,
	scout.a as scout_ponto_por_assistencia,
	scout.ft as scout_ponto_por_finalizacao_na_trave,
	scout.fd as scout_ponto_por_finalizacao_defendida,
	scout.ff as scout_ponto_por_finalizacao_para_fora,
	scout.g as scout_ponto_por_gol,
	scout.i as scout_ponto_por_impedimento,
	scout.pp as scout_ponto_por_penalti_perdido,
	scout.rb as scout_ponto_por_roubada_de_bola,
	scout.fc as scout_ponto_por_falta_cometida,
	scout.gc as scout_ponto_por_gol_contra,
	scout.ca as scout_ponto_por_cartao_amarelo,
	scout.cv as scout_ponto_por_cartao_vermelho,
	scout.sg as scout_ponto_por_nao_sofrer_gol,
	scout.dd as scout_ponto_por_defesa_dificil,
	scout.dp as scout_ponto_por_defesa_de_penalti,
	scout.gs as scout_ponto_por_gol_sofrido,
	2014 as temporada
from
	silver."2014_atletas" atleta
inner join silver."2014_clubes" clube 
    on
	atleta.clube_id = clube.id
inner join silver."2014_partidas" partida
    on
	(partida.clube_casa_id = clube.id
		or partida.clube_visitante_id = clube.id)
inner join silver."2014_scouts" scout
    on
	(scout.atleta_id = atleta.id
		and scout.rodada = partida.rodada)
inner join silver."posicoes" posicao 
    on
	atleta.posicao_id = posicao.id
inner join silver."2014_clubes" clube_casa 
    on
	clube_casa.id = partida.clube_casa_id
inner join silver."2014_clubes" clube_visitante 
    on
	clube_visitante.id = partida.clube_visitante_id
union all 

select
	atleta.id as atleta_id,
	atleta.apelido as atleta_apelido,
	atleta.posicao_id as atleta_posicao_id,
	posicao.nome as atleta_posicao,
	clube.id as clube_id,
	clube.nome as clube_nome,
	clube.abreviacao as clube_abreviacao,
	clube.slug as clube_slug,
	partida.id as partida_id,
	partida.rodada as partida_rodada,
	clube_casa.id as partida_clube_casa_id,
	clube_casa.nome as partida_clube_mandante_nome,
	clube_visitante.id as partida_clube_visitante_id,
	clube_visitante.nome as partida_clube_visitante_nome,
	partida.placar_oficial_mandante as partida_placar_mandante,
	partida.placar_oficial_visitante as partida_placar_visitante,
	case
		when partida.clube_casa_id = clube.id then 'CASA'
		when partida.clube_visitante_id = clube.id then 'FORA'
	end as as_partida_casa_fora,
	scout.media_num as scout_media_num,
	scout.preco_num as scout_preco_num,
	scout.variacao_num as scout_variacao_num,
	scout.fs as scout_ponto_por_falta_sofrida,
	scout.pe as scout_ponto_por_passe_errado,
	scout.a as scout_ponto_por_assistencia,
	scout.ft as scout_ponto_por_finalizacao_na_trave,
	scout.fd as scout_ponto_por_finalizacao_defendida,
	scout.ff as scout_ponto_por_finalizacao_para_fora,
	scout.g as scout_ponto_por_gol,
	scout.i as scout_ponto_por_impedimento,
	scout.pp as scout_ponto_por_penalti_perdido,
	scout.rb as scout_ponto_por_roubada_de_bola,
	scout.fc as scout_ponto_por_falta_cometida,
	scout.gc as scout_ponto_por_gol_contra,
	scout.ca as scout_ponto_por_cartao_amarelo,
	scout.cv as scout_ponto_por_cartao_vermelho,
	scout.sg as scout_ponto_por_nao_sofrer_gol,
	scout.dd as scout_ponto_por_defesa_dificil,
	scout.dp as scout_ponto_por_defesa_de_penalti,
	scout.gs as scout_ponto_por_gol_sofrido,
	2015 as temporada
from
	silver."2015_atletas" atleta
inner join silver."2015_clubes" clube 
    on
	atleta.clube_id = clube.id
inner join silver."2015_partidas" partida
    on
	(partida.clube_casa_id = clube.id
		or partida.clube_visitante_id = clube.id)
inner join silver."2015_scouts" scout
    on
	(scout.atleta_id = atleta.id
		and scout.rodada = partida.rodada)
inner join silver."posicoes" posicao
    on
	atleta.posicao_id = posicao.id
inner join silver."2015_clubes" clube_casa
    on
	clube_casa.id = partida.clube_casa_id
inner join silver."2015_clubes" clube_visitante
    on
	clube_visitante.id = partida.clube_visitante_id
union all

select
	atleta.id as atleta_id,
	atleta.apelido as atleta_apelido,
	atleta.posicao_id as atleta_posicao_id,
	posicao.nome as atleta_posicao,
	clube.id as clube_id,
	clube.nome as clube_nome,
	clube.abreviacao as clube_abreviacao,
	clube.slug as clube_slug,
	partida.id as partida_id,
	partida.rodada as partida_rodada,
	clube_casa.id as partida_clube_casa_id,
	clube_casa.nome as partida_clube_mandante_nome,
	clube_visitante.id as partida_clube_visitante_id,
	clube_visitante.nome as partida_clube_visitante_nome,
	partida.placar_oficial_mandante as partida_placar_mandante,
	partida.placar_oficial_visitante as partida_placar_visitante,
	case
		when partida.clube_casa_id = clube.id then 'CASA'
		when partida.clube_visitante_id = clube.id then 'FORA'
	end as as_partida_casa_fora,
	scout.media_num as scout_media_num,
	scout.preco_num as scout_preco_num,
	scout.variacao_num as scout_variacao_num,
	scout.fs as scout_ponto_por_falta_sofrida,
	scout.pe as scout_ponto_por_passe_errado,
	scout.a as scout_ponto_por_assistencia,
	scout.ft as scout_ponto_por_finalizacao_na_trave,
	scout.fd as scout_ponto_por_finalizacao_defendida,
	scout.ff as scout_ponto_por_finalizacao_para_fora,
	scout.g as scout_ponto_por_gol,
	scout.i as scout_ponto_por_impedimento,
	scout.pp as scout_ponto_por_penalti_perdido,
	scout.rb as scout_ponto_por_roubada_de_bola,
	scout.fc as scout_ponto_por_falta_cometida,
	scout.gc as scout_ponto_por_gol_contra,
	scout.ca as scout_ponto_por_cartao_amarelo,
	scout.cv as scout_ponto_por_cartao_vermelho,
	scout.sg as scout_ponto_por_nao_sofrer_gol,
	scout.dd as scout_ponto_por_defesa_dificil,
	scout.dp as scout_ponto_por_defesa_de_penalti,
	scout.gs as scout_ponto_por_gol_sofrido,
	2016 as temporada
from
	silver."2016_atletas" atleta
inner join silver."2016_clubes" clube 
    on
	atleta.clube_id = clube.id
inner join silver."2016_partidas" partida
    on
	(partida.clube_casa_id = clube.id
		or partida.clube_visitante_id = clube.id)
inner join silver."2016_scouts" scout
    on
	(scout.atleta_id = atleta.id
		and scout.rodada = partida.rodada)
inner join silver."posicoes" posicao
    on
	atleta.posicao_id = posicao.id
inner join silver."2016_clubes" clube_casa
    on
	clube_casa.id = partida.clube_casa_id
inner join silver."2016_clubes" clube_visitante
    on
	clube_visitante.id = partida.clube_visitante_id ;
"""

with engine.begin() as conn:
    conn.execute(text(script_sql))

print("Tabela cartola_dw criada com sucesso ✅")


Tabela cartola_dw criada com sucesso ✅


In [5]:
import pandas as pd

df = pd.read_sql("select * from silver.cartola_dw", engine)

display(df.head())

df.to_csv("cartola_dw.csv", index=False, encoding="utf-8")
print("CSV salvo como cartola_dw.csv ✅")


Unnamed: 0,atleta_id,atleta_apelido,atleta_posicao_id,atleta_posicao,clube_id,clube_nome,clube_abreviacao,clube_slug,partida_id,partida_rodada,...,scout_ponto_por_roubada_de_bola,scout_ponto_por_falta_cometida,scout_ponto_por_gol_contra,scout_ponto_por_cartao_amarelo,scout_ponto_por_cartao_vermelho,scout_ponto_por_nao_sofrer_gol,scout_ponto_por_defesa_dificil,scout_ponto_por_defesa_de_penalti,scout_ponto_por_gol_sofrido,temporada
0,89897,Ronaldo,1,Goleiro,288,Criciúma,CRI,criciuma,180148,38,...,0,0,0,0,0,0,0,0,0,2014
1,89884,Kalil,5,Atacante,288,Criciúma,CRI,criciuma,180148,38,...,0,0,0,0,0,0,0,0,0,2014
2,86931,Ruan,4,Meia,288,Criciúma,CRI,criciuma,180148,38,...,0,0,0,0,0,0,0,0,0,2014
3,86929,Ronaldo,1,Goleiro,288,Criciúma,CRI,criciuma,180148,38,...,0,0,0,0,0,0,0,0,0,2014
4,86928,David,1,Goleiro,288,Criciúma,CRI,criciuma,180148,38,...,0,0,0,0,0,0,0,0,0,2014


CSV salvo como cartola_dw.csv ✅
