Import des dépendances

In [20]:
import pandas as pd
from sqlalchemy import create_engine

Connexion : Création du lien entre Python et la base PostgreSQL via SQLAlchemy.

In [21]:
# Connexion PostgreSQL
engine = create_engine('postgresql://csgo_user:csgo_pass@localhost:5432/csgo_db')

Optimisation RAM : Utilisation de chunksize=10000 pour charger les données par petits paquets et ne pas saturer la mémoire du PC.

Robustesse : Forçage du type dtype=str pour accepter toutes les données brutes (même les erreurs de saisie comme le "o") sans faire planter l'importation.

Chargement : Importation automatique des 4 fichiers CSV vers des tables brutes (RAW) dans PostgreSQL.

In [23]:
# Liste des CSV à charger
files = [('results.csv','results'), ('players.csv','players'), 
         ('picks.csv','picks'), ('economy.csv','economy')]

for csv_file, table_name in files:
    print(f"Chargement de {table_name}...")
    
    # dtype=str évite les erreurs de type (ex: le "o" dans best_of)
    # chunksize=10000
    with pd.read_csv(f'data/{csv_file}', chunksize=10000, dtype=str, low_memory=False) as reader:
        first = True
        for chunk in reader:
            mode = 'replace' if first else 'append'
            chunk.to_sql(table_name, engine, if_exists=mode, index=False)
            first = False

Chargement de results...
Chargement de players...
Chargement de picks...
Chargement de economy...


Audit des donnees


Inspection : Requête sur le schéma information_schema pour lister précisément les noms des colonnes importées.

Validation : Permet de vérifier les noms réels (ex: _map ou player_name) avant d'écrire les requêtes de transformation SQL.

In [None]:
from sqlalchemy import text

with engine.connect() as conn:
    # Cette requête liste toutes les tables et leurs colonnes
    result = conn.execute(text("""
        SELECT table_name, column_name 
        FROM information_schema.columns 
        WHERE table_schema = 'public'
        ORDER BY table_name;
    """))
    
    for row in result:
        print(f"Table: {row[0]} | Colonne: {row[1]}")

L'objectif est de passer d'un modele plat (fichiers CSV volumineux et redondants) à un schema en etoile performant. 
Cela permet de separer les donnees descriptives des donnees de performance.

In [25]:
from sqlalchemy import text

with engine.connect() as conn:
    conn.execute(text("""
        DROP TABLE IF EXISTS dim_players CASCADE;
        CREATE TABLE dim_players AS 
        SELECT DISTINCT 
            NULLIF(player_id, '')::INTEGER AS player_id, 
            player_name, 
            country 
        FROM players
        WHERE player_id IS NOT NULL AND player_id != '';
        
        ALTER TABLE dim_players ADD PRIMARY KEY (player_id);
    """))
    conn.commit()
    
    conn.execute(text("""
        DROP TABLE IF EXISTS dim_matches CASCADE;
        CREATE TABLE dim_matches AS 
        SELECT DISTINCT
            NULLIF(match_id, '')::INTEGER AS match_id,
            NULLIF(date, '')::DATE AS date,
            team_1,
            team_2,
            match_winner
        FROM results
        WHERE match_id IS NOT NULL AND match_id != '';
        
        ALTER TABLE dim_matches ADD PRIMARY KEY (match_id);
    """))
    conn.commit()
    
    conn.execute(text("""
        DROP TABLE IF EXISTS fact_player_stats CASCADE;
        CREATE TABLE fact_player_stats AS 
        SELECT 
            row_number() OVER ()::INTEGER AS stats_id,
            NULLIF(p.match_id, '')::NUMERIC::INTEGER AS match_id, 
            NULLIF(p.player_id, '')::NUMERIC::INTEGER AS player_id,
            p.team AS player_team,
            p.opponent,
            COALESCE(p.map_1, p.map_2, p.map_3) AS map_name,
            NULLIF(p.kills, '')::NUMERIC::INTEGER AS kills, 
            NULLIF(p.deaths, '')::NUMERIC::INTEGER AS deaths, 
            NULLIF(p.assists, '')::NUMERIC::INTEGER AS assists, 
            NULLIF(p.rating, '')::NUMERIC AS rating,
            NULLIF(p.adr, '')::NUMERIC AS adr,
            NULLIF(p.kast, '')::NUMERIC AS kast,
            NULLIF(p.kddiff, '')::NUMERIC::INTEGER AS kddiff,
            NULLIF(p.hs, '')::NUMERIC::INTEGER AS headshots,
            NULLIF(p.fkdiff, '')::NUMERIC::INTEGER AS fkdiff,
            NULLIF(p.flash_assists, '')::NUMERIC::INTEGER AS flash_assists
        FROM players p
        WHERE COALESCE(p.map_1, p.map_2, p.map_3) IS NOT NULL
          AND p.player_id IS NOT NULL AND p.player_id != ''
          AND p.match_id IS NOT NULL AND p.match_id != ''
          AND EXISTS (
              SELECT 1 FROM results r 
              WHERE NULLIF(r.match_id, '')::INTEGER = NULLIF(p.match_id, '')::NUMERIC::INTEGER
          )
          AND EXISTS (
              SELECT 1 FROM players p2 
              WHERE NULLIF(p2.player_id, '')::INTEGER = NULLIF(p.player_id, '')::NUMERIC::INTEGER
          );
        
        ALTER TABLE fact_player_stats ADD PRIMARY KEY (stats_id);
        
        ALTER TABLE fact_player_stats 
            ADD CONSTRAINT fk_player 
            FOREIGN KEY (player_id) REFERENCES dim_players(player_id);
        
        ALTER TABLE fact_player_stats 
            ADD CONSTRAINT fk_match 
            FOREIGN KEY (match_id) REFERENCES dim_matches(match_id);
        
        CREATE INDEX idx_player ON fact_player_stats(player_id);
        CREATE INDEX idx_match ON fact_player_stats(match_id);
    """))
    conn.commit()


On extrait les informations fixes des joueurs , "dim_players", pour eviter de repeter leur nom et leur pays des milliers de fois.

On centralise les resultats globaux par match (scores, vainqueur, carte utilisee) dans la table "dim_matches".

C'est la table centrale "fact_player_stats" qui lie les performances (kills, deaths, rating) aux joueurs et aux matchs.

Sur le lien localhost:8080 et en utilisant les credentials suivant : epsi@gmail.com | azerty1234!

Le tableau de bord CS GO Stats contiendra le Top 10 des joueurs avec les statistiques d'élimination par partie ainsi que les éliminations par pays.