Import des dépendances

In [2]:
import pandas as pd
from sqlalchemy import create_engine

Connexion : Création du lien entre Python et la base PostgreSQL via SQLAlchemy.

In [3]:
# Connexion PostgreSQL
engine = create_engine('postgresql://csgo_user:csgo_pass@localhost:5432/csgo_db')

Optimisation RAM : Utilisation de chunksize=10000 pour charger les données par petits paquets et ne pas saturer la mémoire du PC.

Robustesse : Forçage du type dtype=str pour accepter toutes les données brutes (même les erreurs de saisie comme le "o") sans faire planter l'importation.

Chargement : Importation automatique des 4 fichiers CSV vers des tables brutes (RAW) dans PostgreSQL.

In [6]:
# Liste des CSV à charger
files = [('results.csv','results'), ('players.csv','players'), 
         ('picks.csv','picks'), ('economy.csv','economy')]

for csv_file, table_name in files:
    print(f"Chargement de {table_name}...")
    
    # dtype=str évite les erreurs de type (ex: le "o" dans best_of)
    # chunksize=10000
    with pd.read_csv(f'data/{csv_file}', chunksize=10000, dtype=str, low_memory=False) as reader:
        first = True
        for chunk in reader:
            mode = 'replace' if first else 'append'
            chunk.to_sql(table_name, engine, if_exists=mode, index=False)
            first = False

Chargement de results...
Chargement de players...
Chargement de picks...
Chargement de economy...


Audit des donnees


Inspection : Requête sur le schéma information_schema pour lister précisément les noms des colonnes importées.

Validation : Permet de vérifier les noms réels (ex: _map ou player_name) avant d'écrire les requêtes de transformation SQL.

In [9]:
from sqlalchemy import text

with engine.connect() as conn:
    # Cette requête liste toutes les tables et leurs colonnes
    result = conn.execute(text("""
        SELECT table_name, column_name 
        FROM information_schema.columns 
        WHERE table_schema = 'public'
        ORDER BY table_name;
    """))
    
    for row in result:
        print(f"Table: {row[0]} | Colonne: {row[1]}")

Table: economy | Colonne: 24_winner
Table: economy | Colonne: 22_winner
Table: economy | Colonne: 12_winner
Table: economy | Colonne: 21_winner
Table: economy | Colonne: 10_winner
Table: economy | Colonne: 11_winner
Table: economy | Colonne: 20_winner
Table: economy | Colonne: 19_winner
Table: economy | Colonne: 18_winner
Table: economy | Colonne: 17_winner
Table: economy | Colonne: 16_winner
Table: economy | Colonne: 15_winner
Table: economy | Colonne: 14_winner
Table: economy | Colonne: 13_winner
Table: economy | Colonne: 30_winner
Table: economy | Colonne: 29_winner
Table: economy | Colonne: 28_winner
Table: economy | Colonne: 27_winner
Table: economy | Colonne: 26_winner
Table: economy | Colonne: 25_winner
Table: economy | Colonne: 23_winner
Table: economy | Colonne: date
Table: economy | Colonne: match_id
Table: economy | Colonne: event_id
Table: economy | Colonne: team_1
Table: economy | Colonne: team_2
Table: economy | Colonne: best_of
Table: economy | Colonne: _map
Table: econo

L'objectif est de passer d'un modele plat (fichiers CSV volumineux et redondants) à un schema en etoile performant. 
Cela permet de separer les donnees descriptives des donnees de performance.

In [1]:
from sqlalchemy import text

with engine.connect() as conn:
    # 1. Table Dimension : JOUEURS (dim_players)
    conn.execute(text("""
        CREATE TABLE IF NOT EXISTS dim_players AS 
        SELECT DISTINCT player_id, player_name, country 
        FROM players;
    """))
    
    # 2. Table de Fait : MATCHS (fact_matches)
    conn.execute(text("""
        CREATE TABLE IF NOT EXISTS fact_matches AS 
        SELECT match_id, date, _map, team_1, team_2, result_1, result_2, match_winner
        FROM results;
    """))

    # 3. Table de Fait : STATS JOUEURS (fact_player_stats)
    conn.execute(text("""
        CREATE TABLE IF NOT EXISTS fact_player_stats AS 
        SELECT match_id, player_id, kills, deaths, assists, rating
        FROM players;
    """))
    
    conn.commit()

ModuleNotFoundError: No module named 'sqlalchemy'


On extrait les informations fixes des joueurs , "dim_players", pour eviter de repeter leur nom et leur pays des milliers de fois.

On centralise les resultats globaux par match (scores, vainqueur, carte utilisee) dans la table "fact_matches".

C'est la table centrale "fact_player_stats" qui lie les performances (kills, deaths, rating) aux joueurs et aux matchs via des cles etrangeres.