# Devoir maison pour le compte du cours de DBS

In [None]:
#!pip install pandas rdflib
#!pip install SPARQLWrapper

In [None]:
# Import la librarie rdflib
from rdflib import Graph, Literal, RDF, URIRef, Namespace, XSD

## Partie 0:  Choix des jeux de données

### Les sources de données

#### 1) NBA games data, Nathan Lugan (Kaggle)
Link : https://www.kaggle.com/datasets/nathanlauga/nba-games?select=games.csv

Colonnes d'intéret : 

GAME_DATE_EST : Le jour du match

GAME_ID : L'identifiant du match

HOME_TEAM_ID : L'identifiant de l'équipe à domicile

VISITOR_TEAM_ID : L'identifiant de l'équipe à l'exterieur

SEASON : La saison

PTS_home : Nombre de points dans le match de l'équipe à domicile

PTS_away : Nombre de points dans le match de l'équipe à l'exterieur

HOME_TEAM_WINS : Valeur booléenne qui si l'équipe à domicile à gagné le match (1) ou non (0)

#### 2) NBA Database, Wyatt Walsh (Kaggle). Lien : https://www.kaggle.com/datasets/wyattowalsh/basketball

person_id : Identifiant de chaque joueur

first_name : Prénom du joueur

last_name : Nom du joueur

birthdate : Date d'anniversaire

school : L'université de laquelle le joueur vient

height : La taille du joueur

position : Sa position

team_id : L'identifiant de son équipe

team_name : Le nom de son équipe

team_city : Ville de son équipe

team_abbreviation : L'abréviation de son équipe

draft_year : L'année de draft du joueur

draft_round : Le tour auquel le joueur a été drafté



# Partie 1 : Préprocessing des données

In [None]:
import pandas as pd
pd.set_option("display.max_rows", None) # Afficher toutes les lignes
pd.set_option("display.max_columns", None) # Afficher toutes les colonnes

In [None]:
# Import the dataset of players

players = pd.read_csv("./csv_datasets/Players.csv")
players = players[["person_id", "first_name", "last_name", "birthdate", "school", "height", "position", "team_id", "team_name", "team_city", "team_abbreviation", "draft_year", "draft_round"]]
players.info()

In [None]:
# Import the Dataset games
games = pd.read_csv("./csv_datasets/Games.csv")
games = games[["GAME_DATE_EST", "GAME_ID", "HOME_TEAM_ID", "VISITOR_TEAM_ID", "SEASON", "PTS_home", "PTS_away", "HOME_TEAM_WINS"]]
games.info()

In [None]:
games.dropna(inplace=True)
games.info()

In [None]:
players.dropna(inplace=True)
players.info()


In [None]:
players["team_id"].nunique()    

In [None]:
# Sets de team_id présents dans games
games_teams = set(games["HOME_TEAM_ID"].unique()).union(set(games["VISITOR_TEAM_ID"].unique()))

# Filtrer players pour ne garder que les team_id présents dans games
players_cleaned = players[players["team_id"].isin(games_teams)]

# Remplacer les valeurs "undrafted" par None dans la colonne draft_round
players_cleaned["draft_round"] = players_cleaned["draft_round"].replace("Undrafted", "-1")

# Convertir la colonne birthday en datetime
players_cleaned["birthdate"] = pd.to_datetime(players_cleaned["birthdate"])

# Sauvegarder si besoin
players_cleaned.to_csv("players_cleaned.csv", index=False)

In [None]:
players = pd.read_csv("players_cleaned.csv")

In [None]:
# Extraire les colonnes équipe depuis player.csv
teams_from_players = players[["team_id", "team_name", "team_city", "team_abbreviation"]].drop_duplicates()

# Extraire les équipes présentes dans game.csv
home_teams = games[["HOME_TEAM_ID"]].rename(columns={"HOME_TEAM_ID": "team_id"})
visitor_teams = games[["VISITOR_TEAM_ID"]].rename(columns={"VISITOR_TEAM_ID": "team_id"})
teams_from_games = pd.concat([home_teams, visitor_teams]).drop_duplicates()

# Fusionner pour avoir toutes les équipes
teams = pd.merge(teams_from_games, teams_from_players, on="team_id", how="left")

# Sauvegarder en CSV
teams_unique = teams.groupby("team_id").agg(lambda x: x.mode()[0]).reset_index()
teams_unique.to_csv("team.csv", index=False)


In [None]:
games.columns

In [None]:
game = pd.read_csv("./csv_datasets/Games.csv")

In [None]:
game.isna().sum() 

In [None]:
player = pd.read_csv("./csv_datasets/player.csv")


In [None]:
players.isna().sum()

In [None]:
player.isna().sum()

In [None]:
games.isna().sum()

In [None]:
player.head()

In [None]:
games.to_csv("games_cleaned.csv", index=False)
players.to_csv("players_cleaned.csv", index=False)

# Part 2 : Conversion de CSV à RDF

L'objectif de cette partie est de definir un graphe RDF noté g, qui va capturer toutes les données de nos tables csv Games, Players et Teams qui seront représentées en RDF comme des classes ayant des propriétés.

Chaque individu aura un identifiant unique appelé URI formé de l'url du namespace et de son id unique, et des valeurs des propriétés de sa classe

In [None]:
games.info()
games.head()

In [None]:
players.info()
players.head()

In [None]:
players["birthdate"] = pd.to_datetime(players["birthdate"])

In [None]:
teams_unique.info()

In [None]:
# Definir un namespace pour notre graphe
NBA = Namespace("https://example.org/nba/")

# Créer un graphe RDF
g = Graph()

# Ajouter des namespaces au graphe
g.bind("nba", NBA)
g.bind("rdf", RDF)
g.bind("xsd", XSD)

# Ajouter des équipes au graphe
for _, row in teams_unique.iterrows():
    # Definir l'URI de l'équipe
    teams_uri = URIRef(NBA[f"{row["team_id"]}"]) 
    
    # Ajouter le type de l'équipe
    g.add((teams_uri, RDF.type, NBA.Team)) 
    
    # Ajouter les propriétés de l'équipe
    g.add((teams_uri, NBA.teamName, Literal(row["team_name"], datatype=XSD.string))) # Ajouter le nom de l'équipe
    g.add((teams_uri, NBA.teamCity, Literal(row["team_city"], datatype=XSD.string))) # Ajouter la ville de l'équipe
    g.add((teams_uri, NBA.teamAbbreviation, Literal(row["team_abbreviation"], datatype=XSD.string))) # Ajouter l'abréviation de l'équipe
    

In [None]:
# Ajout des joueurs au graphe
for _, row in players.iterrows():
    # Definir l'URI du joueur
    player_uri = URIRef(NBA[f"{row["person_id"]}"])
    
    # Ajouter le type du joueur
    g.add((player_uri, RDF.type, NBA.Player))
    
    # Ajouter les propriétés du joeur
    g.add((player_uri, NBA.firstName, Literal(row["first_name"], datatype=XSD.string))) # Ajouter le prénom du joueur
    g.add((player_uri, NBA.lastName, Literal(row["last_name"], datatype=XSD.string))) # Ajouter le nom du joueur
    g.add((player_uri, NBA.birthdate, Literal(row["birthdate"], datatype=XSD.date))) # Ajouter la date de naissance du joueur
    g.add((player_uri, NBA.school, Literal(row["school"], datatype=XSD.string))) # Ajouter l'école du joueur
    g.add((player_uri, NBA.height, Literal(row["height"], datatype=XSD.string))) # Ajouter la taille du joueur
    g.add((player_uri, NBA.position, Literal(row["position"], datatype=XSD.string))) # Ajouter la position du joueur
    g.add((player_uri, NBA.draftYear, Literal(row["draft_year"], datatype=XSD.gYear))) # Ajouter l'année de draft du joueur
    g.add((player_uri, NBA.draftRound, Literal(row["draft_round"], datatype=XSD.integer))) # Ajouter le round de draft du joueur
    g.add((player_uri, NBA.playsFor, URIRef(NBA[f"{row['team_id']}"]))) # Lier le joueur à son équipe
    
    

In [None]:
# Ajout the matchs au graphe
for _, row in games.iterrows():
    # Definir l'URI du match
    game_uri = URIRef(NBA[f"{row["GAME_ID"]}"])
    
    # Ajouter le type du match
    g.add((game_uri, RDF.type, NBA.Game))
    
    # Ajouter les propriétés du match
    g.add((game_uri, NBA.gameDate, Literal(row["GAME_DATE_EST"], datatype=XSD.date))) # Ajouter la date du match
    g.add((game_uri, NBA.season, Literal(row["SEASON"], datatype=XSD.gYear))) # Ajouter la saison du match
    g.add((game_uri, NBA.homeTeam, URIRef(NBA[f"{row["HOME_TEAM_ID"]}"]))) # Ajouter l'équipe à domicile
    g.add((game_uri, NBA.visitorTeam, URIRef(NBA[f"{row["VISITOR_TEAM_ID"]}"]))) # Ajouter l'équipe à l'extérieur
    g.add((game_uri, NBA.ptsHome, Literal(row["PTS_home"], datatype=XSD.integer))) # Ajouter les points de l'équipe à domicile
    g.add((game_uri, NBA.ptsAway, Literal(row["PTS_away"], datatype=XSD.integer))) # Ajouter les points de l'équipe à l'extérieur
    g.add((game_uri, NBA.homeTeamWins, Literal(row["HOME_TEAM_WINS"], datatype=XSD.boolean))) # Ajouter si l'équipe à domicile a gagné
    

In [None]:
# Sauvegarder le graphe RDF dans un fichier Turtle
g.serialize(destination='./turtles_files/nba_graph.ttl', format='turtle')
print("RDF intégré sauvegardé dans nba_graph.ttl")

# Partie 3 : REQUETES SPARQL

Le but de cette partie est d'extraire du graphe nouvellement crée certaines informations sur nos données grace à des requetes Sparql

## Requete 1 : Afficher les pages wikipedia des équipes en fonction de leur nombre de points lors de la saison 2018

In [None]:
from SPARQLWrapper import SPARQLWrapper, JSON, XML
from rdflib import Graph

# Initialize your graph
g.parse("./turtles_files/nba_graph.ttl", format="turtle")

# Use SPARQLWrapper instead of direct SERVICE clause
query_local = """
PREFIX nba: <https://example.org/nba/>
SELECT ?teamName ?maxPoints
WHERE {
  {
    SELECT ?team (MAX(?points) AS ?maxPoints)
    WHERE {
      ?game nba:gameDate ?date ;
            (nba:homeTeam | nba:visitorTeam) ?team ;
            (nba:ptsHome | nba:ptsAway) ?points .
      FILTER(YEAR(?date) = 2018)
    }
    GROUP BY ?team
  
  }
  ?team nba:teamName ?teamName .
}
ORDER BY DESC(?maxPoints)

"""

# Execute local query first
results_local = g.query(query_local)

# Then query DBpedia separately
sparql = SPARQLWrapper("http://dbpedia.org/sparql")
sparql.setReturnFormat(JSON)

results1 = []

for row in results_local:
    team_name = str(row.teamName)
    
    # Query DBpedia for this team
    dbpedia_query = """
    PREFIX foaf: <http://xmlns.com/foaf/0.1/>
    SELECT ?dbpTeam ?wikiPage
    WHERE {
        ?dbpTeam foaf:name "%s"@en ;
                 foaf:isPrimaryTopicOf ?wikiPage .
    }
    """ % team_name.replace('"', '\\"')
    
    sparql.setQuery(dbpedia_query)
    try:
        dbpedia_results = sparql.query().convert()
        for dbp_row in dbpedia_results["results"]["bindings"]:
            results1.append({
                "teamName": team_name,
                "maxPoints": row.maxPoints,
                "wikiPage": dbp_row["wikiPage"]["value"]
            })
    except Exception as e:
        print(f"Error querying DBpedia for {team_name}: {e}")

In [None]:
print(pd.DataFrame(results1))

## Requete 2 : Afficher les joueurs qui jouent au poste de center et qui ont une équipe ou non

In [None]:
g.parse("./turtles_files/nba_graph.ttl", format="turtle")
query2 = """
SELECT ?firstname ?lastname ?playerPosition ?teamName
WHERE {
    {
        SELECT ?firstname ?lastname ?teamID ?playerPosition
        WHERE {
            ?player nba:firstName ?firstname ; 
                    nba:lastName ?lastname ; 
                    nba:position ?playerPosition ; 
                    nba:playsFor ?teamID .
            FILTER(?playerPosition="Center")
        }
    }
   OPTIONAL{?teamID nba:teamName ?teamName} .
}
"""
results2 = g.query(query2)


In [None]:
# Show the results
for row in results2:
    print(f"{row.firstname} {row.lastname} - Position: {row.playerPosition} - Team: {row.teamName}")

## Requete 3 : Afficher tous les joueurs qui n'ont pas étudié à l'université de californie

In [None]:
query3 = """
PREFIX nba: <https://example.org/nba/>

SELECT ?firstname ?lastname ?school
WHERE {
  ?player nba:firstName ?firstname ;
          nba:lastName ?lastname ;
          nba:school ?school .

  FILTER ( !CONTAINS(LCASE(STR(?school)), "chicago") )
}

"""
results3 = g.query(query3)

In [None]:
# Show the results
for row in results3:
    print(f"{row.firstname} {row.lastname} - School: {row.school}")

## Requete 4 : Afficher les équipes qui n'ont pas pour villes : Utah et New Orleans (résultat attendu: 28)

In [None]:
query4="""
PREFIX nba: <https://example.org/nba/>

SELECT DISTINCT ?teamName ?teamCity
WHERE {
  ?team nba:teamName ?teamName ;
        nba:teamCity ?teamCity .

  MINUS { ?team nba:teamCity "Utah" . }
  MINUS { ?team nba:teamCity "New Orleans" . }
}

"""
results4 = g.query(query4)

In [None]:
# Show the results
for row in results4:
    print(f"Team Name : {row.teamName} - Team City: {row.teamCity}")

# Requete 5 : Afficher les équipes qui ont joué 100 matchs ou plus lors de la saison 2020

In [None]:
query5 = """
PREFIX nba: <https://example.org/nba/>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

SELECT ?team ?teamName (COUNT(?game) AS ?nbMatchs)
WHERE {
  ?game (nba:homeTeam | nba:visitorTeam) ?team ;
        nba:season ?seasonRaw .

  # Conversion de la saison en entier
  BIND(STRDT(STR(?seasonRaw), xsd:integer) AS ?season)

  FILTER(?season = 2017)

  ?team nba:teamName ?teamName .
}
GROUP BY ?team ?teamName
HAVING (COUNT(?game) >= 100)
ORDER BY DESC(?nbMatchs)
"""
results5 = g.query(query5)

In [None]:
# Show the results
for row in results5:
    print(f"Team ID : {row.team} - Team Name : {row.teamName} - Number of game: {row.nbMatchs}")

# Requete 6 : Matchs où l'équipe à domicile a gagné

In [None]:
query6 = """
PREFIX nba: <https://example.org/nba/>

SELECT ?game
WHERE {
  ?game a nba:Game ;
        nba:homeTeamWins 1 .
}


"""
results6 = g.query(query6)


In [None]:
# Show the results
for row in results6:
    print(f"Team ID : {row.game} ")

# 4-inférence: Schéma dans schema_rdfs.ttl et inférence avec la librairie owlrl

In [None]:
!pip install owlrl


In [None]:
from rdflib import Graph
from owlrl import RDFSClosure
from owlrl.AxiomaticTriples import RDFS_Axiomatic_Triples, RDFS_D_Axiomatic_Triples

DATA_TTL = "./turtles_files/nba_graph.ttl"
SCHEMA_TTL = "./turtles_files/schema_rdfs_complet.ttl"

 
g_base = Graph()
g_base.parse(DATA_TTL, format="turtle")
g_base.parse(SCHEMA_TTL, format="turtle")

 
g_inf = Graph()
for t in g_base:
    g_inf.add(t)

RDFSClosure.RDFS_Semantics(g_inf, RDFS_Axiomatic_Triples, RDFS_D_Axiomatic_Triples).closure()





# Vérifier qu'il y a de nouveaux triplets 

In [None]:
print("Triples RAW:", len(g_base))
print("Triples INF:", len(g_inf))
print("Triples ajoutés:", len(g_inf) - len(g_base))

# Tester les inférences via des requêtes

In [None]:
def run_query(title: str, query: str, limit_rows: int = 10):
    print(f"\n===== {title} =====")
    print("---- base ----")
    raw_res = list(g_base.query(query))
    if not raw_res:
        print("(aucun résultat)")
    else:
        for i, row in enumerate(raw_res[:limit_rows], start=1):
            print(f"{i}. {row}")
        if len(raw_res) > limit_rows:
            print(f"... ({len(raw_res)} lignes au total)")

    print("---- INF ----")
    inf_res = list(g_inf.query(query))
    if not inf_res:
        print("(aucun résultat)")
    else:
        for i, row in enumerate(inf_res[:limit_rows], start=1):
            print(f"{i}. {row}")
        if len(inf_res) > limit_rows:
            print(f"... ({len(inf_res)} lignes au total)")

 

queries = [
    (
        "Q1 - subPropertyOf : compter involvesTeam (attendu RAW=0, INF>0)",
        """
        PREFIX nba: <https://example.org/nba/>
        SELECT (COUNT(*) AS ?n)
        WHERE {
          ?g a nba:Game ;
             nba:involvesTeam ?t .
        }
        """,
        10
    ),
    (
        "Q2 - subPropertyOf : afficher quelques triples inférés involvesTeam",
        """
        PREFIX nba: <https://example.org/nba/>
        SELECT ?game ?team
        WHERE {
          ?game a nba:Game ;
                nba:involvesTeam ?team .
        }
        LIMIT 10
        """,
        10
    ),
    (
        "Q3 - subClassOf : compter les Person (Player => Person)",
        """
        PREFIX nba: <https://example.org/nba/>
        SELECT (COUNT(DISTINCT ?p) AS ?n)
        WHERE { ?p a nba:Person . }
        """,
        10
    ),
    (
        "Q4 - subClassOf : joueurs qui sont à la fois Player et Person (preuve)",
        """
        PREFIX nba: <https://example.org/nba/>
        SELECT ?player
        WHERE {
          ?player a nba:Player ;
                  a nba:Person .
        }
        LIMIT 10
        """,
        10
    ),
    (
        "Q5 - domain : playsFor => Player (si domain défini sur playsFor)",
        """
        PREFIX nba: <https://example.org/nba/>
        SELECT (COUNT(DISTINCT ?p) AS ?n)
        WHERE {
          ?p nba:playsFor ?t .
          ?p a nba:Player .
        }
        """,
        10
    ),
    (
        "Q6 - range : playsFor => Team (si range défini sur playsFor)",
        """
        PREFIX nba: <https://example.org/nba/>
        SELECT (COUNT(DISTINCT ?t) AS ?n)
        WHERE {
          ?p nba:playsFor ?t .
          ?t a nba:Team .
        }
        """,
        10
    ),
    (
        "Q7 - combiné : équipes impliquées dans des matchs (via involvesTeam inféré)",
        """
        PREFIX nba: <https://example.org/nba/>
        SELECT DISTINCT ?team
        WHERE {
          ?game a nba:Game ;
                nba:involvesTeam ?team .
        }
        LIMIT 10
        """,
        10
    ),
]
 
for title, q, lim in queries:
    run_query(title, q, limit_rows=lim)

 
