# üöÄ Pipeline RDF + LLM: Analyse de Knowledge Graphs avec Ollama

Ce notebook d√©montre l'utilisation de la pipeline pour interroger des knowledge graphs RDF avec un LLM open source.

---

## üìã Table des mati√®res

1. [Installation et Configuration](#installation)
2. [Chargement d'un Knowledge Graph](#chargement)
3. [Analyse Statistique](#statistiques)
4. [Interrogation avec le LLM](#interrogation)
5. [Exemples d'Analyses](#exemples)
6. [Export des R√©sultats](#export)

---
## 1. Installation et Configuration {#installation}

### Pr√©requis
- Python 3.8+
- Ollama install√© et en cours d'ex√©cution
- Biblioth√®ques: `rdflib`, `requests`

In [None]:
# Installation des d√©pendances (si n√©cessaire)
# !pip install rdflib requests

In [1]:
# Imports
import sys
sys.path.append('../src')

from rdf_llm import RDFLLMPipeline
import json
from IPython.display import display, Markdown, JSON

In [4]:
# Configuration
RDF_FILE = "../data/HorseKnowledgeGraphBis.rdf"  # Changez selon votre fichier
OLLAMA_MODEL = "llama3.2"  # Changez selon le mod√®le disponible

print(f"üìÅ Fichier RDF: {RDF_FILE}")
print(f"ü§ñ Mod√®le LLM: {OLLAMA_MODEL}")

üìÅ Fichier RDF: ../data/HorseKnowledgeGraphBis.rdf
ü§ñ Mod√®le LLM: llama3.2


---
## 2. Chargement d'un Knowledge Graph {#chargement}

In [5]:
# Initialiser la pipeline
pipeline = RDFLLMPipeline(RDF_FILE, OLLAMA_MODEL)

# Charger le fichier RDF
success = pipeline.load_rdf()

if success:
    display(Markdown("### ‚úÖ Fichier RDF charg√© avec succ√®s!"))
else:
    display(Markdown("### ‚ùå Erreur lors du chargement"))

üìÇ Chargement du fichier RDF: ../data/HorseKnowledgeGraphBis.rdf
‚úÖ Graph charg√© avec succ√®s: 494 triples


### ‚úÖ Fichier RDF charg√© avec succ√®s!

---
## 3. Analyse Statistique {#statistiques}

In [6]:
# Obtenir les statistiques du graph
stats = pipeline.get_graph_statistics()

display(Markdown("### üìä Statistiques du Knowledge Graph"))
display(JSON(stats))

### üìä Statistiques du Knowledge Graph

<IPython.core.display.JSON object>

In [7]:
# Afficher les classes pr√©sentes
classes = pipeline.get_all_classes()

display(Markdown("### üè∑Ô∏è Classes dans le graph"))
for cls in classes:
    print(f"  - {cls}")

### üè∑Ô∏è Classes dans le graph

  - http://www.w3.org/2002/07/owl#NamedIndividual
  - http://www.w3.org/2002/07/owl#Class
  - http://www.w3.org/2002/07/owl#Restriction
  - http://www.semanticweb.org/noamaadra/ontologies/2024/2/Horses#Cheval
  - http://www.w3.org/2002/07/owl#ObjectProperty
  - http://www.w3.org/2002/07/owl#AllDisjointClasses
  - http://www.semanticweb.org/noamaadra/ontologies/2024/2/Horses#CapteursInterielles
  - http://www.semanticweb.org/noamaadra/ontologies/2024/2/Horses#DetectionFatigue
  - http://www.w3.org/2002/07/owl#DatatypeProperty
  - http://www.w3.org/2002/07/owl#Ontology


In [8]:
# Afficher les pr√©dicats (relations)
predicates = pipeline.get_all_predicates()

display(Markdown("### üîó Relations dans le graph"))
for pred in predicates[:10]:  # Afficher les 10 premiers
    print(f"  - {pred}")

### üîó Relations dans le graph

  - http://www.w3.org/2000/01/rdf-schema#range
  - http://www.w3.org/2002/07/owl#onProperty
  - http://www.w3.org/1999/02/22-rdf-syntax-ns#type
  - http://www.w3.org/2002/07/owl#members
  - http://www.semanticweb.org/noamaadra/ontologies/2024/2/Horses#hasSensorID
  - http://www.w3.org/1999/02/22-rdf-syntax-ns#first
  - http://www.w3.org/1999/02/22-rdf-syntax-ns#rest
  - http://www.w3.org/2000/01/rdf-schema#domain
  - http://www.w3.org/2000/01/rdf-schema#comment
  - http://www.w3.org/2002/07/owl#someValuesFrom


In [9]:
# √âchantillon de triples
triples = pipeline.extract_triples_sample(limit=15)

display(Markdown("### üìã √âchantillon de triples"))
print(pipeline.format_triples_for_llm(triples))

### üìã √âchantillon de triples

- N90e48781452c4b71900ec87f26adb98d --[members]--> Nf19ec197433b47f883caa6931a9ee539
- Nce920695b43d4627961673df7b4b80ad --[type]--> Restriction
- ImageName --[subPropertyOf]--> ImageProperty
- N61183214f9364284a272642cf8e7f53a --[members]--> N82a3022fd18e4d5db280fcac07e86dce
- Ne53a1b12a9024e86825aa8ec447c256c --[first]--> IndicateurBienetre
- Horse1 --[type]--> Cheval
- RootMeanSquareDeviation --[subClassOf]--> KinematicIndiactors
- Acceleration --[type]--> Class
- Frequency --[subPropertyOf]--> TrainingProperty
- HealthProperty --[type]--> DatatypeProperty
- Nd39cbebc2ed24f6ebf81ae221785d053 --[first]--> V√©t√©rinaire
- hasSensorID --[domain]--> CapteursInterielles
- N9736a5bad9bf41d5b2201a1c213cbd8d --[rest]--> N9a08765c7140413a80f714133cfb55d1
- N017506995bb04a239b66219e2dcbb29f --[first]--> CognitionEquine
- N9fd94479299f47a3892c3ce994f1f752 --[type]--> Restriction


---
## 4. Interrogation avec le LLM {#interrogation}

### 4.1 Analyse Automatique

In [10]:
# Analyse automatique du graph
display(Markdown("### ü§ñ Analyse automatique par le LLM"))

response = pipeline.analyze_graph_with_llm(
    custom_question="Analyse ce knowledge graph et donne-moi un r√©sum√© des concepts principaux et des relations.",
    limit=50
)

display(Markdown(f"**R√©ponse:**\n\n{response}"))

### ü§ñ Analyse automatique par le LLM


ü§ñ Interrogation du mod√®le llama3.2...


**R√©ponse:**

Excellente question !

Apr√®s avoir analys√© le knowledge graph, je peux vous fournir un r√©sum√© des concepts principaux et des relations suivants :

**Concepts Principaux :**

1. **Cheval** (Horse1) est un concept qui appara√Æt dans plusieurs contextes, notamment en relation avec les propri√©t√©s de bien-√™tre et les performances.
2. **Indicateur de Bien-√™tre** (Ne53a1b12a9024e86825aa8ec447c256c) est un concept qui permet de mesurer le niveau de bien-√™tre d'un cheval.
3. **Epreuve Sportive** (SoundOfWelfare, EpreuveSportive) est un concept qui relate les performances des chevaux dans des comp√©titions.
4. **Capteurs Interieilles** (Sensor1, hasSensorID) sont des concepts qui permettent de mesurer les param√®tres physiques d'un cheval, tels que la fr√©quence cardiaque ou la temp√©rature corporelle.
5. **Kin√©matique Indicateurs** (RootMeanSquareDeviation, Gyroscope) sont des concepts qui permettent de mesurer les performances kin√©tiques du cheval.

**Relations :**

1. **SubPropertyOf** : plusieurs relations entre les propri√©t√©s des chevaux et leurs indicateurs de bien-√™tre (e.g., hasTimestamp -> ImageProperty).
2. **DisjointWith** : une relation qui relie les concepts de Kin√©matique Indicateurs et PhysiologicalIndicators.
3. **SubClassOf** : relations qui connectent les classes d'indicateurs de bien-√™tre aux classes plus sp√©cifiques (e.g., IndicateurBienetre -> CognitionEquine).
4. **someValuesFrom** : relations qui lient des concepts √† plusieurs valeurs (e.g., N6d13461210b34bbc9c1c54de04d02a55 -> EpreuveSportive).
5. **Domain** : relation qui relie les propri√©t√©s des capteurs interieilles aux domaines d'application (e.g., hasSensorID -> CapteursInterielles).

En r√©sum√©, ce knowledge graph pr√©sente une structure complexe avec plusieurs concepts et relations qui lient entre eux les informations sur les chevaux, leurs performances et leurs indicateurs de bien-√™tre. Les relations subPropertyOf, disjointWith, subClassOf, someValuesFrom et domain sont essentielles pour comprendre la relation entre ces concepts.

### 4.2 Questions Personnalis√©es

In [11]:
# Question 1: Types d'entit√©s
display(Markdown("#### Question 1: Quels types d'entit√©s sont pr√©sents?"))

response1 = pipeline.analyze_graph_with_llm(
    "Quels types d'entit√©s sont pr√©sents dans ce graph? Liste-les avec leur nombre approximatif."
)

print(response1)

#### Question 1: Quels types d'entit√©s sont pr√©sents?


ü§ñ Interrogation du mod√®le llama3.2...
Bonjour !

En analysant le graph de connaissance RDF que vous avez fourni, je peux identifier les types d'entit√©s pr√©sentes dans ce graph. Voici une liste approximative des entit√©s et leurs types :

1. **Individus** (ou "NamedIndividuals") : 187
 * Ces entit√©s sont repr√©sent√©es par des noms de format `N` suivi d'une s√©quence de caract√®res alphanum√©riques, comme par exemple `N90e48781452c4b71900ec87f26adb98d`.
2. **Classes** (ou "DatatypeProperties" et "Class") : 14
 * Ces entit√©s sont repr√©sent√©es par des noms de format `C` suivi d'une s√©quence de caract√®res alphanum√©riques, comme par exemple `Cheval`, `IndicateurBienetre` ou `EpreuveSportive`.
3. **Properties** (ou "subPropertyOf", "domain" et "range") : 14
 * Ces entit√©s sont repr√©sent√©es par des noms de format `P` suivi d'une s√©quence de caract√®res alphanum√©riques, comme par exemple `hasSensorID`, `ImageName` ou `TrainingProperty`.
4. **Restrictions** (ou "Restriction" 

In [12]:
# Question 2: Relations principales
display(Markdown("#### Question 2: Quelles sont les relations principales?"))

response2 = pipeline.analyze_graph_with_llm(
    "Quelles sont les relations les plus importantes dans ce graph? Explique leur signification."
)

print(response2)

#### Question 2: Quelles sont les relations principales?


ü§ñ Interrogation du mod√®le llama3.2...
Bonjour ! En analysant le knowledge graph que vous avez fourni, je vais essayer de identifier les relations les plus importantes et expliquer leur signification.

1. **SubPropertyOf** : Cette relation indique une relation de sous-partie pour une relation sp√©cifique. Par exemple, `hasTimestamp` est un sous-partial de `ImageProperty`. Il s'agit d'une relation typique dans les graphes RDF, o√π une propri√©t√© peut √™tre une combinaison de plusieurs propri√©t√©s.
2. **SubClassOf** : Cette relation indique que l'un des objets est un sous-classe de l'autre objet. Par exemple, `Gyroscope` est un sous-prototype de `SensorMeasurements`. Il s'agit d'une relation importante pour les graphes RDF, car elle permet de hi√©rarchiser les objets et de d√©finir leurs relations avec les autres objets.
3. **DisjointWith** : Cette relation indique que deux ou plusieurs objets ne partagent aucune propri√©t√© commune. Par exemple, `KinematicIndiactors` et `Physiolog

In [13]:
# Question 3: Structure du domaine
display(Markdown("#### Question 3: Quel est le domaine repr√©sent√©?"))

response3 = pipeline.analyze_graph_with_llm(
    "Quel domaine ou secteur ce knowledge graph semble-t-il repr√©senter? Justifie ta r√©ponse."
)

print(response3)

#### Question 3: Quel est le domaine repr√©sent√©?


ü§ñ Interrogation du mod√®le llama3.2...
D'apr√®s les triples fournies, il est difficile de d√©terminer avec certitude le domaine ou le secteur repr√©sent√© par le knowledge graph. Cependant, certains √©l√©ments sugg√®rent que cela pourrait √™tre li√© √† l'√©quitation ou aux chevaux.

Voici quelques raisons qui pourraient soutenir cette hypoth√®se :

1. **Pr√©sence de termes sp√©cifiques** : Des termes tels que "Horse", "Cheval", "Elevage", "Withers", "QualiteDeplacement" et "RaceAndCare" sont pr√©sents dans le knowledge graph, ce qui sugg√®re une connaissance ou une repr√©sentation sp√©cifique d'un domaine li√© √† l'√©quitation.
2. **Pr√©sence de propri√©t√©s et de relations** : Des propri√©t√©s telles que "hasName", "hasLocation", "hasFormat" et des relations telles que "subClassOf", "disjointWith" sont pr√©sentes, ce qui sugg√®re une repr√©sentation structur√©e d'un domaine avec ses propres concepts et relations.
3. **Pr√©sence de termes li√©s √† la performance et aux indicateurs*

---
## 5. Exemples d'Analyses Avanc√©es

### 5.1 Extraction d'informations sp√©cifiques

In [14]:
# Requ√™te SPARQL pour extraire des informations sp√©cifiques
sparql_query = """
SELECT ?subject ?predicate ?object
WHERE {
    ?subject ?predicate ?object .
}
LIMIT 10
"""

results = pipeline.query_sparql(sparql_query)

display(Markdown("### üîç R√©sultats de requ√™te SPARQL"))
for row in results:
    print(f"{row[0]} -> {row[1]} -> {row[2]}")

### üîç R√©sultats de requ√™te SPARQL

N90e48781452c4b71900ec87f26adb98d -> http://www.w3.org/2002/07/owl#members -> Nf19ec197433b47f883caa6931a9ee539
Nce920695b43d4627961673df7b4b80ad -> http://www.w3.org/1999/02/22-rdf-syntax-ns#type -> http://www.w3.org/2002/07/owl#Restriction
http://www.semanticweb.org/noamaadra/ontologies/2024/2/Horses#ImageName -> http://www.w3.org/2000/01/rdf-schema#subPropertyOf -> http://www.semanticweb.org/noamaadra/ontologies/2024/2/Horses#ImageProperty
N61183214f9364284a272642cf8e7f53a -> http://www.w3.org/2002/07/owl#members -> N82a3022fd18e4d5db280fcac07e86dce
Ne53a1b12a9024e86825aa8ec447c256c -> http://www.w3.org/1999/02/22-rdf-syntax-ns#first -> http://www.semanticweb.org/noamaadra/ontologies/2024/2/Horses#IndicateurBienetre
http://www.semanticweb.org/noamaadra/ontologies/2024/2/Horses#Horse1 -> http://www.w3.org/1999/02/22-rdf-syntax-ns#type -> http://www.semanticweb.org/noamaadra/ontologies/2024/2/Horses#Cheval
http://www.semanticweb.org/noamaadra/ontologies/2024/2/Horses#RootMeanSquareDev

### 5.2 Analyse comparative

In [15]:
# Poser une question comparative au LLM
display(Markdown("#### Analyse comparative des entit√©s"))

response_comparative = pipeline.analyze_graph_with_llm(
    "Compare les diff√©rentes entit√©s de ce graph. Quelles sont leurs similarit√©s et diff√©rences?",
    limit=80
)

print(response_comparative)

#### Analyse comparative des entit√©s


ü§ñ Interrogation du mod√®le llama3.2...
Analysons le graph RDF fournies pour comprendre les diff√©rentes entit√©s, leurs similarit√©s et diff√©rences.

**Entit√©s principales**

Les entit√©s principales du graph sont :

* **IndicateurBienetre**, **Cheval**, **DatatypeProperty**, **Class**, **N51477ab7a7d8474abe4b6f25b9451094**, **Entrainnement**, **Etude**, **CapteursInterielles**, **KinematicIndiactors**

**Similarit√©s**

* Les entit√©s **IndicateurBienetre**, **Cheval**, **DatatypeProperty**, **Class**, sont des concepts g√©n√©raux qui apparaissent dans diff√©rents domaines (sant√©, √©quitation, etc.).
* Les entit√©s **Entrainnement** et **Etude** sont li√©es aux domaines de la recherche et de l'analyse.
* Les entit√©s **CapteursInterielles**, **KinematicIndiactors**, sont des concepts sp√©cifiques √† un domaine (sant√©, √©quitation, etc.).

**Diff√©rences**

* Les entit√©s **DatatypeProperty** et **Class** sont diff√©rentes en termes de nature (un est une propri√©t√© de type dat

### 5.3 D√©tection de patterns

In [None]:
# Demander au LLM de d√©tecter des patterns
display(Markdown("#### D√©tection de patterns et structures"))

response_patterns = pipeline.analyze_graph_with_llm(
    "Y a-t-il des patterns ou structures r√©currents dans ce graph? Identifie-les et explique leur importance.",
    limit=100
)

print(response_patterns)

---
## 6. Export des R√©sultats {#export}

In [16]:
# Exporter les statistiques en JSON
output_file = "../data/graph_analysis_results.json"
stats_complete = pipeline.export_statistics(output_file)

display(Markdown(f"### üíæ Statistiques export√©es vers: `{output_file}`"))

‚úÖ Statistiques export√©es: ../data/graph_analysis_results.json


### üíæ Statistiques export√©es vers: `../data/graph_analysis_results.json`

In [17]:
# Cr√©er un rapport r√©capitulatif
report = {
    "fichier_rdf": RDF_FILE,
    "modele_llm": OLLAMA_MODEL,
    "statistiques": stats,
    "nombre_classes": len(classes),
    "nombre_predicats": len(predicates),
    "analyses_effectuees": [
        "Analyse automatique",
        "Types d'entit√©s",
        "Relations principales",
        "Domaine repr√©sent√©",
        "Analyse comparative",
        "D√©tection de patterns"
    ]
}

display(Markdown("### üìÑ Rapport R√©capitulatif"))
display(JSON(report, expanded=True))

### üìÑ Rapport R√©capitulatif

<IPython.core.display.JSON object>

In [18]:
# Sauvegarder le rapport
report_file = "../data/analysis_report.json"
with open(report_file, 'w', encoding='utf-8') as f:
    json.dump(report, f, indent=2, ensure_ascii=False)

print(f"‚úÖ Rapport sauvegard√©: {report_file}")

‚úÖ Rapport sauvegard√©: ../data/analysis_report.json
