# TD1: Introduction et Recherche Booléenne sur les Fables de La Fontaine

### Corpus des fables
- **Le Corbeau et le Renard :** Un corbeau tient un fromage dans son bec. Un renard rusé le flatte pour le tromper et lui faire lâcher son repas.
- **Le Renard et le Bouc :** Un renard et un bouc tombent dans un puits. Le renard parvient à tromper le bouc pour s’en sortir, puis l’abandonne au fond.  
- **Le Loup et l’Agneau :** Un loup cherche un prétexte pour faire de l’agneau innocent son repas. 
- **Le Renard et la Cigogne :** Un renard invite une cigogne à dîner mais lui sert un repas inadapté ; la cigogne se venge de la même manière. 
- **Le Loup devenu Berger :** Un loup se déguise en berger pour tromper les moutons, mais il est vite démasqué et puni.

### Termes
- corbeau, renard, cigogne, bouc, loup, berger, fromage, repas, tromper

## 1. Matrice d'incidence

### Construction de la matrice d'incidence

| Terme     | Doc1 | Doc2 | Doc3 | Doc4 | Doc5 |
|-----------|------|------|------|------|------|
| corbeau   | 1    | 0    | 0    | 0    | 0    |
| renard    | 1    | 1    | 0    | 1    | 0    |
| cigogne   | 0    | 0    | 0    | 1    | 0    |
| bouc      | 0    | 1    | 0    | 0    | 0    |
| loup      | 0    | 0    | 1    | 0    | 1    |
| berger    | 0    | 0    | 0    | 0    | 1    |
| fromage   | 1    | 0    | 0    | 0    | 0    |
| repas     | 1    | 0    | 1    | 1    | 0    |
| tromper   | 1    | 1    | 0    | 0    | 1    |

### Réponse des requêtes

1. renard ∨ loup

| Terme     | Doc1 | Doc2 | Doc3 | Doc4 | Doc5 |
|-----------|------|------|------|------|------|
| renard    | 1    | 1    | 0    | 1    | 0    |
| loup      | 0    | 0    | 1    | 0    | 1    |
| **résultat**   | **1**    | **1**    | **1**    | **1**    | **1**    |

2. renard ∧ tromper

| Terme     | Doc1 | Doc2 | Doc3 | Doc4 | Doc5 |
|-----------|------|------|------|------|------|
| renard    | 1    | 1    | 0    | 1    | 0    |
| tromper   | 1    | 1    | 0    | 0    | 1    |
| **résultat**   | **1**    | **1**    | **0**    | **0**    | **0**    |

3. corbeau ∨ berger

| Terme     | Doc1 | Doc2 | Doc3 | Doc4 | Doc5 |
|-----------|------|------|------|------|------|
| corbeau   | 1    | 0    | 0    | 0    | 0    |
| berger    | 0    | 0    | 0    | 0    | 1    |
| **résultat**   | **1**    | **0**    | **0**    | **0**    | **1**    |

4. repas ∧ ¬ cigogne

| Terme     | Doc1 | Doc2 | Doc3 | Doc4 | Doc5 |
|-----------|------|------|------|------|------|
| repas     | 1    | 0    | 1    | 1    | 0    |
| cigogne   | 0    | 0    | 0    | 1    | 0    |
| ¬ cigogne | 1    | 1    | 1    | 0    | 1    |
| **résultat**   | **1**    | **0**    | **0**    | **0**    | **0**    |

Une requête qui permettrait d’exclure toutes les fables où un personnage est trompé par un autre : ¬ tromper 


| Terme     | Doc1 | Doc2 | Doc3 | Doc4 | Doc5 |
|-----------|------|------|------|------|------|
| tromper   | 1    | 1    | 0    | 0    | 1    |
| **résultat**   | **0**    | **0**    | **1**    | **1**    | **0**    |


## 3. Codage en Python

In [6]:
import numpy as np
import pandas as pd
import string
from collections import defaultdict
from typing import DefaultDict, Dict, Set, Any

# Corpus
fables = {
    "Le Corbeau et le Renard": "Un corbeau tient un fromage dans son bec. Un renard rusé le flatte pour le tromper et lui faire lâcher son repas.",
    "Le Renard et le Bouc": "Un renard et un bouc tombent dans un puits. Le renard parvient à tromper le bouc pour s’en sortir, puis l’abandonne au fond.",
    "Le Loup et l’Agneau": "Un loup cherche un prétexte pour faire de l’agneau innocent son repas.",
    "Le Renard et la Cigogne": "Un renard invite une cigogne à dîner mais lui sert un repas inadapté ; la cigogne se venge de la même manière.",
    "Le Loup devenu Berger": "Un loup se déguise en berger pour tromper les moutons, mais il est vite démasqué et puni."
}

# Termes
termes = ["corbeau", "renard", "cigogne", "bouc", "loup", "berger", "fromage", "repas", "tromper"]

# Fonction pour enlever la ponctuation et tout mettre en minuscules
def nettoyer_texte(texte: str) -> str:
    """
    Nettoie un texte en enlevant la ponctuation et en mettant tous les caractères en minuscules.

    :param texte: Le texte à nettoyer.
    :return: Le texte nettoyé sans ponctuation et en minuscules.
    """
    ponctuation = string.punctuation
    for p in ponctuation:
        texte = texte.replace(p, "")
    return texte.lower()

### Matrice d'incidence

In [8]:
# Construire de la matrice d'incidence
matrice_incidence = np.zeros((len(termes), len(fables)), dtype=int)
document_ids = {j: f"Doc{j+1}" for j in range(len(fables))}

# Remplir la matrice d'incidence
for j, (titre, resume) in enumerate(fables.items()):
    resume_propre = nettoyer_texte(resume)
    for i, terme in enumerate(termes):
        if terme in resume_propre:
            matrice_incidence[i, j] = 1

# Afficher la matrice d'incidence à l'aide d'un DataFrame
matrice_incidence_df = pd.DataFrame(matrice_incidence, index=termes, columns=document_ids.values())
print(matrice_incidence_df)

         Doc1  Doc2  Doc3  Doc4  Doc5
corbeau     1     0     0     0     0
renard      1     1     0     1     0
cigogne     0     0     0     1     0
bouc        0     1     0     0     0
loup        0     0     1     0     1
berger      0     0     0     0     1
fromage     1     0     0     0     0
repas       1     0     1     1     0
tromper     1     1     0     0     1


In [9]:
# Fonctions booléennes pour répondre aux requêtes à partir de la matrice d'incidence

def requete_or(row_terme1: pd.Series, row_terme2: pd.Series) -> pd.Series:
    """
    Applique l'opérateur booléen OR (∨) entre deux séries de valeurs binaires.

    :param row_terme1: Série Pandas représentant la présence (1) ou l'absence (0) d'un terme dans des documents.
    :param row_terme2: Série Pandas représentant la présence (1) ou l'absence (0) d'un autre terme dans des documents.
    :return: Série résultante de l'opération OR, convertie en entiers (pour l'affichage).
    """
    return (row_terme1 | row_terme2).astype(int)

def requete_and(row_terme1: pd.Series, row_terme2: pd.Series) -> pd.Series:
    """
    Applique l'opérateur booléen AND (∧) entre deux séries de valeurs binaires.

    :param row_terme1: Série Pandas représentant la présence (1) ou l'absence (0) d'un terme dans des documents.
    :param row_terme2: Série Pandas représentant la présence (1) ou l'absence (0) d'un autre terme dans des documents.
    :return: Série résultante de l'opération AND, convertie en entiers (pour l'affichage).
    """
    return (row_terme1 & row_terme2).astype(int)

def requete_not(row_terme: pd.Series) -> pd.Series:
    """
    Applique l'opérateur booléen NOT (¬) sur une série de valeurs binaires.

    :param row_terme1: Série Pandas représentant la présence (1) ou l'absence (0) d'un terme dans des documents.
    :return: Série résultante de l'opération NOT, convertie en entiers (pour l'affichage).
    """
    return (1 - row_terme).astype(int)

In [10]:
# Exécuter les requêtes

# 1. renard ∨ loup
q1 = requete_or(matrice_incidence_df.loc['renard'], matrice_incidence_df.loc['loup'])

# 2. renard ∧ tromper
q2 = requete_and(matrice_incidence_df.loc['renard'], matrice_incidence_df.loc['tromper'])

# 3. corbeau ∨ berger
q3 = requete_or(matrice_incidence_df.loc['corbeau'], matrice_incidence_df.loc['berger'])

# 4. repas ∧ ¬ cigogne
q4 = requete_and(matrice_incidence_df.loc['repas'], requete_not(matrice_incidence_df.loc['cigogne']))

# 5. ¬ tromper
q5 = requete_not(matrice_incidence_df.loc['tromper'])

# Affichage des résultats
print("Résultats des requêtes:")

print("1. renard ∨ loup :\n", q1.to_frame("résultat").T)
print("2. renard ∧ tromper :\n", q2.to_frame("résultat").T)
print("3. corbeau ∨ berger :\n", q3.to_frame("résultat").T)
print("4. repas ∧ ¬ cigogne :\n", q4.to_frame("résultat").T)
print("5. ¬ tromper  :\n", q5.to_frame("résultat").T)

Résultats des requêtes:
1. renard ∨ loup :
           Doc1  Doc2  Doc3  Doc4  Doc5
résultat     1     1     1     1     1
2. renard ∧ tromper :
           Doc1  Doc2  Doc3  Doc4  Doc5
résultat     1     1     0     0     0
3. corbeau ∨ berger :
           Doc1  Doc2  Doc3  Doc4  Doc5
résultat     1     0     0     0     1
4. repas ∧ ¬ cigogne :
           Doc1  Doc2  Doc3  Doc4  Doc5
résultat     1     0     1     0     0
5. ¬ tromper  :
           Doc1  Doc2  Doc3  Doc4  Doc5
résultat     0     0     1     1     0


### Index Inversé

In [12]:
from prettytable import PrettyTable

# Étape 1 : Associer chaque terme au DocID dans une liste
termes_docID = []
for doc_id, (titre, resume) in enumerate(fables.items()):
    resume_propre = nettoyer_texte(resume)
    mots = resume_propre.split()
    for mot in mots:
        termes_docID.append((mot, f"Doc{doc_id+1}"))

# Affichage stylé
table = PrettyTable()
table.field_names = ["Terme", "DocID"]
for terme, doc_id in termes_docID:
    table.add_row([terme, doc_id])

print("Etape 1 - Associer chaque terme au DocID dans une liste :")
print(table)

Etape 1 - Associer chaque terme au DocID dans une liste :
+-------------+-------+
|    Terme    | DocID |
+-------------+-------+
|      un     |  Doc1 |
|   corbeau   |  Doc1 |
|    tient    |  Doc1 |
|      un     |  Doc1 |
|   fromage   |  Doc1 |
|     dans    |  Doc1 |
|     son     |  Doc1 |
|     bec     |  Doc1 |
|      un     |  Doc1 |
|    renard   |  Doc1 |
|     rusé    |  Doc1 |
|      le     |  Doc1 |
|    flatte   |  Doc1 |
|     pour    |  Doc1 |
|      le     |  Doc1 |
|   tromper   |  Doc1 |
|      et     |  Doc1 |
|     lui     |  Doc1 |
|    faire    |  Doc1 |
|    lâcher   |  Doc1 |
|     son     |  Doc1 |
|    repas    |  Doc1 |
|      un     |  Doc2 |
|    renard   |  Doc2 |
|      et     |  Doc2 |
|      un     |  Doc2 |
|     bouc    |  Doc2 |
|   tombent   |  Doc2 |
|     dans    |  Doc2 |
|      un     |  Doc2 |
|    puits    |  Doc2 |
|      le     |  Doc2 |
|    renard   |  Doc2 |
|   parvient  |  Doc2 |
|      à      |  Doc2 |
|   tromper   |  Doc2 |
|     

In [13]:
# Étape 2 : Trier les termes dans l'ordre alphabétique
termes_docID.sort()

# Affichage stylé
table = PrettyTable()
table.field_names = ["Terme", "DocID"]
for terme, doc_id in termes_docID:
    table.add_row([terme, doc_id])

print("Etape 2 - Trier les termes dans l'ordre alphabétique :")
print(table)

Etape 2 - Trier les termes dans l'ordre alphabétique :
+-------------+-------+
|    Terme    | DocID |
+-------------+-------+
|      au     |  Doc2 |
|     bec     |  Doc1 |
|    berger   |  Doc5 |
|     bouc    |  Doc2 |
|     bouc    |  Doc2 |
|   cherche   |  Doc3 |
|   cigogne   |  Doc4 |
|   cigogne   |  Doc4 |
|   corbeau   |  Doc1 |
|     dans    |  Doc1 |
|     dans    |  Doc2 |
|      de     |  Doc3 |
|      de     |  Doc4 |
|   déguise   |  Doc5 |
|   démasqué  |  Doc5 |
|    dîner    |  Doc4 |
|      en     |  Doc5 |
|     est     |  Doc5 |
|      et     |  Doc1 |
|      et     |  Doc2 |
|      et     |  Doc5 |
|    faire    |  Doc1 |
|    faire    |  Doc3 |
|    flatte   |  Doc1 |
|     fond    |  Doc2 |
|   fromage   |  Doc1 |
|      il     |  Doc5 |
|   inadapté  |  Doc4 |
|   innocent  |  Doc3 |
|    invite   |  Doc4 |
|      la     |  Doc4 |
|      la     |  Doc4 |
|      le     |  Doc1 |
|      le     |  Doc1 |
|      le     |  Doc2 |
|      le     |  Doc2 |
|     les

In [14]:
#  Étape 3 : Construire l'index inversé avec la fréquence et la liste d'affectation
index_inverse = defaultdict(lambda: {"freq": 0, "docs": []})
for terme, doc_id in termes_docID:
    if doc_id not in index_inverse[terme]["docs"]:
        index_inverse[terme]["docs"].append(doc_id)
        index_inverse[terme]["freq"] += 1
        
# Affichage stylé
data = [(terme, info["freq"], ", ".join(info["docs"])) for terme, info in index_inverse.items()]
df = pd.DataFrame(data, columns=["Terme", "Doc. Freq.", "Affectations"])

print("Etape 3 - Construire l'index inversé avec la fréquence et la liste d'affectation :")
print(df)

Etape 3 - Construire l'index inversé avec la fréquence et la liste d'affectation :
          Terme  Doc. Freq.                  Affectations
0            au           1                          Doc2
1           bec           1                          Doc1
2        berger           1                          Doc5
3          bouc           1                          Doc2
4       cherche           1                          Doc3
5       cigogne           1                          Doc4
6       corbeau           1                          Doc1
7          dans           2                    Doc1, Doc2
8            de           2                    Doc3, Doc4
9       déguise           1                          Doc5
10     démasqué           1                          Doc5
11        dîner           1                          Doc4
12           en           1                          Doc5
13          est           1                          Doc5
14           et           3              Doc1, 

In [15]:
# Fonction pour répondre aux requêtes booléennes à partir de l'index inversé

def evaluer_requete(requete: str, index_inverse: DefaultDict[str, Dict[str, Any]]) -> Set[str]:
    """
    Évalue une requête booléenne simple (sans parenthèses) avec respect de l'ordre de priorité : NOT > AND > OR
    La requête doit être de la forme :
    - ¬ a
    - a ∧ b
    - a ∨ ¬ b ∧ c
    - a ∧ b ∨ c ∨ ¬ d
    ...

    :param requete: la chaîne de caractères de la requête.
    :param index_inverse: l'index inversé.
    :return: l'ensemble trié des docID correspondant à la requête.
    """
    # Récupérer tous les docID dans l'index inversé (servira pour le NOT)
    all_docs = {doc for data in index_inverse.values() for doc in data["docs"]}
    # Normaliser la requête
    tokens = requete.lower().split()
    
    # Traiter les NOT
    i = 0
    while i < len(tokens):
        if tokens[i] == '¬':
            terme = tokens[i+1]
            terme_docs = set(index_inverse[terme]["docs"])
            tokens = tokens[:i] + [all_docs - terme_docs] + tokens[i+2:]
        else:
            i += 1
    
    # Traiter les AND
    i = 0
    while i < len(tokens):
        if tokens[i] == '∧':
            gauche = tokens[i-1] if isinstance(tokens[i-1], set) else set(index_inverse[tokens[i-1]]["docs"])
            droite = tokens[i+1] if isinstance(tokens[i+1], set) else set(index_inverse[tokens[i+1]]["docs"])
            tokens = tokens[:i-1] + [gauche & droite] + tokens[i+2:]
        else:
            i += 1
    
    # Traiter les OR
    result = set()
    for token in tokens:
        if isinstance(token, set):
            result |= token
        else:
            result |= set(index_inverse[token]["docs"]) # set(index_inverse["∨"]["docs"]) retourne set()
    
    # Retourner le résultat trié
    return sorted(result)

In [16]:
# Exécuter les requêtes
requete1 = evaluer_requete("loup ∧ repas", index_inverse)
requete2 = evaluer_requete("bouc ∧ tromper ∨ fromage", index_inverse)
requete3 = evaluer_requete("renard ∧ repas ∧ tromper", index_inverse)
requete4 = evaluer_requete("renard ∧ ¬ repas", index_inverse) #requête bonus pour tester le NOT

# Affichage des résultats
print("Résultats des requêtes:")

print("1. loup ∧ repas : ", requete1)
print("2. bouc ∧ tromper ∨ fromage : ", requete2)
print("3. renard ∧ repas ∧ tromper : ", requete3)
print("4. renard ∧ ¬ repas : ", requete4)

Résultats des requêtes:
1. loup ∧ repas :  ['Doc3']
2. bouc ∧ tromper ∨ fromage :  ['Doc1', 'Doc2']
3. renard ∧ repas ∧ tromper :  ['Doc1']
4. renard ∧ ¬ repas :  ['Doc2']
