# TD1 Elasticsearch - Guide Explicatif

## Pr√©requis

Assurez-vous d'avoir install√© la librairie :
```bash
pip install elasticsearch
```

Et que votre cluster Elasticsearch est d√©marr√© sur `http://localhost:9200`


In [None]:
# Import de la librairie et connexion au cluster
from elasticsearch import Elasticsearch
from pprint import pprint

# Connexion au cluster Elasticsearch
es = Elasticsearch("http://localhost:9200")

print("‚úÖ Connexion √©tablie avec Elasticsearch")


## 0. V√©rification de la sant√© du cluster

V√©rifions que le cluster Elasticsearch fonctionne correctement.


In [None]:
# V√©rification de la sant√© du cluster
health = es.cluster.health()
pprint(health)


## 0. Fix des param√®tres d'index en lecture seule

Si un index est en mode lecture seule, il faut d'abord d√©sactiver ce param√®tre avant de pouvoir le modifier.


In [None]:
# D√©sactiver le mode lecture seule pour l'index tweet (si n√©cessaire)
# Cette commande permet de modifier un index qui serait bloqu√© en lecture seule
try:
    es.indices.put_settings(
        index="tweet",
        body={
            "index.blocks.read_only_allow_delete": None
        }
    )
    print("‚úÖ Param√®tres d'index mis √† jour")
except Exception as e:
    print(f"‚ÑπÔ∏è  Index peut-√™tre inexistant ou d√©j√† modifiable: {e}")


## 1. Cr√©ation d'un index

Cr√©ons un index nomm√© "tweet" avec des param√®tres sp√©cifiques (nombre de shards et r√©pliques).


In [None]:
# Supprimer l'index s'il existe d√©j√† (pour repartir √† z√©ro)
if es.indices.exists(index="tweet"):
    es.indices.delete(index="tweet")
    print("üóëÔ∏è  Index 'tweet' supprim√©")

# Cr√©er un nouvel index avec des param√®tres sp√©cifiques
es.indices.create(
    index="tweet",
    body={
        "settings": {
            "index": {
                "number_of_shards": 1,
                "number_of_replicas": 1
            }
        }
    }
)
print("‚úÖ Index 'tweet' cr√©√© avec succ√®s")


## 2. D√©finition du mapping

Le mapping d√©finit la structure des documents qui seront index√©s. Ici, nous d√©finissons trois champs :
- `user_name` : de type `keyword` (recherche exacte)
- `content` : de type `text` (recherche full-text)
- `tweeted_at` : de type `date`


In [None]:
# Supprimer et recr√©er l'index avec le mapping
# Note: Pour modifier le mapping d'un index existant, il faut le supprimer et le recr√©er
if es.indices.exists(index="tweet"):
    es.indices.delete(index="tweet")
    print("üóëÔ∏è  Ancien index supprim√©")

# Cr√©er l'index avec le mapping
es.indices.create(
    index="tweet",
    body={
        "mappings": {
            "properties": {
                "user_name": {"type": "keyword"},
                "content": {"type": "text"},
                "tweeted_at": {"type": "date"}
            }
        }
    }
)
print("‚úÖ Index 'tweet' cr√©√© avec le mapping d√©fini")


## 3. Ajout d'un document JSON

Ajoutons un premier document dans l'index. Avec `POST`, Elasticsearch g√©n√®re automatiquement un ID unique.


In [None]:
# Ajouter un document (POST g√©n√®re automatiquement un ID)
response = es.index(
    index="tweet",
    document={
        "user_name": "Trump",
        "content": "THE USA IS GREAT!",
        "tweeted_at": "2019-01-10"
    }
)
print("‚úÖ Document ajout√© avec succ√®s")
pprint(response)


## 4. Insertion de multiples documents (Bulk)

La m√©thode `bulk` permet d'ins√©rer plusieurs documents en une seule op√©ration, ce qui est beaucoup plus efficace que d'ins√©rer les documents un par un.


In [None]:
# Pr√©parer les actions bulk au format NDJSON (Newline Delimited JSON)
# Format: une ligne d'action, suivie d'une ligne de document
import json

actions = [
    {"index": {"_index": "tweet", "_id": "1"}},
    {"user_name": "Poutine", "content": "You are so 2019.. now it's Russia!", "tweeted_at": "2022-03-14"},
    {"index": {"_index": "tweet", "_id": "2"}},
    {"user_name": "Zelensky", "content": "Russia doesn't mean Ukraine...", "tweeted_at": "2022-03-15"},
    {"index": {"_index": "tweet", "_id": "3"}},
    {"user_name": "Trump", "content": "Sorry guys, I can't play with you, I'm retired now", "tweeted_at": "2022-03-16"}
]

# Convertir en format NDJSON (chaque ligne est un JSON s√©par√©)
bulk_body = "\n".join([json.dumps(action) for action in actions]) + "\n"

# Ex√©cuter l'op√©ration bulk
response = es.bulk(body=bulk_body)
print(f"‚úÖ Op√©ration bulk termin√©e")
if response.get("errors"):
    print("‚ùå Certains documents ont √©chou√©:")
    for item in response["items"]:
        if "error" in item.get("index", {}):
            print(f"  - ID {item['index'].get('_id')}: {item['index']['error']}")
else:
    print(f"‚úÖ {len(response['items'])} documents ins√©r√©s avec succ√®s")


## 5. Suppression d'un document

Supprimons un document sp√©cifique par son ID.


In [None]:
# Supprimer le document avec l'ID "1"
response = es.delete(index="tweet", id="1")
print("‚úÖ Document supprim√©")
pprint(response)


## 6. Recherche dans l'index

Effectuons une recherche simple dans l'index pour r√©cup√©rer tous les documents.


In [None]:
# Recherche simple (r√©cup√®re tous les documents)
response = es.search(index="tweet", body={})
print(f"‚úÖ {response['hits']['total']['value']} document(s) trouv√©(s)")
print("\nR√©sultats:")
for hit in response['hits']['hits']:
    print(f"\nID: {hit['_id']}")
    pprint(hit['_source'])


## 6. Agr√©gation : Compter les tweets par pr√©sident

Les agr√©gations permettent d'analyser les donn√©es. Ici, nous utilisons une agr√©gation `terms` pour compter le nombre de tweets par `user_name`.


In [None]:
# Recherche avec agr√©gation pour compter les tweets par pr√©sident
response = es.search(
    index="tweet",
    body={
        "aggs": {
            "presidents": {
                "terms": {
                    "field": "user_name"
                }
            }
        }
    }
)

print("‚úÖ R√©sultats de l'agr√©gation:")
print("\nNombre de tweets par pr√©sident:")
for bucket in response['aggregations']['presidents']['buckets']:
    print(f"  - {bucket['key']}: {bucket['doc_count']} tweet(s)")


## 7. Cr√©ation d'un nouvel index : private_message

Cr√©ons un second index pour stocker des messages priv√©s.


In [None]:
# Supprimer l'index s'il existe d√©j√†
if es.indices.exists(index="private_message"):
    es.indices.delete(index="private_message")
    print("üóëÔ∏è  Ancien index 'private_message' supprim√©")

# Cr√©er le nouvel index
es.indices.create(
    index="private_message",
    body={
        "settings": {
            "index": {
                "number_of_shards": 1,
                "number_of_replicas": 1
            }
        }
    }
)
print("‚úÖ Index 'private_message' cr√©√© avec succ√®s")


## 7. Ajout d'un document dans private_message

Ajoutons un document dans le nouvel index.


In [None]:
# Ajouter un document dans l'index private_message
response = es.index(
    index="private_message",
    document={
        "user_name_a": "Poutine",
        "user_name_b": "Trump",
        "content": "I miss you Donald",
        "tweeted_at": "2022-03-16"
    }
)
print("‚úÖ Document ajout√© dans 'private_message'")
pprint(response)


## 8. Cr√©ation d'un alias

Un alias permet de regrouper plusieurs index sous un m√™me nom. C'est tr√®s utile pour interroger plusieurs index simultan√©ment.


In [None]:
# Cr√©er un alias "flux" qui pointe vers les index "private_message" et "tweet"
es.indices.put_alias(
    index=["private_message", "tweet"],
    name="flux"
)
print("‚úÖ Alias 'flux' cr√©√© pour les index 'private_message' et 'tweet'")


## 9. Test de l'alias

Testons l'alias en effectuant une recherche sur "flux", qui devrait retourner les documents des deux index.


In [None]:
# Recherche via l'alias "flux"
response = es.search(index="flux", body={})
print(f"‚úÖ {response['hits']['total']['value']} document(s) trouv√©(s) via l'alias 'flux'")
print("\nR√©sultats:")
for hit in response['hits']['hits']:
    print(f"\nIndex: {hit['_index']}, ID: {hit['_id']}")
    pprint(hit['_source'])


## Nettoyage

Supprimons l'index private_message pour nettoyer (optionnel).


In [None]:
# Supprimer l'index private_message
if es.indices.exists(index="private_message"):
    es.indices.delete(index="private_message")
    print("üóëÔ∏è  Index 'private_message' supprim√©")
else:
    print("‚ÑπÔ∏è  L'index 'private_message' n'existe pas")


## R√©sum√© des op√©rations

Ce notebook a couvert les principales op√©rations Elasticsearch :

1. ‚úÖ V√©rification de la sant√© du cluster
2. ‚úÖ Fix des param√®tres d'index en lecture seule
3. ‚úÖ Cr√©ation d'index avec param√®tres
4. ‚úÖ D√©finition de mappings
5. ‚úÖ Ajout de documents (simple et bulk)
6. ‚úÖ Suppression de documents
7. ‚úÖ Recherche dans les index
8. ‚úÖ Agr√©gations (analyse de donn√©es)
9. ‚úÖ Cr√©ation et utilisation d'alias

Toutes ces op√©rations peuvent √™tre ex√©cut√©es via l'API REST d'Elasticsearch ou via la librairie Python `elasticsearch`.
