# <center> Panongbene Sawadogo </center> 
📩 **Exemple de projet développé** : [https://panongbene.com/](https://panongbene.com/)

📩 **Contact** : [amet1900@gmail.com](amet1900@gmail.com)

🌐**Linkedin** : [https://www.linkedin.com/in/panongbene-jean-mohamed-sawadogo-33234a168/](https://www.linkedin.com/in/panongbene-jean-mohamed-sawadogo-33234a168/)

🗓️ **Dernière modification** : 26 mars 2025

# <center> Introduction aux bases de données NoSQL : Application pratique avec Elasticsearch </center>

# Sommaire 
- ### **I. Introduction**  
   - Définition des bases de données NoSQL  
   - Comparaison NoSQL vs SQL  
   - Pourquoi et quand choisir une base NoSQL ?

- ### **II. Présentation d'Elasticsearch**  
   - Qu'est-ce qu'Elasticsearch ?
   - Cas d'utilisation courants
   - Architecture et composants clés

- ### **III. Installation et prise en main**  
   - Mettez à jour la liste des packages à l’aide de la commande suivante :
   - Extraction du contenu
   - Accédez au dossier elasticsearch
   - Augmenter le nombre maximum de zones de mappage mémoire qu'un processus 
   - Lancer le serveur ElasticSearch
   - Accédez à l'URL ci-dessous pour tester le fonctionnement du serveur

- ### **IV. Indexation et gestion des données**  
   - Installation de l'ORM
   - Importer des bibliothèques
   - Structure des documents JSON
   - Création et gestion des index  
   - Opérations CRUD (Create, Read, Update, Delete) 

- ### **V. Requêtage et recherche avancée**  
   - Syntaxe des requêtes Elasticsearch 
   - Filtrage et agrégations
   - Remarque   

- ### **VI. Optimisation et bonnes pratiques**  
   - Optimisation des performances dans Elasticsearch
   - Gestion de la scalabilité dans Elasticsearch
   - Sécurisation des données dans Elasticsearch

- ### **VII. Cas pratique : Implémentation d'un moteur de recherche**  

   

- ### **VIII. Conclusion et perspectives**  


### **I. Introduction**  
   - **Définition des bases de données NoSQL**

Les bases de données **NoSQL (Not Only SQL)** sont des bases de données **non relationnelles**, le plus souvent organisées sous forme de clé-valeur. Conçues pour stocker de grandes quantités de données,  souvent de manière **distribuée** et **flexible**.

   - **Comparaison NoSQL vs SQL**

Pour comparer les bases de données **NoSQL** et **SQL**, il est impératif de comprendre le **théorème de CAP**.  

<center>
<img src="./data/triangleCAP.png" alt="triangleCAP" style="width:700px;"/>
</center>

Le **théorème de CAP** (Consistency, Availability, Partition Tolerance) est un principe fondamental en informatique distribuée. Il stipule qu'un système de base de données distribué ne peut garantir simultanément que **deux** des trois propriétés suivantes :  

1. **Cohérence (Consistency)** : Toute reToutes les copies des données sont à jour et identiques à tout moment.  
2. **Disponibilité (Availability)** : Chaque requête reçoit une réponse, même en cas de panne d’un nœud.  
3. **Tolérance au partitionnement (Partition Tolerance)** : Le système continue de fonctionner malgré des défaillances réseau séparant des parties du système.  

Les bases **SQL** et **NoSQL** se positionnent différemment par rapport à ce théorème :  

- **Les bases SQL** privilégient généralement la **cohérence** et la **disponibilité** (CA), mais sont moins tolérantes aux partitions.  
- **Les bases NoSQL** adoptent souvent un modèle **AP (disponibilité + tolérance au partitionnement)** ou **CP (cohérence + tolérance au partitionnement)**, en fonction des besoins.  

Ce compromis explique pourquoi les bases **SQL sont adaptées aux systèmes transactionnels**, tandis que les bases **NoSQL conviennent mieux aux applications nécessitant une haute disponibilité et une grande scalabilité**.

   - **Pourquoi et quand choisir une base NoSQL ?**

En se basant sur le positionnement des bases de données NoSQL dans le triangle du CAP, on peut dire que l'utilisation des bases de données NoSQL est recommandée dans les cas suivants :

✅ Données volumineuses et non structurées
✅ Besoin de scalabilité horizontale
✅ Performances élevées et faible latence
✅ Applications modernes : IoT, Big Data, IA


### **II. Présentation d'Elasticsearch**  
   - **Qu'est-ce qu'Elasticsearch ?**

**Elasticsearch** peut être défini comme une base de données **NoSQL** intégrant un moteur de recherche basé sur Lucene. Il a été créé pour stocker, rechercher et analyser de grandes quantités de données (à l'ordre du téraoctet) en temps réel.

   - **Cas d'utilisation courants**

**Elasticsearch** est utilisé dans divers domaines grâce à sa capacité à rechercher et analyser rapidement de grandes quantités de données. Ci-dessous, on peut citer quelques cas d'utilisation courants.

1. **Moteurs de recherche** : Utilisé pour indexer et rechercher des documents textuels.  

2. **Analyse et surveillance des logs** : Utilisé pour collecte et analyse des journaux système (logs) pour le monitoring des applications et serveurs. Des outils comme la suite ELK Stack (Elasticsearch, Logstash, Kibana) sont couramment utilisés pour centraliser les logs et détecter les anomalies.  

3. **Cybersécurité et détection des menaces** Utilisé pour analyse des journaux d'activité pour repérer des comportements suspects et détecter des attaques en temps réel grâce à des règles et des modèles de machine learning.  

4. **Business Intelligence et analytique** : Utilisé pour le traitement et la visualisation des données en temps réel.  Suivi des métriques commerciales (ventes, trafic web, performances des campagnes marketing).  
 
5. **Recherche géospatiale** : **Elasticsearch** Permet de stocker et d’analyser des données géographiques. Ainsi, il est utilisé dans des applications cartographiques et de navigation pour trouver des lieux ou optimiser des trajets.  

Grâce à ses performances élevées et à sa flexibilité, **Elasticsearch** est devenu un outil incontournable pour toute application nécessitant une recherche rapide et efficace.

   - **Architecture et composants clés**

**Elasticsearch** repose sur une architecture distribuée et évolutive. C'est à dire qu'on peut le faire tourner sur plusieurs machines en meme temps (on parle de cluster et chaque machine est appélée noeud) de sorte que l'ensemble forme une seule base de données. 

1. **Cluster**  
Un cluster est un ensemble de nœuds (serveurs) travaillant ensemble pour stocker et traiter des données. Chaque cluster est identifié par un nom unique et permet la répartition des tâches pour assurer une haute disponibilité et performance.  

2. **Nœud (Node)**  
Un nœud est une instance d'Elasticsearch en cours d'exécution. Chaque nœud peut avoir des rôles spécifiques :  
- **Master Node** : Gère l’état global du cluster et la distribution des tâches.  
- **Data Node** : Stocke les données et exécute les requêtes.  
- **Ingest Node** : Pré-traite les documents avant leur indexation.  
- **Coordinating Node** : Transmet les requêtes aux autres nœuds et agrège les résultats.  

3. **Index**  
Un index est une collection de documents similaires (ex : un index pour les logs, un autre pour les produits d’un site e-commerce). Chaque index est identifié par un nom unique et permet une organisation optimisée des données.  

4. **Document**  
Un document est une unité de base stockée dans un index. Il est représenté en format JSON et contient des champs structurés (ex : un enregistrement utilisateur avec nom, email, date de création, etc.).  

5. **Shards et Réplicas**  
- **Shards (Fragmentation des données)** : Un index est divisé en plusieurs morceaux appelés shards pour répartir la charge sur plusieurs nœuds.  
- **Replicas (Copies de sauvegarde)** : Chaque shard peut avoir une ou plusieurs copies pour assurer la tolérance aux pannes.  

6. **Mapping et Analyse**  
- **Mapping** : Définit la structure et les types de données des champs d’un index.  
- **Analyse et Tokenization** : Utilise des analyzers pour transformer et indexer les données textuelles efficacement.  

7. **API RESTful**  
**Elasticsearch** expose une API REST permettant d’effectuer des opérations de recherche, d’indexation et de gestion via des requêtes HTTP.  
 

### **III. Installation et prise en main**

Pour travailler sur **Elasticsearch**, nous allons utiliser une configuration **Linux** (Ubuntu 22.04). Ceci est motivé par le fait que Linux est open source et, en plus de cela, la quasi-totalité des outils et des environnements de développement pour **Elasticsearch** sont optimisés pour fonctionner sur cette plateforme. **Linux** offre également une meilleure gestion des ressources, de la stabilité, et une grande flexibilité, ce qui en fait un choix privilégié pour les systèmes de production à grande échelle.

   - **Installation d'Elasticsearch**
1. **Mettez à jour la liste des packages à l’aide de la commande suivante :**
   ```
    sudo apt-get update
   ```
2. **Rendez-vous sur le site [**d'Elasticsearch**](https://www.elastic.co/downloads/elasticsearch) et téléchargez le binaire.**
   ```
    wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.17.3-linux-x86_64.tar.gz
   ```
3. **Extraction du contenu**
   ```
    tar -xzf elasticsearch-8.17.3-linux-x86_64.tar.gz
   ```
4. **Accédez au dossier elasticsearch**
   ```
    cd elasticsearch-8.17.3/
   ```
5. **Augmenter le nombre maximum de zones de mappage mémoire qu'un processus**
   ```
    sysctl -w vm.max_map_count=262144
   ```
5. **Lancer le serveur ElasticSearch**
    ```
    ./bin/elasticsearch
   ```
Cela nous donne un serveur **ElasticSearch** fonctionnel que nous pouvons interroger

6. **Accédez à l'URL ci-dessous pour tester le fonctionnement du serveur**
    ```
    https://localhost:9200/
   ```


### **IV. Indexation et gestion des données**

Pour manipuler Elasticsearch, nous allons utiliser la bibliothèque Python officielle d'Elasticsearch. Celle-ci permet de se connecter à Elasticsearch via son API et d'effectuer les opérations nécessaires à la gestion des données.
1. **Installation de l'ORM**
```
pip install elasticsearch-dsl
pip install elasticsearch
```

2. **Importer des bibliothèques**
```
from elasticsearch_dsl import Search
from elasticsearch import Elasticsearch, helpers
```

3. **Se connecter à Elasticsearch***
```
ELASTICSEARCH_URL = "https://localhost:9200/"
ELASTICSEARCH_NAME_USER = "elastic"
ELASTICSEARCH_PASSWORD = ""
ELASTICSEARCH_CURSOR = Elasticsearch(ELASTICSEARCH_URL, verify_certs=False, http_auth=(ELASTICSEARCH_NAME_USER, ELASTICSEARCH_PASSWORD))
```
Pour obtenir le mot de passe ELASTICSEARCH_PASSWORD, il faut exécuter la commande ci-dessous dans un autre terminal
```
./bin/elasticsearch-reset-password -u elastic
```
4.  **Structure des documents JSON**

Pour créer un index name_index="testelasticsearchtuto", il faut d'abord définir le mapping de l'index, c'est-à-dire les éléments que cet index contiendra.
```
mapping_test = {
    "settings": {
        "number_of_shards": 3,
        "number_of_replicas": 2
    },
    "mappings": {
        "properties": {
            "id_user": {"type": "text","fields": {"keyword": {"type": "keyword","ignore_above": 256}}},
            "firstname": { "type": "text", "fields": {"keyword": {"type": "keyword","ignore_above": 256}}},
            "lastname": { "type": "text", "fields": {"keyword": {"type": "keyword","ignore_above": 256}}},
            "title_user": { "type": "text", "fields": {"keyword": {"type": "keyword","ignore_above": 256}}},
            "date_updated": {"type": "date"},
            "date_created": {"type": "date"},
        }
    }
}
```
5. **Création et gestion des index**

```
if(ELASTICSEARCH_CURSOR.indices.exists(index="testelasticsearchtuto") == True):
    print("testelasticsearchtuto this index already exist")
    print("Error Create Index")
else:
    response = ELASTICSEARCH_CURSOR.indices.create(index="testelasticsearchtuto", ignore=400, body=mapping_index)
```

6. **Opérations CRUD (Create, Read, Update, Delete)**

- **Create**
Pour créer un nouveau document dans l'index **<<index="testelasticsearchtuto">>**, on utilise la syntaxe suivante :
```
create_user_information = dict()
create_user_information["id_user"] = "123456789"
create_user_information["firstname"] = "Panongbene"
create_user_information["lastname"] = "Sawadogo"
create_user_information["title_user"] = "Ingénieur"
create_user_information["date_updated"] = datetime.now()
create_user_information["date_created"] = datetime.now()
ELASTICSEARCH_CURSOR.index(index="testelasticsearchtuto", id=create_user_information["id_user"], body=create_user_information))
```

- **Update**
Pour mettre à jour le champ **(firstname)** d'un document dans l'index **<<index="testelasticsearchtuto">>**, il est nécessaire de connaître l'ID de ce document. Si l'ID de ce document est **id_doc**, alors la mise à jour du champ firstname se fait ainsi :
```
ELASTICSEARCH_CURSOR.update(index="testelasticsearchtuto", id=id_doc, body={"doc": {"firstname" : firstname}})
```

- **Delete**
Pour supprimer un document dans l'index **<<index="testelasticsearchtuto">>**, il est nécessaire de connaître l'ID de ce document. Si l'ID de ce document est **id_doc**, alors la suppression se fait ainsi :
```
ELASTICSEARCH_CURSOR.delete(index="testelasticsearchtuto", id=id_doc))
```


### **V. Requêtage et recherche avancée**  
   - **Syntaxe des requêtes Elasticsearch**
Pour effectuer une requête sur l'index **<<index="testelasticsearchtuto">>>, on peut utiliser la syntaxe suivante :

```
resultSearchAll = ELASTICSEARCH_CURSOR.search(index="testelasticsearchtuto",
                                            body={
                                                "size": 10,
                                                "query": {"match_all": {}},
                                            })
```

Cette requête nous renvoie **size=10** éléments contenus dans l'index.  
Il est important de noter que **size** ne peut pas dépasser 10 000. Pour interroger plus de 10 000 éléments, il faut utiliser la fonctionnalité **scroll**.

   - **Filtrage et agrégations**
Pour effectuer une requête sur l'index **<<index="testelasticsearchtuto">>**, en appliquant un filtre sur le prénom, on peut utiliser :

```
resultSearchAll = ELASTICSEARCH_CURSOR.search(index="testelasticsearchtuto", ignore=400, 
                                               body={"size": 10,
                                                             "query": {"bool": {"must": [
                                                                                     {"match": {"firstname":"Panongbene"}},
                                                                                 ]
                                                                               }
                                                                      }
                                                    })
for one_docs in resultSearchAll["hits"]["hits"]:
    print(one_docs["_source"])
```
Cette requête va me renvoyer au maximum 10 documents dont le champ **firstname** contient **"Panongbene"**.
- **Remarque**
Des requêtes bien plus complexes peuvent être effectuées. Nous consacrerons un autre cours à **la recherche sur Elasticsearch**.


### **VI. Optimisation et bonnes pratiques**  

   - **Optimisation des performances dans Elasticsearch**

L'optimisation des performances dans **Elasticsearch** permet de garantir une recherche rapide, une gestion efficace des ressources et une scalabilité fluide. Quelques stratégies d'optimisation courantes :

1. **Utilisation des bons types de données** : Choisir les bons types de données pour les champs d'un index (comme `keyword`, `text`, `date`, etc.) 
2. **Optimisation des requêtes** : Certaines requêtes peuvent être coûteuses en termes de ressources, comme les requêtes `wildcard` ou `regexp`...
3. **Utilisation des filtres** : Pour éviter d'exécuter des requêtes qui retournent un grand nombre de documents à la fois, il est préférable d'utiliser les filtres ...
4. **Tuning des ressources système** : Vous pouvez ajuster certains paramètres système dans Elasticsearch pour améliorer les performances. Par exemple, augmenter la mémoire Java (`Xmx` et `Xms` dans `jvm.options`) et ajuster le nombre de réplicas et de shards en fonction de vos besoins de performances et de résilience.
5. **Optimisation des index** : Assurez-vous que les indices sont bien structurés.
6. **Réplication et Sharding** : Bien que la répartition des données sur plusieurs nœuds (sharding) soit importante pour la scalabilité, l'optimisation des tailles de shard et la gestion des réplicas peut avoir un impact sur les performances...

   - **Gestion de la scalabilité dans Elasticsearch**

**Elasticsearch** est conçu pour être hautement scalable grâce à son architecture distribuée. La gestion de la scalabilité dans Elasticsearch implique plusieurs bonnes pratiques :

1. **Sharding (partitionnement des données)**
2. **Réplication (réplication des données)**
3. **Auto-découverte et gestion dynamique des nœuds**
4. **Optimisation des ressources**
5. **Utilisation des indices indexés et archives**
6. **Surveillance et gestion proactive**

   - **Sécurisation des données dans Elasticsearch**

La sécurisation des données dans Elasticsearch est primordiale pour protéger vos informations sensibles et éviter tout accès non autorisé.

1. **Contrôle d’accès basé sur les rôles (RBAC)**

3. **Chiffrement des communications**
4. **Chiffrement des données au repos**
5. **Audit et suivi**
6. **Authentification et autorisation**
7. **Sécurisation des API**
8. **Sécurisation au niveau des indices**

### **VII. Cas pratique : Implémentation d'un moteur de recherche**  
   
**Sujet :** Créer un index Elasticsearch permettant d'indexer les données des films contenues dans summer.csv et implémenter une API de recherche sur cet index.

### **VIII. Conclusion et perspectives**  

En résumé, **Elasticsearch** est une solution puissante pour le stockage de grandes quantités de données, la recherche textuelle et l'analyse de données massives en temps réel. Grâce à son architecture distribuée et ses capacités de recherche avancées, Elasticsearch est particulièrement adapté aux applications nécessitant une recherche rapide et des analyses complexes sur de grandes volumétries de données. Cependant, comme toute technologie, il présente des avantages et des limitations.

Parmi ses avantages, on trouve sa scalabilité horizontale, sa capacité à gérer de grandes quantités de données en temps réel et son intégration avec d'autres outils comme Logstash et Kibana pour une gestion complète des données. Cependant, il n'est pas conçu pour des transactions ACID comme les bases de données relationnelles et peut devenir gourmand en ressources, ce qui nécessite une gestion fine des performances et de la mémoire. De plus, bien qu'il soit très performant pour la recherche textuelle, il peut ne pas convenir à tous les types de données et de requêtes, notamment celles qui nécessitent une gestion complexe des relations entre les données.

Son utilisation dépendra du cas d'usage spécifique, de la taille des données, des besoins en termes de performance et de la complexité des requêtes à exécuter. Les cas d'usage typiques incluent la gestion des logs, la recherche dans des catalogues de produits, l'analyse de données sociales, la gestion de données géospatiales, entre autres.

Les tendances futures montrent qu'**Elasticsearch** continuera d'évoluer pour répondre aux besoins croissants en matière de recherche, de machine learning et de sécurité. De nouvelles fonctionnalités, comme l'intégration de l'IA et du machine learning pour améliorer la pertinence des résultats de recherche, ainsi que l'amélioration de la sécurité des données et de la conformité aux régulations comme le RGPD, seront cruciales pour son développement. De plus, l'adoption de technologies comme l'Edge Computing et l'Internet des objets (IoT) pourrait amplifier l'utilisation d'Elasticsearch pour des analyses en temps réel sur des données générées à la périphérie du réseau.