# <center> Panongbene Sawadogo </center> 
📩 **Exemple de projet développé** : [https://panongbene.com/](https://panongbene.com/)

📩 **Contact** : [amet1900@gmail.com](amet1900@gmail.com)

🌐**Linkedin** : [https://www.linkedin.com/in/panongbene-jean-mohamed-sawadogo-33234a168/](https://www.linkedin.com/in/panongbene-jean-mohamed-sawadogo-33234a168/)

🗓️ **Dernière modification** : 26 mars 2025

# <center> Introduction aux bases de données NoSQL : Application pratique avec Elasticsearch </center>

# Sommaire 
- ### **I. Introduction**  
   - Définition des bases de données NoSQL  
   - Comparaison NoSQL vs SQL  
   - Pourquoi choisir une base NoSQL ?  

- ### **II. Présentation d'Elasticsearch**  
   - Qu'est-ce qu'Elasticsearch ?  
   - Cas d'utilisation courants  
   - Architecture et composants clés  

- ### **III. Installation et prise en main**  
   - Installation d'Elasticsearch  
   - Configuration de base  
   - Outils associés (Kibana, Logstash, Beats)  

- ### **IV. Indexation et gestion des données**  
   - Structure des documents JSON  
   - Création et gestion des index  
   - Opérations CRUD (Create, Read, Update, Delete)  

- ### **V. Requêtage et recherche avancée**  
   - Syntaxe des requêtes Elasticsearch  
   - Filtrage et agrégations  
   - Recherche plein texte et scoring  

- ### **VI. Optimisation et bonnes pratiques**  
   - Optimisation des performances  
   - Gestion de la scalabilité  
   - Sécurisation des données  

- ### **VII. Cas pratique : Implémentation d'un moteur de recherche**  
   - Conception du projet  
   - Indexation des données  
   - Exécution et analyse des requêtes  

- ### **VIII. Conclusion et perspectives**  
   - Avantages et limites d’Elasticsearch  
   - Comparaison avec d’autres bases NoSQL  
   - Applications futures et tendances  

### **I. Introduction**  
   - **Définition des bases de données NoSQL**

Les bases de données **NoSQL (Not Only SQL)** sont des bases de données **non relationnelles**, le plus souvent organisées sous forme de clé-valeur. Conçues pour stocker de grandes quantités de données,  souvent de manière **distribuée** et **flexible**.

   - **Comparaison NoSQL vs SQL**

Pour comparer les bases de données **NoSQL** et **SQL**, il est impératif de comprendre le **théorème de CAP**.  

<center>
<img src="./data/triangleCAP.png" alt="triangleCAP" style="width:700px;"/>
</center>

Le **théorème de CAP** (Consistency, Availability, Partition Tolerance) est un principe fondamental en informatique distribuée. Il stipule qu'un système de base de données distribué ne peut garantir simultanément que **deux** des trois propriétés suivantes :  

1. **Cohérence (Consistency)** : Toute reToutes les copies des données sont à jour et identiques à tout moment.  
2. **Disponibilité (Availability)** : Chaque requête reçoit une réponse, même en cas de panne d’un nœud.  
3. **Tolérance au partitionnement (Partition Tolerance)** : Le système continue de fonctionner malgré des défaillances réseau séparant des parties du système.  

Les bases **SQL** et **NoSQL** se positionnent différemment par rapport à ce théorème :  

- **Les bases SQL** privilégient généralement la **cohérence** et la **disponibilité** (CA), mais sont moins tolérantes aux partitions.  
- **Les bases NoSQL** adoptent souvent un modèle **AP (disponibilité + tolérance au partitionnement)** ou **CP (cohérence + tolérance au partitionnement)**, en fonction des besoins.  

Ce compromis explique pourquoi les bases **SQL sont adaptées aux systèmes transactionnels**, tandis que les bases **NoSQL conviennent mieux aux applications nécessitant une haute disponibilité et une grande scalabilité**.

   - **Pourquoi et quand choisir une base NoSQL ?**

En se basant sur le positionnement des bases de données NoSQL dans le triangle du CAP, on peut dire que l'utilisation des bases de données NoSQL est recommandée dans les cas suivants :

✅ Données volumineuses et non structurées
✅ Besoin de scalabilité horizontale
✅ Performances élevées et faible latence
✅ Applications modernes : IoT, Big Data, IA


### **II. Présentation d'Elasticsearch**  
   - **Qu'est-ce qu'Elasticsearch ?**

**Elasticsearch** peut être défini comme une base de données **NoSQL** intégrant un moteur de recherche basé sur Lucene. Il a été créé pour stocker, rechercher et analyser de grandes quantités de données (à l'ordre du téraoctet) en temps réel.

   - **Cas d'utilisation courants**

**Elasticsearch** est utilisé dans divers domaines grâce à sa capacité à rechercher et analyser rapidement de grandes quantités de données. Ci-dessous, on peut citer quelques cas d'utilisation courants.

1. **Moteurs de recherche** : Utilisé pour indexer et rechercher des documents textuels.  

2. **Analyse et surveillance des logs** : Utilisé pour collecte et analyse des journaux système (logs) pour le monitoring des applications et serveurs. Des outils comme la suite ELK Stack (Elasticsearch, Logstash, Kibana) sont couramment utilisés pour centraliser les logs et détecter les anomalies.  

3. **Cybersécurité et détection des menaces** Utilisé pour analyse des journaux d'activité pour repérer des comportements suspects et détecter des attaques en temps réel grâce à des règles et des modèles de machine learning.  

4. **Business Intelligence et analytique** : Utilisé pour le traitement et la visualisation des données en temps réel.  Suivi des métriques commerciales (ventes, trafic web, performances des campagnes marketing).  
 
5. **Recherche géospatiale** : **Elasticsearch** Permet de stocker et d’analyser des données géographiques. Ainsi, il est utilisé dans des applications cartographiques et de navigation pour trouver des lieux ou optimiser des trajets.  

Grâce à ses performances élevées et à sa flexibilité, **Elasticsearch** est devenu un outil incontournable pour toute application nécessitant une recherche rapide et efficace.

   - **Architecture et composants clés**

**Elasticsearch** repose sur une architecture distribuée et évolutive. C'est à dire qu'on peut le faire tourner sur plusieurs machines en meme temps (on parle de cluster et chaque machine est appélée noeud) de sorte que l'ensemble forme une seule base de données. 

#### **1. Cluster**  
Un cluster est un ensemble de nœuds (serveurs) travaillant ensemble pour stocker et traiter des données. Chaque cluster est identifié par un nom unique et permet la répartition des tâches pour assurer une haute disponibilité et performance.  

#### **2. Nœud (Node)**  
Un nœud est une instance d'Elasticsearch en cours d'exécution. Chaque nœud peut avoir des rôles spécifiques :  
- **Master Node** : Gère l’état global du cluster et la distribution des tâches.  
- **Data Node** : Stocke les données et exécute les requêtes.  
- **Ingest Node** : Pré-traite les documents avant leur indexation.  
- **Coordinating Node** : Transmet les requêtes aux autres nœuds et agrège les résultats.  

#### **3. Index**  
Un index est une collection de documents similaires (ex : un index pour les logs, un autre pour les produits d’un site e-commerce). Chaque index est identifié par un nom unique et permet une organisation optimisée des données.  

#### **4. Document**  
Un document est une unité de base stockée dans un index. Il est représenté en format JSON et contient des champs structurés (ex : un enregistrement utilisateur avec nom, email, date de création, etc.).  

#### **5. Shards et Réplicas**  
- **Shards (Fragmentation des données)** : Un index est divisé en plusieurs morceaux appelés shards pour répartir la charge sur plusieurs nœuds.  
- **Replicas (Copies de sauvegarde)** : Chaque shard peut avoir une ou plusieurs copies pour assurer la tolérance aux pannes.  

#### **6. Mapping et Analyse**  
- **Mapping** : Définit la structure et les types de données des champs d’un index.  
- **Analyse et Tokenization** : Utilise des analyzers pour transformer et indexer les données textuelles efficacement.  

#### **7. API RESTful**  
Elasticsearch expose une API REST permettant d’effectuer des opérations de recherche, d’indexation et de gestion via des requêtes HTTP.  

### **Conclusion**  
Grâce à cette architecture distribuée et modulaire, Elasticsearch est un outil puissant pour le stockage et l’analyse rapide de grandes quantités de données.
 

### **III. Installation et prise en main**  
   - **Installation d'Elasticsearch**
   - **Configuration de base**
   -**Outils associés (Kibana, Logstash, Beats)**

### **IV. Indexation et gestion des données**  
   - **Structure des documents JSON**
   - **Création et gestion des index** 
   - **Opérations CRUD (Create, Read, Update, Delete)**

### **V. Requêtage et recherche avancée**  
   - **Syntaxe des requêtes Elasticsearch**
   - **Filtrage et agrégations**
   - **Recherche plein texte et scoring**  

### **VI. Optimisation et bonnes pratiques**  
   - **Optimisation des performances**
   - **Gestion de la scalabilité**
   - **Sécurisation des données**

### **VII. Cas pratique : Implémentation d'un moteur de recherche**  
   - **Conception du projet**
   - **Indexation des données**
   - **Exécution et analyse des requêtes** 

### **VIII. Conclusion et perspectives**  
   - **Avantages et limites d’Elasticsearch**
   - **Comparaison avec d’autres bases NoSQL**
   - **Applications futures et tendances**