In [None]:
import pandas as pd
from elasticsearch import Elasticsearch, helpers

# Chemin vers le fichier CSV contenant les données des offres d'emploi
csv_file_path = 'cleaned_offres_emploi.csv'

# Lire le fichier CSV dans un DataFrame pandas
df = pd.read_csv(csv_file_path)

# Configuration avancée de la connexion à Elasticsearch
# Spécifie plusieurs nœuds Elasticsearch pour la redondance et l'équilibrage de charge
es = Elasticsearch([
    {'host': 'localhost', 'port': 9200, 'scheme': 'http'}
#     {'host': 'localhost', 'port': 9201, 'scheme': 'http'},
])

# Nom de l'index dans Elasticsearch où les données seront stockées
index_name = 'offres_emploi'

# Fonction pour générer les actions de bulk indexing pour Elasticsearch
# Cela permet d'indexer les documents en utilisant le helper bulk de la bibliothèque Elasticsearch
def generate_actions(dataframe):
    for index, row in dataframe.iterrows():
        # Générer une action pour chaque ligne du DataFrame
        yield {
            "_index": index_name,   # Nom de l'index
#             "_id": index,           # ID du document (utilise l'index du DataFrame)
            "_source": row.to_dict() # Contenu du document sous forme de dictionnaire
        }

# Utiliser l'helper bulk pour indexer les données dans Elasticsearch
# Cela envoie les données en vrac pour optimiser les performances
helpers.bulk(es, generate_actions(df))

# Message de confirmation une fois les données importées avec succès
print("Données importées avec succès dans Elasticsearch")
