In [8]:
import pandas as pd
from sqlalchemy import create_engine
import numpy as np
pd.set_option('display.max_colwidth', None)

import spacy
from spacy.lang.fr.examples import sentences
from spacy.lang.fr import French

import re

In [2]:
# Connexion à db_pco
user = 'postgres'  
password = 'postgre'
host = 'localhost'               
port = '5432'                    
database = 'db_pco'              

# Objet engine pour gérer la connexion
engine = create_engine(f'postgresql+psycopg2://{user}:{password}@{host}:{port}/{database}')

In [3]:
query = "SELECT * FROM offres_emploi ORDER BY RANDOM() LIMIT 150"
df = pd.read_sql(query, con=engine)

In [4]:
df

Unnamed: 0,ref_offre,descri_mission
0,2165625,Recherche: CHEF D'ÉQUIPE MAINTENANCE (H/F)\nMy...
1,7252893,à propos de l'entreprise\nVous recherchez un e...
2,8052910,Description du poste :\nAlimentation des ligne...
3,3977666,Description du poste :\nVous êtes un(e) vérita...
4,5955763,Acteur Régional du Travail Temporaire depuis 2...
...,...,...
145,9055739,Recherche: - POURVU - ALTERNANCE - MOTION DESI...
146,7462065,Nous recherchons pour l'un de nos clients situ...
147,7915280,"Au sein du Groupe Interaction, nous proposons ..."
148,516789,"Notre métier, c'est l'emploi. Des milliers d'o..."


# Uniformisation de la ponctuation des offres

In [9]:
# Fonction pour ajouter de la ponctuation si l'offre n'en a pas
def correct_maj_ds_mot(text):
    # Expression régulière pour trouver une majuscule non précédée par un espace ou une ponctuation
    corrected_text = re.sub(r'(?<=[a-zéèêàùôûîï])(?=[A-Z])', '. ', text)
    return corrected_text

In [10]:
# Fonction pour uniformiser la ponctuation et la forme de chaque offre en amont de la segmentation
# but : paragraphe clean avec ponctuation 

def clean_text(text):
    text = correct_maj_ds_mot(text)

    # Remplacer les caractères spécifiques (comme `¿`) par un espace ou les supprimer
    text = text.replace('¿', '')
    
    # Remplacer les sauts de ligne au milieu des phrases par un espace
    text = re.sub(r'\n+', ' ', text)
    
    # Standardiser les espaces autour de la ponctuation
    text = re.sub(r'\s*([.,;:!?\(\)])\s*', r'\1 ', text)
    
    # Enlever les espaces multiples
    text = re.sub(r'\s+', ' ', text)
    
    # Enlever les espaces en début et fin de texte
    text = text.strip()
    
    return text

# Fonctions de segmentation des offres

In [11]:
# Initialisation du modèle nlp de spacy : https://spacy.io/models/fr
nlp = spacy.load("fr_dep_news_trf") # modèle fr_core_news_sm

In [12]:
# Fonction pour ajouter de la ponctuation si l'offre n'en a pas
def correct_maj_ds_mot(text):
    # Expression régulière pour trouver une majuscule non précédée par un espace ou une ponctuation
    corrected_text = re.sub(r'(?<=[a-zéèêàùôûîï])(?=[A-Z])', '. ', text)
    return corrected_text

In [13]:
# Fonction pour uniformiser la ponctuation et la forme de chaque offre en amont de la segmentation
# but : paragraphe clean avec ponctuation 

def clean_text(text):
    text = correct_maj_ds_mot(text)
    text = text.replace('¿', '')
    text = re.sub(r'\n+', ' ', text)
    text = re.sub(r'\s*([.,;:!?\(\)])\s*', r'\1 ', text)
    text = re.sub(r'\s+', ' ', text)
    text = text.strip()
    
    return text

In [14]:
# Fonction pour segmenter l'offre sur la base de la ligne
def split_on_newlines(doc):
    lines = []
    for sent in doc.sents:
        sent_text = re.sub(r'[.;:](?![.]{2})', '\n', sent.text)
        sent_text = sent_text.replace('),', ')\n')
        
        # Nettoyage du texte pour enlever les caractères indésirables
        sent_text = re.sub(r'[^\w\s\'\(\)\%\+/]', ' ', sent_text)
        
        # Créer une variable doc pour appliquer NER et segmentation par verbes
        doc_segment = nlp(sent_text)
        
        modified_segment = []
        verb_count = 0
        ignore_verbs = 0  # Compteur pour ignorer certains verbes
        for i, token in enumerate(doc_segment):
            if token.pos_ == 'VERB':
                verb_count += 1
                
                # Vérifier si le verbe est utilisé comme adjectif ou participe présent
                if token.tag_ in ['VPP', 'VPR', 'ADJ'] or token.dep_ in ['amod', 'acl']:
                    ignore_verbs += 1
                
                if verb_count - ignore_verbs == 2:  # Segmentation si 2e verbe non ignoré
                    # Vérifier s'il y a "et" entre les deux verbes
                    if not (i > 1 and doc_segment[i-1].text.lower() == "et" and doc_segment[i-2].pos_ == 'VERB'):
                        if i > 0 and doc_segment[i-1].text.endswith("'"):
                            # Ajouter le saut de ligne avant le token qui précède l'apostrophe
                            modified_segment.insert(-1, '\n')
                        else:
                            modified_segment.append('\n')
                    verb_count = 0  # Réinitialiser le compteur de verbes
                    ignore_verbs = 0  # Réinitialiser le compteur des verbes ignorés
            
            # Ajouter la condition pour le caractère "+"
            if token.text == "+":
                modified_segment.append('\n')
            
            modified_segment.append(token.text)
        
        # Joindre les tokens pour former la phrase segmentée
        sent_text_final = ' '.join(modified_segment)
    
        # Séparation par des sauts de ligne simples
        segments = sent_text_final.split('\n')
        for segment in segments:
            segment = segment.strip()
            if segment:
                lines.append(segment)
    
    return lines

In [15]:
# Fonction finale à appliquer sur une offre
def lignes_segm(cellule):
    cellule_clean = clean_text(cellule)
    doc = nlp(cellule_clean)
    return list(split_on_newlines(doc))

# Essai sur 1 offre pour vérifier la segmentation

In [16]:
indice_ligne = 50

offre = df['descri_mission'][indice_ligne]
print(offre)

Recherche: Technicien Process (H/F)
Rattaché au Coordinateur Développement Process Automatisés, vos missions sont les suivantes :
    * Définir les besoins, réaliser les cahiers des charges, rechercher et consulter les fournisseurs, élaborer les budgets d'investissement,
    * Réaliser ou suivre en réalisation les équipements,
    * Travailler transversalement avec les Services « Recherche et Développement », « Industrialisation », « Qualité » et « Production »,
    * Rechercher les meilleurs compromis coût/fonction/délai,
    * Optimiser les équipements par l'analyse des rendements de machines et suggérer des propositions d'améliorations continues,
    * Assurer de la conformité des matériels mis en production vis à vis de la directive machine en vigueur par l'application d'une procédure de réception sécurité,
    * Transmettre un dossier technique complet au service maintenance,
    * Former les techniciens de maintenance sur les équipements mis en place,
    * Obtenir un accor...


In [17]:
test = lignes_segm(offre)
test

['Recherche',
 'Technicien Process ( H / F )',
 'Rattaché au Coordinateur Développement Process Automatisés   vos missions sont les suivantes',
 'Définir les besoins',
 "réaliser les cahiers des charges   rechercher et consulter les fournisseurs   élaborer les budgets d' investissement",
 'Réaliser ou',
 'suivre en réalisation les équipements',
 'Travailler transversalement avec les Services    Recherche et Développement       Industrialisation       Qualité    et    Production',
 'Rechercher les meilleurs compromis coût / fonction / délai',
 "Optimiser les équipements par l' analyse des rendements de machines et",
 "suggérer des propositions d' améliorations continues",
 "Assurer de la conformité des matériels mis en production vis à vis de la directive machine en vigueur par l' application d' une procédure de réception sécurité",
 'Transmettre un dossier technique complet au service maintenance',
 'Former les techniciens de maintenance sur les équipements mis en place',
 'Obtenir un 

# Appliquer la segmentation aux 150 offres

In [18]:
def appliquer_lignes_segm(df):
    all_lines = []
    for _, row in df.iterrows():
        description = row['descri_mission']
        ref_offre = row['ref_offre']
        doc = nlp(description)
        lines = lignes_segm(doc.text)
        for line in lines:
            all_lines.append({'ref_offre': ref_offre, 'segment': line})
    return pd.DataFrame(all_lines)

In [19]:
resultat_df = appliquer_lignes_segm(df)

In [20]:
resultat_df

Unnamed: 0,ref_offre,segment
0,2165625,Recherche
1,2165625,CHEF D' ÉQUIPE MAINTENANCE ( H / F )
2,2165625,My Premium Consulting est un cabinet de recrutement indépendant créé en 2018
3,2165625,Notre équipe de consultants est composée d' experts métiers ayant une solide expérience professionnelle dans le domaine industriel
4,2165625,Ils sont à l' écoute des besoins et des attentes de nos candidats afin de les accompagner au mieux dans leur projet professionnel
...,...,...
3552,8519063,Une possibilité d' acompte à la semaine
3553,8519063,Un CE ( billetterie club vacances chèques vacances
3554,8519063,)
3555,8519063,bénéficier du FASTT ( Aides et services dédiés ( mutuelle logement garde d' enfant prêt d' utilitaires


In [None]:
# Enregister le df en csv
#resultat_df.to_csv('test_lignes_segm.csv', index=False)