# Natural Processing Language

## Imports

In [37]:
import torch
print(torch.__version__)

2.8.0+cu128


In [38]:
import os
import requests
import pandas as pd
from datetime import datetime
import spacy
from sqlalchemy import create_engine, Table, MetaData, text
from sqlalchemy.dialects.postgresql import insert as pg_insert
from sqlalchemy.exc import SQLAlchemyError
from sentence_transformers import SentenceTransformer, util

### Paramètres de sauvegarde

In [39]:
# ---------------------------
# PARAMETRES DE SAUVEGARDE
# ---------------------------
# Répertoires
CSV_DIR = "../data/csv"
PARQUET_DIR = "../data/parquet"

In [40]:
# --- NLP ---
nlp = spacy.load("fr_core_news_sm")
model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')

### Nettoyer le texte

In [41]:
def clean_text(text):
    if not text:
        return ""
    doc = nlp(text.lower())
    return " ".join([token.lemma_ for token in doc if not token.is_stop])

### Calculer similarité

In [42]:
def compute_similarity(df, reference_text_clean):
    descriptions_clean = [clean_text(d) for d in df['description']]
    ref_emb = model.encode(reference_text_clean, convert_to_tensor=True)
    offers_emb = model.encode(descriptions_clean, convert_to_tensor=True)
    similarities = util.cos_sim(ref_emb, offers_emb).numpy().flatten()
    df['similarity'] = similarities
    return df

### Récupérer les offres

In [43]:
# Chargement depuis parquet
today = datetime.now().strftime("%Y-%m-%d")
path_parquet = os.path.join(PARQUET_DIR, f"{today}_offres.parquet")
df = pd.read_parquet(path_parquet)
display(df.shape)
display(df.head(3))

(1188, 12)

Unnamed: 0,source,id,titre,description,entreprise,lieu,latitude,longitude,type_contrat_libelle,date_publication,url,secteur_activites
0,France Travail,197XKGK,Data analyst (H/F),Pourquoi a-t-on besoin de vous?\nDans le cadre...,SAINT-GOBAIN DISTRIBUTION BATIMENT FRANC,92 - Courbevoie,48.901819,2.267542,CDD - 12 Mois,2025-09-17T07:27:40.068Z,https://candidat.francetravail.fr/offres/reche...,Activités des sièges sociaux
1,France Travail,197XHCS,DATA ANALYST/SCIENTIST(H/F),"En tant que Data Analyst - Data Scientist, vou...",INFOBAM,972 - LE LAMENTIN,14.615411,-61.003361,CDI,2025-09-16T18:29:39.856Z,https://candidat.francetravail.fr/offres/reche...,Gestion d'installations informatiques
2,France Travail,197TNXM,Data Analyst ETL / SI Junior - H/F (H/F),"Empreinte est une société Française qui crée, ...",EMPREINTE SA,29 - BREST,48.414003,-4.491985,CDI,2025-09-12T17:46:57.887Z,https://candidat.francetravail.fr/offres/reche...,Fabrication de vêtements de dessous


### Procédure

In [44]:
# Définition texte de référence
reference_text = """
Data Analyst en reconversion | 10 ans d’expérience industrie automobile & achats | Expert en dashboards et optimisation de performance.

Je suis débutant.

Mes compétences sont les suivantes : 
 • Data Analysis & BI : Power BI (DAX, Power Query), Excel avancé, SQL.
 • Data Visualization :  Création de tableaux de bord et KPIs pour la prise de décision.
 • Statistiques & Prévisions :  Analyses quantitatives, modèles prédictifs, préventions des risques.
 • Conception d’outils d’aide à la décision et de tableaux de bord stratégiques pour orienter les choix business.
 • Méthodologies : Gestion de projets analytiques, reporting automatisé.

Dans le domaine informatique, j'ai les compétences suivantes:
 • Langages de programmation : Python, Java, SQL
 • Logiciel : Power BI, Excel
 • Cloud : Azure, Google Cloud Platform

Mes atouts sont les suivants:
 • Autonome et rigoureux dans la gestion de projets.
 • Vulgarise des résultats complexes pour des non-spécialistes.
 • Organise et priorise les tâches orientées résultats.
 • En veille active sur l’IA et les nouvelles technologies

Mes diplômes et formations sont les suivants:
 •  Certification Microsoft Analyste de Données Power BI (PL300) 
 •  Bac+4 - Concepteur développeur en IA et analyse Big Data (2024 Le Wagon Paris, France)
 •  Bac+5 –Master 2 Electronique Electrotechnique et Automatique( 2008 Université Bordeaux 1 Bordeaux)

Mes expériences professionnelles sont les suivantes :
 •  Acheteur de composants (De mars 2021 à janvier 2025 Stellantis Poissy, France)
     - Analyser et structurer des données fournisseurs pour l’optimisation des coûts.
     -  Développer des tableaux de bord (KPI, suivi de performance) automatisés.
     - Communiquer des insights aux équipes finance, qualité et production.
     - Réaliser des économies supérieures de 20 % aux objectifs fixés.
 •  Responsable de développement de machines électriques (De septembre 2014 à février 2021 Stellantis Poissy, France)
     - Analyser et valider des données issues des tests de performance produits
     - Automatiser des traitements statistiques pour réduire les erreurs de reporting.
     - Mettre en place de modèles prédictifs pour améliorer la fiabilité des composants.

Mes langues parlées sont : 
 •  l'anglais (courant)
 •  le français (maternel)

Mes centres d'intérêts sont les suivants :
 •  Théâtre (improvisation)
 •  la moto (sorties en groupe)

 
Data Analyst avec expertise Python, SQL, Power BI et analyse de données industrielles. 
Je souhaite travailler en région parisienne (100 km autour de la ville de Poissy (code postal: 78300), dans le département des Yvelines). 
"""

# Nettoyage texte de référence
reference_text_clean = clean_text(reference_text)

df = compute_similarity(df, reference_text_clean)
display(df.shape)
display(df.head(10))

(1188, 13)

Unnamed: 0,source,id,titre,description,entreprise,lieu,latitude,longitude,type_contrat_libelle,date_publication,url,secteur_activites,similarity
0,France Travail,197XKGK,Data analyst (H/F),Pourquoi a-t-on besoin de vous?\nDans le cadre...,SAINT-GOBAIN DISTRIBUTION BATIMENT FRANC,92 - Courbevoie,48.901819,2.267542,CDD - 12 Mois,2025-09-17T07:27:40.068Z,https://candidat.francetravail.fr/offres/reche...,Activités des sièges sociaux,0.587251
1,France Travail,197XHCS,DATA ANALYST/SCIENTIST(H/F),"En tant que Data Analyst - Data Scientist, vou...",INFOBAM,972 - LE LAMENTIN,14.615411,-61.003361,CDI,2025-09-16T18:29:39.856Z,https://candidat.francetravail.fr/offres/reche...,Gestion d'installations informatiques,0.693261
2,France Travail,197TNXM,Data Analyst ETL / SI Junior - H/F (H/F),"Empreinte est une société Française qui crée, ...",EMPREINTE SA,29 - BREST,48.414003,-4.491985,CDI,2025-09-12T17:46:57.887Z,https://candidat.francetravail.fr/offres/reche...,Fabrication de vêtements de dessous,0.549942
3,France Travail,197NKZD,Consultant Data confirmé - Data Analyst H/F,Nous recherchons un(e) Consultant(e) Data conf...,EFFIDIC,49 - TRELAZE,47.445931,-0.466974,CDI,2025-09-09T09:24:40.097Z,https://candidat.francetravail.fr/offres/reche...,Conseil en systèmes et logiciels informatiques,0.598625
4,France Travail,197PLRS,Data Analyst (h/f),"Adecco recherche pour l'un de ses clients, une...",ADECCO FRANCE,13 - Marignane,43.407483,5.255358,Intérim - 12 Mois,2025-09-09T16:27:22.779Z,https://candidat.francetravail.fr/offres/reche...,Activités des agences de travail temporaire,0.604199
5,France Travail,197LHZZ,Data analyst (H/F),Vos missions principales seront :\n\n- Collect...,GROUPE SOCODA,75 - PARIS 01,,,CDI,2025-09-05T15:53:24.104Z,https://candidat.francetravail.fr/offres/reche...,Centrales d'achat non alimentaires,0.636601
6,France Travail,197GFLX,Data analyst (F/H),"Directement rattaché au DSI , vous serez un él...",EXPECTRA,34 - Montpellier,43.626378,3.882533,CDI,2025-09-02T14:41:39.561Z,https://candidat.francetravail.fr/offres/reche...,Activités des agences de travail temporaire,0.491424
7,France Travail,197DQJQ,Data Analyst (H/F),"Le Groupe WATT&CO, acteur reconnu depuis 15 an...",WATT & CO INGENIERIE,81 - MAZAMET,43.489968,2.376418,CDI,2025-09-01T14:10:09.118Z,https://candidat.francetravail.fr/offres/reche...,"Ingénierie, études techniques",0.35576
8,France Travail,197FFNK,Business Analyst junior - Data & Reporting (H/F),"Dans le cadre de notre développement, nous rec...",,13 - MARSEILLE 02,43.296373,5.369877,CDI,2025-09-01T17:41:16.627Z,https://candidat.francetravail.fr/offres/reche...,Affrètement et organisation des transports,0.473204
9,France Travail,197DCLX,Data analyst (H/F),"Rejoindre Davidson, ce n'est pas seulement int...",DAVIDSON PACA,06 - VALBONNE,43.622404,7.046216,CDI,2025-09-01T10:08:42.202Z,https://candidat.francetravail.fr/offres/reche...,"Ingénierie, études techniques",0.340178


In [45]:
# # Définition texte de référence
# reference_text = """ 
# Data Analyst avec expertise Python, SQL, Power BI et analyse de données industrielles. 
# Je souhaite travailler en région parisienne (100 km autour de la ville de Poissy (code postal: 78300), dans le département des Yvelines). 
# """

# # Nettoyage texte de référence
# reference_text_clean = clean_text(reference_text)

# df = compute_similarity(df, reference_text_clean)
# display(df.shape)
# display(df.head(10))

In [59]:
df.iloc[5]

source                                                     France Travail
id                                                                197LHZZ
titre                                                  Data analyst (H/F)
description             Vos missions principales seront :\n\n- Collect...
entreprise                                                  GROUPE SOCODA
lieu                                                        75 - PARIS 01
latitude                                                              NaN
longitude                                                             NaN
type_contrat_libelle                                                  CDI
date_publication                                 2025-09-05T15:53:24.104Z
url                     https://candidat.francetravail.fr/offres/reche...
secteur_activites                      Centrales d'achat non alimentaires
similarity                                                       0.636601
Name: 5, dtype: object

In [60]:
df[['description']].iloc[5].values

array(["Vos missions principales seront :\n\n- Collecter, structurer et nettoyer les données issues de différentes sources,\n\n- Analyser les données afin d'identifier des tendances, opportunités et axes d'amélioration,\n\n- Créer des tableaux de bord et des rapports automatisés pour faciliter la prise de décision,\n\n- Collaborer avec les équipes métiers pour traduire leurs besoins en solutions data,\n\n- Participer à l'amélioration continue des outils et processus d'analyse.\n\nProfil recherché :\n\n- Formation en data, statistiques ou équivalent,\n\n- Connaissances en SQL et Excel (Python, R ou Power BI sont un plus),\n\n- Esprit analytique, rigueur et capacité à vulgariser les résultats."],
      dtype=object)

In [61]:
df[['url']].iloc[5].values

array(['https://candidat.francetravail.fr/offres/recherche/detail/197LHZZ'],
      dtype=object)