# Library imports, configurations

In [4]:
import os
import re
import s3fs
import pandas as pd
import requests
import json
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
from unidecode import unidecode
from wordcloud import WordCloud
import nltk
nltk.download('punkt')

from stop_words import get_stop_words
import unicodedata

from nltk.tokenize import word_tokenize
from elasticsearch import Elasticsearch
from elasticsearch import helpers
from elasticsearch_dsl import connections

[nltk_data] Downloading package punkt to /home/onyxia/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [6]:
# Create filesystem object
S3_ENDPOINT_URL = "https://" + os.environ["AWS_S3_ENDPOINT"]
fs = s3fs.S3FileSystem(client_kwargs={'endpoint_url': S3_ENDPOINT_URL})

In [7]:
BUCKET = "jplaton/diffusion"
fs.ls(BUCKET)

['jplaton/diffusion/.keep',
 'jplaton/diffusion/ted',
 'jplaton/diffusion/visio_mel']

In [8]:
BUCKET_CLEM = "clementg/diffusion"
fs.ls(BUCKET_CLEM)

['clementg/diffusion/.keep',
 'clementg/diffusion/Fiche de Poste DINUM - francetransfert-3595970061- pdf.csv']

# Functions

In [80]:
# Suppression des accents

def remove_accent(s):

    s = unidecode(str(s))
    return(s)

# Suppression de la ponctuation

def remove_punctuation(s):
    # On retire la ponctuation
 
    s = re.sub(r'[^A-Za-z0-9]',' ',str(s))
    return(s)

# Réduction de la casse

def tolower(s):
    s = ' '.join(str(s).lower().split())
    return(s)


# Sur cette base, on crée une petite fonction qui retire les stop words
stopwords = get_stop_words('french')   
stopwords = [unicodedata.normalize('NFKD',m).encode('ASCII', 'ignore').decode() for m in stopwords]

def remove_stopwords(s):
    s = [w for w in word_tokenize(s) if w not in stopwords]
    s = ' '.join(s)
    return(s)

def remove_accent_from_df(df,list_cols):
    df_c =  df.copy()
    df_c[list_cols] = df_c[list_cols].applymap(remove_accent)
    return df_c

def remove_punctuation_from_df(df,list_cols):
    df_c =  df.copy()
    df_c[list_cols] = df_c[list_cols].applymap(remove_punctuation)
    return df_c

def tolower_df(df,list_cols):
    df_c =  df.copy()
    df_c[list_cols] = df_c[list_cols].applymap(tolower)
    return df_c

# DATA Download

In [81]:
FILE_PATH_TED = "ted"
FILE_PATH_TED_S3 = BUCKET + "/" + FILE_PATH_TED

with fs.open(FILE_PATH_TED_S3+"/offres-datagouv-20230409.csv", mode="rb") as file_in:
    offres_2023_df = pd.read_csv(file_in, sep=";")

with fs.open(FILE_PATH_TED_S3+"/offres-datagouv-20221225.csv", mode="rb") as file_in:   
    offres_2022_df = pd.read_csv(file_in, sep=";")

with fs.open(FILE_PATH_TED_S3+"/Bulloterie_10_Saison_2.xlsx", mode="rb") as file_in:  
    bulloterie_df =  pd.read_excel(file_in, sheet_name=0,header=[0,1])


  offres_2023_df = pd.read_csv(file_in, sep=";")
  offres_2022_df = pd.read_csv(file_in, sep=";")


In [82]:
with fs.open(BUCKET_CLEM+"/Fiche de Poste DINUM - francetransfert-3595970061- pdf.csv", mode="rb") as file_in:
    fdp_dinum_df = pd.read_csv(file_in, sep=";",encoding='Windows-1252')

In [12]:
with fs.open(FILE_PATH_TED_S3+"/dila_refOrga_admin_Etat_fr_20230505.json", mode="rb") as file_in:  
    orga =  json.load(file_in)

### Traitement référentiel services

In [66]:
orga_df = pd.json_normalize(orga,record_path='service')

In [47]:
services_clean = ( orga_df
    .pipe(remove_accent_from_df,['copyright','nom','type_organisme','sigle'])
    .pipe(remove_punctuation_from_df,['copyright','nom','type_organisme','sigle'])
    .pipe(tolower_df,['copyright','nom','type_organisme','sigle'])
)

In [48]:
services_clean = services_clean[['copyright','nom','type_organisme','sigle']]

In [49]:
services_clean.head(5)

Unnamed: 0,copyright,nom,type_organisme,sigle
0,direction de l information legale et administrative premiere ministre,bureau de coordination strategique,administration centrale ou ministere,
1,direction de l information legale et administrative premiere ministre,direction de l information legale et administrative,administration centrale ou ministere,dila
2,direction de l information legale et administrative premiere ministre,bureau de la simplification et de la qualite de service,administration centrale ou ministere,
3,direction de l information legale et administrative premiere ministre,service de la protection sdlp,administration centrale ou ministere,
4,direction de l information legale et administrative premiere ministre,service national d accueil telephonique de l enfance en danger snated,groupement d interet public,


### Traitement offres

In [14]:
offres_df = pd.concat([offres_2023_df,offres_2022_df])

In [15]:
offres_df.columns = offres_df.columns.map(remove_accent).map(remove_punctuation).map(tolower).map(lambda s: s.replace(' ', '_'))

 offres_df[offres_df['metier'].str.contains('scientist|engineer',na=False)].head(2)

In [17]:
offres_df_clean = ( offres_df
    .pipe(remove_accent_from_df,['organisme_de_rattachement','metier','intitule_du_poste','localisation_du_poste'])
    .pipe(remove_punctuation_from_df,['organisme_de_rattachement','metier','intitule_du_poste','localisation_du_poste'])
    .pipe(tolower_df,['organisme_de_rattachement','metier','intitule_du_poste','localisation_du_poste'])
)

In [67]:
offres_df_clean = offres_df_clean[['organisme_de_rattachement','metier','intitule_du_poste','localisation_du_poste']]
offres_df_clean.head(2)

Unnamed: 0,organisme_de_rattachement,metier,intitule_du_poste,localisation_du_poste
0,structures de cooperation territoriale,chargee charge de politique environnementale,geomaticien ne ecologue syndicat mixte de gestion du conservatoire botanique,haute loire
1,structures de cooperation territoriale,chargee charge de politique environnementale,charge e mission flore habitats naturels vegetations agro pastorales,haute loire


### Traitement Fiche de poste DNUM

In [84]:
# Traitement des colonnes
fdp_dinum_df.columns = fdp_dinum_df.columns.map(remove_accent).map(remove_punctuation).map(tolower).map(lambda s: s.replace(' ', '_'))

In [86]:
fdp_clean = ( fdp_dinum_df
    .pipe(remove_accent_from_df,['poste','intitule_du_service_demandeur_bureau_section','corps_grade','presentation','missions','competences'])
    .pipe(remove_punctuation_from_df,['poste','intitule_du_service_demandeur_bureau_section','corps_grade','presentation','missions','competences'])
    .pipe(tolower_df,['poste','intitule_du_service_demandeur_bureau_section','corps_grade','presentation','missions','competences'])
)

In [88]:
fdp_clean = fdp_clean[['poste','intitule_du_service_demandeur_bureau_section','corps_grade','presentation','missions','competences']]
fdp_clean.head(2)


Unnamed: 0,poste,intitule_du_service_demandeur_bureau_section,corps_grade,presentation,missions,competences
0,gestionnaire financier,direction interministerielle du numerique secretariat general pole budget achats,secretaire administratif ve b,service de la premiere ministre place sous l autorite de la ministre de la transformation et de la fonction publiques la direction interministerielle du numerique dinum est en charge de la transformation numerique de l etat elle accompagne les ministeres conseille le gouvernement et developpe des services et ressources numeriques partagees pour les citoyens et les agents publics rejoindre la dinum c est prendre part a un collectif de pres de 200 agents reunis autour d une meme ambition creer grace au numerique le service public de demain le secretariat general de la dinum est responsable des fonctions transverses de la dinum ressources humaines communication finances logistique juridique garantissant le bon fonctionnement des services de la dinum et la qualite des conditions de travail des agents le pole budget et achats est plus particulierement en charge d assurer l execution financiere des actes de gestion de mettre en oeuvre l achat public et de contribuer a la performance et a la qualite de l execution des operations budgetaires et financieres l ensemble de ces actions porte aujourd hui sur trois programmes budgetaires et bop distincts 129 352 et 349,missions vous assurez l instruction et l execution financiere des actes de gestion de la dinum activites principales instruire saisir et suivre les actes de gestion demandes d achat services faits etc des differents programmes geres par la dinum au sein du logiciel chorus formulaires produire des restitutions et ou alertes financieres zdep56 zbud01 etc assurer l interface entre les differents acteurs de la chaine financiere services comptables et budgetaires des spm et fournisseurs afin d en garantir la fluidite contribuer a la gestion et au suivi des investissements fiec fies operations d inventaire notamment de la dinum suivre en continu le paiement et la cloture des engagements traitement des restes a payer en fonction de l evolution des priorites fixees a la dinum reorganisation en cours il elle peut etre amene e a prendre en charge d autres taches et projets,savoirs maitrise des regles et processus financiers lolf gbcp commande publique une premiere experience en gestion financiere dans la fonction publique est requise savoir faire solides connaissances de chorus coeur et formulaires connaissance et pratique souhaitees en matiere d investissement fiec fies gestion d inventaire gerer et exploiter les bases de donnees savoir etre autonomie rigueur et sens des responsabilites appetence pour le domaine du numerique solides capacites d organisation et de travail en equipe
1,adjoint e du de la chef fe de departement et responsable de l incubation de l operateur de produits interministeriels,direction interministerielle du numerique dinum departement de l operateur de produits interministeriels,,la direction interministerielle du numerique dinum est un service de la premiere ministre place sous l autorite du ministre de la transformation et de la fonction publiques elle oriente anime soutient et coordonne les actions des administrations de l etat et celles des organismes places sous sa tutelle visant a ameliorer la qualite l efficacite l efficience et la fiabilite des services rendus par le systeme d information et de communication de l etat elle contribue a l ouverture des donnees publiques aux strategies d innovation ouverte et au travail avec les ecosystemes d innovation elle pilote la politique de mutualisation du systeme d information et de communication de l etat et peut intervenir dans la gouvernance des operations de mutualisation ainsi que dans la conception l elaboration et la mise en oeuvre de ces operations enfin elle soutient le developpement des competences dans le domaine du numerique en facilitant l emergence d une filiere professionnelle interministerielle du numerique rejoindre la dinum c est prendre part a un collectif de plus de 200 agents reunis autour d une meme ambition le numerique au service de l efficacite de l action publique le departement operateur de produits interministeriels est un collectif de 45 personnes qui construit met a disposition et opere des services numeriques d usage partage notamment un service de federation d identite electronique et des outils a a destination des agents publics impliquant en tant que de besoin les services de l etat les collectivites territoriales et la societe civile et visant a la transformation numerique des politiques et de l action publiques il peut egalement intervenir dans la gouvernance des operations de mutualisation ainsi que dans la conception l elaboration et la mise en oeuvre de ces operations,en tant qu adjoint de departement operateur de produits interministeriels et responsable du programme d incubation du departement vous animerez un collectif de 20 agents repartis en equipe produits qui experimentent et operent des services publics numeriques interministeriels mis a disposition du public des agents publics ainsi que des equipes de developpement numeriques vous construirez egalement puis diffuserez en interministeriel une approche operationnelle de la perennisation d equipes produits dans la sphere publique au sein de la dinum vous serez garant de cette organisation caracterisee par une gouvernance horizontale et par une recherche permanente de la maximisation de la valeur fournie au beneficiaire vous animerez un processus collectif d apprentissage de deliberation et de prise de decisions tout en garantissant la place aux initiatives individuelles des membres de l operateur vous preparerez avec vos equipes les comites d investissement avec la direction de la dinum pour chaque produit incube vous attacherez une importance particuliere a la trajectoire de conformite des produits operes par la dinum en matiere de securite d accessibilite de rgpd ainsi qu au service rendu aux beneficiaires disponibilite support vous engagerez des plans d amelioration continue pour chaque produit incube vous travaillerez en binome avec le la chef fe du departement activites conseiller les equipes sur les problematiques metier et techniques qu elles rencontrent mettre en place un suivi de l impact a l echelle de l operateur mettre en place l ensemble des process au niveau de l operateur s assurer que l investissement des equipes dans la qualite et la conformite est en adequation avec l impact obtenu representer l operateur aupres de differents acteurs au sein de l administration faciliter l emergence de nouvelles incubations aupres des administrations porteuses appel a innovateur veille creer une communaute de coach pour former et accompagner les intrapreuneurs du departement dans la gestion de leur produit budget rh financement comites d investissements ces activites demandent aussi d assurer la communication sur la mise en place du departement operateur documentation des actions mises en place et process instaures redaction de doctrines autour des reussites replicables organisation d evenements recurrents avec d autres operateurs de produit perenne a impact pour partager de bonnes pratiques,savoirs tres bonne culture numerique et notamment des enjeux et des defis de la transformation numerique publique expertise sur la construction de produits numeriques a impact methode agile bonne connaissance des enjeux de qualite et de conformite securite rgpd accessibilite savoirs faire competences manageriales d encadrement d equipe pluridisciplinaire en privilegiant l horizontalite capacite a reorienter des equipes pour se recentrer sur l impact capacite a interagir avec l ensemble de l ecosysteme de la dinum administration cabinets ministeriels collectivites territoriales acteurs du numerique capacites a mobiliser des disciplines diverses au service de projets complexes savoirs etre etre au service des beneficiaires des produits proposes etre systematiquement oriente e vers la creation de valeur et la qualite de service partager ses connaissances favoriser le mentorat sens de l innovation et de la creativite pour developper des solutions


# Insertion des données dans Elastic Search

In [59]:
# Paramétrage du client
es_client = connections.create_connection(hosts=['http://elasticsearch-master:9200/'])

In [63]:
# Fontion qui transforme un dataframe en document/index à stocker dans ElasticSearch
def doc_generator(df,index_name):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": index_name,
                "_type": "_doc",
                "_source": document,
            }

In [68]:
# Indexation des offres
helpers.bulk(es_client, doc_generator(offres_df_clean,"offres"))

  helpers.bulk(es_client, doc_generator(offres_df_clean))
  helpers.bulk(es_client, doc_generator(offres_df_clean))


(406755, [])

In [64]:
# Indexation des services
helpers.bulk(es_client, doc_generator(services_clean,"services"))

  helpers.bulk(es_client, doc_generator(services_clean,"services"))
  helpers.bulk(es_client, doc_generator(services_clean,"services"))


(7636, [])

In [89]:
# Indexation des fiches de poste
helpers.bulk(es_client, doc_generator(fdp_clean,"fiches"))

  helpers.bulk(es_client, doc_generator(fdp_clean,"fiches"))
  helpers.bulk(es_client, doc_generator(fdp_clean,"fiches"))


(30, [])

In [34]:
from elasticsearch_dsl import Search
s = Search(index='offres').query('match',metier='charge')

In [35]:
r=s.execute()

  es.search(index=self._index, body=self.to_dict(), **self._params).body,


In [36]:
df_results = pd.DataFrame((d.to_dict() for d in s.scan()))

  for hit in scan(es, query=self.to_dict(), index=self._index, **self._params):


In [38]:
len(df_results)

153861

In [56]:
 # Recherche dans l'ensemble des champs le meilleur écho (le plus pertinent) #
#fullsearch = es.search(index = "sirus_2020", # l'index dans lequel on cherche
#                              q = "CPCU - CENTRALE DE BERCY", # notre requête textuelle
#                              size = 1) # taille de l'ensemble les échos souhaités
# debug? unstable behaviour?
fullsearch = es_client.search(index = "offres", # l'index dans lequel on cherche
                       q = "service de la protection sdlp", # notre requête textuelle
                              size = 1) # taille de l'ensemble les échos souhaités

  fullsearch = es_client.search(index = "offres", # l'index dans lequel on cherche


In [57]:
fullsearch

ObjectApiResponse({'took': 38, 'timed_out': False, '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0}, 'hits': {'total': {'value': 10000, 'relation': 'gte'}, 'max_score': 13.541397, 'hits': [{'_index': 'offres', '_type': '_doc', '_id': 'mlyuJYsBWOZ9YleKE8QM', '_score': 13.541397, '_source': {'organisme_de_rattachement': 'ministere de l interieur', 'metier': 'chargee charge de gestion administrative et ou de paie', 'intitule_du_poste': 'sdlp chef du secretariat de la sous direction de la protection des personnes h f', 'localisation_du_poste': 'paris'}}]}})

In [129]:
offres_df_clean[offres_df_clean['Métier'].str.contains("ux designer",na=False)|offres_df_clean['Intitulé du poste'].str.contains("data designer",na=False)][['Métier','Intitulé du poste']].head(5)

Unnamed: 0,Métier,Intitulé du poste
136654,architecte technique,expert conception et architecture de donnees d...
136668,architecte technique,expert conception et architecture de donnees d...
136672,architecte technique,expert conception et architecture de donnees d...


In [130]:
offres_df_clean[offres_df_clean['Métier'].str.contains("data scientist",na=False)|offres_df_clean['Intitulé du poste'].str.contains("data scientist",na=False)]['Organisme de rattachement'].unique()

array(['Centre Hospitalier Universitaire de Tours',
       "Muséum National d'Histoire Naturelle",
       'Direction générale des finances publiques (DGFiP)',
       "Institut national de l'information géographique et forestière",
       "Ministère de l'éducation nationale et de la jeunesse  -  Ministère de l'enseignement supérieur et de la recherche",
       'Secrétariat Général', 'Administration Centrale MENJ - MESR',
       'Autorité des Marchés Financiers',
       "Agence Régionale de Santé Provence-Alpes-Côte-d'Azur",
       'Agence de Services et de Paiement (ASP)',
       'Structures de coopération territoriale',
       'Direction Interministérielle du Numérique (DINUM)',
       'Agence Nationale de Sécurité du Médicament et des Produits de Santé',
       'Institut de Recherche pour le Développement',
       "Ministère de l'Intérieur",
       'Direction générale des entreprises (DGE)', 'DRSD',
       'Direction des Services Judiciaires',
       "Ministère des Armées - CMG d'Arcu

In [None]:
offres_df_clean[]