# Library imports, configurations

In [16]:
import os
import re
import s3fs
import pandas as pd
import requests
import json
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
from unidecode import unidecode
from wordcloud import WordCloud
import nltk
nltk.download('punkt')

from stop_words import get_stop_words
import unicodedata

from nltk.tokenize import word_tokenize
from elasticsearch import Elasticsearch
from elasticsearch import helpers
from elasticsearch_dsl import connections

[nltk_data] Downloading package punkt to /home/onyxia/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [17]:
# Create filesystem object
S3_ENDPOINT_URL = "https://" + os.environ["AWS_S3_ENDPOINT"]
fs = s3fs.S3FileSystem(client_kwargs={'endpoint_url': S3_ENDPOINT_URL})

In [18]:
BUCKET = "jplaton/diffusion"
fs.ls(BUCKET)

['jplaton/diffusion/.keep',
 'jplaton/diffusion/ted',
 'jplaton/diffusion/visio_mel']

In [19]:
BUCKET_CLEM = "clementg/diffusion"
fs.ls(BUCKET_CLEM)

['clementg/diffusion/.keep',
 'clementg/diffusion/Fiche de Poste DINUM - francetransfert-3595970061- pdf.csv']

# Functions

In [20]:
# Suppression des accents

def remove_accent(s):

    s = unidecode(str(s))
    return(s)

# Suppression de la ponctuation

def remove_punctuation(s):
    # On retire la ponctuation
 
    s = re.sub(r'[^A-Za-z]',' ',str(s))
    return(s)

# Réduction de la casse

def tolower(s):
    s = ' '.join(str(s).lower().split())
    return(s)


# Sur cette base, on crée une petite fonction qui retire les stop words
stopwords = get_stop_words('french')   
stopwords = [unicodedata.normalize('NFKD',m).encode('ASCII', 'ignore').decode() for m in stopwords]

def remove_stopwords(s):
    s = [w for w in word_tokenize(s) if w not in stopwords]
    s = ' '.join(s)
    return(s)

def remove_accent_from_df(df,list_cols):
    df_c =  df.copy()
    df_c[list_cols] = df_c[list_cols].applymap(remove_accent)
    return df_c

def remove_punctuation_from_df(df,list_cols):
    df_c =  df.copy()
    df_c[list_cols] = df_c[list_cols].applymap(remove_punctuation)
    return df_c

def tolower_df(df,list_cols):
    df_c =  df.copy()
    df_c[list_cols] = df_c[list_cols].applymap(tolower)
    return df_c

# DATA Download

In [21]:
FILE_PATH_TED = "ted"
FILE_PATH_TED_S3 = BUCKET + "/" + FILE_PATH_TED

with fs.open(FILE_PATH_TED_S3+"/offres-datagouv-20230409.csv", mode="rb") as file_in:
    offres_2023_df = pd.read_csv(file_in, sep=";")

with fs.open(FILE_PATH_TED_S3+"/offres-datagouv-20221225.csv", mode="rb") as file_in:   
    offres_2022_df = pd.read_csv(file_in, sep=";")

with fs.open(FILE_PATH_TED_S3+"/Bulloterie_10_Saison_2.xlsx", mode="rb") as file_in:  
    bulloterie_df =  pd.read_excel(file_in, sheet_name=0,header=[0,1])


  offres_2023_df = pd.read_csv(file_in, sep=";")
  offres_2022_df = pd.read_csv(file_in, sep=";")


In [22]:
with fs.open(BUCKET_CLEM+"/Fiche de Poste DINUM - francetransfert-3595970061- pdf.csv", mode="rb") as file_in:
    fdp_dinum_df = pd.read_csv(file_in, sep=";",encoding='Windows-1252')

In [23]:
with fs.open(FILE_PATH_TED_S3+"/dila_refOrga_admin_Etat_fr_20230505.json", mode="rb") as file_in:  
    orga =  json.load(file_in)

In [24]:
orga_df = pd.json_normalize(orga,record_path='service')
orga_df.head(1)

Unnamed: 0,plage_ouverture,site_internet,copyright,siren,ancien_code_pivot,texte_reference,partenaire,telecopie,nom,siret,itm_identifiant,sigle,date_modification,adresse_courriel,service_disponible,organigramme,pivot,partenaire_identifiant,ancien_identifiant,id,ancien_nom,commentaire_plage_ouverture,annuaire,hierarchie,categorie,sve,telephone_accessible,version_type,type_repertoire,telephone,version_etat_modification,date_creation,partenaire_date_modification,mission,formulaire_contact,version_source,type_organisme,code_insee_commune,statut_de_diffusion,adresse,information_complementaire,date_diffusion
0,[],"[{'libelle': '', 'valeur': 'http://www.police-nationale.interieur.gouv.fr'}]",Direction de l'information légale et administrative (Première ministre),,,[],,[01 47 44 97 99],Bureau de coordination stratégique,,184318,,04/02/2021 18:26:23,[],,[],[],,[],00014eb0-f7fe-4988-9380-137ccdfc401e,[],,[],[],SI,[https://contacts-demarches.interieur.gouv.fr],[],Publiable,,"[{'valeur': '01 49 27 49 27', 'description': ''}]",,10/08/2009 00:00:00,,,[http://www.police-nationale.interieur.gouv.fr/Menu-accessibilite/Nous-contacter],,Administration centrale (ou Ministère),,True,"[{'type_adresse': 'Adresse', 'complement1': '', 'complement2': '', 'numero_voie': '11 rue des Saussaies', 'service_distribution': '', 'code_postal': '75008', 'nom_commune': 'Paris', 'pays': '', 'continent': '', 'longitude': '', 'latitude': '', 'accessibilite': '', 'note_accessibilite': ''}]",,


In [59]:
offres_df = pd.concat([offres_2023_df,offres_2022_df])

In [60]:
offres_df.columns = offres_df.columns.map(remove_accent).map(remove_punctuation).map(tolower).map(lambda s: s.replace(' ', '_'))

In [63]:
offres_df.head(1)

Unnamed: 0,organisme_de_rattachement,reference,versant,metier,statut_du_poste,nature_de_l_emploi,duree_du_contrat,intitule_du_poste,localisation_du_poste,lieu_d_affectation,niveau_d_etudes,niveau_d_experience_min_requis,date_de_vacance_de_l_emploi,date_de_debut_de_publication_par_defaut,date_de_fin_de_publication_par_defaut,date_de_premiere_publication,specialisation,teletravail,management,employeur,categorie,temps_plein,duree_du_poste,langues,niveaux,lieu_d_affectation_sans_geolocalisation,avis_de_vacances_au_jo,competences_attendues,documents_a_transmettre,nature_de_contrat
0,Structures de coopération territoriale,O043221200865282,Fonction Publique Territoriale,Chargée / Chargé de politique environnementale,Vacant,Emploi ouvert aux titulaires et aux contractuels,,Géomaticien.ne écologue - SYNDICAT MIXTE DE GESTION DU CONSERVATOIRE BOTANIQUE,Haute Loire (43),1 rue Adrienne de Noailles - 43230 Chavaniac-Lafayette,,,01/03/2023,28/12/2022,31/01/2023,01/12/2022,,,,,Catégorie A (cadre),Oui,,,,Chavaniac-Lafayette,,,,


In [64]:
offres_df_clean = ( offres_df
    .pipe(remove_accent_from_df,['organisme_de_rattachement','metier','intitule_du_poste','localisation_du_poste'])
    .pipe(remove_punctuation_from_df,['organisme_de_rattachement','metier','intitule_du_poste','localisation_du_poste'])
    .pipe(tolower_df,['organisme_de_rattachement','metier','intitule_du_poste','localisation_du_poste'])
)

In [65]:
offres_df_clean = offres_df_clean[['organisme_de_rattachement','metier','intitule_du_poste','localisation_du_poste']]
offres_df_clean.shape
offres_df_clean.head(1)

Unnamed: 0,organisme_de_rattachement,metier,intitule_du_poste,localisation_du_poste
0,structures de cooperation territoriale,chargee charge de politique environnementale,geomaticien ne ecologue syndicat mixte de gestion du conservatoire botanique,haute loire


# Insertion des données dans Elastic Search

In [66]:
es_client = connections.create_connection(hosts=['http://elasticsearch-master:9200/'])

In [67]:
def doc_generator(df):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": 'offres',
                "_type": "_doc",
                "_source": document,
            }

In [68]:
helpers.bulk(es_client, doc_generator(offres_df_clean))

  helpers.bulk(es_client, doc_generator(offres_df_clean))
  helpers.bulk(es_client, doc_generator(offres_df_clean))


(406755, [])

In [81]:
from elasticsearch_dsl import Search
s = Search(index='offres').query('match',metier='scientist')

In [82]:
r=s.execute()

  es.search(index=self._index, body=self.to_dict(), **self._params).body,


In [83]:
r

<Response: [<Hit(offres/u1ytJYsBWOZ9YleK0zTN): {'organisme_de_rattachement': 'administration centrale menj ...}>, <Hit(offres/DVytJYsBWOZ9YleK1Thb): {'organisme_de_rattachement': 'autorite des marches financie...}>, <Hit(offres/QFytJYsBWOZ9YleK1Thb): {'organisme_de_rattachement': 'agence regionale de sante pro...}>, <Hit(offres/uVytJYsBWOZ9YleK1Thb): {'organisme_de_rattachement': 'autorite des marches financie...}>, <Hit(offres/xlytJYsBWOZ9YleKzyrW): {'organisme_de_rattachement': 'institut national de l inform...}>, <Hit(offres/C1ytJYsBWOZ9YleK0S6C): {'organisme_de_rattachement': 'direction generale des financ...}>, <Hit(offres/gVytJYsBWOZ9YleKyRt4): {'organisme_de_rattachement': 'ministere de l education nati...}>, <Hit(offres/hFytJYsBWOZ9YleKwgrX): {'organisme_de_rattachement': 'museum national d histoire na...}>, <Hit(offres/e1ytJYsBWOZ9YleKxA-o): {'organisme_de_rattachement': 'direction generale des financ...}>, <Hit(offres/ilytJYsBWOZ9YleKxA-o): {'organisme_de_rattachement': 'inst

In [84]:
type(r)

elasticsearch_dsl.response.Response

In [85]:
df_results = pd.DataFrame((d.to_dict() for d in s.scan()))

  for hit in scan(es, query=self.to_dict(), index=self._index, **self._params):


In [86]:
df_results

Unnamed: 0,organisme_de_rattachement,metier,intitule_du_poste,localisation_du_poste
0,administration centrale menj mesr,data scientist,c esr a responsable de pole d enquetes statistiques etablissements d enseignement superieur h f,paris
1,autorite des marches financiers,data scientist,data scientist detection abus de marche h f,paris
2,agence regionale de sante provence alpes cote d azur,data scientist,data scientist statisticien h f,bouches du rhone
3,autorite des marches financiers,data scientist,data scientist detection abus de marche h f,paris
4,institut national de l information geographique et forestiere,data scientist,data scientist f h,val de marne
...,...,...,...,...
200,administration centrale menj mesr,data scientist,depp miperef data scientist responsable des liens avec la recherche f h,paris
201,direction du numerique,data scientist,ingenieur bases de donnees f h,paris
202,agence regionale de sante ile de france,data scientist,charge de mission donnees outils et qualite pour les systemes d information h f,seine saint denis
203,agence nationale de la recherche,data scientist,data scientist france,paris


  df_c[list_cols] = df_c[list_cols].applymap(remove_accent)
  df_c[list_cols] = df_c[list_cols].applymap(remove_punctuation)
  df_c[list_cols] = df_c[list_cols].applymap(tolower)


In [124]:
offres_df_clean.head(5)

Unnamed: 0,Organisme de rattachement,Référence,Versant,Métier,Statut du poste,Nature de l'emploi,Durée du contrat,Intitulé du poste,Localisation du poste,Lieu d'affectation,Niveau d'études,Niveau d'expérience min. requis,Date de vacance de l'emploi,Date de début de publication par défaut,Date de fin de publication par défaut,Date de première publication,Spécialisation,Télétravail,Management,Employeur,Catégorie,Temps Plein,Durée du poste,Langues,Niveaux,Lieu d'affectation (sans géolocalisation),Avis de vacances au JO,Compétences attendues,Documents à transmettre,Nature de contrat
0,Structures de coopération territoriale,O043221200865282,Fonction Publique Territoriale,chargee charge de politique environnementale,Vacant,Emploi ouvert aux titulaires et aux contractuels,,geomaticien ne ecologue syndicat mixte de gest...,Haute Loire (43),1 rue Adrienne de Noailles - 43230 Chavaniac-L...,,,01/03/2023,28/12/2022,31/01/2023,01/12/2022,,,,,Catégorie A (cadre),Oui,,,,Chavaniac-Lafayette,,,,
1,Structures de coopération territoriale,O043221200864991,Fonction Publique Territoriale,chargee charge de politique environnementale,Vacant,Emploi ouvert aux titulaires et aux contractuels,,charge e mission flore habitats naturels veget...,Haute Loire (43),1 rue Adrienne de Noailles - 43230 Chavaniac-L...,,,01/03/2023,28/12/2022,31/01/2023,01/12/2022,,,,,Catégorie A (cadre),Oui,,,,Chavaniac-Lafayette,,,,
2,Structures de coopération territoriale,O043221200865428,Fonction Publique Territoriale,chargee charge de politique environnementale,Vacant,Emploi ouvert aux titulaires et aux contractuels,,charge e de missions scientifiques et techniques,Haute Loire (43),1 rue Adrienne de Noailles - 43230 Chavaniac-L...,,,01/03/2023,28/12/2022,31/01/2023,01/12/2022,,,,,Catégorie A (cadre),Oui,,,,Chavaniac-Lafayette,,,,
3,Structures de coopération territoriale,O064221200866576,Fonction Publique Territoriale,plombiere operatrice chauffagiste plombier ope...,Vacant,Emploi ouvert aux titulaires et aux contractuels,,agent de maintenance des batiments communaute ...,Pyrénées Atlantiques (64),Hôtel de la communauté de communes de lacq-ort...,,,01/03/2023,28/12/2022,27/01/2023,02/12/2022,,,,,Catégorie C (employé),Oui,,,,Mourenx,,,,
4,Centres communaux d'Action Sociale,O032221000829833,Fonction Publique Territoriale,educatrice educateur de jeunes enfants,Vacant,Emploi ouvert uniquement aux contractuels,7 mois,puericulteur rice educateur rice de jeunes enf...,Gers (32),Mairie - 32500 FLEURANCE,,,09/01/2023,27/10/2022,26/12/2022,03/11/2022,,,,,Catégorie A (cadre),Non,,,,FLEURANCE,,,,


In [129]:
offres_df_clean[offres_df_clean['Métier'].str.contains("ux designer",na=False)|offres_df_clean['Intitulé du poste'].str.contains("data designer",na=False)][['Métier','Intitulé du poste']].head(5)

Unnamed: 0,Métier,Intitulé du poste
136654,architecte technique,expert conception et architecture de donnees d...
136668,architecte technique,expert conception et architecture de donnees d...
136672,architecte technique,expert conception et architecture de donnees d...


In [130]:
offres_df_clean[offres_df_clean['Métier'].str.contains("data scientist",na=False)|offres_df_clean['Intitulé du poste'].str.contains("data scientist",na=False)]['Organisme de rattachement'].unique()

array(['Centre Hospitalier Universitaire de Tours',
       "Muséum National d'Histoire Naturelle",
       'Direction générale des finances publiques (DGFiP)',
       "Institut national de l'information géographique et forestière",
       "Ministère de l'éducation nationale et de la jeunesse  -  Ministère de l'enseignement supérieur et de la recherche",
       'Secrétariat Général', 'Administration Centrale MENJ - MESR',
       'Autorité des Marchés Financiers',
       "Agence Régionale de Santé Provence-Alpes-Côte-d'Azur",
       'Agence de Services et de Paiement (ASP)',
       'Structures de coopération territoriale',
       'Direction Interministérielle du Numérique (DINUM)',
       'Agence Nationale de Sécurité du Médicament et des Produits de Santé',
       'Institut de Recherche pour le Développement',
       "Ministère de l'Intérieur",
       'Direction générale des entreprises (DGE)', 'DRSD',
       'Direction des Services Judiciaires',
       "Ministère des Armées - CMG d'Arcu

In [None]:
offres_df_clean[]