In [56]:
from cvmatching.data import load_json
from random import sample
import plotly.express as px
import numpy as np
from collections import Counter

# Loading data

In [57]:
thesaurus = load_json('../data/external/job_thesaurus.json')
train = load_json('../data/external/offers_train.json')
test = load_json('../data/external/offers_test_sample.json')

20 loaded from ../data/external/job_thesaurus.json.
84 loaded from ../data/external/offers_train.json.
2 loaded from ../data/external/offers_test_sample.json.


# Exploration

## Thesaurus

In [58]:
sample(thesaurus, k=5)

[{'sector_internal_label': 'secteur ingenierie etudes et r et d',
  'id': '5b501c52e542527b6b74ca77c7dd1a6f',
  'internal_label': 'Ingénieur génie civil'},
 {'sector_internal_label': 'secteur commerce vente',
  'id': 'eff8ffd576d5afb7bb0849b772c6dc8f',
  'internal_label': 'Chargé de clientele'},
 {'sector_internal_label': 'secteur commerce vente',
  'id': 'b1802cee3f64d16df4fba4f28a4b5fdb',
  'internal_label': 'Vendeur'},
 {'sector_internal_label': 'secteur informatique',
  'id': '1cfcdd2696584bb53d7d64a76038a817',
  'internal_label': 'Développeur C++'},
 {'sector_internal_label': 'secteur btp',
  'id': 'b3f41f36dd83ae5ad19680d441705d15',
  'internal_label': 'Charpentier'}]

In [59]:
Counter([i['sector_internal_label'] for i in thesaurus])

Counter({'secteur informatique': 7,
         'secteur commerce vente': 4,
         'secteur ingenierie etudes et r et d': 5,
         'secteur btp': 4})

In [61]:
{(i['sector_internal_label'], i['internal_label']) for i in thesaurus}

{('secteur btp', 'Charpentier'),
 ('secteur btp', 'Chef de chantier'),
 ('secteur btp', 'Conducteur de travaux'),
 ('secteur btp', 'Dessinateur projeteur'),
 ('secteur commerce vente', 'Chargé de clientele'),
 ('secteur commerce vente', 'Commercial'),
 ('secteur commerce vente', 'Vendeur'),
 ('secteur commerce vente', 'Vendeur télephonie mobile'),
 ('secteur informatique', 'Consultant Java'),
 ('secteur informatique', 'Consultant informatique'),
 ('secteur informatique', 'Développeur .NET'),
 ('secteur informatique', 'Développeur C++'),
 ('secteur informatique', 'Développeur Java'),
 ('secteur informatique', 'Développeur Python'),
 ('secteur informatique', 'Développeur mobile'),
 ('secteur ingenierie etudes et r et d', 'Data Scientist'),
 ('secteur ingenierie etudes et r et d', 'Ingénieur calcul'),
 ('secteur ingenierie etudes et r et d', 'Ingénieur calcul mécanique'),
 ('secteur ingenierie etudes et r et d', 'Ingénieur de recherche'),
 ('secteur ingenierie etudes et r et d', 'Ingénieu

## Train

In [4]:
sample(train, k=2)

[{'employments': [{'employment_id': 'b2788e1ab6be65f1c38bf7d23cd081f1'}],
  '_id': 'AXDb_tyXuYbxoIaocnUW',
  'description': "Votre mission : Rattaché(e) au Directeur Commercial, fort de cette nouvelle offre adaptée à votre marché, vous aurez la missionde développer les ventes sur une cible CHR et commerce points de vente pour lesquels vousserez un interlocuteur privilégié. Maitrisant le discours commercial de vos solutions, vous interviendrez sur l'ensemble du processus de vente, de la prospection à la transmission du dossier à nos chefs de projet. Nous attendons que vous soyez impliqué(e) et pro actif dans votre activité.Outre le dynamisme de la société, nous vous apportons l'attractivité de nos solutions (fiabilité, pertinence métier, innovation.), ainsi que l'accompagnement des dirigeants pour vous bonifier. Vous serez basé(e) à notre siège de Lyon, et votre secteur sera principalement la région lyonnaise. - Et vous ? H/F, vous êtes issu(e) d'une formation minimum Bac+3/4, idéalemen

### employment_id

In [31]:
{len(i['employments']) for i in train}

{1}

All the offers have only one `employment_id`

In [34]:
train_employment_id = {j['employment_id'] for i in train for j in i['employments']}
thesaurus_employment_id = {i['id'] for i in thesaurus}

In [42]:
sum([i not in thesaurus_employment_id for i in train_employment_id])

0

All `train_employment_id` are in `thesaurus`

In [None]:
sum([i not in train_employment_id for i in thesaurus_employment_id])

Some `thesaurus_employment_id` do not appears in train samples 

### Description

In [14]:
desc_lengths = [len(i['description'].split(' ')) for i in train]

fig = px.histogram(x=desc_lengths, marginal='rug')
fig.update_layout(title_text='Distribution du nombre de mots dans la description')

In [26]:
train[np.argmax(desc_lengths)]

{'employments': [{'employment_id': 'b2788e1ab6be65f1c38bf7d23cd081f1'}],
 '_id': 'AXDb_odQWjtLgivJ_ISE',
 'description': "Description du poste : QUI TU ESTu es une personne passionnée par les gens, par le business et tu mets tout en œuvre pour améliorer les résultats et l'activité. Tu es déterminé à créer un IKEA adapté à l'avenir de la distribution multicanale et bien ancré dans le process de changement qui en découle, à créer de la valeur ajoutée pour le client et à le placer au centre des priorités. À ce poste, il te faut au moins 5 ans d'expérience en Marketing Digital ou équivalent. Tu as l'expérience du pilotage des résultats dans le périmètre assigné, ainsi que de leur suivi, et l'expérience de la distribution, de préférence dans le secteur numérique. Tu maîtrises les techniques de résolution de problèmes et de gestion des conflits comme les outils et méthodes de conduite du changement et de gestion des parties prenantes. Tu as de solides compétences d'organisation et de planifi

In [28]:
train[np.argmin(desc_lengths)]

{'employments': [{'employment_id': 'b1802cee3f64d16df4fba4f28a4b5fdb'}],
 '_id': 'AXDcBfBMZyTF-SpR_3-u',
 'description': 'Vous accueillez et conseillez les clients - assurez le passage de clients en caisse - proposez les services du magasin + ventes additionnelles - assurez la satisfaction des clients.',
 'title': 'Vendeur / Vendeuse en prêt-à-porter'}

### Title

In [18]:
title_lengths = [len(i['title'].split(' ')) for i in train]

fig = px.histogram(x=title_lengths)
fig.update_layout(title_text='Distribution du nombre de mots dans le titre')

## Test

In [56]:
test

[{'_id': 'AXDcDUvTuYbxoIaodd7C',
  'description': "Vous êtes en charge de l'accueil des clients, de la tenue du magasin et du conseil client. Vous êtes, également, en charge des encaissements. Vous avez une expérience confirmée sur un poste similaire. Poste pouvant évoluer sur la responsabilité du magasin.",
  'title': 'Vendeur / Vendeuse en prêt-à-porter'},
 {'_id': 'AXDb_jbaWjtLgivJ_Hbn',
  'description': "Gold Partner Microsoft (prix du partenaire de l'année Microsoft 2018) ayant pour moteur l'innovation autout de sujets tels que : Big Data, Machine Learning, Internet des Objets, Web et Services Mobiles, Bot Intelligents, Plateformes Cloud intelligentes. recherche dans le cadre du développement de leur activité un Développeur .NET Azure (Tous niveaux d'expérience acceptés - Salaire selon Profil)En tant que Développeur Microsoft .NET Azure, vous interviendrez dans le cadre de la mise en place de différents types de solutions sur la base des technologies Microsoft (les missions peuven