# PREDICTION

In [1]:
from offerclassif.data import load_json, get_df
from offerclassif.embedding import get_vectors
from offerclassif.utils import plot_tsne, topNoob
from sklearn.ensemble import ExtraTreesClassifier
import plotly.express as px
import numpy as np

# üíæ Chargement des donn√©es
---

In [2]:
thesaurus = load_json('../data/external/job_thesaurus.json')
train = load_json('../data/external/offers_train.json')

df = get_df(train, thesaurus)

20 items loaded from ../data/external/job_thesaurus.json.
84 items loaded from ../data/external/offers_train.json.


# ‚öóÔ∏è Pr√©diction du libell√©
---

In [3]:
# R√©cup√©ration de la repr√©sentation vectorielle
X = get_vectors(df.title)

In [4]:
# Apprentissage du mod√®le
et = ExtraTreesClassifier(oob_score=True, bootstrap=True, n_estimators=1000, random_state=1) 
et.fit(X, df.internal_label)


ExtraTreesClassifier(bootstrap=True, n_estimators=1000, oob_score=True,
                     random_state=1)

In [5]:
# Accuracy
print("Accuracy: {:.1%}".format(et.oob_score_))
print("Top 3 accuracy: {:.1%}".format(topNoob(et, df.internal_label, 3)))
print("Top 2 accuracy: {:.1%}".format(topNoob(et, df.internal_label, 2)))

Accuracy: 75.0%
Top 3 accuracy: 91.7%
Top 2 accuracy: 84.5%


Trois chances sur quatre d'avoir le bon libell√© ... üéâ et plus de 9 chances sur 10 d'avoir le bon libell√© dans le top 3 des libell√©s pr√©dits !

In [6]:
df['pred'] = et.oob_decision_function_.argmax(axis=1)
df['pred'] = df.pred.apply(lambda x: et.classes_[x])

##¬†Matrice de confusion

In [7]:
print("<real_label> (n=)")
print("   <predicted_label> (n=)")
print("")

for label in df.internal_label.unique():
    sub_df = df.query(f"internal_label == '{label}'")
    print(f"{label} (n={len(sub_df)})")
    counts = sub_df.pred.value_counts()
    for i,j in counts.iteritems():
        print(f"   {i} (n={j})")
    print("")

<real_label> (n=)
   <predicted_label> (n=)

Vendeur t√©lephonie mobile (n=1)
   Vendeur (n=1)

Ing√©nieur de recherche (n=9)
   Ing√©nieur de recherche (n=8)
   Data Scientist (n=1)

Data Scientist (n=11)
   Data Scientist (n=8)
   Ing√©nieur de recherche (n=2)
   Vendeur (n=1)

Ing√©nieur calcul m√©canique (n=5)
   Ing√©nieur calcul m√©canique (n=2)
   Ing√©nieur calcul (n=2)
   Data Scientist (n=1)

Vendeur (n=18)
   Vendeur (n=18)

Ing√©nieur calcul (n=4)
   Ing√©nieur calcul m√©canique (n=3)
   Ing√©nieur calcul (n=1)

D√©veloppeur Python (n=6)
   D√©veloppeur C++ (n=4)
   D√©veloppeur Python (n=2)

Charg√© de clientele (n=9)
   Charg√© de clientele (n=9)

D√©veloppeur C++ (n=8)
   D√©veloppeur C++ (n=6)
   D√©veloppeur Python (n=2)

Commercial (n=6)
   Commercial (n=5)
   Vendeur (n=1)

D√©veloppeur Java (n=6)
   D√©veloppeur Java (n=4)
   D√©veloppeur C++ (n=2)

Consultant Java (n=1)
   D√©veloppeur Java (n=1)



#  ‚öóÔ∏è Prediction du secteur 
---

In [8]:
et_sect = ExtraTreesClassifier(oob_score=True, bootstrap=True, n_estimators=1000, random_state=1) 
et_sect.fit(X, df.sector_internal_label)

ExtraTreesClassifier(bootstrap=True, n_estimators=1000, oob_score=True,
                     random_state=1)

In [9]:
# Accuracy
print("Accuracy: {:.1%}".format(et_sect.oob_score_))

Accuracy: 96.4%


96% de chance de pr√©dire le bon secteur !

## Prevision du libell√© en prenant en compte les r√©sultats du mod√®le de secteur

In [10]:
new_X = np.hstack([X, et_sect.oob_decision_function_])

In [11]:
et_lib = ExtraTreesClassifier(oob_score=True, bootstrap=True, n_estimators=1000, random_state=1) 
et_lib.fit(new_X, df.internal_label)

ExtraTreesClassifier(bootstrap=True, n_estimators=1000, oob_score=True,
                     random_state=1)

In [12]:
# Accuracy
print("Accuracy: {:.1%}".format(et_lib.oob_score_))
print("Top 3 accuracy: {:.1%}".format(topNoob(et_lib, df.internal_label, 3)))
print("Top 2 accuracy: {:.1%}".format(topNoob(et_lib, df.internal_label, 2)))

Accuracy: 77.4%
Top 3 accuracy: 91.7%
Top 2 accuracy: 85.7%


Ajouter une information sur le secteur permet d'am√©liorer sensiblement la pr√©diction du libell√© 

In [13]:
df['pred_2'] = et_lib.oob_decision_function_.argmax(axis=1)
df['pred_2'] = df.pred_2.apply(lambda x: et_lib.classes_[x])

## Matrice de confusion

In [14]:
print("<real_label> (n=)")
print("   <predicted_label> (n=)")
print("")

for label in df.internal_label.unique():
    sub_df = df.query(f"internal_label == '{label}'")
    print(f"{label} (n={len(sub_df)})")
    counts = sub_df.pred_2.value_counts()
    for i,j in counts.iteritems():
        print(f"   {i} (n={j})")
    print("")

<real_label> (n=)
   <predicted_label> (n=)

Vendeur t√©lephonie mobile (n=1)
   Vendeur (n=1)

Ing√©nieur de recherche (n=9)
   Ing√©nieur de recherche (n=8)
   Data Scientist (n=1)

Data Scientist (n=11)
   Data Scientist (n=8)
   Ing√©nieur de recherche (n=2)
   Vendeur (n=1)

Ing√©nieur calcul m√©canique (n=5)
   Ing√©nieur calcul m√©canique (n=3)
   Ing√©nieur calcul (n=2)

Vendeur (n=18)
   Vendeur (n=18)

Ing√©nieur calcul (n=4)
   Ing√©nieur calcul m√©canique (n=3)
   Ing√©nieur calcul (n=1)

D√©veloppeur Python (n=6)
   D√©veloppeur C++ (n=3)
   D√©veloppeur Python (n=2)
   Ing√©nieur de recherche (n=1)

Charg√© de clientele (n=9)
   Charg√© de clientele (n=9)

D√©veloppeur C++ (n=8)
   D√©veloppeur C++ (n=6)
   D√©veloppeur Python (n=2)

Commercial (n=6)
   Commercial (n=6)

D√©veloppeur Java (n=6)
   D√©veloppeur Java (n=4)
   D√©veloppeur C++ (n=2)

Consultant Java (n=1)
   D√©veloppeur Java (n=1)

