<a href="https://colab.research.google.com/github/ncn-foreigners/job-ads-classifier/blob/main/job_classification_examples_english.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## O tutorialu

Notatnik ma na celu przedstawienie sposobu wykorzystania algorytmu klasyfikacji opisów ofert pracy do kodów zawodów określonych w ramach [Klasyfikacji Zawodów i Specjalności 2022 (KSiZ)](https://psz.praca.gov.pl/rynek-pracy/bazy-danych/klasyfikacja-zawodow-i-specjalnosci). W KSiZ zawody określa się na poziomie 1, 2, 3, 4 i 6 cyfrowych kodów. Algorytm tak przygotowany aby można było danej ofercie pracy przypisać kod 6 cyfrowy.

Do uczenia (zbór treningowy i testowy) wykorzystano następujące zbiory danych:

+ oficjalny słownik KSiZ 2022 (tylko treningowy),
+ słownik synonimów GUS dla 6 cyfrowych kodów zawodów (tylko treningowy),
+ słownik [ESCO](https://esco.ec.europa.eu/select-language?destination=/node/1) dla zawodów, które można było przypisać 1-1 (tylko treningowy),
+ zakodowane oferty pracy z [Centralnej Bazy Ofert Pracy](https://oferty.praca.gov.pl/portal/index.cbop) (trening i test),
+ zawody z [Nabory KPRM](https://nabory.kprm.gov.pl/), które można było przypisać 1-1 (trening i test),
+ 3000 ofert z internetu zakodowane przez 3 ekspertki (trening i test).

Uwaga: algorytm przedstawiamy tak jaki jest. Nie gwarantujemy jego 100% poprawości oraz działania na różnych sprzętach. Konfiguracja jest po stronie użytkownika.

Uwaga 2: model oparty na transformerach wymaga do działania GPU.

Autorzy: 
+ Marek Wydmuch (Politechnika Poznańska, OLX; autor kodu i biblioteki napkinXC), 
+ Maciej Beręsewicz (Uniwersytet Ekonomiczny w Poznaniu, Urząd Statystyczny w Poznaniu; zaprojektowanie badania, wymogów i zbiorów), 
+ Herman Cherniaiev (Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie, Instytut Badań Edukcyjnych w Warszawie; przygotowanie danych online, konsultacje),  
+ Robert Pater (Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie, Instytut Badań Edukcyjnych w Warszawie; konsultacje, nadzór).

## Podstaowe ustawienia dla colab

Ustawienia wydruki w colab

In [None]:
from google.colab.data_table import DataTable
DataTable.max_columns = 60

Klonowanie repozytorium

In [None]:
!git clone https://github.com/ncn-foreigners/job-ads-classifier.git 

Cloning into 'job-ads-classifier'...
remote: Enumerating objects: 151, done.[K
remote: Counting objects: 100% (151/151), done.[K
remote: Compressing objects: 100% (132/132), done.[K
remote: Total 151 (delta 61), reused 59 (delta 11), pack-reused 0[K
Receiving objects: 100% (151/151), 3.28 MiB | 17.23 MiB/s, done.
Resolving deltas: 100% (61/61), done.


Środowisko wirtualne na potrzeby projektu

In [None]:
!pip install virtualenv
!virtualenv classifier
!source /content/classifier/bin/activate

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting virtualenv
  Downloading virtualenv-20.16.6-py3-none-any.whl (8.8 MB)
[K     |████████████████████████████████| 8.8 MB 6.5 MB/s 
[?25hCollecting platformdirs<3,>=2.4
  Downloading platformdirs-2.5.2-py3-none-any.whl (14 kB)
Collecting distlib<1,>=0.3.6
  Downloading distlib-0.3.6-py2.py3-none-any.whl (468 kB)
[K     |████████████████████████████████| 468 kB 65.8 MB/s 
Installing collected packages: platformdirs, distlib, virtualenv
Successfully installed distlib-0.3.6 platformdirs-2.5.2 virtualenv-20.16.6
created virtual environment CPython3.7.15.final.0-64 in 831ms
  creator CPython3Posix(dest=/content/classifier, clear=False, no_vcs_ignore=False, global=False)
  seeder FromAppData(download=False, pip=bundle, setuptools=bundle, wheel=bundle, via=copy, app_data_dir=/root/.local/share/virtualenv)
    added seed packages: pip==22.3, setuptools==65.5.0, wheel==0.37.1
  activato

Aktualizacja pip.

In [None]:
!python -m pip install --upgrade pip

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pip
  Downloading pip-22.3-py3-none-any.whl (2.1 MB)
[K     |████████████████████████████████| 2.1 MB 7.6 MB/s 
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 21.1.3
    Uninstalling pip-21.1.3:
      Successfully uninstalled pip-21.1.3
Successfully installed pip-22.3


Pobieramy modele z google drive i przerzucamy je w odpowiednie miejsca

In [None]:
!gdown 126YUU3X9AfzdtEJgANzusgo7msonoCzu
!unzip models-v1.1.zip
!rm -rf __MACOSX
!mv models/ ./job-ads-classfier/models/

Instalacja potrzebnych pakietów (uwaga: tu wykorzystujemy plik dla Python 3.7 dla colab). Model był uczony na Python 3.9 i wymaga do działania pliku `requirements.txt`. Po zainstalowaniu należy zrestartować środowisko.

In [None]:
!pip install torch
!pip install -r /content/job-ads-classifier/requirements-py37-colab.txt

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
[0mLooking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting huggingface-hub==0.4.0
  Using cached huggingface_hub-0.4.0-py3-none-any.whl (67 kB)
Collecting jsbeautifier==1.14.0
  Using cached jsbeautifier-1.14.0.tar.gz (73 kB)
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting napkinxc==0.6.0
  Using cached napkinxc-0.6.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (541 kB)
Collecting nltk==3.5
  Using cached nltk-3.5.zip (1.4 MB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pandas==1.3.4
  Using cached pandas-1.3.4-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (11.3 MB)
Collecting pyreadr==0.4.4
  Using cached pyreadr-0.4.4-cp37-cp37m-manylinux_2_17_x86_64.manyl

## Wykorzystanie istniejących modeli

Podajemy ścieżki do odpowiednich folderów.

In [None]:
classifier_dir="/content/job-ads-classifier"
models_dir="/content/job-ads-classifier/models"

Ładujemy wymagane moduły.

In [None]:
import sys
sys.path.insert(1, '/content/job-ads-classifier')

In [None]:
import numpy as np
import pandas as pd
from job_offers_classifier.load_save import load_to_df, save_obj, load_obj
from job_offers_classifier.job_offers_classfier import *
import torch
from torchmetrics import MetricCollection, Recall, Accuracy, ConfusionMatrix
execfile(f"{classifier_dir}/functions.py")

Pobieramy oferty pracy z nabory KPRM na potrzeby przykładu.

In [None]:
kprm_df = pd.read_xml(f"{classifier_dir}/example-data/kprm-2022-10-21.xml", xpath = "./new/oferta")
kprm_df = kprm_df.replace("\\<\\!\\[CDATA\\[ ", "", regex=True)
kprm_df = kprm_df.replace(" \\]\\]\\>", "", regex=True)
kprm_df = kprm_df.replace(r'<[^<>]*>', ' ', regex=True)
kprm_df = kprm_df.replace('&nbsp;', ' ', regex=True)
kprm_df = kprm_df.replace('&dash;', ' ', regex=True)
kprm_df = kprm_df.replace('&oacute;', ' ', regex=True)
kprm_df = kprm_df.replace('\r', ' ', regex=True)
kprm_df['desc'] = kprm_df[['stanowisko', 'do_spraw', 'nazwa_firmy', 'poledodatkowelista1', 'poledodatkowelista3']].apply(lambda row: ' '.join(row.values.astype(str)), axis=1)
kprm_df[["unid", "nazwa_firmy", "stanowisko", "do_spraw", "poledodatkowelista1", "poledodatkowelista3"]].head(n=2)

Unnamed: 0,unid,nazwa_firmy,stanowisko,do_spraw,poledodatkowelista1,poledodatkowelista3
0,108903,Główny Urząd Miar w Warszawie,metrolog,pomiarów w dziedzinie akustyki w Świętokrzyski...,"bierze udział w pracach badawczych, rozwojow...","* MIEJSCE WYKONYWANIA PRACY Warszawa, u..."
1,108902,Ministerstwo Rodziny i Polityki Społecznej w W...,referendarz,współpracy prawnej FGŚP,­Bierze udział w pracach legislacyjnych doty...,Praca administracyjno-biurowa. Opracowy...


Przykładowy opis na potrzeby klasyfikacji.

In [None]:
kprm_df.desc[0]

'metrolog pomiarów w dziedzinie akustyki w Świętokrzyskim Kampusie Laboratoryjnym Głównego Urzędu Miar (ŚKLGUM) Główny Urząd Miar w Warszawie   bierze udział w pracach badawczych, rozwojowych i technicznych związanych z tworzeniem nowych  i doskonaleniem istniejących rozwiązań w zakresie wzorców jednostek miar, metod i stanowisk pomiarowych,  automatyzacji stanowisk pomiarowych w celu potwierdzenia możliwości pomiarowych ŚKLGUM  bierze udział w przygotowaniu i uruchomieniu stanowisk pomiarowych w ŚKLGUM w Kielcach, w tym  w szczególności w opracowywaniu dokumentacji technicznej dla nowotworzonego zespołu stanowisk  pomiarowych z komorą bezechową dużą i małą, udział w szkoleniach w zakresie obsługi aparatury pomiarowej na ww.  stanowiskach, pogłębianie wiedzy specjalistycznej z zakresu obsługi budowanych stanowisk pomiarowych  w celu nabycia zaawansowanej wiedzy i umiejętności niezbędnych do profesjonalnego wykonywania  obowiązków w ŚKLGUM  wykonuje prace związane z utrzymywaniem i dosk

### Wykorzystujemy model regresji logistycznej

Tutaj nazywamy to modelem liniowym.

In [None]:
model_paper_linear = LinearJobOffersClassifier()
model_paper_linear.load(f"{models_dir}/linear_model")

https://scikit-learn.org/stable/modules/model_persistence.html#security-maintainability-limitations
https://scikit-learn.org/stable/modules/model_persistence.html#security-maintainability-limitations


Predykcja z wykorzystaniem metody `predict`. Argumenty:
+ `X_text` -- opisy zawodów
+ `output_level` -- podajemy poziom KSiZ (0=1 cyfra, 1=2 cyfry, 3=4 cyfry, 5 lub "last" - 6 cyfr)
+ `format` -- podajemy format wynikowy (`dataframe` albo `array`)

In [None]:
kprm_df_zaw1 = model_paper_linear.predict(
    X_text=list(kprm_df["desc"]),
    output_level=0,
    format="dataframe"
)

kprm_df_zaw1.head(n=4)

Processing X ...
Processing text ...


100%|██████████| 450/450 [00:01<00:00, 253.46it/s]


Transforming text to tf-idf ...
Predicting ...


100%|██████████| 450/450 [00:00<00:00, 1865.42it/s]


Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,4e-06,0.000375,0.995414,0.001849,0.000196,3.6e-05,9.7e-05,0.0018,0.0001008496,8e-05
1,3.6e-05,0.003809,0.975725,0.008887,0.005552,0.001637,9.5e-05,0.004038,0.000114805,6.1e-05
2,3e-06,0.001122,0.994654,0.000671,0.003392,6e-06,3.7e-05,1.6e-05,3.609709e-07,5.3e-05
3,0.000263,0.055281,0.30909,0.253439,0.157664,0.001704,0.001521,0.211391,0.001167186,0.008434


Rozkład zawodów według 1 cyfrowych kodów zawodów.

In [None]:
np.sum(kprm_df_zaw1, axis=0)

0      0.017761
1     13.853405
2    254.529663
3    111.025528
4     53.315598
5      6.214397
6      0.951644
7      3.155583
8      2.712708
9      4.203103
dtype: float32

Możemy również wybrać `top_k` zawodów. Poniżej wskazujemy top 5.

In [None]:
kprm_df_zaw6_top5 = model_paper_linear.predict(
    X_text=list(kprm_df["desc"]),
    output_level="last",
    format="dataframe",
    top_k=5
)

Processing X ...
Processing text ...


100%|██████████| 450/450 [00:01<00:00, 252.37it/s]


Transforming text to tf-idf ...
Predicting ...


100%|██████████| 450/450 [00:00<00:00, 1947.06it/s]


In [None]:
kprm_df_zaw6_top5.head(n=5)

Unnamed: 0,class_1,class_2,class_3,class_4,class_5,prob_1,prob_2,prob_3,prob_4,prob_5
0,214921,214922,214990,214903,214932,0.63532,0.203939,0.01987,0.012856,0.009343
1,242217,242190,242102,242290,242232,0.818859,0.063468,0.017318,0.011158,0.006835
2,242217,241107,241190,241103,241102,0.697043,0.109484,0.087459,0.032341,0.012461
3,242217,711101,335290,411003,334306,0.271974,0.106116,0.07234,0.069055,0.061913
4,325512,335990,325502,335905,334306,0.269934,0.13336,0.103502,0.067749,0.0486


### Transformer model

Ten model będzie działał tylko jak będzie dostęp do GPU na colab. Bez GPU pojawia się problem z wczytaniem danych na Colab.

In [None]:
#model_paper_trans = TransformerJobOffersClassifier(gpus=0, threads=2) ## bez gpu
model_paper_trans = TransformerJobOffersClassifier(gpus=1, threads=2)
model_paper_trans.load(f"{models_dir}/transformer_model")

Initializing TransformerClassifier with model_name=allegro/herbert-base-cased, output_type=linear, num_labels=2904, learning_rate=1e-05, weight_decay=0.01, warmup_steps=50 ...


Some weights of the model checkpoint at allegro/herbert-base-cased were not used when initializing BertModel: ['cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.bias', 'cls.sso.sso_relationship.weight', 'cls.predictions.decoder.weight', 'cls.predictions.bias', 'cls.sso.sso_relationship.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Predykcja z wykorzystaniem modelu opartego na transformerach. Uwaga: teraz podajemy argument `X`, a nie `X_text`. Reszta pozostaje bez zmian.

In [None]:
kprm_df_zaw1_trans = model_paper_trans.predict(
    X=list(kprm_df["desc"]),
    output_level=0,
    format="dataframe"
)

Initializing TransformerDataModule with model_name=allegro/herbert-base-cased, max_seq_length=512, train/eval_batch_size=8/8, num_workers=2 ...
Setting up TransformerDataModule ...


INFO:pytorch_lightning.utilities.rank_zero:Using 16bit native Automatic Mixed Precision (AMP)
INFO:pytorch_lightning.utilities.rank_zero:GPU available: True, used: True
INFO:pytorch_lightning.utilities.rank_zero:TPU available: False, using: 0 TPU cores
INFO:pytorch_lightning.utilities.rank_zero:IPU available: False, using: 0 IPUs
INFO:pytorch_lightning.utilities.rank_zero:HPU available: False, using: 0 HPUs
INFO:pytorch_lightning.utilities.rank_zero:Restoring states from the checkpoint path at /content/job-ads-classifier/models/transformer_model/transformer_classifier.ckpt


Starting predicting with TransformerClassifier ...


INFO:pytorch_lightning.accelerators.gpu:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]
INFO:pytorch_lightning.utilities.rank_zero:Loaded model weights from checkpoint at /content/job-ads-classifier/models/transformer_model/transformer_classifier.ckpt


Predicting: 0it [00:00, ?it/s]

Rozkład 1 cyfrowych kodów zawodów.

In [None]:
np.sum(kprm_df_zaw1_trans, axis=0)

0      0.099629
1     23.598797
2    157.009735
3    157.822815
4     42.830238
5     10.601344
6      3.686888
7     26.497812
8     20.658962
9      7.193659
dtype: float32

Wybieramy top 5 zawodów.

In [None]:
kprm_df_zaw6_top5_trans = model_paper_trans.predict(
    X=list(kprm_df["desc"]),
    output_level="last",
    format="dataframe",
    top_k=5
)

Initializing TransformerDataModule with model_name=allegro/herbert-base-cased, max_seq_length=512, train/eval_batch_size=8/8, num_workers=2 ...
Setting up TransformerDataModule ...


INFO:pytorch_lightning.utilities.rank_zero:Using 16bit native Automatic Mixed Precision (AMP)
INFO:pytorch_lightning.utilities.rank_zero:GPU available: True, used: True
INFO:pytorch_lightning.utilities.rank_zero:TPU available: False, using: 0 TPU cores
INFO:pytorch_lightning.utilities.rank_zero:IPU available: False, using: 0 IPUs
INFO:pytorch_lightning.utilities.rank_zero:HPU available: False, using: 0 HPUs
INFO:pytorch_lightning.utilities.rank_zero:Restoring states from the checkpoint path at /content/job-ads-classifier/models/transformer_model/transformer_classifier.ckpt


Starting predicting with TransformerClassifier ...


INFO:pytorch_lightning.accelerators.gpu:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]
INFO:pytorch_lightning.utilities.rank_zero:Loaded model weights from checkpoint at /content/job-ads-classifier/models/transformer_model/transformer_classifier.ckpt


Predicting: 0it [00:00, ?it/s]

In [None]:
kprm_df_zaw6_top5_trans.head(n=5)

Unnamed: 0,class_1,class_2,class_3,class_4,class_5,prob_1,prob_2,prob_3,prob_4,prob_5
0,214922,311109,214921,754301,313104,0.576762,0.264061,0.009322,0.001307,0.001054
1,261103,261990,242217,261901,242190,0.330014,0.082147,0.046261,0.028836,0.012306
2,242217,241107,111301,335990,334390,0.369433,0.03909,0.019733,0.01455,0.011922
3,412001,411003,334201,411004,411090,0.74333,0.088087,0.035176,0.027502,0.004009
4,325512,324002,225101,325514,814307,0.850979,0.011226,0.006863,0.003645,0.000776


Porównujemy wybrane wyniki dla tych ofert, w których nie ma zgodności między rozważanymi modelami.

In [None]:
kprm_df["lin"] = kprm_df_zaw6_top5["class_1"]
kprm_df["trans"] = kprm_df_zaw6_top5_trans["class_1"]
kprm_df[kprm_df["lin"].str.slice(0,1) != kprm_df["trans"].str.slice(0,1)][
    ["trans", "lin", "stanowisko", "do_spraw", "desc"]].head(n=5)

Unnamed: 0,trans,lin,stanowisko,do_spraw,desc
3,412001,242217,referent,sekretariatu,referent sekretariatu Izba Administracji Skarb...
7,325504,541307,inspektor,ochrony roślin i nawozów,inspektor ochrony roślin i nawozów Wojewódzki ...
8,325504,541307,inspektor,ochrony roślin i nawozów,inspektor ochrony roślin i nawozów Wojewódzki ...
10,241204,335290,starszy referent,orzecznictwa podatkowego,starszy referent orzecznictwa podatkowego Izba...
12,335101,242217,starszy referent,postępowań celnych i podatkowych,starszy referent postępowań celnych i podatkow...


Ogólna zgodność wygląda następująco

## Jakość modelu

Poniżej przedstawiono jakość modelu na podstawie ofert pracy kodowanych ręcznie. 

In [None]:
labeled = pd.read_csv("https://github.com/ncn-foreigners/job-ads-datasets/raw/main/data/hand-coded.csv", dtype="str")
labeled["code"]=labeled["code"].str.strip()
labeled["desc"]=labeled["desc"].str.strip()
labeled = labeled[~pd.isna(labeled["code"])].drop_duplicates().reset_index()
labeled2 = labeled.groupby("desc")['code'].apply(lambda x: list(x)).reset_index()

In [None]:
labeled_code6 = model_paper_linear.predict(
    X_text=list(labeled2["desc"]),
    output_level="last",
    format="dataframe",
    top_k=3
)

Processing X ...
Processing text ...


100%|██████████| 9536/9536 [00:38<00:00, 247.79it/s]


Transforming text to tf-idf ...
Predicting ...


100%|██████████| 9536/9536 [00:06<00:00, 1481.02it/s]


In [None]:
labeled2["predictions"]= labeled_code6[["class_1", "class_2", "class_3"]].apply(lambda x: [str(x.class_1), str(x.class_2), str(x.class_3)], axis = 1)
labeled2["pred1_overlap"]=labeled2.apply(lambda x: len([val for val in [i[0] for i in x.predictions[0:len(x.code)]] if val in [str(j)[0] for j in x.code]])/len(x.code), axis = 1)
labeled2["pred2_overlap"]=labeled2.apply(lambda x: len([val for val in [i[0:2] for i in x.predictions[0:len(x.code)]] if val in [str(j)[0:2] for j in x.code]])/len(x.code), axis = 1)
labeled2["pred4_overlap"]=labeled2.apply(lambda x: len([val for val in [i[0:5] for i in x.predictions[0:len(x.code)]] if val in [str(j)[0:5] for j in x.code]])/len(x.code), axis = 1)
labeled2["pred6_overlap"]=labeled2.apply(lambda x: len([val for val in x.predictions[0:len(x.code)] if val in x.code])/len(x.code), axis = 1)

Porównanie jakości predykcji na 1, 2, 4 i cyfrach uwzględniając możliwość wielu kodów.

In [None]:
[np.sum(labeled2["pred1_overlap"]) / labeled2.shape[0],
 np.sum(labeled2["pred2_overlap"]) / labeled2.shape[0],
 np.sum(labeled2["pred4_overlap"]) / labeled2.shape[0],
 np.sum(labeled2["pred6_overlap"]) / labeled2.shape[0]]

[0.8583962527964205, 0.8383144574944071, 0.7801489093959733, 0.764104446308725]

Porównanie predykcji dla 1 kodu według 1 cyfrowych kodów

In [None]:
labeled2["code_2_true"]=labeled2["code"].apply(lambda x: str(x[0])[0])
labeled2["code_2_pred"]=labeled2["predictions"].apply(lambda x: str(x[0])[0])

Predykcja jest najgorsza dla kodów 3 (72%) i 1 (77%), a najlepsza dla 2 (91%) i 5 (90%).

In [None]:
pd.crosstab(index = labeled2["code_2_true"], 
            columns = labeled2["code_2_pred"])

code_2_pred,1,2,3,4,5,6,7,8,9
code_2_true,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,420,81,20,4,12,0,2,1,3
2,48,2728,118,47,38,0,17,1,2
3,12,155,924,51,74,0,43,13,3
4,6,57,41,646,14,0,4,6,18
5,8,55,27,14,1028,0,6,0,6
6,0,1,0,0,0,16,0,0,1
7,6,19,31,2,5,0,1268,32,73
8,1,2,6,14,5,0,42,587,19
9,1,4,7,28,20,2,42,13,536


In [None]:
np.round(pd.crosstab(index = labeled2["code_2_true"], 
            columns = labeled2["code_2_pred"], 
            normalize = "index"), 2)

code_2_pred,1,2,3,4,5,6,7,8,9
code_2_true,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,0.77,0.15,0.04,0.01,0.02,0.0,0.0,0.0,0.01
2,0.02,0.91,0.04,0.02,0.01,0.0,0.01,0.0,0.0
3,0.01,0.12,0.72,0.04,0.06,0.0,0.03,0.01,0.0
4,0.01,0.07,0.05,0.82,0.02,0.0,0.01,0.01,0.02
5,0.01,0.05,0.02,0.01,0.9,0.0,0.01,0.0,0.01
6,0.0,0.06,0.0,0.0,0.0,0.89,0.0,0.0,0.06
7,0.0,0.01,0.02,0.0,0.0,0.0,0.88,0.02,0.05
8,0.0,0.0,0.01,0.02,0.01,0.0,0.06,0.87,0.03
9,0.0,0.01,0.01,0.04,0.03,0.0,0.06,0.02,0.82


Przykladowa zła predykcja gdzie koordynator ds. logistyki jest klasyfikowany jako kierowca.

In [None]:
labeled2[(labeled2["code_2_true"]=="2") & (labeled2["code_2_pred"]== "8")].iloc[0,0]

'Koordynator ds. logistyki ZAKŁADY PRODUKCJI SPOŻYWCZEJ AMBI M KARKUT I WSPÓLNICY SPÓŁKA JAWNA kierownik / koordynator Łańcuch dostaw Twój zakres obowiązków Nadzór nad flotą samochodów osobowych i dostawczych Odpowiedzialność za planowanie i organizowanie pracy kierowców na dzień następny (20-25 pracowników)Szczegółowe rozliczanie kierowców z dnia pracy Odpowiedzialność za jakość i terminowość dostaw do klientów Bieżąca kontrola zużycia paliwa oraz optymalizowanie tras kierowców - GPS Codzienny monitoring stanu technicznego taboru, weryfikacja zgłoszeń kierowców oraz zakresu zleconych i wykonanych prac serwisowych Prowadzenie cyklicznych szkoleń kierowców Raportowanie Nasze wymagania wykształcenie min. średnie umiejętność kierowania zespołem ludzkim podstawowa wiedza z zakresu czasu pracy kierowców umiejętność podejmowania decyzji pod presją czasu dobra organizacja pracy To oferujemy zatrudnienie na podstawie umowy o pracę lub umowę o współpracy wszelkie niezbędne narzędzia do wykonywa

Ten przypadek może być jednak błędem poniewaz kod nadany ręcznie to `912990` (Pozostali pracownicy zajmujący się sprzątaniem gdzie indziej niesklasyfikowani), a kody `143907` (Kierownik firmy sprzątającej) i `143990` (Pozostali kierownicy do spraw innych typów usług gdzie indziej niesklasyfikowani) z czego drugi jest możliwy ale pierwszy już nie.


In [None]:
labeled2[(labeled2["code_2_true"]=="9") & (labeled2["code_2_pred"]== "1")].iloc[0,0]

'Koordynator zespołu sprzątającego (k/m) STOKSON Spółka Jawna Henryk Stokłosa i Wspólnicy   Kto szuka: STOKSON Spółka Jawna Henryk Stokłosa i Wspólnicy Stanowisko: Koordynator zespołu sprzątającego (k/m) Lokalizacja: Piekary Śląskie śląskie Opis stanowiska podany przez pracodawcę: Opis stanowiska: Prace porządkowe oraz nadzór nad pracownikami sprzątającymi, Kontrola zużycia oraz zamawianie środków czystości, Nadzór nad realizacją prac, Aktywne uczestnictwo w pracy zespołu, Raportowanie do przełożonego. Wymagania stawiane pracownikowi: Wymagania: Doświadczenie zawodowe na podobnym stanowisku, Umiejętność kierowania zespołem, Znajomość pakietu MS Office, Dyspozycyjność do pracy w systemie zmianowym. Firma oferuje: Oferujemy: Stabilną i satysfakcjonującą pracę w oparciu o umowę o pracę na pełen etat, Atrakcyjne wynagrodzenie, Pracę w prężnie rozwijającej się firmie, Wysoki standard pracy, Możliwość przystąpienia do ubezpieczenia grupowego, System kafeteryjny - do wyboru m.in. zajęcia spor

W poniższym przykładzie ekpset zakodował zawód do kodu 244001 (Pośrednik w obrocie nieruchomościami), a najbardziej prawdopodobny kod to 333490 (Doradca do spraw rynku nieruchomości). Porównanie dotyczy pierwszego kodu ale należy również spojrzeć na kolejne. W tym przypadku drugi kod to 244001. 

In [None]:
labeled2[(labeled2["code_2_true"]=="2") & (labeled2["code_2_pred"]== "3")].iloc[0,0]

'Agent Nieruchomości Preston Nieruchomości specjalista (Mid / Regular) Nieruchomości Twój zakres obowiązków Opis stanowiska:Doradca ds. Nieruchomości, to osoba, która jest gwarantem transakcji kupna lub sprzedaży nieruchomości, a więc jej zabezpieczeniem. Agent raz poszukuje nieruchomości, a kiedy indziej chętnych na ich kupowanie, wszystko zależy od zlecenia. To właśnie od liczby tych zleceń zależy finalna wysokość Twojego wynagrodzenia, a w nieruchomościach, gdy ktoś jest kontaktowy, szybko rozwija sieć kontaktów, która pomaga mu wejść w zawód profesjonalnego agenta nieruchomości. Nasze wymagania Wymagania: Chęć stałego rozwoju Posiadanie rozwiniętej empatii Nieustępliwość i konsekwencja w dążeniu do celu Dyspozycyjność czasowa Mile widziane doświadczenie w agencji nieruchomości Umiejętność budowania i utrzymywania długotrwałych relacji z partnerami i klientami firmy To oferujemy Oferujemy: Wynagrodzenie na zasadzie prowizji zależnej od wartości przeprowadzonej przez Ciebie transakcj

### Transformer

In [None]:
labeled_code6_trans = model_paper_trans.predict(
    X=list(labeled2["desc"]),
    output_level="last",
    format="dataframe",
    top_k=3
)

Initializing TransformerDataModule with model_name=allegro/herbert-base-cased, max_seq_length=512, train/eval_batch_size=8/8, num_workers=2 ...
Setting up TransformerDataModule ...


INFO:pytorch_lightning.utilities.rank_zero:Using 16bit native Automatic Mixed Precision (AMP)
INFO:pytorch_lightning.utilities.rank_zero:GPU available: True, used: True
INFO:pytorch_lightning.utilities.rank_zero:TPU available: False, using: 0 TPU cores
INFO:pytorch_lightning.utilities.rank_zero:IPU available: False, using: 0 IPUs
INFO:pytorch_lightning.utilities.rank_zero:HPU available: False, using: 0 HPUs
INFO:pytorch_lightning.utilities.rank_zero:Restoring states from the checkpoint path at /content/job-ads-classifier/models/transformer_model/transformer_classifier.ckpt


Starting predicting with TransformerClassifier ...


INFO:pytorch_lightning.accelerators.gpu:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]
INFO:pytorch_lightning.utilities.rank_zero:Loaded model weights from checkpoint at /content/job-ads-classifier/models/transformer_model/transformer_classifier.ckpt


Predicting: 0it [00:00, ?it/s]

In [None]:
labeled2["predictions_trans"]= labeled_code6_trans[["class_1", "class_2", "class_3"]].apply(lambda x: [str(x.class_1), str(x.class_2), str(x.class_3)], axis = 1)
labeled2["pred1_overlap_trans"]=labeled2.apply(lambda x: len([val for val in [i[0] for i in x.predictions_trans[0:len(x.code)]] if val in [str(j)[0] for j in x.code]])/len(x.code), axis = 1)
labeled2["pred2_overlap_trans"]=labeled2.apply(lambda x: len([val for val in [i[0:2] for i in x.predictions_trans[0:len(x.code)]] if val in [str(j)[0:2] for j in x.code]])/len(x.code), axis = 1)
labeled2["pred4_overlap_trans"]=labeled2.apply(lambda x: len([val for val in [i[0:5] for i in x.predictions_trans[0:len(x.code)]] if val in [str(j)[0:5] for j in x.code]])/len(x.code), axis = 1)
labeled2["pred6_overlap_trans"]=labeled2.apply(lambda x: len([val for val in x.predictions_trans[0:len(x.code)] if val in x.code])/len(x.code), axis = 1)

In [None]:
[np.sum(labeled2["pred1_overlap_trans"]) / labeled2.shape[0],
 np.sum(labeled2["pred2_overlap_trans"]) / labeled2.shape[0],
 np.sum(labeled2["pred4_overlap_trans"]) / labeled2.shape[0],
 np.sum(labeled2["pred6_overlap_trans"]) / labeled2.shape[0]]

[0.9110738255033557,
 0.8972664988814318,
 0.8267267897091722,
 0.8046175894854586]

In [None]:
labeled2["code_2_true"]=labeled2["code"].apply(lambda x: str(x[0])[0])
labeled2["code_2_pred_trans"]=labeled2["predictions_trans"].apply(lambda x: str(x[0])[0])

In [None]:
pd.crosstab(index = labeled2["code_2_true"], 
            columns = labeled2["code_2_pred_trans"])

code_2_pred_trans,1,2,3,4,5,6,7,8,9
code_2_true,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,469,50,9,4,8,0,3,0,0
2,48,2799,83,22,34,0,6,4,3
3,14,87,1053,26,57,0,29,6,3
4,4,28,19,705,9,0,1,2,24
5,4,15,21,7,1086,0,3,0,8
6,1,0,0,0,0,17,0,0,0
7,3,9,21,0,2,0,1341,28,32
8,2,1,6,6,4,0,29,621,7
9,1,2,7,18,16,2,34,4,569


In [None]:
np.round(pd.crosstab(index = labeled2["code_2_true"], 
            columns = labeled2["code_2_pred_trans"], 
            normalize = "index"), 2)

code_2_pred_trans,1,2,3,4,5,6,7,8,9
code_2_true,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,0.86,0.09,0.02,0.01,0.01,0.0,0.01,0.0,0.0
2,0.02,0.93,0.03,0.01,0.01,0.0,0.0,0.0,0.0
3,0.01,0.07,0.83,0.02,0.04,0.0,0.02,0.0,0.0
4,0.01,0.04,0.02,0.89,0.01,0.0,0.0,0.0,0.03
5,0.0,0.01,0.02,0.01,0.95,0.0,0.0,0.0,0.01
6,0.06,0.0,0.0,0.0,0.0,0.94,0.0,0.0,0.0
7,0.0,0.01,0.01,0.0,0.0,0.0,0.93,0.02,0.02
8,0.0,0.0,0.01,0.01,0.01,0.0,0.04,0.92,0.01
9,0.0,0.0,0.01,0.03,0.02,0.0,0.05,0.01,0.87


In [None]:
labeled2[(labeled2["code_2_true"]=="2") & (labeled2["code_2_pred_trans"]== "8")].iloc[0,0]

'Serwisant - Pracownik magazynu PlusLighting.eu pracownik fizyczny Praca fizyczna Twój zakres obowiązków naprawy gwarancyjne i pogwarancyjne opraw oświetleniowych modyfikacja opraw oświetleniowych demontaż i montaż opraw oświetleniowych weryfikację zgłoszeń reklamacyjnych ogólne prace magazynowe kontrola zgodności stanu towaru w magazynie dokonywanie rozładunków i załadunków towarów weryfikacja kompletności przyjmowanych dostaw kompletacja towaru do wysyłki dostawy towarów do klienta Nasze wymagania wykształcenie zawodowe lub średnie, preferowane techniczne mile widziane doświadczenie na podobnym stanowisku uprawnienia SEP 1kV – mile widziane prawo jazdy kat. B Uprawnienia na wózek widłowy – mile widziane podstawowa obsługa narzędzi i maszyn ręcznych systematyczność i dokładność w wykonywaniu powierzonej pracy zachowanie odpowiedniego poziomu jakości wytwarzanych produktów w oparciu o obowiązujące standardy umiejętność pracy w zespole To oferujemy zatrudnienie na podstawie umowy o prac

In [None]:
labeled2[(labeled2["code_2_true"]=="9") & (labeled2["code_2_pred_trans"]== "1")].iloc[0,0]

'Koordynator zespołu sprzątającego (k/m) STOKSON Spółka Jawna Henryk Stokłosa i Wspólnicy   Kto szuka: STOKSON Spółka Jawna Henryk Stokłosa i Wspólnicy Stanowisko: Koordynator zespołu sprzątającego (k/m) Lokalizacja: Piekary Śląskie śląskie Opis stanowiska podany przez pracodawcę: Opis stanowiska: Prace porządkowe oraz nadzór nad pracownikami sprzątającymi, Kontrola zużycia oraz zamawianie środków czystości, Nadzór nad realizacją prac, Aktywne uczestnictwo w pracy zespołu, Raportowanie do przełożonego. Wymagania stawiane pracownikowi: Wymagania: Doświadczenie zawodowe na podobnym stanowisku, Umiejętność kierowania zespołem, Znajomość pakietu MS Office, Dyspozycyjność do pracy w systemie zmianowym. Firma oferuje: Oferujemy: Stabilną i satysfakcjonującą pracę w oparciu o umowę o pracę na pełen etat, Atrakcyjne wynagrodzenie, Pracę w prężnie rozwijającej się firmie, Wysoki standard pracy, Możliwość przystąpienia do ubezpieczenia grupowego, System kafeteryjny - do wyboru m.in. zajęcia spor

In [None]:
labeled2[(labeled2["code_2_true"]=="2") & (labeled2["code_2_pred_trans"]== "3")].iloc[0,0]

'Account Manager ds. Sprzedaży Ubezpieczeń Grupowych Nationale-Nederlanden   Kto szuka: Nationale-Nederlanden Stanowisko: Account Manager ds. Sprzedaży Ubezpieczeń Grupowych Lokalizacja: Końskie świętokrzyskie Opis stanowiska podany przez pracodawcę: Zapewniamy jeden z najlepszych pakietów korzyści: Stały dochód podstawowy plus jeden z najkorzystniejszych systemów premiowych na rynku (bez limitu) Ubezpieczenie grupowe i kartę Benefit Systems Samochód służbowy, kartę flotową, laptop, telefon komórkowy, drukarkę Wsparcie asystenckie Call Center oraz narzędzia prospectingowe Dostępność leadów Program szkoleń dopasowany do potrzeb Atrakcyjną ścieżkę rozwoju Współpracę z marką, cieszącą się ogromnym zaufaniem Klientów Wymagania stawiane pracownikowi: Do Twoich zadań będzie należało: Aktywne pozyskiwanie klientów biznesowych z segmentu MSP Sprzedaż ubezpieczeń grupowych oraz opieka nad portfelem Realizacja planu sprzedażowego Budowanie pozytywnego wizerunku Nationale-Nederlanden wśród klient