# Data Pre-Processing ( removing punct-stopwords)

## Table of contents

1. [Data Normalization](#normdata)
2. [Deletion of Duplicates](#deldups)
3. [Category Processing](#catproc)
4. [Split the dataset into Train, Val and Test](#split)
4. [Save the model](#save)

Now that we got a feel for the data, let's do some data pre-processing and cleaning before moving towards modeling. 

In this section we will: 

- Process the documents in the dataset with spaCy using the de_core_news_lg pipeline models, so that we can build our baselines and models later on. 

In [1]:
import pandas as pd 
import json
import spacy
from spacy.tokens import Doc
import os
from sklearn.model_selection import train_test_split

In [2]:
# make it deterministic 
import random 
random.seed(42)

Load both pipelines

In [3]:
def load_model(name): 
    nlp = spacy.load(name)
    de_stop_words = nlp.Defaults.stop_words
    return nlp, de_stop_words

In [4]:
def len_doc(doc): 
    doc_length = len(doc)
    return doc_length

def len_doc_only_alpha(doc): 
    doc_length = sum([1 if token.is_alpha else 0 for token in doc])
    return doc_length

In [5]:
def read_dataset(data_path):
    """
    Read a json file and return it as dataframe. 
    Each record should be on a list of json objects inside `data`
    
    args: 
        - data_path, str: path to the dataset to be read
    returns: 
        - Pandas DataFrame with text and label as columns
    """
    with open(data_path, 'r') as f: 
        data = json.loads(f.read())
    
    return pd.json_normalize(data, record_path = ["data"])

In [6]:
dataset_name = "tech_soft_none.json"
data_path = os.path.join(f"./data/raw/{dataset_name}")

In [7]:
skills_df = read_dataset(data_path=data_path)
skills_df.head()

Unnamed: 0,text,label
0,"Standort Trovarit AG München, Deutschland",none
1,Wir freuen uns auf Ihre Bewerbung unter Angabe...,none
2,Qualifikation zur Heimleitung gemäß Heimperson...,tech
3,Gute organisatorische und konzeptionelle Fähig...,soft
4,"Teamfähigkeit, hohe Flexibilität und Einsatzbe...",soft


In [8]:
large_model = "de_core_news_lg"

nlp_lg, stop_words_lg = load_model(large_model)

In [9]:
# Set the extension on the doc so we can plot it later
Doc.set_extension("doc_len", getter=len_doc, force=True)
Doc.set_extension("doc_len_alpha", getter=len_doc_only_alpha, force=True)

## 1. Data Normalization <a name="normdata"></a>

Dataframe will contain: 
- text: raw text
- label: corresponding to the class
- text_proc: normalized text without punctuation and stop words
- tokens_norm: normalized tokens
- tokens: raw tokens


In [10]:
def normalize(doc): 
    tokens_cleaned = []
    for token in doc: 
        if not token.is_punct and not token.is_stop and not token.is_space:
            tokens_cleaned.append(token.lemma_.lower())
    return tokens_cleaned, " ".join(tokens_cleaned)

In [11]:
%%time
docs = []
tokens = []
tokens_norm = []
text_procs = []
for doc in nlp_lg.pipe(skills_df['text'].to_list(), batch_size=100):
    docs.append(doc)
    tokens.append([token for token in doc])
    tokens_normalized, text_proc = normalize(doc)
    tokens_norm.append(tokens_normalized)
    text_procs.append(text_proc)

CPU times: user 16.3 s, sys: 331 ms, total: 16.6 s
Wall time: 16.6 s


In [12]:
skills_df['doc'] = pd.Series(docs)    
skills_df['tokens'] = pd.Series(tokens)
skills_df['tokens_norm'] = pd.Series(tokens_norm)
skills_df['text_proc'] = pd.Series(text_procs)
skills_df.head(3)

Unnamed: 0,text,label,doc,tokens,tokens_norm,text_proc
0,"Standort Trovarit AG München, Deutschland",none,"(Standort, Trovarit, AG, München, ,, Deutschland)","[Standort, Trovarit, AG, München, ,, Deutschland]","[standort, trovarit, münchen, deutschland]",standort trovarit münchen deutschland
1,Wir freuen uns auf Ihre Bewerbung unter Angabe...,none,"(Wir, freuen, uns, auf, Ihre, Bewerbung, unter...","[Wir, freuen, uns, auf, Ihre, Bewerbung, unter...","[freuen, bewerbung, angabe, gehaltsvorstellung...",freuen bewerbung angabe gehaltsvorstellung mög...
2,Qualifikation zur Heimleitung gemäß Heimperson...,tech,"(Qualifikation, zur, Heimleitung, gemäß, Heimp...","[Qualifikation, zur, Heimleitung, gemäß, Heimp...","[qualifikation, heimleitung, gemäß, heimperson...",qualifikation heimleitung gemäß heimpersonalve...


## 2. Delete duplicates for Text_Proc column only <a name="deldups"></a>

Delete duplicates from the dataframe, as it might cause issues during training. 

In [13]:
dups_idx = skills_df[skills_df['text_proc'].duplicated() == True].index
dups_idx.shape

(910,)

In [16]:
# Approximately 10% duplicates after cleaning for soft and none classes
skills_df.iloc[dups_idx]['label'].value_counts()

soft    395
none    374
tech    141
Name: label, dtype: int64

In [17]:
skills_df_processed = skills_df.drop(index=dups_idx)
skills_df_processed.reset_index(inplace=True, drop=True)

In [18]:
skills_df_processed['text_proc'].nunique()

9339

In [19]:
skills_df_processed.head(3)

Unnamed: 0,text,label,doc,tokens,tokens_norm,text_proc
0,"Standort Trovarit AG München, Deutschland",none,"(Standort, Trovarit, AG, München, ,, Deutschland)","[Standort, Trovarit, AG, München, ,, Deutschland]","[standort, trovarit, münchen, deutschland]",standort trovarit münchen deutschland
1,Wir freuen uns auf Ihre Bewerbung unter Angabe...,none,"(Wir, freuen, uns, auf, Ihre, Bewerbung, unter...","[Wir, freuen, uns, auf, Ihre, Bewerbung, unter...","[freuen, bewerbung, angabe, gehaltsvorstellung...",freuen bewerbung angabe gehaltsvorstellung mög...
2,Qualifikation zur Heimleitung gemäß Heimperson...,tech,"(Qualifikation, zur, Heimleitung, gemäß, Heimp...","[Qualifikation, zur, Heimleitung, gemäß, Heimp...","[qualifikation, heimleitung, gemäß, heimperson...",qualifikation heimleitung gemäß heimpersonalve...


In [39]:
skills_df_processed['text_proc'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 9339 entries, 0 to 9338
Series name: text_proc
Non-Null Count  Dtype 
--------------  ----- 
9339 non-null   object
dtypes: object(1)
memory usage: 73.1+ KB


### Remove text_proc columns that are empty

In [41]:
df_lt_one = skills_df_processed['text_proc'].apply(lambda d: len(d)<1).to_frame()
df_lt_one['text_proc'].value_counts()

False    9338
True        1
Name: text_proc, dtype: int64

In [45]:
empty_idx = df_lt_one[df_lt_one['text_proc'] == True].index
empty_idx

Int64Index([17], dtype='int64')

In [48]:
skills_df_processed.drop(index=empty_idx, inplace=True)
skills_df_processed.reset_index(inplace=True, drop=True)

In [49]:
skills_df_processed[15:18]

Unnamed: 0,text,label,doc,tokens,tokens_norm,text_proc,cats
15,Idealerweise Kenntnisse im Bereich der digital...,tech,"(Idealerweise, Kenntnisse, im, Bereich, der, d...","[Idealerweise, Kenntnisse, im, Bereich, der, d...","[idealerweise, kenntnis, bereich, digital, sig...",idealerweise kenntnis bereich digital signalve...,"{'tech': True, 'soft': False, 'none': False}"
16,"Freude am Kundenkontakt, eine hohe Kunden- und...",soft,"(Freude, am, Kundenkontakt, ,, eine, hohe, Kun...","[Freude, am, Kundenkontakt, ,, eine, hohe, Kun...","[freude, kundenkontakt, hoch, kunden, serviceo...",freude kundenkontakt hoch kunden serviceorient...,"{'tech': False, 'soft': True, 'none': False}"
17,Jobs & Projekte Kontakt Impressum Datenschutz,none,"(Jobs, &, Projekte, Kontakt, Impressum, Datens...","[Jobs, &, Projekte, Kontakt, Impressum, Datens...","[job, projekt, kontakt, impressum, datenschutz]",job projekt kontakt impressum datenschutz,"{'tech': False, 'soft': False, 'none': True}"


## 3. Category processing <a name="catproc"></a>

We need to process the categories for the model, so that the spaCy models can processed.

In [50]:
def set_categories(label): 
    """
    set_categories will create a dictionary for each label to be passed by assigning True 
    to the label that match and false otherwise.
    
    Example: 
    input: 'tech'
    
    output: {'tech': True, 'soft': False, 'none': False}
    
    args: 
    label: str, representing the category 
    
    return: 
    dict, representing the categories. 
    """
    return dict({'tech': label == 'tech', 
            'soft': label == 'soft',
            'none': label == 'none'
           })

In [51]:
skills_df_processed['cats'] = skills_df_processed['label'].apply(set_categories)
skills_df_processed.head()

Unnamed: 0,text,label,doc,tokens,tokens_norm,text_proc,cats
0,"Standort Trovarit AG München, Deutschland",none,"(Standort, Trovarit, AG, München, ,, Deutschland)","[Standort, Trovarit, AG, München, ,, Deutschland]","[standort, trovarit, münchen, deutschland]",standort trovarit münchen deutschland,"{'tech': False, 'soft': False, 'none': True}"
1,Wir freuen uns auf Ihre Bewerbung unter Angabe...,none,"(Wir, freuen, uns, auf, Ihre, Bewerbung, unter...","[Wir, freuen, uns, auf, Ihre, Bewerbung, unter...","[freuen, bewerbung, angabe, gehaltsvorstellung...",freuen bewerbung angabe gehaltsvorstellung mög...,"{'tech': False, 'soft': False, 'none': True}"
2,Qualifikation zur Heimleitung gemäß Heimperson...,tech,"(Qualifikation, zur, Heimleitung, gemäß, Heimp...","[Qualifikation, zur, Heimleitung, gemäß, Heimp...","[qualifikation, heimleitung, gemäß, heimperson...",qualifikation heimleitung gemäß heimpersonalve...,"{'tech': True, 'soft': False, 'none': False}"
3,Gute organisatorische und konzeptionelle Fähig...,soft,"(Gute, organisatorische, und, konzeptionelle, ...","[Gute, organisatorische, und, konzeptionelle, ...","[organisatorisch, konzeptionell, fähigkeit]",organisatorisch konzeptionell fähigkeit,"{'tech': False, 'soft': True, 'none': False}"
4,"Teamfähigkeit, hohe Flexibilität und Einsatzbe...",soft,"(Teamfähigkeit, ,, hohe, Flexibilität, und, Ei...","[Teamfähigkeit, ,, hohe, Flexibilität, und, Ei...","[teamfähigkeit, hoch, flexibilität, einsatzber...",teamfähigkeit hoch flexibilität einsatzbereits...,"{'tech': False, 'soft': True, 'none': False}"


## 4. Split dataset into Training, Validation and Testing <a name="split"></a>

Perform data splitting for the dataset with 3 slices with the following proportions: 

- Training: 69% (6508)
- Validation: 15% (1429)
- Testing: 15% (1401)

In [55]:
X_train_raw, X_test, y_train_raw, y_test = train_test_split(skills_df_processed.drop(['label','doc'], axis=1),
                                                    skills_df_processed[['label']], 
                                                    random_state=42, 
                                                    test_size=0.15)

In [56]:
X_train, X_val, y_train, y_val = train_test_split(X_train_raw,
                                                  y_train_raw, 
                                                  random_state=42, 
                                                  test_size=0.18)

In [57]:
X_train.shape[0], X_val.shape[0], X_test.shape[0]

(6508, 1429, 1401)

In [58]:
print(f"Splits \nTraining:{X_train.shape[0]/skills_df_processed.shape[0]*100:.2f} \nDev:{X_val.shape[0]/skills_df_processed.shape[0]*100:.2f}  \nTest:{X_test.shape[0]/skills_df_processed.shape[0]*100:.2f}")

Splits 
Training:69.69 
Dev:15.30  
Test:15.00


## 5. Save the data to build the models <a name="save"></a>

In [59]:
def to_csv(path_to_save, filename, features, label):
    full_path = os.path.join(path_to_save, filename)
    pd.concat([features,label], axis=1).to_csv(full_path, index=False)

In [60]:
!mkdir -p ./data/processed/clean/

In [61]:
to_csv("./data/processed/clean", "training.csv", X_train, y_train)

In [62]:
to_csv("./data/processed/clean", "dev.csv", X_val, y_val)

In [63]:
to_csv("./data/processed/clean", "test.csv", X_test, y_test)

In [65]:
!head -n 3 ./data/processed/clean/training.csv

text,tokens,tokens_norm,text_proc,cats,label
Blogs Foto Video Leserartikel Print-Archiv Schlagworte Bildrechte AGB Cookies Hilfe/ Kontakt Newsletter RSS,"[Blogs, Foto, Video, Leserartikel, Print-Archiv, Schlagworte, Bildrechte, AGB, Cookies, Hilfe, /, Kontakt, Newsletter, RSS]","['blog', 'foto', 'video', 'leserartikel', 'print-archiv', 'schlagwort', 'bildrechte', 'agb', 'cookies', 'hilfe', 'kontakt', 'newsletter', 'rss']",blog foto video leserartikel print-archiv schlagwort bildrechte agb cookies hilfe kontakt newsletter rss,"{'tech': False, 'soft': False, 'none': True}",none
Braunschweig,[Braunschweig],['braunschweig'],braunschweig,"{'tech': False, 'soft': False, 'none': True}",none
