In [17]:
import pandas as pd
import numpy as np
from nltk.corpus import stopwords
# Need to uncomment the following line in order to download nltk stopwords:
# nltk.download('stopwords')
import re

# Import data set:

In [18]:
pd.options.mode.chained_assignment = None

with open('data/dk_asylum_data.json', encoding='utf-8') as inputfile:
    df_full = pd.read_json(inputfile)

# Convert json to csv:
df_full.to_csv('data/dk_asylum_data.csv', encoding='utf-8', index=False)

df_full.shape

(9324, 5)

# Data preprocessing:

## Keep cases of Unknown Homeland (Ukendt hjemland):

In [20]:
df_UH = df_full[df_full.country == "Ukendt hjemland"]

# Drop redundant column:
df_UH.drop('hasText', axis=1, inplace=True)

# Keep column 'text':
df = df_UH[['text']]

df["text"] = df["text"].astype(str)
df.shape
df.head()

Unnamed: 0,text
201,Nævnet stadfæstede i november 2021 Udl...
428,Nævnet stadfæstede i juni 2021 Udlændi...
464,Nævnet stadfæstede i juni 2021 Udlændi...
901,Nævnet stadfæstede i december 2020 Udl...
1291,Nævnet hjemviste i juni 2020 Udlænding...


## Lower casing:

In [21]:
df["text_lower"] = df["text"].str.lower()
df.head()

Unnamed: 0,text,text_lower
201,Nævnet stadfæstede i november 2021 Udl...,nævnet stadfæstede i november 2021 udl...
428,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede i juni 2021 udlændi...
464,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede i juni 2021 udlændi...
901,Nævnet stadfæstede i december 2020 Udl...,nævnet stadfæstede i december 2020 udl...
1291,Nævnet hjemviste i juni 2020 Udlænding...,nævnet hjemviste i juni 2020 udlænding...


## Punctuation removal:

In [22]:
PUNCTUATION_TO_REMOVE = '–«!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~»●·’“”'


def remove_punctuation(text):
    """custom function to remove the punctuation"""
    return text.translate(str.maketrans('', '', PUNCTUATION_TO_REMOVE))


df["text_wo_punct"] = df["text_lower"].apply(
    lambda text: remove_punctuation(text))
df.head()

Unnamed: 0,text,text_lower,text_wo_punct
201,Nævnet stadfæstede i november 2021 Udl...,nævnet stadfæstede i november 2021 udl...,nævnet stadfæstede i november 2021 udl...
428,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede i juni 2021 udlændi...,nævnet stadfæstede i juni 2021 udlændi...
464,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede i juni 2021 udlændi...,nævnet stadfæstede i juni 2021 udlændi...
901,Nævnet stadfæstede i december 2020 Udl...,nævnet stadfæstede i december 2020 udl...,nævnet stadfæstede i december 2020 udl...
1291,Nævnet hjemviste i juni 2020 Udlænding...,nævnet hjemviste i juni 2020 udlænding...,nævnet hjemviste i juni 2020 udlænding...


## Stopwords removal:

In [23]:
stopwords_lower = list(map(lambda x: x.lower(), stopwords.words('danish')))

STOPWORDS_DANISH = set(stopwords_lower)

def remove_stopwords(text):
    """custom function to remove the stopwords"""
    return " ".join([word for word in str(text).split() if not word in STOPWORDS_DANISH])


df["text_wo_stop"] = df["text_wo_punct"].apply(
    lambda text: remove_stopwords(text))
df.head()

Unnamed: 0,text,text_lower,text_wo_punct,text_wo_stop
201,Nævnet stadfæstede i november 2021 Udl...,nævnet stadfæstede i november 2021 udl...,nævnet stadfæstede i november 2021 udl...,nævnet stadfæstede november 2021 udlændingesty...
428,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede i juni 2021 udlændi...,nævnet stadfæstede i juni 2021 udlændi...,nævnet stadfæstede juni 2021 udlændingestyrels...
464,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede i juni 2021 udlændi...,nævnet stadfæstede i juni 2021 udlændi...,nævnet stadfæstede juni 2021 udlændingestyrels...
901,Nævnet stadfæstede i december 2020 Udl...,nævnet stadfæstede i december 2020 udl...,nævnet stadfæstede i december 2020 udl...,nævnet stadfæstede december 2020 udlændingesty...
1291,Nævnet hjemviste i juni 2020 Udlænding...,nævnet hjemviste i juni 2020 udlænding...,nævnet hjemviste i juni 2020 udlænding...,nævnet hjemviste juni 2020 udlændingestyrelsen...


# Numbers removal:

In [24]:
# Drop the columns which are no longer needed
df.drop(["text_lower", 'text_wo_punct'], axis=1, inplace=True)


def drop_numbers(text):
    text_wo_numbers = re.sub(r'[0-9]+', '', text)
    return text_wo_numbers


df["text_wo_numbers"] = df["text_wo_stop"].apply(
    lambda text: drop_numbers(text))
df.head()

Unnamed: 0,text,text_wo_stop,text_wo_numbers
201,Nævnet stadfæstede i november 2021 Udl...,nævnet stadfæstede november 2021 udlændingesty...,nævnet stadfæstede november udlændingestyrels...
428,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede juni 2021 udlændingestyrels...,nævnet stadfæstede juni udlændingestyrelsens ...
464,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede juni 2021 udlændingestyrels...,nævnet stadfæstede juni udlændingestyrelsens ...
901,Nævnet stadfæstede i december 2020 Udl...,nævnet stadfæstede december 2020 udlændingesty...,nævnet stadfæstede december udlændingestyrels...
1291,Nævnet hjemviste i juni 2020 Udlænding...,nævnet hjemviste juni 2020 udlændingestyrelsen...,nævnet hjemviste juni udlændingestyrelsens af...


## Single character words removal:

In [25]:
def drop_single_letter_words(text):
    return ' '.join([w for w in text.split() if len(w) > 1])


df["text_wo_single_letters"] = df["text_wo_numbers"].apply(
    lambda text: drop_single_letter_words(text))
df.head()

Unnamed: 0,text,text_wo_stop,text_wo_numbers,text_wo_single_letters
201,Nævnet stadfæstede i november 2021 Udl...,nævnet stadfæstede november 2021 udlændingesty...,nævnet stadfæstede november udlændingestyrels...,nævnet stadfæstede november udlændingestyrelse...
428,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede juni 2021 udlændingestyrels...,nævnet stadfæstede juni udlændingestyrelsens ...,nævnet stadfæstede juni udlændingestyrelsens a...
464,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede juni 2021 udlændingestyrels...,nævnet stadfæstede juni udlændingestyrelsens ...,nævnet stadfæstede juni udlændingestyrelsens a...
901,Nævnet stadfæstede i december 2020 Udl...,nævnet stadfæstede december 2020 udlændingesty...,nævnet stadfæstede december udlændingestyrels...,nævnet stadfæstede december udlændingestyrelse...
1291,Nævnet hjemviste i juni 2020 Udlænding...,nævnet hjemviste juni 2020 udlændingestyrelsen...,nævnet hjemviste juni udlændingestyrelsens af...,nævnet hjemviste juni udlændingestyrelsens afg...
