In [17]:
import pandas as pd
import numpy as np
import csv
import json

# Import data set:

In [18]:
pd.options.mode.chained_assignment = None

with open('data/dk_asylum_data.json', encoding='utf-8') as inputfile:
    df = pd.read_json(inputfile)

# Convert json to csv:
df.to_csv('data/dk_asylum_data.csv', encoding='utf-8', index=False)

df.shape

(9324, 5)

# Data preprocessing:

Keep cases of Unknown Homeland (Ukendt hjemland):

In [19]:
df = df[df.country == "Ukendt hjemland"]

# Drop redundant column:
df.drop('hasText', axis=1, inplace=True)

df["text"] = df["text"].astype(str)
df.shape
df.head

<bound method NDFrame.head of         id                                      asylum_motive  \
201    201                                  [Etniske forhold]   
428    428            [Kriminelle forhold,  Militære forhold]   
464    464  [Sur Place,  LGBT,  Politiske forhold,  Etnisk...   
901    901  [Agents of Persecution,  Anden kønsrelateret f...   
1291  1291                  [Militære forhold,  Nationalitet]   
...    ...                                                ...   
6446  6446                            [Agents of Persecution]   
7007  7007  [Privatretlig forhold,  Tilknyt bistand oprørs...   
7018  7018                                 [Militære forhold]   
7177  7177              [Privatretlig forhold,  Nationalitet]   
7178  7178                      [Beviskrav og bevisvurdering]   

              country                                               text  
201   Ukendt hjemland          Nævnet stadfæstede i november 2021 Udl...  
428   Ukendt hjemland          Nævnet s

## Lower casing:

In [20]:
df["text_lower"] = df["text"].str.lower()
df.head()

Unnamed: 0,id,asylum_motive,country,text,text_lower
201,201,[Etniske forhold],Ukendt hjemland,Nævnet stadfæstede i november 2021 Udl...,nævnet stadfæstede i november 2021 udl...
428,428,"[Kriminelle forhold, Militære forhold]",Ukendt hjemland,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede i juni 2021 udlændi...
464,464,"[Sur Place, LGBT, Politiske forhold, Etnisk...",Ukendt hjemland,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede i juni 2021 udlændi...
901,901,"[Agents of Persecution, Anden kønsrelateret f...",Ukendt hjemland,Nævnet stadfæstede i december 2020 Udl...,nævnet stadfæstede i december 2020 udl...
1291,1291,"[Militære forhold, Nationalitet]",Ukendt hjemland,Nævnet hjemviste i juni 2020 Udlænding...,nævnet hjemviste i juni 2020 udlænding...


## Punctuation removal:

In [21]:
PUNCTUATION_TO_REMOVE = '–«!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~»●·’“”'


def remove_punctuation(text):
    """custom function to remove the punctuation"""
    return text.translate(str.maketrans('', '', PUNCTUATION_TO_REMOVE))


df["text_wo_punct"] = df["text_lower"].apply(
    lambda text: remove_punctuation(text))
df.head()

Unnamed: 0,id,asylum_motive,country,text,text_lower,text_wo_punct
201,201,[Etniske forhold],Ukendt hjemland,Nævnet stadfæstede i november 2021 Udl...,nævnet stadfæstede i november 2021 udl...,nævnet stadfæstede i november 2021 udl...
428,428,"[Kriminelle forhold, Militære forhold]",Ukendt hjemland,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede i juni 2021 udlændi...,nævnet stadfæstede i juni 2021 udlændi...
464,464,"[Sur Place, LGBT, Politiske forhold, Etnisk...",Ukendt hjemland,Nævnet stadfæstede i juni 2021 Udlændi...,nævnet stadfæstede i juni 2021 udlændi...,nævnet stadfæstede i juni 2021 udlændi...
901,901,"[Agents of Persecution, Anden kønsrelateret f...",Ukendt hjemland,Nævnet stadfæstede i december 2020 Udl...,nævnet stadfæstede i december 2020 udl...,nævnet stadfæstede i december 2020 udl...
1291,1291,"[Militære forhold, Nationalitet]",Ukendt hjemland,Nævnet hjemviste i juni 2020 Udlænding...,nævnet hjemviste i juni 2020 udlænding...,nævnet hjemviste i juni 2020 udlænding...
