# Create Function

In [0]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
import pandas as pd
import string

def preprocessing(file_path):
  file = pd.read_csv(file_path)
  
  #Stemming and Lowercase
  factory = StemmerFactory()
  stemmer = factory.create_stemmer()

  file["kalimat"] = file["kalimat"].apply(
      lambda kalimat: stemmer.stem(kalimat)
  )
  
  #Remove Stop Words
  factory = StopWordRemoverFactory()
  stopword = factory.create_stop_word_remover()

  file["kalimat"] = file["kalimat"].apply(
      lambda kalimat: stopword.remove(kalimat)
  )
  
  #Remove Punctuation
  for p in string.punctuation:
    file["kalimat"] = file["kalimat"].str.replace(p, '')
    
  #create dictionary
  d = {}

  for index, row in file.iterrows():
    d[str(row["kalimat_id"])] = row["kalimat"].split()
  
  
  return d

# double_annotator_agree.csv

In [0]:
file_path = "../data/training_set/double_annotator_agree.csv"

double_annotator_agree = preprocessing(file_path)

double_annotator_agree

{'1000527': ['cara',
  'anatomi',
  'hidung',
  'tonjol',
  'vertebrata',
  'kandung',
  'nostril',
  'nyaring',
  'udara',
  'napas'],
 '1000651': ['mandi', 'air', 'kandung', 'belerang', 'obat', 'sakit', 'kulit'],
 '1000770': ['ikat',
  'klathrin',
  'membrane',
  'sel',
  'bentuk',
  'vesikel',
  'kandung',
  'molekul',
  'ligan'],
 '1001199': ['tapak',
  'karier',
  'gedung',
  'parlemen',
  'totok',
  'milik',
  'ambisi',
  'politik',
  'kejar',
  'karier',
  'puncak'],
 '1001330': ['juga',
  'beri',
  'emc',
  'alam',
  'wawas',
  'masa',
  'depan',
  'kejar',
  'tuju',
  'utama',
  'layan',
  'kereta',
  'barang'],
 '1001386': ['injak',
  'usia',
  '17',
  'tahun',
  'bagas',
  'putus',
  'fokus',
  'kejar',
  'impi',
  'cari',
  'jalan',
  'bisa',
  'jadi',
  'musisi',
  'sukses'],
 '1001455': ['kejar',
  'harry',
  'ron',
  'hermione',
  'pikir',
  'mereka',
  'sedang',
  'kejar',
  'snape'],
 '1001469': ['program',
  'senjata',
  'kimia',
  'mesir',
  'yang',
  'paling',
  'ma

In [0]:
file_path = "../data/training_set/double_annotator_disagree.csv"

double_annotator_disagree = preprocessing(file_path)

double_annotator_disagree

{'1001238': ['rencana',
  'pulang',
  'amerika',
  'serikat',
  'dalam',
  'volume',
  '42',
  'temu',
  'vermouth',
  'lawan',
  'conan',
  'vermouth',
  'janji',
  'akan',
  'kejar',
  'sherry'],
 '1001448': ['meski',
  'mekanisme',
  'mampu',
  'picu',
  'produksi',
  'nasional',
  'ketidakpuasan',
  'tetap',
  'muncul',
  'film',
  'buat',
  'cara',
  'hanya',
  'kejar',
  'wajib',
  'jumlah',
  'mutu',
  'ragu'],
 '1001820': ['bagai',
  'ganti',
  'kaum',
  'melayu',
  'lepas',
  'tuan',
  'melayu',
  'warga',
  'melayu',
  'bantu',
  'kejar',
  'tinggal',
  'ekonomi'],
 '1001888': ['bulan',
  'april',
  '2014',
  'deezer',
  'umum',
  'ceo',
  'ini',
  'dauchez',
  'tinggal',
  'usaha',
  'bulan',
  'september',
  'kejar',
  'peluang',
  'profesional',
  'baru'],
 '1001962': ['toufik',
  'boushaki',
  'duduk',
  'asli',
  'aljazair',
  'mana',
  'kejar',
  'studi',
  'dasar',
  'provinsi',
  'boumerdes',
  'gabung',
  'pada',
  'tahun',
  '1994',
  'kursus',
  'teknologi'],
 '100

In [0]:
file_path = "../data/training_set/single_annotator.csv"

single_annotator = preprocessing(file_path)

single_annotator

{'336691': ['cuaca', 'cerah', 'lazim', 'panjang', 'tahun'],
 '336270': ['gambar',
  'hasil',
  'layar',
  'cukup',
  'cerah',
  'milik',
  'speaker',
  'mampu',
  'hasil',
  'suara',
  'keras',
  'jernih'],
 '336555': ['masa',
  'depan',
  'cerah',
  'pemuda',
  'umur',
  '20',
  'prancis',
  'abad',
  '17'],
 '336618': ['cor',
  'caroli',
  'alpha',
  'canum',
  'venaticorum',
  'nama',
  'lengkap',
  'cor',
  'caroli',
  'regis',
  'martyris',
  'bintang',
  'paling',
  'cerah',
  'rasi',
  'canes',
  'venatici'],
 '336613': ['sanders',
  'lebih',
  'suka',
  'cat',
  'air',
  'lilo',
  'maksud',
  'tampil',
  'warna',
  'cerah',
  'buku',
  'cerita',
  'gambar'],
 '336406': ['ulleungdo',
  'milik',
  'iklim',
  'subtropis',
  'basah',
  'klasifikasi',
  'iklim',
  'koppen',
  'cfa',
  'pada',
  'musim',
  'dingin',
  'hujan',
  'sangat',
  'deras',
  'cuaca',
  'cerah',
  'sangat',
  'jarang'],
 '336324': ['ikan',
  'hias',
  'mungkin',
  'besar',
  'sulit',
  'tahan',
  'hidup',
  

In [0]:
file_path = "../data/training_set/triple_annotator_agree.csv"

triple_annotator_agree = preprocessing(file_path)

triple_annotator_agree

{'1000034': ['jepang',
  'manga',
  'biasa',
  'serial',
  'majalah',
  'manga',
  'besar',
  'sering',
  'kandung',
  'banyak',
  'cerita',
  'masingmasing',
  'saji',
  'satu',
  'episode',
  'kemudian',
  'lanjut',
  'edisi',
  'ikut'],
 '1000129': ['surah',
  'nama',
  'maryam',
  'surat',
  'kandung',
  'kisah',
  'maryam',
  'maria',
  'agama',
  'kristen',
  'ibu',
  'nabi',
  'isa',
  'as'],
 '1000476': ['rebus',
  'waterzooi',
  'hachee',
  'rebus',
  'bawang',
  'bombay',
  'daging',
  'sapi',
  'kuah',
  'daging',
  'kental',
  'kandung',
  'banyak',
  'rasa',
  'butuh',
  'beberapa',
  'jam',
  'saji'],
 '1000486': ['muka',
  'daun',
  'kandung',
  'lapis',
  'lilin',
  'air',
  'jatuh',
  'muka',
  'daun',
  'bentuk',
  'butir',
  'air'],
 '1000511': ['picu',
  'paling',
  'umum',
  'lain',
  'alergen',
  'rokok',
  'tembakau',
  'lain',
  'polusi',
  'udara',
  'hambat',
  'beta',
  'non',
  'selektif',
  'makan',
  'kandung',
  'sulfit'],
 '1000812': ['hagar',
  'kandung

In [0]:
file_path = "../data/training_set/triple_annotator_disagree.csv"

triple_annotator_disagree = preprocessing(file_path)

triple_annotator_disagree

{'1000113': ['kena',
  'sendang',
  'mata',
  'air',
  'tawar',
  'duduk',
  'tempat',
  'nama',
  'sendang',
  'mberan',
  'arti',
  'sumber',
  'tahu',
  'sedang',
  'sendang',
  'mata',
  'air',
  'kandung',
  'belerang',
  'nama',
  'sendang',
  'gong',
  'dulu',
  'jaman',
  'nenek',
  'moyang',
  'sumber',
  'tutup',
  'gong'],
 '1000354': ['osmofili',
  'ragi',
  'salah',
  'satu',
  'organisme',
  'sebab',
  'busuk',
  'bagai',
  'hasil',
  'olah',
  'industri',
  'gula',
  'makan',
  'kandung',
  'zat',
  'manis'],
 '1000621': ['temu',
  'jill',
  'bandara',
  'tinggal',
  'jakarta',
  'sama',
  'jill',
  'kini',
  'sedang',
  'hamil',
  'kandung',
  'anak',
  'dan',
  'terbang',
  'eropa'],
 '1001117': ['mr',
  'frank',
  'churchill',
  'putra',
  'mr',
  'weston',
  'nikah',
  'adalah',
  'orang',
  'pemuda',
  'ramah',
  'atur',
  'suka',
  'semua',
  'orang',
  'mr',
  'knightley',
  'anggap',
  'cukup',
  'dewasa',
  'walaupun',
  'kecembuannya',
  'frank',
  'karena',
  