In [1]:
import json
from tqdm import tqdm

In [2]:
with open('weak-negatives.json') as fopen:
    weak = json.load(fopen)
    
len(weak)

1210878

In [3]:
len(weak)

1210878

In [4]:
import cleaning

In [5]:
import re

def preprocessing(string):
    string = re.sub(
        'http\S+|www.\S+',
        '',
        ' '.join(
            [i for i in string.split() if i.find('@') < 0]
        ),
    )
    
    chars = ',.()!:\'"/;=-'
    for c in chars:
        string = string.replace(c, f' {c} ')
        
    string = re.sub(
        u'[0-9!@#$%^&*()_\-+{}|\~`\'";:?/.>,<]',
        ' ',
        string,
        flags = re.UNICODE,
    )
    string = re.sub(r'[ ]+', ' ', string).strip()
    
    return string.lower()

In [6]:
cleaned = []

for i in tqdm(range(len(weak))):
    c = preprocessing(weak[i])
    cleaned.append((weak[i], c))

100%|██████████| 1210878/1210878 [00:26<00:00, 44959.73it/s]


In [7]:
negate_words = {
    'tak',
    'jangan',
    'tidak',
    'enggak',
    'tiada',
    'bukan',
    'usah',
    'tidaklah',
    'jgn',
    'tk',
    'bkn',
    "shouldnt",
    "dont",
    "doesnt",
}

import itertools

def _pad_sequence(
    sequence,
    n,
    pad_left = False,
    pad_right = False,
    left_pad_symbol = None,
    right_pad_symbol = None,
):
    sequence = iter(sequence)
    if pad_left:
        sequence = itertools.chain((left_pad_symbol,) * (n - 1), sequence)
    if pad_right:
        sequence = itertools.chain(sequence, (right_pad_symbol,) * (n - 1))
    return sequence

def ngrams(
    sequence,
    n: int,
    pad_left = False,
    pad_right = False,
    left_pad_symbol = None,
    right_pad_symbol = None,
):
    sequence = _pad_sequence(
        sequence, n, pad_left, pad_right, left_pad_symbol, right_pad_symbol
    )

    history = []
    while n > 1:
        try:
            next_item = next(sequence)
        except StopIteration:
            return
        history.append(next_item)
        n -= 1
    for item in sequence:
        history.append(item)
        yield tuple(history)
        del history[0]

In [8]:
with open('populate-results.json') as fopen:
    l = json.load(fopen)

In [9]:
n, p = [], []

for k, v in l.items():
    if v == 'negative':
        n.append(k)
    else:
        p.append(k)
        
len(n), len(p)

(2260, 2922)

In [10]:
negatives, shouldnot = n[:], []
for w in negate_words:
    for w_ in p:
        if w_ in ['sabar']:
            continue
        negatives.extend([f'{w}{w_}', f'{w} {w_}'])
    for w_ in n:
        shouldnot.extend([f'{w}{w_}', f'{w} {w_}'])

In [11]:
negatives_words = set(negatives)
shouldnot_words = set(shouldnot)

In [12]:
laughing = {
    'huhu',
    'haha',
    'gagaga',
    'hihi',
    'wkawka',
    'wkwk',
    'kiki',
    'keke',
    'huehue',
    'hshs',
    'zzz',
    'hoho',
    'hew',
    'uwu',
    'ooo',
    'sksk',
    'ksks',
    'gitu',
    'meow',
    'alhamdulillah',
    'muah',
    'mmuahh',
    'hehe',
    'salamramadhan',
    'happywomensday'
}

In [13]:
reject = ['sukanya', 'tolong', 'bulan', 'bau', 'pukul', 'handai', 'abis', 'visi',
'hiburkan', 'kek', 'depa', 'senyum', 'ulama', 'habis', 'bener', 'dipilih',
'suami', 'penyertaan', 'teknikal', 'jam', 'mencapai', 'kekuatan', 'hepi']

negatives_words = {w for w in negatives_words if w not in reject}

In [14]:
ns, found = [], []
for s in tqdm(cleaned[:10000]):
    splitted = s[1].split()
    ngs = splitted[:]
    ngs.extend([' '.join(n) for n in ngrams(splitted, 2)])
    r = set(ngs) & negatives_words
    sn = set(ngs) & shouldnot_words
    string = [
        word
        for word in splitted
        if any([laugh in word for laugh in laughing])
    ]
    if len(r) and not len(sn) and not len(string):
        found.extend(list(r))
        ns.append(s[0])
        print(r, s[1])

  9%|▉         | 898/10000 [00:00<00:02, 4428.47it/s]

{'ngaku'} hayoo ngaku sebenernya kamu suka juga kan sama aku
{'stiap'} sy pnya anak usia thn dia suka sekali berkuda stiap ke kebun binatang yg di tujunya pasti
{'tak suka'} antara kawan kita mesti ada sorang yang tak suka bawa beg lepastu suka tumpang barang dia dalam beg orang lain ak
{'sanggup'} punya pasal lah i takleh move onnnn sanggup repeat dekat iflix angkara percaya tergadai bahagia nur
{'nangis', 'lemah'} padahal lu tau kan klo gua sama nadinne cewek cengeng lemah tukang nangis bahkan lu gak suka denger kita nang
{'gurau', 'tak lawak', 'curang'} tak lawak k agak laki suka ke perempuan curang takkan agak nak gurau ada byk lg nak gurau k baii
{'gatau'} katanya cewek juga perlu gengsi dan jual mahal tapi gatau atuh da aku ma gini kalo udah suka yaudah gabisa di
{'berasa'} dari dulu suka ini lagunya soft asik aja terusnya berasa lagi di karpet terbang kuk
{'liberal'} aku makin suka malaysia yg liberal mcm ni pondan g umrah hukum faraid pakai undang sendiri adik ipar boleh peluk 

 17%|█▋        | 1694/10000 [00:00<00:01, 4181.20it/s]

orang yang paling rugi di dunia ini ialah orang yang suka bertangguh sebab masa itu emas
{'mati', 'rokok'} sblum corona msuk gak tkut mati ngebut suka nerobos lampu merah rokok membunuhmu tpi diisep trs gak peduli kesehatan stlah corona msuk tiba tkut mati karena corona tiba peduli kesehatan beli masker orang indonesia emang suka tiba tiba sayang tiba pergi ninggalin
{'fandom'} [comifuro ] trade comifuro for danmei only klo mau dua duany untuk trade postcard oc fandom lain cuma bs available yg hualian nya akuh ga punya oc capek gambar jg with snacks juga oke aku suka strawberry www
{'penderitaan', 'gila', 'curang'} i ikut you balik rumah lah gila bella ni sekali try je dah dapat kesian tunang dia wan guys setia lah ya dengan pasangan masing masing focus bina hidup together until tua no benefits kalau curang you takkan bahagia atas penderitaan orang lain
{'menyayangi'} aduh mamak seneng nih sama yg suka menyayangi
{'mikir'} hidup emang gak bisa ditebak ya entah yang hari ini akan hadir 

 25%|██▌       | 2511/10000 [00:00<00:01, 4138.50it/s]

 kalau aku terkenal aku pasti bahagia ternyata setelah kita mendapatkan itu semua kok masih gak bahagia ya kok masih banyak artis amp orang terkenal yg bunuh diri ya ternyata kebahagian itu tidak didapatkan namun kita ciptakan sendiri melalui rasa syukur amp berbagi dg sesama
{'ribut', 'kayak', 'kehidupannya', 'mikir'} nder semuanya tuh udah digarisin sama tuhan aku ya sempet mikir kayak kamu temenku banyak yg cantik kaya famous tapi ternyata pas tau kehidupannya aku lebih bersyukur orang tua mereka suka ribut ada yg pisah ada yg suka main tangan dll aku bersyukur bgt loh jadinya
{'astagfirullah'} astagfirullah aku di kontol i mas suka sedi sama yg begini bawaanya mau dijual tuker kopi
{'meninggalkan'} you say that as if you are the most perfect in the world listen banyak anak kpop yang udah hijrah itu pasti bakalan ada masanya kami akan meninggalkan dunia per kpopan ini dan menjalankan hidup normal tapi untuk sekarang kami ingin bahagia dengan cara kami masing
{'gatau', 'bias'} aku ga

 33%|███▎      | 3339/10000 [00:00<00:01, 4001.33it/s]

 karna gua ini tipikal orang yg suka mikirin suatu masalah maka temen gua ini nyuruh gua buat refreshing dan ga ter
{'kuy'} [nctbase] mput hayu mutualan yang suka jbjb suka ngegad kuy lah kalo udah di follow follback yawkalo ngga ku u
{'jomblo'} makanya bikin ga itu cincin buat jari manis lha jomblo nie di gain kopiiii mulu bahagia sih cuma maag juga
{'ketakutan'} anaknya masih kecil dulu sih suka tiba demam teriak ketakutan sampai umur tahun akhirnya sama gu
{'pinter'} kalo bisa yg sama tonenya kek aku ga terlalu sosmed main gitar b aja tp rajin pinter ngefotoin suka kuliner motor cowok
{'sakit', 'menangis'} honestly aq lagi suka diri aq yg dulu yg terus menangis bile rasa sakit
{'nangis'} aku ga suka situasi ini mau nangis buat apa ga nangis nyesek
{'mikir'} dari dulu sy suka mikir kenapa orang minang yg akan dewasa diarahkan utk merantau padahal
{'malas'} i suka belah kiri tu tapi i like utk kanan sebab i malas nak rt hm
{'retweet'} birthday giveaway snack box isi suka suka aku puls

 41%|████▏     | 4141/10000 [00:01<00:01, 4001.59it/s]

 tadi kan murid gue ada yg suka seungyoun dia make case x trs ada seungyounnya dan yaudah gue samper ke meja dia eh kamu suka x yah iya kak kakak juga produce stan ya iyaa tau sejin gak tau dong kan dia deket sama seungyoun duer mitos dari mana
{'aneh'} anf kenapa kucing aku suka makanan burung aneh ga sih
{'jangan suka'} jangan suka berdrama bole
{'mikir'} pernah nggak pas lagi suka sama seseorang langsung mikir gak mungkinlah dia suka aku juga
{'untung', 'jangan suka'} jangan suka nantang ummat jangan suka musuhin ummat sekali gerak loe tamat untung ummat baik hati cuma show k
{'mundur'} kamu suka dia dia suka kamu temen kamu suka dia kamu mundur pernah
{'dont need'} aku lebih suka suka rambut asli kamu yg pendek aku lebih suka kamu ga pake eyelash extension aku sukanya kalo km gapake makeup st of all i love being extra now u can shut the fuck up and get out bro i dont need u in anyway
{'malu'} fess apa yang kamu pikirkan sama cowok yang suka masak aku cowok suka masak tapi suka malu

 50%|████▉     | 4995/10000 [00:01<00:01, 4146.19it/s]

{'mati', 'rokok'} sblum corona msuk gak tkut mati ngebut suka nerobos lampu merah rokok membunuhmu tpi diisep trs gak peduli kesehatan stlah corona msuk tiba tkut mati karena corona tiba peduli kesehatan beli masker orang indonesia emang suka tiba tiba sayang tiba pergi ninggalin
{'pegang', 'mati', 'takut', 'kecewa', 'berharap'} pegang ayat ni sampai mati belum tentu orang yang kau chat hari hari suka atau sayang kau jangan terlalu berharap sangat sebab nanti takut kau kecewa ingat tau
{'bingung'} kadang tuh suka bingung sendiri knpsi milih warna baju tuh ga kira tp suka gmn dong
{'nangis'} ga time karena dobby berhasil buat aku nangis aku ga in saldo ovo atau pulsa terserah k buat dua orang rules rt aja yaa end suka aku flop bodoamat
{'luka'} apalah arti luka sik tak duweni aku muk pengen n reti koe bahagia meski tanpo aku
{'tido'} tido jam pun aku boleh mimpi kau patutlah bahagia je mimpi rupanya
{'bego'} kenapa banyak orang bego yg duduk di pemerintahan ya apalagi di kpu peraturan b

 59%|█████▉    | 5915/10000 [00:01<00:00, 4364.37it/s]

 sampe rumah ternyata papa masih nonton tv untung sempet drive thru in mcd papa suka banget sama paket panas mcd
{'masalah', 'yukk'} ping ada yg mau mutualan yg suka jbjb amp yg ga masalah aku jbjb yukk merapatt rt aja ya
{'tak bahagia', 'tak mampu'} tak bahagia karena hrs bersepeda akibat tak mampu bayar bus bisa naik bus tak bahagia karena tak punya mobil punya mobil tak bahagia karena bukan rolls royce mgkn juga punya rolls royce tak bahagia karena tak punya jet pribadi terus kapan bahagia bahagia jika sdh punya
{'amaran'} aku x tau nak ckap cam ne lagi kalau aku dah bg amaran sesiap dah bgtau x suka dan x setuju kalau anda rasa n
{'mencintaimu'} [] untuk army aku ingin berterima kasih aku harap kalian bahagia army aku mencintaimu isjungkook
{'banjir', 'aneh', 'fenomena'} itu ganjaran orang yg suka politisasi doa banjir saat ahok aa bilang smg jakarta nanti dipimpin orang baik tdk ujub banjir saat anies aa bilang sungguh beruntung gubernur dki krn dibully fenomena aneh aa gym selalu

 68%|██████▊   | 6779/10000 [00:01<00:00, 4043.56it/s]

 happy birthday nakboss jangan suka bikin makboss kepusingan ya sukses terus pendidikan sm jkt nyaa harus jd
{'mustahil', 'merasa'} dah lamak aku sik merasa degupan kdak ya ya allah perasaan apa ya aku pun siktauk suka ka haihhh mustahil hat
{'tak reti'} pandai jaga hati jangannn nak sembangg je lebih pastu mulut tak reti nk jaga pastu suka f
{'malas'} kdg sa malas juga tu perasaan yg ko dgr ni satu lagu ni trus teingat balik pigi moment yg bila ko suka betul dgr t
{'lebay', 'dihadapkan'} liat christo and sisca di galery agak nda suka sih lebay bet bucin tp dihadapkan dengan dngn kondisi kaya gini y
{'jgn suka'} tapi boleh d coba suka balit ngan org yg suka ktk ya ne la tauk nyangkut jgn suka ngan org nak s
{'banjir', 'punca'} punca kegemukan yg kita tidak sedar skip sarapan pagi mkn nasi dgn kuah banjir tak mkn buah suka krim cheesy mayonis dressing sos etc minum minuman manis susu pekat tak cukup rehat amp tidur rt amp follow for more tips diet
{'pemandu'} ada kawan aku takde spm dia

 72%|███████▏  | 7186/10000 [00:01<00:00, 3613.13it/s]

 si tembam zarina tu aku nampak macam pemalas je lebih suka layan lazada dari buat marketing pasal zoo elok buang ganti baru
{'kesalahan'} tae kucing lah gw kagak percaya apa yg loe berdua omongin suka cari orang punya kesalahan padahal diri sendi
{'heh'} heh lia jangan ajak ajak aku ya kamu nih suka boong gt
{'kasi'} yaudah aku mo kasi snackbox buat mutual ku isinya sukasuka aku ya end semau aku jg rt rep dom aja goodluck
{'desperate', 'sedih', 'confess'} be friend first buat dia selesa kawan dgn you tunjuk effort care about her jangan tunjuk you desperate buat dia happy everyday comfort her bila dia sedih tk perlu confess dia sendiri akan bgitau dia suka u
{'kebencian'} kalau enggak setuju sama budaya valentine setidaknya enggak perlu menyebarkan kebencian kepada orang orang yang lagi menikmati hari kasih sayang masing masing aja duduk manis santai sejenak biarkan orang lain bahagia
{'kyk'} me lagu pertama yg bikin suka day dan masih sama aja rasanya kyk pertama kali dengar magic
{'k

 80%|███████▉  | 7953/10000 [00:01<00:00, 3721.94it/s]

 suka bingung sama orang yang bilang di rp mulu ga punya kehidupan rl apa kalau di rl ga ada kehidupan ga akan
{'jelek'} bisa ga sih kalo ada sesuatu yang ga sesuai sama seleramu dan kamu ga suka ga perlu sampai bilang sesuatu itu jelek kamu ga suka bukan berarti sesuatu itu jelek standardnya bukan di kamu we just have different preference that s all
{'ngasih', 'ngumpul'} bahagia itu liat wajah senang orang tua waktu anak mantu cucu ngumpul semuanya aja udah cukup yang belum ngasih m
{'tak suke'} aku tak suke orang yang suka banding kan
{'bias'} giveaway ayoayo gipewey lagi album exo xoxo sama sticker nct q bikin sendiri follow = album exo = sticker diy nct rep foto bias kalian end kapan aja suka aku ongkir ditanggung pemenang yak
{'beban', 'terpaksa'} rt mentari menyapa bisikan satu kalimat bahagia kuterima dengan terpaksa menjadi beban yang tak ada uju
{'untung'} untung temen roommate udah tidur astagaaa bahagia bangett x
{'bercakap'} wa ada kuncu baru kali ni lain dari yang lain dia

 83%|████████▎ | 8331/10000 [00:02<00:00, 2933.86it/s]

 jelek nya aku suka ngejugde selera musik orang selera pakaian orang padahal mah tiap orang kan punya selera masing masing ya
{'jahat'} kdm aku suka kim jaewook pas jadi mo taegu ih kok suka sama dia disitu sih kan dia jadi orang jahat
{'share'} maybe ada yg dah tahu tapi nak share jugak sebab mungkin berguna pada yg lain benda ni aku beli kat daiso kalau sesiapa yg suka jalan sorang sorang better beli ni untuk keselamatan diri if anything happen cabut je kat mulut burung tu pastu nnt dia akan bunyi dgn kuat
{'tak reti', 'mati', 'malu'} suami mati family and adik beradik suami yang kelapaq harta sikit pun tak heran dekat balu we hear this kind of story over and over again tapi melayu jenis tak reti malu camna entah suka buat perangai ni
{'menangi'} anda suka dunia fotografi jom ambil gambar amp menangi smartphone huawei terbaharu
{'gila'} tak tau ah kenapa aku suka gila buat edit format macam word tu pastu kalau coding suka main dengan style design
{'terlepas'} suka ga suka terima ga t

 91%|█████████ | 9116/10000 [00:02<00:00, 3355.50it/s]

 i ikut you balik rumah lah gila bella ni sekali try je dah dapat kesian tunang dia wan guys setia lah ya dengan pasangan masing masing focus bina hidup together until tua no benefits kalau curang you takkan bahagia atas penderitaan orang lain
{'usah suka'} pernah suka sama cowok udah sering chat an tapi tiba dia bilang gak usah suka korea nonton anime saja bye paling serius
{'aneh', 'sedih', 'melulu'} suka kpop ga melulu soal dia yang selalu menikmati visual idol suka kpop justru ngebuat hidup sebagian orang lebih berwarna dan bermakna disaat lagi sedih dan sama sekali ga ada teman buat curhat justru lagu korea yg kalian anggap aneh itu menjadi teman kami dlm kesunyian c
{'palsu', 'busy'} ni setuju but sampai certain point saja sbb masyarakat kita ramai busy body amp suka sebar berita palsu yg rapat dg
{'silap'} aku la silap boleh tarik balik x nk bg messi messi suka pergi kerja
{'kayak', 'garong', 'peka'} aku suka kamu tapi kamu gak peka ini tuh intinya snap x a snap x i snap x u sna

100%|██████████| 10000/10000 [00:02<00:00, 3867.32it/s]

 am i too old bc ive tried alll paling tak suka nano nano paling suka omg semua kot balik ni nak beli biskut
{'sepele', 'merasa'} sebenernya kl udah suka sm orgnya pertanyaan sesepele apapun akan merasa gpp kl bosen kita akan effort jg cari topik yg kita mau coba obrolin kl udah dasarnya ga tertarik bgt ya jd gini pertanyaan sepele terlihat annoying dan kita ga mau effort cari topik lain jd nyalahin
{'dadah'} sape je suka org hisap dadah tapi aku x hisap dadah pun org x suke aku
{'mengenalkan', 'aneh', 'malu'} bu aku ingin mengenalkan perempuan kepadamu anaknya riang ceria lucu lagi tapi bu kalo di hadapanmu ia pasti akan diam amp lebih banyak menarik ujung bajuku bu ibu jangan nanya yang aneh aneh yah bu sebab ia kalo sedang malu wajah cantiknya menjadi memerah manja
{'share'} korang suka beli juadah apa untuk berbuka puasa masa dekat bazar jom share admin paling suka murtabak dan tepung
{'dosa'} sebagian dari kita suka membahas dosa riya teman kita yang posting barang mahal di sosial




In [21]:
reject = ['mencintai', 'seindah', 'mohon', 'dipuji', 'share', 'keberanian', 'disukai', 'tulus',
         'heh', 'rok', 'lengkap', 'bersuka', 'berharap', 'memantapkan', 'minta', 'menemui', 'share',
         'dipake', 'buih', 'basuh', 'die']

negatives_words = {w for w in negatives_words if w not in reject}

In [22]:
additional = {'terutama', 'suka suka', 'sunnah nabi', 'ikut sunnah', 'suka banget', 'hehe rt',
             'masih suka', 'sama suka', 'suka juga', 'suka sekali', 'dia sedap', 'berhak untuk',
             'akan membantu', 'suka jbjb', 'kena percaya', 'erti syukur', 'akan membela',
             'pun terharu'}

shouldnot_words = shouldnot_words | additional

In [23]:
ns, found = [], []
for s in tqdm(cleaned):
    splitted = s[1].split()
    ngs = splitted[:]
    ngs.extend([' '.join(n) for n in ngrams(splitted, 2)])
    r = set(ngs) & negatives_words
    sn = set(ngs) & shouldnot_words
    string = [
        word
        for word in splitted
        if any([laugh in word for laugh in laughing])
    ]
    if len(r) and not len(sn) and not len(string):
        found.extend(list(r))
        ns.append(s[0])

100%|██████████| 1210878/1210878 [01:02<00:00, 19513.88it/s]


In [24]:
len(ns) / len(cleaned)

0.9301482065080049

In [26]:
with open('weak-negatives.json', 'w') as fopen:
    json.dump(ns, fopen)