# KeyBERT
First, document embeddings are extracted with BERT to get a document-level representation. Then, word embeddings are extracted for N-gram words/phrases. Finally, we use cosine similarity to find the words/phrases that are the most similar to the document. The most similar words could then be identified as the words that best describe the entire document.

In [1]:
import pandas as pd
df = pd.read_csv("../data/translated_go_emotion.csv")
df.head(3)

Unnamed: 0.1,Unnamed: 0,text,text_pl,id,author,subreddit,link_id,parent_id,created_utc,rater_id,...,love,nervousness,optimism,pride,realization,relief,remorse,sadness,surprise,neutral
0,0,That game hurt.,Ten mecz bolał.,eew5j0j,Brdd9,nrl,t3_ajis4z,t1_eew18eq,1548381000.0,1,...,0,0,0,0,0,0,0,1,0,0
1,1,>sexuality shouldn’t be a grouping category I...,>Seksualność nie powinna być kategorią grupuj...,eemcysk,TheGreen888,unpopularopinion,t3_ai4q37,t3_ai4q37,1548084000.0,37,...,0,0,0,0,0,0,0,0,0,0
2,2,"You do right, if you don't care then fuck 'em!","Rób dobrze, jeśli cię to nie obchodzi, to jeba...",ed2mah1,Labalool,confessions,t3_abru74,t1_ed2m7g7,1546428000.0,37,...,0,0,0,0,0,0,0,0,0,1


In [2]:
emotions = ['admiration', 'amusement', 'anger', 'annoyance', 'approval', 'caring',
       'confusion', 'curiosity', 'desire', 'disappointment', 'disapproval',
       'disgust', 'embarrassment', 'excitement', 'fear', 'gratitude', 'grief',
       'joy', 'love', 'nervousness', 'optimism', 'pride', 'realization',
       'relief', 'remorse', 'sadness', 'surprise']



In [63]:
from keybert import KeyBERT

dic = {}
for emotion in emotions:
    for col in ['text', 'text_pl']:
        corpus = ' '.join(df[df[emotion] == 1][col])    
        kw_model = KeyBERT() #all-MiniLM-L6-v2" defooult works graet for english, multi-lingual documents or any other language, "paraphrase-multilingual-MiniLM-L12-v2"" 
        keywords = kw_model.extract_keywords(corpus, top_n = 10)
        print(emotion,col, keywords)
        dic[(emotion, col)] = keywords


admiration text [('punjabi', 0.3565), ('suprise', 0.2914), ('intrigued', 0.2691), ('terrifyingly', 0.2654), ('hahahaha', 0.2649), ('hilariously', 0.2621), ('immensely', 0.261), ('hahaha', 0.2609), ('suspiciously', 0.2573), ('hahahahahaha', 0.2557)]
admiration text_pl [('wskazywałem', 0.6342), ('zespoły', 0.6328), ('wyjechał', 0.6294), ('zaciekawiło', 0.6291), ('zgłosi', 0.6276), ('zespołu', 0.6267), ('zajęło', 0.6256), ('wyglądało', 0.6246), ('mogło', 0.6227), ('wyszło', 0.6224)]
amusement text [('squeamish', 0.3404), ('hysterical', 0.3283), ('comical', 0.3176), ('sponge', 0.3051), ('craziest', 0.2936), ('funniest', 0.2922), ('hysterically', 0.2913), ('hilarious', 0.2867), ('freaks', 0.2821), ('crazies', 0.2809)]
amusement text_pl [('zespołowo', 0.6012), ('żółty', 0.5988), ('zobaczyłem', 0.596), ('złoty', 0.5936), ('zespoły', 0.5928), ('zapytałem', 0.5919), ('złota', 0.5912), ('zapytałeś', 0.5885), ('zrobiły', 0.5875), ('złości', 0.5838)]
anger text [('moderation', 0.371), ('filth', 0.

In [65]:
df_table = pd.DataFrame(dic.items(), columns=['Emotion & Column', 'Keywords'])

df_table


Unnamed: 0,Emotion & Column,Keywords
0,"(admiration, text)","[(punjabi, 0.3565), (suprise, 0.2914), (intrig..."
1,"(admiration, text_pl)","[(wskazywałem, 0.6342), (zespoły, 0.6328), (wy..."
2,"(amusement, text)","[(squeamish, 0.3404), (hysterical, 0.3283), (c..."
3,"(amusement, text_pl)","[(zespołowo, 0.6012), (żółty, 0.5988), (zobacz..."
4,"(anger, text)","[(moderation, 0.371), (filth, 0.3516), (abusiv..."
5,"(anger, text_pl)","[(złodziejem, 0.6639), (pieprzyłem, 0.6562), (..."
6,"(annoyance, text)","[(defamation, 0.4076), (coulter, 0.3892), (sla..."
7,"(annoyance, text_pl)","[(zgłoszenia, 0.6311), (zatłoczyli, 0.6296), (..."
8,"(approval, text)","[(europhilic, 0.2954), (tories, 0.2799), (repu..."
9,"(approval, text_pl)","[(współdzielony, 0.6485), (wykazało, 0.6453), ..."


In [68]:
df_table.to_csv('../data/KeyBERT_key_words.csv', 'w')

In [66]:
df = pd.read_csv('../data/KeyBERT_key_words.csv', sep='w')
df.drop(['Unnamed: 0'], axis=1, inplace=True)
df.head(3)

Unnamed: 0,Emotion & Column,Keywords
0,"('admiration', 'text')","[('punjabi', 0.3565), ('suprise', 0.2914), ('i..."
1,"('admiration', 'text_pl')","[('wskazywałem', 0.6342), ('zespoły', 0.6328),..."
2,"('amusement', 'text')","[('squeamish', 0.3404), ('hysterical', 0.3283)..."


In [67]:
df[['Emotion', 'Language']] = df['Emotion & Column'].str.split(', ', expand=True)
df.drop(['Emotion & Column'], axis=1, inplace=True)
df.head(3)

Unnamed: 0,Keywords,Emotion,Language
0,"[('punjabi', 0.3565), ('suprise', 0.2914), ('i...",('admiration','text')
1,"[('wskazywałem', 0.6342), ('zespoły', 0.6328),...",('admiration','text_pl')
2,"[('squeamish', 0.3404), ('hysterical', 0.3283)...",('amusement','text')


In [68]:
df = df[['Emotion', 'Language', 'Keywords']]
df["Emotion"] = df["Emotion"].str[2:-1]
df["Language"] = df["Language"].str[1:-2]
df.head(3)

Unnamed: 0,Emotion,Language,Keywords
0,admiration,text,"[('punjabi', 0.3565), ('suprise', 0.2914), ('i..."
1,admiration,text_pl,"[('wskazywałem', 0.6342), ('zespoły', 0.6328),..."
2,amusement,text,"[('squeamish', 0.3404), ('hysterical', 0.3283)..."


|    | Emotion        | Language   | Keywords                                                                                                                                                                                                                                          |
|---:|:---------------|:-----------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|  0 | admiration     | text       | [('punjabi', 0.3565), ('suprise', 0.2914), ('intrigued', 0.2691), ('terrifyingly', 0.2654), ('hahahaha', 0.2649), ('hilariously', 0.2621), ('immensely', 0.261), ('hahaha', 0.2609), ('suspiciously', 0.2573), ('hahahahahaha', 0.2557)]          |
|  1 | admiration     | text_pl    | [('wskazywałem', 0.6342), ('zespoły', 0.6328), ('wyjechał', 0.6294), ('zaciekawiło', 0.6291), ('zgłosi', 0.6276), ('zespołu', 0.6267), ('zajęło', 0.6256), ('wyglądało', 0.6246), ('mogło', 0.6227), ('wyszło', 0.6224)]                          |
|  2 | amusement      | text       | [('squeamish', 0.3404), ('hysterical', 0.3283), ('comical', 0.3176), ('sponge', 0.3051), ('craziest', 0.2936), ('funniest', 0.2922), ('hysterically', 0.2913), ('hilarious', 0.2867), ('freaks', 0.2821), ('crazies', 0.2809)]                    |
|  3 | amusement      | text_pl    | [('zespołowo', 0.6012), ('żółty', 0.5988), ('zobaczyłem', 0.596), ('złoty', 0.5936), ('zespoły', 0.5928), ('zapytałem', 0.5919), ('złota', 0.5912), ('zapytałeś', 0.5885), ('zrobiły', 0.5875), ('złości', 0.5838)]                               |
|  4 | anger          | text       | [('moderation', 0.371), ('filth', 0.3516), ('abusive', 0.3474), ('abuse', 0.3364), ('abusing', 0.3332), ('trolls', 0.3246), ('abused', 0.3241), ('derogatory', 0.3238), ('censorship', 0.3231), ('oppressive', 0.3214)]                           |
|  5 | anger          | text_pl    | [('złodziejem', 0.6639), ('pieprzyłem', 0.6562), ('złomiarza', 0.6558), ('zgłoszony', 0.6524), ('zatrzymałbym', 0.6503), ('zły', 0.65), ('zdarzyło', 0.6492), ('żarłocznym', 0.6484), ('złudzenia', 0.6483), ('pieprzył', 0.6473)]                |
|  6 | annoyance      | text       | [('defamation', 0.4076), ('coulter', 0.3892), ('slander', 0.3458), ('accusation', 0.3412), ('accused', 0.3408), ('slandering', 0.3325), ('libel', 0.3191), ('accusations', 0.3183), ('accuser', 0.3164), ('allegations', 0.3141)]                 |
|  7 | annoyance      | text_pl    | [('zgłoszenia', 0.6311), ('zatłoczyli', 0.6296), ('zirytowało', 0.6255), ('zirytowałoby', 0.625), ('zespoły', 0.6206), ('żółta', 0.6202), ('zapytałem', 0.6199), ('zapytałeś', 0.6183), ('zapytał', 0.6179), ('zapewniało', 0.6163)]              |
|  8 | approval       | text       | [('europhilic', 0.2954), ('tories', 0.2799), ('republicanism', 0.2796), ('brexit', 0.271), ('ukpolitics', 0.2656), ('worldviews', 0.2601), ('overthinking', 0.2566), ('ideologies', 0.2547), ('conservative', 0.2539), ('neoliberals', 0.2499)]   |
|  9 | approval       | text_pl    | [('współdzielony', 0.6485), ('wykazało', 0.6453), ('zakończyłoby', 0.637), ('wygłosić', 0.6361), ('wyłączanie', 0.6349), ('włożyć', 0.6327), ('włóczni', 0.6294), ('wyleczyły', 0.6258), ('zakończyło', 0.6255), ('wkroczył', 0.6254)]            |
| 10 | caring         | text       | [('hug', 0.3289), ('breakup', 0.3037), ('heal', 0.2834), ('embrace', 0.2826), ('hugging', 0.2763), ('hugs', 0.2738), ('heartbroken', 0.2358), ('ed', 0.2343), ('rejection', 0.2333), ('dumped', 0.2269)]                                          |
| 11 | caring         | text_pl    | [('mogły', 0.6092), ('mogłoby', 0.6073), ('wysiłkom', 0.6066), ('wyszło', 0.6066), ('zdecydowały', 0.6057), ('zapytał', 0.6037), ('żółty', 0.6004), ('wyleczyły', 0.5999), ('mogło', 0.5993), ('wykazało', 0.5988)]                               |
| 12 | confusion      | text       | [('deadline', 0.3571), ('clemson', 0.3526), ('deadlines', 0.3403), ('headlines', 0.2762), ('scumbag', 0.2664), ('moderators', 0.2657), ('bbs', 0.2644), ('bama', 0.255), ('journalism', 0.2538), ('cornflakes', 0.253)]                           |
| 13 | confusion      | text_pl    | [('zwiększyłoby', 0.5718), ('mogłoby', 0.5717), ('zobaczyłem', 0.5704), ('zgłosić', 0.5616), ('zjebałem', 0.5616), ('zmniejszyłoby', 0.5594), ('zabrakło', 0.5552), ('żyje', 0.5516), ('znaczyło', 0.5482), ('zasłużyć', 0.5455)]                 |
| 14 | curiosity      | text       | [('runescape', 0.3642), ('supremacists', 0.3363), ('supremacist', 0.3137), ('4chan', 0.3047), ('militant', 0.3001), ('educate', 0.2993), ('conspiracy', 0.2979), ('socdems', 0.295), ('murderstarve', 0.2932), ('suspicions', 0.2908)]            |
| 15 | curiosity      | text_pl    | [('zakończyły', 0.6662), ('zdarzały', 0.6579), ('zdarzyło', 0.6533), ('zniedołężniały', 0.652), ('zakończyło', 0.6514), ('zapytałeś', 0.6472), ('zajęły', 0.646), ('zmniejszyłoby', 0.6444), ('zły', 0.6444), ('zaskoczyło', 0.6426)]             |
| 16 | desire         | text       | [('4chan', 0.3709), ('ammo', 0.3062), ('survival', 0.2977), ('survive', 0.2773), ('scare', 0.2727), ('dying', 0.2629), ('alien', 0.259), ('furry_irls', 0.2572), ('immobility', 0.2567), ('kill', 0.2567)]                                        |
| 17 | desire         | text_pl    | [('zapytałbym', 0.7224), ('zapytałem', 0.7019), ('zdarzyło', 0.6938), ('zniknęło', 0.6876), ('zamieniłbym', 0.6828), ('zgadywałbym', 0.6826), ('zmotywowało', 0.6788), ('zobaczyłbym', 0.675), ('zrezygnowałem', 0.6741), ('żółwia', 0.6741)]     |
| 18 | disappointment | text       | [('upset', 0.3617), ('despair', 0.343), ('dumped', 0.3304), ('grief', 0.3301), ('cope', 0.324), ('devastated', 0.3226), ('loser', 0.3169), ('devastating', 0.3167), ('heartbroken', 0.3118), ('griefing', 0.3077)]                                |
| 19 | disappointment | text_pl    | [('zgłoszenie', 0.6832), ('zakończyło', 0.6812), ('zdarzyło', 0.6803), ('zwiększyło', 0.6797), ('zdarzały', 0.6789), ('złomiarza', 0.6761), ('pożyczyłem', 0.676), ('przeczytałeś', 0.675), ('przeczytał', 0.6735), ('zmęczył', 0.6729)]          |
| 20 | disapproval    | text       | [('judge', 0.3944), ('wade', 0.3743), ('bail', 0.3663), ('lonzo', 0.3433), ('harden', 0.335), ('notorious', 0.3319), ('nba', 0.3227), ('accused', 0.3224), ('bailout', 0.3172), ('jailor', 0.309)]                                                |
| 21 | disapproval    | text_pl    | [('nieokiełznana', 0.6932), ('zdarzały', 0.6691), ('zdarzyło', 0.6658), ('żółty', 0.6653), ('zgłoszony', 0.6642), ('złoty', 0.6621), ('zgwałcenie', 0.6617), ('nieposłuszny', 0.6601), ('zniszczyłoby', 0.6598), ('zły', 0.6576)]                 |
| 22 | disgust        | text       | [('hypocrite', 0.3753), ('hypocrisy', 0.3714), ('homophobe', 0.3666), ('hating', 0.3541), ('hypocritical', 0.3531), ('hypocrites', 0.352), ('sadistic', 0.3496), ('favouritism', 0.3446), ('shaming', 0.3336), ('hateful', 0.3281)]               |
| 23 | disgust        | text_pl    | [('zdarzyło', 0.6717), ('zwięzły', 0.6682), ('zapytałem', 0.6673), ('zdarzały', 0.6653), ('złoty', 0.6645), ('zabrzmiało', 0.6641), ('zakończyło', 0.6641), ('zdziwiło', 0.663), ('zdążył', 0.6613), ('złodziej', 0.661)]                         |
| 24 | embarrassment  | text       | [('dui', 0.3431), ('flashbacks', 0.2896), ('prank', 0.2832), ('reminded', 0.2827), ('forgetful', 0.2805), ('douche', 0.2719), ('forgive', 0.2666), ('ketchup', 0.2611), ('pot', 0.261), ('shameless', 0.2601)]                                    |
| 25 | embarrassment  | text_pl    | [('zapytał', 0.6435), ('zapytałem', 0.6432), ('zły', 0.6296), ('kłopoty', 0.6269), ('kłody', 0.6235), ('przyjechały', 0.6218), ('zgłoszenia', 0.6195), ('zwykły', 0.6188), ('zobaczyłem', 0.618), ('odczytałem', 0.6177)]                         |
| 26 | excitement     | text       | [('stadium', 0.331), ('winnipeg', 0.3231), ('hockey', 0.3192), ('montreal', 0.3043), ('nhl19', 0.3022), ('nhl', 0.2994), ('canucks', 0.2989), ('hurricanes', 0.2898), ('buffalo', 0.2884), ('city', 0.2882)]                                      |
| 27 | excitement     | text_pl    | [('zdarzyło', 0.6988), ('zatrzymało', 0.6984), ('żółwia', 0.6816), ('zaryzykowała', 0.679), ('zdarzało', 0.6774), ('zatrzymałem', 0.677), ('ogłosili', 0.6759), ('żyło', 0.6744), ('zależało', 0.6744), ('zakazały', 0.674)]                      |
| 28 | fear           | text       | [('horrific', 0.3518), ('horrifically', 0.3417), ('curse', 0.3399), ('cursed', 0.3359), ('vicious', 0.3256), ('dreading', 0.3175), ('horribly', 0.3163), ('suffers', 0.3156), ('detrimental', 0.3133), ('terrified', 0.3011)]                     |
| 29 | fear           | text_pl    | [('mogłoby', 0.6777), ('mógłbym', 0.6565), ('współistniejącymi', 0.6531), ('mogłem', 0.6529), ('zażywałem', 0.6525), ('zmartwiło', 0.6516), ('mógłby', 0.6515), ('zgłoszenie', 0.6514), ('zdarzyło', 0.6505), ('mówiłem', 0.6482)]                |
| 30 | gratitude      | text       | [('rejected', 0.4367), ('accepting', 0.3564), ('attempted', 0.3137), ('reconsidering', 0.2987), ('willing', 0.2848), ('feedback', 0.2796), ('submit', 0.2789), ('attempts', 0.2771), ('committed', 0.2771), ('succeed', 0.2766)]                  |
| 31 | gratitude      | text_pl    | [('zapytałem', 0.6449), ('zapytał', 0.6382), ('zgadzał', 0.6354), ('zdziczałe', 0.6332), ('zauważyło', 0.6307), ('wyleczyły', 0.6294), ('zauważył', 0.629), ('zauważyłem', 0.6281), ('zauważyłeś', 0.6274), ('zadałeś', 0.6268)]                  |
| 32 | grief          | text       | [('murderous', 0.3873), ('grief', 0.3619), ('drowned', 0.3373), ('griefing', 0.3331), ('killer', 0.33), ('deaths', 0.3288), ('killing', 0.3266), ('murderer', 0.3261), ('mourn', 0.3242), ('killed', 0.3225)]                                     |
| 33 | grief          | text_pl    | [('zobaczyłem', 0.6404), ('przyjaciółmi', 0.6384), ('zgłoszenie', 0.634), ('przytrafiło', 0.6295), ('przyszłości', 0.6255), ('przyjaciółka', 0.6244), ('zrobiło', 0.6227), ('ogłoszenie', 0.6177), ('przyjaciół', 0.6169), ('złości', 0.6146)]    |
| 34 | joy            | text       | [('joyous', 0.3176), ('joyful', 0.3148), ('thrilled', 0.2938), ('upset', 0.292), ('delighted', 0.2893), ('announcing', 0.2875), ('happily', 0.2834), ('joys', 0.2832), ('gleefully', 0.2828), ('happier', 0.2811)]                                |
| 35 | joy            | text_pl    | [('żyło', 0.63), ('złoty', 0.6284), ('zdawało', 0.6275), ('żółwia', 0.627), ('zespoły', 0.626), ('zamiotłem', 0.6217), ('żółwie', 0.6206), ('zasmuciło', 0.6172), ('żółwi', 0.6167), ('zaskoczyło', 0.6167)]                                      |
| 36 | love           | text       | [('nba', 0.4068), ('pistons', 0.3333), ('reddit', 0.3273), ('basketball', 0.3231), ('games', 0.3223), ('warriors', 0.3147), ('fireball', 0.3078), ('game', 0.3028), ('gaming', 0.3023), ('gamer', 0.3022)]                                        |
| 37 | love           | text_pl    | [('żałosnym', 0.6633), ('zespołu', 0.6599), ('głodu', 0.6593), ('ogłosili', 0.6582), ('zagłębiają', 0.6578), ('zespoły', 0.6537), ('zagłębić', 0.6533), ('głosu', 0.6516), ('zatrzymało', 0.6506), ('zawiodłem', 0.6469)]                         |
| 38 | nervousness    | text       | [('anxiety', 0.4365), ('anxious', 0.4145), ('pray', 0.3697), ('nervousness', 0.3688), ('meditating', 0.3583), ('terrified', 0.3434), ('suffers', 0.3396), ('nervous', 0.3386), ('patient', 0.3348), ('seizure', 0.3323)]                          |
| 39 | nervousness    | text_pl    | [('mogłoby', 0.6553), ('przeczytałem', 0.6493), ('mógł', 0.644), ('mogłeś', 0.6439), ('mogłem', 0.642), ('przyznałem', 0.6366), ('społeczeństwie', 0.6344), ('przeszłości', 0.6319), ('przeżyłem', 0.6302), ('przyszło', 0.6286)]                 |
| 40 | optimism       | text       | [('permit', 0.2555), ('enforce', 0.2431), ('laws', 0.2355), ('borrow', 0.2257), ('enforces', 0.2226), ('sacrifice', 0.222), ('payments', 0.2218), ('lend', 0.2215), ('toronto', 0.2192), ('risking', 0.2177)]                                     |
| 41 | optimism       | text_pl    | [('poszczęściło', 0.6277), ('przyszło', 0.6257), ('przyszłość', 0.6241), ('przeżyły', 0.6197), ('mogły', 0.6192), ('przyszły', 0.6185), ('przeszłość', 0.6178), ('przywróciłoby', 0.6174), ('mogłoby', 0.6165), ('przyznał', 0.615)]              |
| 42 | pride          | text       | [('barrel', 0.3226), ('shoot', 0.3038), ('18', 0.2738), ('gun', 0.2675), ('jealous', 0.2641), ('buddy', 0.2628), ('bullish', 0.2568), ('haha', 0.2561), ('lol', 0.2515), ('guns', 0.2492)]                                                        |
| 43 | pride          | text_pl    | [('przypomniało', 0.5897), ('przypominałoby', 0.5876), ('płci', 0.5817), ('przypomniał', 0.5796), ('przyjaciółkom', 0.5795), ('mógłbym', 0.5793), ('głośniki', 0.5785), ('przyprawiło', 0.577), ('wysiłkiem', 0.5763), ('przyjąłbym', 0.576)]     |
| 44 | realization    | text       | [('dealing', 0.3124), ('runescape', 0.2917), ('coping', 0.2784), ('overcome', 0.2741), ('pray', 0.2735), ('risking', 0.2733), ('powerless', 0.2595), ('suffer', 0.259), ('struggle', 0.2561), ('sanity', 0.2501)]                                 |
| 45 | realization    | text_pl    | [('przyszłość', 0.6824), ('przyszło', 0.6783), ('zwiększyło', 0.6768), ('przyszłości', 0.6746), ('przyszedłem', 0.6729), ('przyszedł', 0.6703), ('poszedłbym', 0.6691), ('przywiązał', 0.6683), ('przyszły', 0.6682), ('poszło', 0.6649)]         |
| 46 | relief         | text       | [('margaritas', 0.406), ('recovering', 0.347), ('sober', 0.3389), ('relieving', 0.333), ('unnerved', 0.2932), ('relaxing', 0.2914), ('overwhelmed', 0.2889), ('overcoming', 0.2825), ('saved', 0.2743), ('relax', 0.2717)]                        |
| 47 | relief         | text_pl    | [('mogłoby', 0.5565), ('mogło', 0.5546), ('zeszły', 0.5508), ('przeszłości', 0.5485), ('siły', 0.5479), ('mogłyby', 0.5444), ('siłę', 0.5424), ('przyszłości', 0.5387), ('przytłoczony', 0.5385), ('zgłoszeń', 0.5385)]                           |
| 48 | remorse        | text       | [('apology', 0.3957), ('apologize', 0.3717), ('apologized', 0.362), ('worries', 0.3514), ('apologise', 0.3355), ('offending', 0.3342), ('insulting', 0.3329), ('scum', 0.3227), ('forgive', 0.3186), ('offend', 0.3146)]                          |
| 49 | remorse        | text_pl    | [('przeczytał', 0.6463), ('przeczytałem', 0.6455), ('przyczyniło', 0.6431), ('przestał', 0.6416), ('przykuło', 0.6407), ('przepraszał', 0.6404), ('przeszłości', 0.6389), ('przestawiłem', 0.6383), ('przeszłe', 0.6346), ('przestałem', 0.6333)] |
| 50 | sadness        | text       | [('upset', 0.3924), ('sadness', 0.3544), ('cries', 0.3434), ('saddened', 0.3407), ('heartbroken', 0.3404), ('sympathize', 0.3339), ('sympathies', 0.3308), ('patheticallly', 0.3181), ('pissed', 0.318), ('sadder', 0.3173)]                      |
| 51 | sadness        | text_pl    | [('zatruły', 0.6149), ('zdarzały', 0.6135), ('zapytałem', 0.6105), ('zdawałem', 0.6086), ('zaniepokoiły', 0.6082), ('zły', 0.6067), ('zgwałcony', 0.6064), ('zgwałcił', 0.6061), ('powrócił', 0.6058), ('złota', 0.6056)]                         |
| 52 | surprise       | text       | [('conspiracy', 0.4061), ('corrupt', 0.3238), ('paranoia', 0.3225), ('corruption', 0.3151), ('mysteriously', 0.3097), ('scammer', 0.3032), ('betraying', 0.2967), ('paranoid', 0.2939), ('billionaire', 0.2928), ('secretly', 0.2891)]            |
| 53 | surprise       | text_pl    | [('zgłosić', 0.6739), ('złożyć', 0.6629), ('zagłosować', 0.6555), ('zapytał', 0.655), ('zatrzymał', 0.6546), ('zapytałem', 0.6542), ('zapisało', 0.6541), ('zgłoszenie', 0.6499), ('zamówił', 0.6497), ('zalegalizowały', 0.6472)]                |


In [69]:
print(df.to_markdown())

|    | Emotion        | Language   | Keywords                                                                                                                                                                                                                                          |
|---:|:---------------|:-----------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|  0 | admiration     | text       | [('punjabi', 0.3565), ('suprise', 0.2914), ('intrigued', 0.2691), ('terrifyingly', 0.2654), ('hahahaha', 0.2649), ('hilariously', 0.2621), ('immensely', 0.261), ('hahaha', 0.2609), ('suspiciously', 0.2573), ('hahahahahaha', 0.2557)]          |
|  1 | admiration     | text_pl    | [('wskazywałem', 0.6342), ('zespoły', 0.6328), ('wyjechał', 0.6294), ('zaciekawiło', 0.6291), ('zgłosi', 0.6276), ('zesp

# Key BERT with multilanguage model for polish text

In [7]:
df.to_markdown()

"|    | Emotion        | Language   | Keywords                                                                                                                                                                                                                                                             |\n|---:|:---------------|:-----------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n|  0 | admiration     | text       | [('punjabi', 0.3565), ('suprise', 0.2914), ('intrigued', 0.2691), ('terrifyingly', 0.2654), ('hahahaha', 0.2649), ('hilariously', 0.2621), ('immensely', 0.261), ('hahaha', 0.2609), ('suspiciously', 0.2573), ('hahahahahaha', 0.2557)]                             |\n|  1 | admiration     | text_pl    | [('lubią', 0.5121), ('lubiany', 0.5113), ('ulubione', 0.507

In [6]:
import pandas as pd
df = pd.read_csv("../data/KeyBERT_2_key_words.csv")
df.drop(['Unnamed: 0'], axis=1, inplace=True)
print(df.to_markdown())

|    | Emotion        | Language   | Keywords                                                                                                                                                                                                                                                             |
|---:|:---------------|:-----------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|  0 | admiration     | text       | [('punjabi', 0.3565), ('suprise', 0.2914), ('intrigued', 0.2691), ('terrifyingly', 0.2654), ('hahahaha', 0.2649), ('hilariously', 0.2621), ('immensely', 0.261), ('hahaha', 0.2609), ('suspiciously', 0.2573), ('hahahahahaha', 0.2557)]                             |
|  1 | admiration     | text_pl    | [('lubią', 0.5121), ('lubiany', 0.5113), ('ulubione', 0.5076), 

# TF-IDF

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np


dic = {}
for emotion in emotions:
    for col in ['text', 'text_pl']:
        corpus1 = df[df[emotion] == 1][col]
        corpus2 = df[df[emotion] == 0][col]
        # random samples from corpus2 of size corpus1
        corpus2 = np.random.choice(corpus2, len(corpus1), replace=False)
        corpus = [
            ' '.join(corpus1),
            ' '.join(corpus2)
        ]
        vectorizer = TfidfVectorizer(max_df=0.5, stop_words='english')

        X = vectorizer.fit_transform(corpus)
        topn = 10
        indices = X.toarray().argsort()[:,-topn:][:,::-1]
        words = np.array(vectorizer.get_feature_names_out())
        top_words = words[indices]
        dic[(emotion, col)] = top_words
        

In [12]:
df_table = pd.DataFrame(dic.items(), columns=['Emotion & Column', 'Keywords'])
df_table.head()

Unnamed: 0,Emotion & Column,Keywords
0,"(admiration, text)","[[lit, stadium, sweetest, generous, pup, paren..."
1,"(admiration, text_pl)","[[pięknie, szanuję, niesamowici, fantastycznie..."
2,"(amusement, text)","[[hahahaha, funnier, hahah, funniest, hah, hah..."
3,"(amusement, text_pl)","[[rozśmieszyło, przezabawny, hahahaha, uśmiałe..."
4,"(anger, text)","[[infuriating, motherfucking, nike, cunts, fru..."


In [24]:
df_table[['Emotion', 'Language']] = df_table['Emotion & Column'].apply(lambda x: pd.Series(x))



Unnamed: 0,Emotion & Column,Keywords,Emotion,Language
0,"(admiration, text)","[[lit, stadium, sweetest, generous, pup, paren...",admiration,text
1,"(admiration, text_pl)","[[pięknie, szanuję, niesamowici, fantastycznie...",admiration,text_pl
2,"(amusement, text)","[[hahahaha, funnier, hahah, funniest, hah, hah...",amusement,text
3,"(amusement, text_pl)","[[rozśmieszyło, przezabawny, hahahaha, uśmiałe...",amusement,text_pl
4,"(anger, text)","[[infuriating, motherfucking, nike, cunts, fru...",anger,text
5,"(anger, text_pl)","[[śmiesz, suka, dranie, nike, draniu, zabiję, ...",anger,text_pl
6,"(annoyance, text)","[[irritating, ego, sloppy, spit, fools, undere...",annoyance,text
7,"(annoyance, text_pl)","[[irytujący, irytuje, irytująca, dupkami, dupi...",annoyance,text_pl
8,"(approval, text)","[[oblivion, pockets, kicks, burned, agreeing, ...",approval,text
9,"(approval, text_pl)","[[rozsądne, mogłyby, młodo, seksualny, 98, zde...",approval,text_pl


In [25]:
df_table.drop(columns=['Emotion & Column'], inplace=True)

In [27]:
df_table = df_table[['Emotion', 'Language', 'Keywords']]
df_table.head()

Unnamed: 0,Emotion,Language,Keywords
0,admiration,text,"[[lit, stadium, sweetest, generous, pup, paren..."
1,admiration,text_pl,"[[pięknie, szanuję, niesamowici, fantastycznie..."
2,amusement,text,"[[hahahaha, funnier, hahah, funniest, hah, hah..."
3,amusement,text_pl,"[[rozśmieszyło, przezabawny, hahahaha, uśmiałe..."
4,anger,text,"[[infuriating, motherfucking, nike, cunts, fru..."


In [30]:
df_table["Keywords"] = df_table["Keywords"].apply(lambda x: x[0])
df_table.head()

Unnamed: 0,Emotion,Language,Keywords
0,admiration,text,"[lit, stadium, sweetest, generous, pup, parent..."
1,admiration,text_pl,"[pięknie, szanuję, niesamowici, fantastycznie,..."
2,amusement,text,"[hahahaha, funnier, hahah, funniest, hah, haha..."
3,amusement,text_pl,"[rozśmieszyło, przezabawny, hahahaha, uśmiałem..."
4,anger,text,"[infuriating, motherfucking, nike, cunts, frus..."


In [31]:
df_table.to_csv('../data/TFIDF_key_words.csv', 'w')

# TF IDF

|    | Emotion        | Language   | Keywords                                                                   |
|---:|:---------------|:-----------|:---------------------------------------------------------------------------|
|  0 | admiration     | text       | ['lit' 'stadium' 'sweetest' 'generous' 'pup' 'parenting' 'cinematic'       |
|    |                |            |  'passionate' 'litchfield' 'cutie']                                        |
|  1 | admiration     | text_pl    | ['pięknie' 'szanuję' 'niesamowici' 'fantastycznie' 'seksowne' 'znalezisko' |
|    |                |            |  'legendą' 'seksowny' 'wspaniałych' 'fantastyczna']                        |
|  2 | amusement      | text       | ['hahahaha' 'funnier' 'hahah' 'funniest' 'hah' 'hahahah' 'nike'            |
|    |                |            |  'hahahahaha' 'burst' 'laughable']                                         |
|  3 | amusement      | text_pl    | ['rozśmieszyło' 'przezabawny' 'hahahaha' 'uśmiałem' 'zaśmiałem'            |
|    |                |            |  'żartowałem' 'hahahah' 'śmiechem' 'przezabawna' 'hahahahaha']             |
|  4 | anger          | text       | ['infuriating' 'motherfucking' 'nike' 'cunts' 'frustrated' 'ruining'       |
|    |                |            |  'aggressively' 'funding' 'fucken' 'sociopath']                            |
|  5 | anger          | text_pl    | ['śmiesz' 'suka' 'dranie' 'nike' 'draniu' 'zabiję' 'gębę' 'nienawidzisz'   |
|    |                |            |  'gówniany' 'drań']                                                        |
|  6 | annoyance      | text       | ['irritating' 'ego' 'sloppy' 'spit' 'fools' 'underestimate' 'accuse'       |
|    |                |            |  'intolerance' 'respects' 'infuriating']                                   |
|  7 | annoyance      | text_pl    | ['irytujący' 'irytuje' 'irytująca' 'dupkami' 'dupie' 'dupku'               |
|    |                |            |  'nieznajomych' 'jebać' 'dziwki' 'dziwakiem']                              |
|  8 | approval       | text       | ['oblivion' 'pockets' 'kicks' 'burned' 'agreeing' 'rose' 'syria' '98'      |
|    |                |            |  'percent' 'kabhi']                                                        |
|  9 | approval       | text_pl    | ['rozsądne' 'mogłyby' 'młodo' 'seksualny' '98' 'zdenerwowana' 'różnicą'    |
|    |                |            |  'poprawna' 'oby' 'nawyk']                                                 |
| 10 | caring         | text       | ['worrying' 'cared' 'dealing' 'aim' 'visit' 'happyfriendlybot' 'matters'   |
|    |                |            |  'prayers' 'youre' 'outlive']                                              |
| 11 | caring         | text_pl    | ['modlę' 'ostrożny' 'pomogę' 'błogosławię' 'jedz' 'czuj' 'depresję'        |
|    |                |            |  'biedna' 'zaniepokojony' 'poddawaj']                                      |
| 12 | confusion      | text       | ['confusing' 'doubtful' 'unsure' 'clueless' 'code' 'oooh' 'mice' 'pill'    |
|    |                |            |  'scope' 'inch']                                                           |
| 13 | confusion      | text_pl    | ['mylące' 'rozumiałem' 'zdezorientowana' 'zrozumiem' 'idk' 'myszy' 'oooh'  |
|    |                |            |  'odnosisz' 'dezorientuje' 'usługi']                                       |
| 14 | curiosity      | text       | ['curiosity' 'familiar' 'study' 'intrigued' 'examples' 'awhile' 'ticket'   |
|    |                |            |  'northern' 'rainbow' 'flight']                                            |
| 15 | curiosity      | text_pl    | ['ciekaw' 'ciekawi' 'sądzisz' 'dostałeś' 'twierdzisz' 'znajdujesz'         |
|    |                |            |  'ciekawość' 'prowadzić' 'kosztować' 'rozwinąć']                           |
| 16 | desire         | text       | ['pizza' 'desperately' 'praying' 'desire' 'christmas' 'realistic' 'pm'     |
|    |                |            |  'picks' 'cup' 'ambitious']                                                |
| 17 | desire         | text_pl    | ['modlę' 'zagłosować' 'znów' 'zrobią' 'pozbyć' 'życzeniem' 'handlu'        |
|    |                |            |  'dawać' 'wziąć' 'nowej']                                                  |
| 18 | disappointment | text       | ['disappointment' 'disaster' 'upsetting' 'welp' 'election' 'munt'          |
|    |                |            |  'prequel' 'spoiled' 'disappoints' 'arent']                                |
| 19 | disappointment | text_pl    | ['rozczarowująca' 'rozczarowaniem' 'śmieciem' 'brakowało' 'boleć' 'karmy'  |
|    |                |            |  'kłamstwo' 'martwy' 'przegapiłeś' 'zraniony']                             |
| 20 | disapproval    | text       | ['criticism' 'unacceptable' 'ads' 'intentionally' 'seeking' 'pills'        |
|    |                |            |  'criticize' 'impression' 'vague' 'upvoted']                               |
| 21 | disapproval    | text_pl    | ['nazwałbym' 'odmawiam' 'niedopuszczalne' 'firm' 'niepopularne' 'błędna'   |
|    |                |            |  'zajmować' 'szkodliwe' 'pensję' 'zakaz']                                  |
| 22 | disgust        | text       | ['shower' 'obnoxious' 'horrendous' 'website' 'disgust' 'repulsive'         |
|    |                |            |  'hideous' 'yuck' 'raped' 'ads']                                           |
| 23 | disgust        | text_pl    | ['obrzydliwy' 'paskudne' 'najgorszych' 'złą' 'niedorzeczne' 'brzydkie'     |
|    |                |            |  'obrzydliwi' 'znęcanie' 'zniesmaczony' 'obrzydza']                        |
| 24 | embarrassment  | text       | ['embarrassed' 'embarrassment' 'cringy' 'oops' 'ugh' 'cringey' 'misread'   |
|    |                |            |  'memes' 'shameful' 'strange']                                             |
| 25 | embarrassment  | text_pl    | ['żenujące' 'niezręczne' 'niezręczny' 'wstydzić' 'niezręcznie' 'cringy'    |
|    |                |            |  'wstydzę' 'wstydu' 'cringey' 'noszę']                                     |
| 26 | excitement     | text       | ['excitement' 'merrily' 'holiday' 'outstanding' 'ding' 'ecstatic' 'york'   |
|    |                |            |  'rainbow' 'sooo' 'bomb']                                                  |
| 27 | excitement     | text_pl    | ['czekam' 'cakeday' 'urodzin' 'ekscytujące' 'podekscytowana'               |
|    |                |            |  'fantastyczne' 'podekscytowani' 'ciekawie' 'wesoło' 'ding']               |
| 28 | fear           | text       | ['scared' 'afraid' 'scary' 'terrified' 'scares' 'scare' 'horribly'         |
|    |                |            |  'scariest' 'frightening' 'dreadful']                                      |
| 29 | fear           | text_pl    | ['boję' 'obawiam' 'przerażający' 'przeraża' 'przerażony' 'przerażająca'    |
|    |                |            |  'przerażająco' 'koszmar' 'strachu' 'straszna']                            |
| 30 | gratitude      | text       | ['clarification' 'thankfully' 'recommendation' 'clarifying' 'kindly'       |
|    |                |            |  'detailed' 'informative' 'ty' 'clearing' 'greatly']                       |
| 31 | gratitude      | text_pl    | ['dziękujemy' 'udostępnienie' 'opublikowanie' 'przyjrzę' 'rekomendację'    |
|    |                |            |  'przeczytam' 'poświęcony' 'zwrócenie' 'korektę' 'uprzejmie']              |
| 32 | grief          | text       | ['died' 'rip' 'loss' 'die' 'killed' 'shame' 'peace' 'wife' 'later' '10']   |
| 33 | grief          | text_pl    | ['twojej' 'straty' 'rip' 'zmarł' 'kondolencje' 'lata' 'śmierci' 'zginął'   |
|    |                |            |  'zginęli' 'umarł']                                                        |
| 34 | joy            | text       | ['enjoyable' 'gladly' 'luckily' 'constructive' 'rams' 'enjoys' 'amazingly' |
|    |                |            |  'cheered' 'dishes' '5th']                                                 |
| 35 | joy            | text_pl    | ['szczęśliwa' 'radości' 'uszczęśliwia' 'szczęśliwszy' 'zadowoleni'         |
|    |                |            |  'imprezach' 'szczęśliwą' 'sprawiłeś' 'enjoy' 'wspomnień']                 |
| 36 | love           | text       | ['cutest' 'rice' 'scratch' 'goat' 'scents' 'links' 'happily' 'deck' 'arc'  |
|    |                |            |  'drones']                                                                 |
| 37 | love           | text_pl    | ['ulubionymi' 'zakochany' 'kochałem' 'zapach' 'kochany' 'kochaj' 'serio'   |
|    |                |            |  'kochał' 'poduszki' 'homo']                                               |
| 38 | nervousness    | text       | ['nervous' 'worrying' 'depression' 'terrifying' 'trouble' 'mental'         |
|    |                |            |  'terrified' 'insecure' 'uncomfortable' 'upset']                           |
| 39 | nervousness    | text_pl    | ['niepokój' 'denerwuję' 'martwiłem' 'niespokojny' 'martwi' 'przeraża'      |
|    |                |            |  'niebezpieczne' 'odczuwam' 'martwiłbym' 'denerwuje']                      |
| 40 | optimism       | text       | ['hopeful' 'hopes' 'confident' 'optimism' 'handled' 'finals' 'motivated'   |
|    |                |            |  'shine' 'rise' 'worrying']                                                |
| 41 | optimism       | text_pl    | ['nadziei' 'miej' 'poprawi' 'pozostanie' 'poprawić' 'wyzdrowieje'          |
|    |                |            |  'wygramy' 'naprawione' 'optymizm' 'rams']                                 |
| 42 | pride          | text       | ['pride' 'congratulations' 'accomplishment' 'em' 'hero' 'lead' 'glory'     |
|    |                |            |  'mother' 'gift' 'corn']                                                   |
| 43 | pride          | text_pl    | ['dumna' 'dumni' 'wygrał' 'dumą' 'duma' 'nauczyłem' 'nocy' 'prezent'       |
|    |                |            |  'youtube' 'dumy']                                                         |
| 44 | realization    | text       | ['realised' 'realization' 'messed' 'typed' 'forgotten' 'devs' 'spoke'      |
|    |                |            |  'acting' 'bullies' 'spanish']                                             |
| 45 | realization    | text_pl    | ['zdałem' 'uświadomienie' 'resztę' '24' 'zdali' 'zdać' 'produktów' 'znaki' |
|    |                |            |  'zdałeś' 'większego']                                                     |
| 46 | relief         | text       | ['relieved' 'oof' 'words' 'thankfully' 'saved' 'solved' 'luckily'          |
|    |                |            |  'helpful' 'relieving' 'light']                                            |
| 47 | relief         | text_pl    | ['bogu' 'ulga' 'jedyny' 'problemu' 'wreszcie' 'mg' 'zrelaksować'           |
|    |                |            |  'poczułem' 'mieszkam' 'miejsce']                                          |
| 48 | remorse        | text       | ['apologies' 'guilty' 'guilt' 'fault' 'forgive' 'sincerely' 'ignorance'    |
|    |                |            |  'regrets' 'apology' 'error']                                              |
| 49 | remorse        | text_pl    | ['sorry' 'przepraszamy' 'winy' 'żal' 'radzić' 'przeprosiny' 'pomyliłem'    |
|    |                |            |  'nieporozumienie' 'ignorancję' 'żałował']                                 |
| 50 | sadness        | text       | ['lonely' 'heartbreaking' 'heavy' 'tear' 'severe' 'prime' 'direct'         |
|    |                |            |  'unhappy' 'heartbroken' 'painfully']                                      |
| 51 | sadness        | text_pl    | ['bolesne' 'smutno' 'płaczu' 'smuci' 'boleśnie' 'bolą' 'ciężkie' 'łamie'   |
|    |                |            |  'łez' 'kondolencje']                                                      |
| 52 | surprise       | text       | ['shocking' 'surprisingly' 'unbelievable' 'woah' 'surprises' 'twist'       |
|    |                |            |  'pleasantly' 'suprised' 'amazes' 'hardly']                                |
| 53 | surprise       | text_pl    | ['niespodzianka' 'zdumiony' 'szok' 'zaskakująco' 'whoa' 'dziwaczne'        |
|    |                |            |  'niespodzianką' 'widziana' 'nieoczekiwane' 'szokująco']                   |


In [36]:
print(df_table.to_markdown()) 


|    | Emotion        | Language   | Keywords                                                                   |
|---:|:---------------|:-----------|:---------------------------------------------------------------------------|
|  0 | admiration     | text       | ['lit' 'stadium' 'sweetest' 'generous' 'pup' 'parenting' 'cinematic'       |
|    |                |            |  'passionate' 'litchfield' 'cutie']                                        |
|  1 | admiration     | text_pl    | ['pięknie' 'szanuję' 'niesamowici' 'fantastycznie' 'seksowne' 'znalezisko' |
|    |                |            |  'legendą' 'seksowny' 'wspaniałych' 'fantastyczna']                        |
|  2 | amusement      | text       | ['hahahaha' 'funnier' 'hahah' 'funniest' 'hah' 'hahahah' 'nike'            |
|    |                |            |  'hahahahaha' 'burst' 'laughable']                                         |
|  3 | amusement      | text_pl    | ['rozśmieszyło' 'przezabawny' 'hahahaha' 'uśmiałem'