In [5]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation

In [6]:
df_suicide_detection = pd.read_csv('../../data/prepared/prepared.csv').drop('Unnamed: 0',axis=1)
df_suicide_detection['corpus'] = df_suicide_detection['corpus'].apply(lambda x: x[1:-1].replace("'", "").split(', '))

In [7]:
vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, stop_words='english')
X = vectorizer.fit_transform(df_suicide_detection['corpus'].apply(lambda x: ' '.join(x)))
Y = df_suicide_detection['class'].values

In [8]:
X_suicide = X[Y == 1]
X_non_suicide = X[Y == 0]

In [9]:
lda_model = LatentDirichletAllocation(n_components=5, max_iter=5, learning_method='online', random_state=42)
lda_output = lda_model.fit_transform(X_suicide)

In [10]:
for idx, topic in enumerate(lda_model.components_):
    print(f"Suicide topic {idx+1}:")
    print([vectorizer.get_feature_names_out()[i] for i in topic.argsort()[-10:]])

Suicide topic 1:
['thisiv', 'metal', 'liveim', 'mewhi', 'poem', 'quickest', 'vision', 'tonighti', 'km', 'donei']
Suicide topic 2:
['aroundi', 'publicli', 'plz', 'intox', 'pillsi', 'lifemi', 'worthlessi', 'deathim', 'hereim', 'myselfit']
Suicide topic 3:
['suicid', 'time', 'think', 'ive', 'know', 'like', 'life', 'feel', 'want', 'im']
Suicide topic 4:
['doneiv', 'sadder', 'somethingi', 'longeri', 'euthanasia', 'reset', 'arteri', 'talki', 'ibuprofen', 'exit']
Suicide topic 5:
['failurei', 'inher', 'whywhi', 'everyonei', 'badi', 'correctli', 'onei', 'occupi', 'inch', 'mg']


In [11]:
lda_model = LatentDirichletAllocation(n_components=5, max_iter=5, learning_method='online', random_state=42)
lda_output = lda_model.fit_transform(X_non_suicide)

In [12]:
for idx, topic in enumerate(lda_model.components_):
    print(f"Non suicide topic {idx+1}:")
    print([vectorizer.get_feature_names_out()[i] for i in topic.argsort()[-10:]])

Non suicide topic 1:
['link', 'code', 'channel', 'simp', 'loudly_crying_fac', 'discord', 'pensive_fac', 'join', 'server', 'award']
Non suicide topic 2:
['smiling_face_with_heart', 'nnn', 'offici', 'birthday', 'user', 'flair', 'nut', 'u200b', 'ampxb', 'smiling_face_with_sunglass']
Non suicide topic 3:
['girl', 'fuck', 'know', 'post', 'na', 'want', 'guy', 'filler', 'like', 'im']
Non suicide topic 4:
['touch', 'valentin', 'homi', 'exam', 'weary_fac', 'haha', 'hmu', 'mask', 'pic', 'flushed_fac']
Non suicide topic 5:
['emoji', 'skirt', 'u200e', 'pizza', 'spotifi', 'pleading_fac', 'cum', 'song', 'click', 'playlist']


Analiza tematów dotyczących samobójstw:
Temat 1: Skupia się na emocjach i myślach związanych z samobójstwem, jak czas, myśli, życie, uczucia i chęć.

Temat 2: Wydaje się bardziej zróżnicowany, zawierając słowa, które mogą być powiązane z emocjami, pracą naukową lub problemami codziennymi.

Temat 3: Skupia się na mniej konwencjonalnych metodach lub pojęciach związanych z samobójstwem, takich jak nazwy leków czy emocje związane z tymi działaniami.

Temat 4: Zawiera słowa sugerujące poczucie beznadziejności, możliwą izolację i myśli samobójcze.

Temat 5: Wydaje się zawierać bardziej techniczne lub zewnętrzne terminy, które mogą być powiązane z metodami samookaleczenia lub samobójstwem.

Analiza tematów non-suicide:
Temat 1: Wydaje się być ogólny, zawierając słowa, które mogą być stosowane w wielu kontekstach, takich jak rozmowy, nudziarstwo, postowanie, itp.

Temat 2: Zawiera słowa, które mogą być związane z treściami niemających związku ze samobójstwem, np. polityką, filmami, czy popularnymi tematami.

Temat 3: Zawiera słowa bardziej związane z celebracją, takie jak życzenia, urodziny, czy zmiany w profilu, co wydaje się odbiegać od treści samobójczych.

Temat 4: Zawiera słowa, które mogą być powszechne w rozmowach codziennych, bez bezpośredniego odniesienia do samobójstwa.

Temat 5: Wydaje się zawierać słowa lub frazy, które mogą być bardziej związane z treściami humorystycznymi lub niezwiązane bezpośrednio z samobójstwem.

Analiza ta może sugerować różnice w tematach poruszanych w treściach dotyczących samobójstwa i tych, które nie dotyczą tej tematyki. Tematy związane z samobójstwem zawierają słowa związane z emocjami, metodami samookaleczenia i beznadziejnością, podczas gdy tematy non-suicide są bardziej zróżnicowane i skupiają się na różnych, często codziennych, tematach.