In [1]:
import pandas as pd
from bertopic import BERTopic
import plotly.express as px
from umap import UMAP
from bertopic.representation import KeyBERTInspired

  from .autonotebook import tqdm as notebook_tqdm


In [66]:
pd.set_option('max_colwidth', None)

# Analiza wybranych tematów zaanotowanych przez BERTopic

Analizowane tematy to tematy o numerach:
* 5
* 13
* 16
* 18
* 22
* 15
* 32
* 37
* 45

Objaśnienia numerów można znależć w **bertopic_embedding.ipynb**.

In [3]:
tweets = pd.read_csv("data/bertopic_results/tweets/tweets_bertopic_annotated.csv")
tweets['topic_name'] = ""
tweets

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
0,1720011855823765544,trzaskowski_,True,False,2023-11-02 09:35:00,wiadomość prosto od mera kijowa vitaliy_klychk...,457.0,399.0,3461.0,2023-11-02,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,30,
1,1719636816771285367,pomaska,True,False,2023-11-01 08:45:00,pis jest znany z przecinania wstęgi po kilka r...,469.0,224.0,1034.0,2023-11-01,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,8,
3,1718925236274336067,pomaska,True,False,2023-10-30 09:38:00,drastyczny wzrost ceny hurtowej oleju napędowe...,155.0,180.0,562.0,2023-10-30,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,26,
4,1716753316548432358,pomaska,True,False,2023-10-24 09:47:00,transmisja konferencji prasowej opozycji w tvp...,549.0,388.0,3479.0,2023-10-24,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,13,
5,1716756647312277650,trzaskowski_,True,False,2023-10-24 10:00:00,panie prezydencie jaśniej się nie da jest demo...,1137.0,864.0,7150.0,2023-10-24,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,3,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19097,1714553353806426149,m_gdula,False,False,2023-10-18 08:05:00,karolu bardzo dziękuje za twoje zaangażowanie ...,,0.0,2.0,2023-10-18,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,4,
19098,1714553135308341274,m_gdula,False,False,2023-10-18 08:04:00,dziękuje ci serdecznie to bardzo ważne dla mni...,,0.0,1.0,2023-10-18,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,4,
19099,1714552951920820558,m_gdula,False,False,2023-10-18 08:04:00,dziękuje panie franku teraz na pewno trzeba wa...,,0.0,3.0,2023-10-18,...,0.0,0.0,0.0,0.0,5,0.0,0.0,1,4,
19100,1714549182587904069,urbaniak_michal,False,False,2023-10-18 07:49:00,januszu dziękuję za miłe słowa życzę owocnej p...,2.0,0.0,8.0,2023-10-18,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,4,


In [50]:
def bertopic_guided(df, topic_list, n_topics = 50):
    representation_model = KeyBERTInspired(random_state=42)
    calculate_probabilities = True # get document's topic probs for each detected topic, not just the predicted one
    umap_model = UMAP(n_neighbors=30, n_components=5, min_dist=0.0, metric='cosine', random_state=42)
    nr_topics: int | str = n_topics
    topic_model = BERTopic(language='polish', nr_topics=nr_topics, verbose=True, representation_model=representation_model, calculate_probabilities=calculate_probabilities, umap_model=umap_model, seed_topic_list=topic_list)
    
    df.text = df.text.astype(str)

    topics, probs = topic_model.fit_transform(df.text)

    topic_model.visualize_barchart(top_n_topics=nr_topics if isinstance(nr_topics, int) else 50, n_words=20)
    
    return topic_model, topics, probs

## Topic 45

In [12]:
tweets_t45 = tweets[tweets['detected_topic'] == 45]
tweets_t45

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
4425,1719331742325121528,m_gdula,False,False,2023-10-31 12:33:00,terefere wystarczy przerejestrować na zabytek i samochód będzie zwolniony z podatku🤷🏻‍♂️,5.0,0.0,2.0,2023-11-01,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,45,
6314,1546466922618839040,donaldtusk,False,False,2022-07-11 12:10:00,jarku uważaj proszę bo za coś takiego mogą ci prawo jazdy odebrać,1953.0,1050.0,10817.0,2022-07-12,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,45,
6409,1462043586564923395,donaldtusk,False,False,2021-11-20 13:02:00,jest przekroczenie przepisu drogowego jest kara zatrzymania prawa jazdy na 3 miesiące plus 10 punktów i mandat adekwatna przyjąłem ją bez dyskusji,4409.0,1083.0,18760.0,2021-11-21,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,45,
8657,1704153371135922544,dgpopiolek,False,False,2023-09-19 15:19:00,162 km/h - z taką prędkością jechał renault mégane kierowany przez patryka p tuż przed remontowanym mostem dębnickim kierowca miał też we krwi 23 promila alkoholu jak wiele osób musi jeszcze zginąć zanim na serio zaczniemy walczyć z piratami drogowymi,20.0,36.0,289.0,2023-09-20,...,1.0,0.0,1.0,0.0,5,0.0,0.0,0,45,
14725,1462038578788196352,andrzej_kryj,False,False,2021-11-20 12:42:00,donald tusk podobno stracił prawo jazdy za przekroczenie prędkości w terenie zabudowanym o 57 km czy będę w tej sprawie rezolucje pe i postanowienia tsue,,0.0,1.0,2021-11-21,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,45,
15992,1646901911184891908,f_sterczewski,False,False,2023-04-14 15:43:00,✅likwidacja możliwości uzyskiwania wypisów z licencji - dość tzw “stajni” zatrudniających kilka tysięcy kierowców na podstawie jednej licencji,1.0,0.0,1.0,2023-04-15,...,3.0,0.0,0.0,0.0,5,0.0,0.0,0,45,
15993,1646901909423370240,f_sterczewski,False,False,2023-04-14 15:43:00,✅publiczny rejestr kierowców zawodowych online - musimy wiedzieć kto kiedy i jakim pojazdem przewozi pasażerów - wiemy to w autobusach tramwajach i pociągach - taksówki nie mogą być wyjątkiem ✅pełna odpowiedzialność pośrednika za swoich kierowców,2.0,0.0,1.0,2023-04-15,...,3.0,0.0,0.0,0.0,5,0.0,0.0,1,45,
15994,1646901907347107845,f_sterczewski,False,False,2023-04-14 15:43:00,✅certyfikacja aplikacji by przerwać żonglowanie pomiędzy spółkami ✅wymóg licencji na wzór świadectwa kwalifikacji - tak jak dla każdego kierowcy zawodowego musimy mieć pewność że kierowcy którzy przewożą ludzi to osoby niekarane znające język polski oraz polskie przepisy,1.0,0.0,3.0,2023-04-15,...,1.0,0.0,0.0,0.0,5,0.0,0.0,0,45,
15997,1646901899059142658,f_sterczewski,False,False,2023-04-14 15:43:00,🚕przejazdy za pośrednictwem aplikacji należy uregulować i to na wczoraj ale nie byle jak❗️ aby były bezpieczne w tej ustawie konieczne są zmiany: certyfikacja aplikacji wymóg licencji publiczny rejestr kierowców pełna odpowiedzialność pośrednika za kierowców 1/🧵👇 brd,5.0,2.0,27.0,2023-04-15,...,1.0,0.0,0.0,0.0,5,0.0,0.0,0,45,
16387,1709617328017531142,styszka,False,False,2023-10-04 17:11:00,pis uchwalił możliwość zakazu wjazdu starszych samochodów do centrów miast zobowiązali się w ue do wprowadzenia dwóch nowych podatków od samochodów nie zablokowali zakazu sprzedaży samochodów spalinowych od 2035 a teraz chcą „darmowych” kursów prawa jazdy dla 18-latków 🤡,28.0,92.0,681.0,2023-10-05,...,2.0,0.0,0.0,0.0,5,0.0,0.0,0,45,


Z tematu 45 widać wyłaniające się następujące podtematy:
* wypadki drogowe
* reforma przepisów dot taksówek i pośredników (w domyśle Uber i Bolt)
* nielegalne wyścigi samochodów

Jest na tyle mało tweetó∑ że do wyrzucenia

## Topic 37

In [16]:
tweets_t37 = tweets[tweets['detected_topic'] == 37]
tweets_t37

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
194,1709155407153741938,czarnecki_pis,False,False,2023-10-03 10:36:00,stopprzymusowejrelokacji 4xnie,1.0,0.0,2.0,2023-10-03,...,0.0,1.0,0.0,0.0,1,0.0,0.0,0,37,
476,1709813742114914606,mblaszczak,False,False,2023-10-05 06:12:00,stopprzymusowejrelokacji 4razynie,66.0,27.0,135.0,2023-10-05,...,0.0,0.0,0.0,0.0,1,0.0,0.0,0,37,
488,1707651506067984774,mblaszczak,False,False,2023-09-29 07:00:00,4razynie stopprzymusowejrelokacji,94.0,37.0,114.0,2023-09-29,...,0.0,0.0,0.0,0.0,1,0.0,0.0,0,37,
612,1711598307829518468,l_dobrzynski,False,False,2023-10-10 04:23:00,po czwarte… 4xnie bezpiecznapolska,,0.0,2.0,2023-10-10,...,1.0,0.0,0.0,0.0,1,0.0,0.0,0,37,
613,1711598074269745403,l_dobrzynski,False,False,2023-10-10 04:22:00,po trzecie… 4xnie bezpiecznapolska,,0.0,1.0,2023-10-10,...,1.0,0.0,0.0,0.0,1,0.0,0.0,-1,37,
614,1711597888390693088,l_dobrzynski,False,False,2023-10-10 04:21:00,po drugie… 4xnie bezpiecznapolska,1.0,0.0,1.0,2023-10-10,...,1.0,0.0,0.0,0.0,5,0.0,0.0,0,37,
615,1711597682207195448,l_dobrzynski,False,False,2023-10-10 04:21:00,po pierwsze… 4xnie bezpiecznapolska,2.0,1.0,3.0,2023-10-10,...,1.0,0.0,0.0,0.0,2,0.0,0.0,0,37,
657,1710320613628264567,l_dobrzynski,False,False,2023-10-06 15:46:00,stopprzymusowejrelokacji bezpiecznaprzyszłośćpolaków bezpiecznapolsks 4xnie,,2.0,3.0,2023-10-07,...,0.0,0.0,0.0,0.0,1,0.0,0.0,0,37,
669,1709804847338266783,l_dobrzynski,False,False,2023-10-05 05:36:00,zamiast „mądry polak po szkodzie” mamy znakomitą okazję być mądrzy przed szkodą stopprzymusowejrelokacji 4xnie,,0.0,3.0,2023-10-05,...,2.0,0.0,0.0,0.0,2,0.0,0.0,0,37,
677,1709549128655503661,l_dobrzynski,False,False,2023-10-04 12:40:00,😡😡😡 stopprzymusowejrelokacji 4xnie,,0.0,2.0,2023-10-05,...,0.0,0.0,0.0,0.0,1,0.0,0.0,0,37,


In [73]:
tweets_t37.at[18402, 'topic_name'] = 'trzecia droga'

In [74]:
tweets_t37.iloc[15:]

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
2656,1.711999e+18,szymon_holownia,False,False,2023-10-11 06:56:00,tak prowadzi trzecia droga chodźcie z nami 🙂,581.0,185.0,1160.0,2023-10-11,...,0.0,0.0,0.0,0.0,5.0,0.0,0.0,0.0,37.0,trzecia droga
2662,1.711374e+18,szymon_holownia,False,False,2023-10-09 13:32:00,dziękujemy za zaufanie 15 października wybór jest prosty: albo silna trzecia droga albo trzecia kadencja pis,168.0,142.0,1226.0,2023-10-10,...,1.0,0.0,0.0,0.0,5.0,0.0,0.0,1.0,37.0,trzecia droga
2677,1.708015e+18,szymon_holownia,False,False,2023-09-30 07:06:00,już w elblągu naprawimy polskę nie tylko obajtkowe dystrybutory w ten weekend jedziemy i idziemy do was naszą trzeciadroga żeby przekonać tych którzy wciąż się wahają czy warto głosować dojedziemy do was paliwa nam nie zabraknie 1000spotkań,177.0,86.0,349.0,2023-09-30,...,0.0,0.0,0.0,0.0,5.0,0.0,0.0,0.0,37.0,trzecia droga
2691,1.705498e+18,szymon_holownia,False,False,2023-09-23 08:21:00,trzecia droga znosi bariery wprowadzimy ustawę o asystencji osobistej tą gwarancją lukaszkrason otworzył konwencję trzeciej drogi w kielcach dość kłótni do przodu trzeciadroga,33.0,51.0,217.0,2023-09-23,...,0.0,0.0,0.0,0.0,5.0,0.0,0.0,0.0,37.0,trzecia droga
2697,1.703497e+18,szymon_holownia,False,False,2023-09-17 19:50:00,trzecia droga trzecia w wieruszowie 1194 proc poparcia dziękujemy i do przodu,98.0,96.0,652.0,2023-09-18,...,0.0,0.0,0.0,0.0,4.0,0.0,0.0,1.0,37.0,trzecia droga
2722,1.697905e+18,szymon_holownia,False,False,2023-09-02 09:32:00,dość kłótni do przodu trzecia droga - startujemy,268.0,105.0,623.0,2023-09-02,...,1.0,0.0,0.0,0.0,4.0,0.0,0.0,0.0,37.0,trzecia droga
2790,1.66506e+18,szymon_holownia,False,False,2023-06-03 18:16:00,trzecia droga pokona złość i strach trzeciadroga trzeciadrogawspólnadroga,151.0,78.0,240.0,2023-06-04,...,0.0,0.0,0.0,0.0,5.0,0.0,0.0,1.0,37.0,trzecia droga
2799,1.661774e+18,szymon_holownia,False,False,2023-05-25 16:39:00,trzecia droga istnieje i ma się dobrze trzeciadrogawspólnadroga,642.0,128.0,427.0,2023-05-26,...,0.0,0.0,0.0,0.0,5.0,0.0,0.0,1.0,37.0,trzecia droga
2807,1.655482e+18,szymon_holownia,False,False,2023-05-08 07:58:00,trzecia droga prowadzi prosto do odsunięcia pis od władzy trzeciadrogawspólnadroga,514.0,105.0,449.0,2023-05-08,...,0.0,0.0,0.0,0.0,5.0,0.0,0.0,-1.0,37.0,trzecia droga
5017,1.706023e+18,gontarz93,False,False,2023-09-24 19:09:00,gdyby ktoś się jeszcze zastanawiał nad tym czym jest 3 droga,7.0,24.0,35.0,2023-09-25,...,0.0,0.0,0.0,0.0,5.0,0.0,0.0,0.0,37.0,trzecia droga


In [76]:
tweets.loc[tweets.index.isin(tweets_t37.index), 'topic_name'] = tweets_t37['topic_name'].values



In [82]:
tweets.to_csv("data/tweets_bertopic_updated.csv")

## Topic 32

In [41]:
tweets = pd.read_csv("data/tweets_bertopic_updated.csv")
tweets['topic_name'].unique()

array([nan, 'szczepienia', 'imigranci', 'publiczna opieka zdrowotna',
       'mieszkania', 'gospodarka morska', 'trzecia droga'], dtype=object)

In [43]:
tweets = tweets.drop("Unnamed: 0", axis=1)

In [47]:
tweets_t32 = tweets[tweets['detected_topic'] == 32]
tweets_t32.reset_index(drop=True, inplace=True)
tweets_t32.head(15)

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
0,1709585965272998308,pomaska,False,False,2023-10-04 15:07:00,czy pan matecki uznał że nie tylko lasy państw...,36.0,26.0,147.0,2023-10-05,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,32,
1,1639223600413659138,donaldtusk,True,False,2023-03-24 11:12:00,miała być fabryka a jest wycięty las,2637.0,3794.0,12004.0,2023-03-24,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,32,
2,1717065486716838099,ma_golinska,True,False,2023-10-25 06:28:00,niedawno kiedy jako wnioskodawca uchwały w obr...,25.0,74.0,134.0,2023-10-25,...,0.0,0.0,1.0,0.0,4,0.0,0.0,-1,32,
3,1657060077876936710,a_niedzielski,False,False,2023-05-12 16:28:00,jak powiedział cyceron: „do szczęścia człowiek...,1.0,2.0,21.0,2023-05-13,...,7.0,0.0,0.0,0.0,4,0.0,0.0,1,32,
4,1705157447118094780,sjkaleta,False,False,2023-09-22 09:49:00,rafał trzaskowski proponuje likwidację 38 ogro...,313.0,393.0,839.0,2023-09-22,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,32,
5,1705149330166882401,sjkaleta,False,False,2023-09-22 09:17:00,miało być zielono – jest betonowo miał być mil...,44.0,22.0,69.0,2023-09-22,...,2.0,0.0,0.0,0.0,5,0.0,0.0,-1,32,
6,1698733560130089120,sjkaleta,False,False,2023-09-04 16:23:00,setki tysięcy warszawiaków mieszka w blokach z...,751.0,107.0,441.0,2023-09-05,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,32,
7,1688458731292409858,sjkaleta,False,False,2023-08-07 07:55:00,w wielu krajach ue jest zakaz zbierania grzybó...,713.0,141.0,346.0,2023-08-07,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,32,
8,1618247003183648768,beatamk,False,False,2023-01-25 13:58:00,ue chce przejąć kontrolę nad lasami także pols...,102.0,50.0,178.0,2023-01-26,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,32,
9,1713075722359656953,sikorskiradek,False,False,2023-10-14 06:14:00,dopóki unia nie zabroniła nam wstępu do lasów,19.0,59.0,783.0,2023-10-14,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,32,


Tutaj 2 wiodące tematy:
* lasy państwowe
* zieleń miejska

Trzeba zrobić guided

In [58]:
seed_topic_list = [ ["las", "lasy", "państwowe", "leśnictwo"],
                    ["zieleń", "miejska", "miejski", "park", "parki", "parków"]
]

topic_model, topics, probs = bertopic_guided(tweets_t32, seed_topic_list, 3)

Batches: 100%|██████████| 4/4 [00:00<00:00,  4.06it/s]
2023-12-30 18:10:15,450 - BERTopic - Transformed documents to Embeddings
Batches: 100%|██████████| 1/1 [00:00<00:00, 70.90it/s]
2023-12-30 18:10:15,947 - BERTopic - Reduced dimensionality
2023-12-30 18:10:15,953 - BERTopic - Clustered reduced embeddings
2023-12-30 18:10:17,530 - BERTopic - Reduced number of topics from 4 to 3


In [60]:
ignore_outlier = False
topic_info_df = topic_model.get_topic_info()
if (ignore_outlier):
    topic_info_df = topic_info_df.loc[topic_info_df.Topic != -1]

fig = px.histogram(y=topic_info_df['Name'], x=topic_info_df['Count'], orientation='h', title='Histogram of topic occurences' + (' (outlier topic -1 omitted)' if ignore_outlier else ''))
fig.update_layout(height=900)
fig.update_xaxes(title_text='# of Occurences')

# Update y-axis label
fig.update_yaxes(title_text='Topic name')
fig.show()

In [61]:
df_tweet_document_infos = topic_model.get_document_info(tweets_t32.text)
df_tweet_document_infos

Unnamed: 0,Document,Topic,Name,Top_n_words,Probability,Representative_document
0,czy pan matecki uznał że nie tylko lasy państw...,0,0_parków_miasta_parki_zielonych,parków - miasta - parki - zielonych - terenów ...,0.621152,False
1,miała być fabryka a jest wycięty las,0,0_parków_miasta_parki_zielonych,parków - miasta - parki - zielonych - terenów ...,0.529571,False
2,niedawno kiedy jako wnioskodawca uchwały w obr...,1,1_bezpiecznapolska_polska_polskich_polskimi,bezpiecznapolska - polska - polskich - polskim...,1.000000,True
3,jak powiedział cyceron: „do szczęścia człowiek...,0,0_parków_miasta_parki_zielonych,parków - miasta - parki - zielonych - terenów ...,0.795979,False
4,rafał trzaskowski proponuje likwidację 38 ogro...,-1,-1_lasów_drzew_krzewów_drzewa,lasów - drzew - krzewów - drzewa - parku - war...,0.228017,False
...,...,...,...,...,...,...
98,kaczyński zamykał w pandemii lasy a teraz bron...,-1,-1_lasów_drzew_krzewów_drzewa,lasów - drzew - krzewów - drzewa - parku - war...,0.220353,False
99,❗filozofia po: puścić kłamstwo i patrzeć jak s...,-1,-1_lasów_drzew_krzewów_drzewa,lasów - drzew - krzewów - drzewa - parku - war...,0.255532,False
100,polskie lasy dziś to gwarancja suwerenności si...,1,1_bezpiecznapolska_polska_polskich_polskimi,bezpiecznapolska - polska - polskich - polskim...,0.736395,False
101,📻 zachęcam balcerowicza do krótkiej podróży - ...,0,0_parków_miasta_parki_zielonych,parków - miasta - parki - zielonych - terenów ...,0.801285,False


Klastrowanie na podstawie próbki losowej zadziałało nie tak jak powinno - do parków i zieleni miejskiej też przypisane zostały lazy. Dlatego uogólniono temat jako "tereny zielone"

In [62]:
tweets_t32 = tweets[tweets['detected_topic'] == 32]
tweets_t32['topic_name'] = 'tereny zielone'
tweets_t32

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
120,1709585965272998308,pomaska,False,False,2023-10-04 15:07:00,czy pan matecki uznał że nie tylko lasy państw...,36.0,26.0,147.0,2023-10-05,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,32,tereny zielone
419,1639223600413659138,donaldtusk,True,False,2023-03-24 11:12:00,miała być fabryka a jest wycięty las,2637.0,3794.0,12004.0,2023-03-24,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,32,tereny zielone
1128,1717065486716838099,ma_golinska,True,False,2023-10-25 06:28:00,niedawno kiedy jako wnioskodawca uchwały w obr...,25.0,74.0,134.0,2023-10-25,...,0.0,0.0,1.0,0.0,4,0.0,0.0,-1,32,tereny zielone
1234,1657060077876936710,a_niedzielski,False,False,2023-05-12 16:28:00,jak powiedział cyceron: „do szczęścia człowiek...,1.0,2.0,21.0,2023-05-13,...,7.0,0.0,0.0,0.0,4,0.0,0.0,1,32,tereny zielone
1571,1705157447118094780,sjkaleta,False,False,2023-09-22 09:49:00,rafał trzaskowski proponuje likwidację 38 ogro...,313.0,393.0,839.0,2023-09-22,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,32,tereny zielone
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14529,1688662488001245184,styszka,False,False,2023-08-07 21:24:00,kaczyński zamykał w pandemii lasy a teraz bron...,106.0,44.0,1016.0,2023-08-08,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,32,tereny zielone
15068,1688863335884771329,moskwa_anna,True,False,2023-08-08 10:42:00,❗filozofia po: puścić kłamstwo i patrzeć jak s...,346.0,148.0,347.0,2023-08-08,...,1.0,0.0,0.0,0.0,5,0.0,0.0,-1,32,tereny zielone
15108,1642853015605370888,marcinwarchol,True,False,2023-04-03 11:34:00,polskie lasy dziś to gwarancja suwerenności si...,34.0,13.0,38.0,2023-04-03,...,0.0,0.0,0.0,0.0,5,0.0,0.0,1,32,tereny zielone
15734,1633740772741611520,partiarazem,True,False,2023-03-09 08:05:00,📻 zachęcam balcerowicza do krótkiej podróży - ...,1.0,4.0,49.0,2023-03-09,...,2.0,0.0,0.0,0.0,5,0.0,0.0,1,32,tereny zielone


In [63]:
tweets.loc[tweets.index.isin(tweets_t32.index), 'topic_name'] = tweets_t32['topic_name'].values

In [64]:
tweets.to_csv("data/tweets_bertopic_updated.csv")

## Topic 25

In [94]:
tweets_t25 = tweets[tweets['detected_topic'] == 25]
random_sample = tweets_t25.sample(n=15, random_state=42)
random_sample

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
10420,1709234888530911500,marekgrobarczyk,False,False,2023-10-03 15:52:00,w szczecin i pomorzezachodnie sporo się inwestuje i sporo się tu dzieje i będzie się to rozwijało z jednym zastrzeżeniem jakim proszę o wysłuchanie 👇,22.0,47.0,108.0,2023-10-04,...,0.0,0.0,0.0,0.0,5,0.0,0.0,1,25,
10688,1656329237371002880,marekgrobarczyk,False,False,2023-05-10 16:03:00,dziś otwarto laboratorium automatyzacji procesów magazynowych w ramach obchodów xx-lecia powstania wydziału inżynieryjno-ekonomicznego politechniki morskiej zainstalowano tu nowoczesny sorter jaki używany jest min do segregowania przesyłek ✌️,,10.0,40.0,2023-05-11,...,1.0,0.0,0.0,0.0,4,0.0,0.0,1,25,
10667,1661356865689714689,marekgrobarczyk,False,False,2023-05-24 13:01:00,dokapitalizowanie kwotą 180 mln zł budowy doku pływającego dla stoczni remontowej gryfia powoduje że ta inwestycja nie jest zagrożona bardzo się cieszę gdyż to ważna rzecz w procesie rozwoju stoczni 🇵🇱⚓️👏 szczecin pomorzezachodnie gospodarkamorska polskamorska,25.0,34.0,141.0,2023-05-25,...,0.0,0.0,0.0,0.0,2,0.0,0.0,1,25,
10567,1690647413525037056,marekgrobarczyk,False,False,2023-08-13 08:52:00,piękna ta polska zachęcam do podróży na pomorzezachodnie i szczecin bo jest piękne a jeśli podróżuje się trasami wodnymi to jest wręcz fenomenalnie dobrej niedzieli wszystkim ✌️🇵🇱,74.0,66.0,289.0,2023-08-13,...,0.0,0.0,0.0,0.0,2,0.0,0.0,1,25,
10555,1694271240217710609,marekgrobarczyk,False,False,2023-08-23 08:51:00,dane gus o zatrudnieniu w przemyśle stoczniowym definitywnie przeczą autorom artykułu o przemyśle stoczniowym w wydaniu polityki rok 2009 - 23 402 rok 2021 - 36 026 przemysł stoczniowy poszukuje specjalistów⚓️,82.0,141.0,395.0,2023-08-23,...,2.0,0.0,0.0,0.0,2,0.0,0.0,0,25,
10552,1695038955945636156,marekgrobarczyk,False,False,2023-08-25 11:42:00,"w ramach inicjatywy ""wolińskiej pętli żeglarskiej"" w urzędzie morskim w szczecin odbyło się spotkanie zawiązujące inicjatywę rozwoju infrastruktury marin żeglarskich",3.0,11.0,28.0,2023-08-25,...,2.0,0.0,0.0,0.0,4,0.0,0.0,0,25,
12147,1566683907377995776,marekgrobarczyk,True,False,2022-09-05 07:05:00,po pogłębieniu toru wodnego do elbląga przez zalew wiślany będą mogły wpływać statki morskie o długości 100 metrów oraz zestawy barek długich na 180 m o szerokości 20 metrów i zanurzeniu 45 m przekopmierzeiwiślanej,302.0,182.0,794.0,2022-09-05,...,0.0,0.0,0.0,0.0,4,0.0,0.0,0,25,
10563,1692061430248354159,marekgrobarczyk,False,False,2023-08-17 06:30:00,terminal kontenerowy w świnoujście to kolejna bardzo ważna inwestycja docelowo terminal będzie w stanie obsłużyć do 2 mln teu rocznie obsługując jednocześnie dwa statki jeden o długości 400 m i jeden o długości 200 m 🇵🇱✌️⚓️,40.0,198.0,508.0,2023-08-17,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,25,
10346,1719392108828586160,marekgrobarczyk,False,False,2023-10-31 16:33:00,w gdańskiej stoczni remontowej zwodowano kadłub pierwszego z trzech innowacyjnych promów ro-pax jednostka produkowana jest dla polskiej żeglugi morskiej na wody morza bałtyckiego ma wypłynąć za ponad rok gdansktvppl/73805993/wodow…,66.0,123.0,382.0,2023-11-01,...,2.0,0.0,0.0,0.0,5,0.0,0.0,-1,25,
601,1712357361921196207,l_dobrzynski,False,False,2023-10-12 06:39:00,ofensywa inwestycyjna na pomorzu zachodnim trwa wczoraj w świnoujściu wmurowany został kamień węgielny na budowie portu instalacyjnego który obsługiwał będzie budowę elektrowni wiatrowych na bałtyku pomorze zachodnie na naszych oczach staje się energetycznym centrum pl 🇵🇱,,1.0,5.0,2023-10-12,...,0.0,0.0,0.0,0.0,5,0.0,0.0,1,25,


In [96]:
tweets_t25['topic_name'] = 'gospodarka morska'

In [97]:
tweets.loc[tweets.index.isin(tweets_t25.index), 'topic_name'] = tweets_t25['topic_name'].values

In [98]:
tweets.to_csv("data/tweets_bertopic_updated.csv")

## Topic 22

In [90]:
tweets_t22 = tweets[tweets['detected_topic'] == 22]
random_sample = tweets_t22.sample(n=15, random_state=42)
random_sample

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
17722,1676489216434339840,partiarazem,True,False,2023-07-05 07:12:00,📻 w najbliższych latach kryzys mieszkaniowy będzie jednym z ogniw zapalnych w polsce przyjęcie uchodźców z ukrainy wywarło dużą presję na rynek nieruchomości rynek najmu był dziki już wcześniej teraz jest dziki do kwadratu - zandbergrazem w rozmowa_rmf,1.0,6.0,87.0,2023-07-05,...,1.0,0.0,0.0,0.0,5,0.0,0.0,-1,22,
4635,1703479536438903290,m_gdula,False,False,2023-09-17 18:42:00,czasami można usłyszeć że budowa społecznych mieszkań na wynajem to projekt __lewica skierowany do wąskiej grupy ludzi otóż nie dzięki większej liczbie mieszkań obniżą się czynsze na rynku i spadną ceny mieszkań (a przynajmniej nie wzrosną) będzie lepiej wszystkim),9.0,15.0,75.0,2023-09-18,...,3.0,0.0,0.0,0.0,5,0.0,0.0,1,22,
4305,1553073796336259072,elzbietawitek,False,False,2022-07-29 17:43:00,od dziś rusza rządowy program tzw wakacji kredytowych mogą z nich skorzystać osoby które zaciągnęły kredyt hipoteczny w złotówkach na zakup mieszkania to duża pomoc dla wielu kredytobiorców i już widać rosnące zainteresowanie tą formą wsparcia warto z niej skorzystać,330.0,89.0,377.0,2022-07-30,...,0.0,0.0,0.0,0.0,5,0.0,0.0,1,22,
17805,1658006716598956032,partiarazem,True,False,2023-05-15 07:09:00,📻 problem mieszkaniowy bije mocno w młode pokolenie co robi pis odgrzewa starego kotleta którego wcześniej serwowała po i dosypuje pieniędzy w kieszenie banków i deweloperów to głupota - zandbergrazem w gosc_radiazet,1.0,3.0,39.0,2023-05-15,...,1.0,0.0,0.0,0.0,5,0.0,0.0,-1,22,
14227,1683442022726729728,krawczyk_michal,False,False,2023-07-24 11:40:00,nie do wiary zlikwidowali ludziom program mieszkanie plus a sobie wybudowali apartamentowiec,,7.0,20.0,2023-07-24,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,22,
15998,1646866250855858176,f_sterczewski,False,False,2023-04-14 13:21:00,"można można ale w polsce mieszkania nie będą tańsze i dostępne póki proste rozwiązania od lat funkcjonujące w zachodniej europie będą traktowane jako ""olaboga kominis""",51.0,5.0,65.0,2023-04-15,...,2.0,0.0,0.0,0.0,5,0.0,0.0,0,22,
7937,1630274261360287744,waldydzikowski,False,False,2023-02-27 18:30:00,polacy muszą mieć możliwość utrzymania mieszkania bez zmartwień czy wystarczy im pieniędzy w portfelu dlatego wprowadzimy 600 zł dopłaty dla tych którzy wynajmują mieszkanie bo mieszkanie jest prawem a nie towarem,9.0,13.0,54.0,2023-02-28,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,22,
8757,1680983977111220227,dgpopiolek,False,False,2023-07-17 16:53:00,nasze rozwiązanie to tanie mieszkania budowane przez państwową agencję mieszkaniową w wiedniu to działa polacy też zasługują na godne warunki mieszkania,2.0,2.0,19.0,2023-07-18,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,22,
17876,1633740778148184064,partiarazem,True,False,2023-03-09 08:05:00,📻 w haśle mieszkanieprawemnietowarem nie chodzi o to żeby ci którzy mieszkanie mają je stracili tylko o to żeby ci którzy mieszkania nie mają mieli gdzie mieszkać nasz program daje wolność wyboru - zandbergrazem w gosc_radiazet,2.0,4.0,43.0,2023-03-09,...,1.0,0.0,0.0,0.0,5,0.0,0.0,0,22,
4637,1703331593627086986,m_gdula,False,False,2023-09-17 08:54:00,💬 jeśli będzie więcej społecznych mieszkań na wynajem – a o to walczymy jako __lewica – będzie więcej wolności: ci którzy chcą wziąć kredyt wezmą kredyt; ale ci którzy chcą wynająć mieszkanie będą mieli wybór między najmem rynkowym a tanim najmem społecznym – w tvp3krakow,8.0,11.0,34.0,2023-09-17,...,5.0,0.0,0.0,0.0,5,0.0,0.0,1,22,


In [91]:
tweets_t22['topic_name'] = 'mieszkania'
tweets.loc[tweets.index.isin(tweets_t22.index), 'topic_name'] = tweets_t22['topic_name'].values
tweets.to_csv("data/tweets_bertopic_updated.csv")

## Topic 16

In [93]:
tweets_t16 = tweets[tweets['detected_topic'] == 16]
random_sample = tweets_t16.sample(n=20, random_state=42)
random_sample

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
4209,1625896642128879616,m_gdula,True,False,2023-02-15 16:35:00,w sklepach są już te obleśne robaki którymi będą was karmić lewaki,337.0,27.0,1518.0,2023-02-16,...,0.0,0.0,0.0,0.0,4,0.0,0.0,-1,16,
14129,1703429283367051360,krawczyk_michal,False,False,2023-09-17 15:22:00,jesteśmy działamy wygramy ✌🏻🤍❤️,10.0,8.0,56.0,2023-09-18,...,0.0,0.0,0.0,0.0,2,0.0,0.0,1,16,
11595,1430556306709131266,iwonahartwich,False,False,2021-08-25 15:42:00,to tylko mała próbka pis-owskiego miłosierdzia tvp info zbiera żniwa,60.0,1.0,26.0,2021-08-26,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,16,
4153,1679207274198233089,gajewska_kinga,False,False,2023-07-12 19:13:00,ludzie widzący alejamilionerówpis są po prostu w szoku,10.0,37.0,116.0,2023-07-13,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,16,
8447,1695892735037747563,jbrudzinski,True,False,2023-08-27 20:15:00,sądząc po ekscytacji totalnych i innych holdysów gdy tusk zapowiedział obecność giertycha na listach po poziom „zerwanych beretów” tego towarzystwa jest na maksymalnym poziomie oszczędzajcie nerwy i swoje emocje tusk pewno nie powiedział ostatniego słowa jest jeszcze przecież palikot i rafalla czy jak jej tam,616.0,190.0,908.0,2023-08-28,...,2.0,0.0,0.0,0.0,5,0.0,0.0,1,16,
5799,1711420936744812988,jciesz,True,False,2023-10-09 16:38:00,oszust tusk zaczyna: jestem taki jak wy rzeczywistość wygląda jak niżej nie wierzcie mu tylkopis,1283.0,100.0,399.0,2023-10-10,...,1.0,0.0,0.0,0.0,5,0.0,0.0,-1,16,
6350,1507367040046313480,donaldtusk,False,False,2022-03-25 14:41:00,uprzedzając pytania tvp nie byłem dzisiaj ani na okęciu ani na lotnisku w jasionce,3418.0,1856.0,20306.0,2022-03-26,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,16,
7857,1651109782651039746,bbudka,True,False,2023-04-26 06:23:00,szymon jak nie chcesz pomóc to po prostu nie przeszkadzaj… marsz4czerwca,588.0,410.0,3206.0,2023-04-26,...,1.0,0.0,0.0,0.0,5,0.0,0.0,0,16,
8112,1704824842661380232,chorosinska,False,False,2023-09-21 11:48:00,❗️🤬h- hejt🤬❗️ alfabetchorosinskiej hejtu jest zdecydowanie za dużo wokół nas ranimy innych zapominającże po drugiej stronie stoi człowiek zamieńmy hejt na szacunek🤝 jeśli zgadzasz się ze mną udostępnij❗️,41.0,50.0,91.0,2023-09-21,...,1.0,0.0,0.0,0.0,5,0.0,0.0,-1,16,
10305,1721604356288434441,szymon_holownia,True,False,2023-11-06 19:03:00,niewiele oczekując nigdy się nie zawiodłem,710.0,530.0,12359.0,2023-11-07,...,0.0,0.0,0.0,0.0,5,0.0,0.0,1,16,


Na podstawie próbki losowej stwierdzono, że niesposób jednoznacznie wydzielić podgrupę tematów, pojawia się zarówno temat kościoła, marsz miliona serc, rządy pis, konfederacja, rządy PO oraz teksty, dla których niesposób wyspecyfikować konkretny temat.
Z tego względu klaster 16 odrzucono.

## Topic 5

In [13]:
tweets_t5 = tweets[tweets['detected_topic'] == 5]
tweets_t5.reset_index(drop=True, inplace=True)
tweets_t5

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
0,1713913388227543294,pomaska,False,False,2023-10-16 13:42:00,2 miliardy dla chorych na raka zamiast na szcz...,192.0,232.0,1856.0,2023-10-17,...,0.0,0.0,0.0,0.0,5,0.000000,0.000000,-1,5,
1,1698925227424546962,czarnecki_pis,False,False,2023-09-05 05:05:00,2⃣ konkret na kolejną kadencję zjednoczonej pr...,3.0,5.0,13.0,2023-09-05,...,0.0,1.0,0.0,0.0,4,0.000000,0.000000,1,5,
2,1471097328069222402,czarnecki_pis,False,False,2021-12-15 12:38:00,premier morawieckim o antyszczepionkowym wiecu...,1.0,0.0,6.0,2021-12-16,...,2.0,0.0,0.0,0.0,5,0.000000,0.000000,0,5,
3,1711423497447067865,l_dobrzynski,False,False,2023-10-09 16:48:00,hołownia: jeśli nie dostaniesz się do państwow...,,0.0,3.0,2023-10-10,...,1.0,0.0,0.0,0.0,5,0.666667,0.333333,-1,5,
4,1704561973797572778,l_dobrzynski,False,False,2023-09-20 18:23:00,szpital w pyrzycach od miesięcy przechodzi zna...,,0.0,4.0,2023-09-21,...,0.0,0.0,0.0,0.0,5,0.000000,0.000000,1,5,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
447,1670999777931132928,tzimoch,False,False,2023-06-20 03:39:00,leki muszą być dostępne‼️ chory na cukrzycę ni...,1.0,28.0,43.0,2023-06-20,...,0.0,0.0,0.0,0.0,5,0.000000,0.000000,0,5,
448,1622914274619260928,tzimoch,False,False,2023-02-07 11:04:00,składam wniosek formalny o przerwę i błyskawic...,3.0,14.0,39.0,2023-02-07,...,1.0,0.0,0.0,0.0,5,0.000000,0.000000,0,5,
449,1620804000743301120,tzimoch,False,False,2023-02-01 15:19:00,z interwencją poselską w nfz ✌️ dlaczego pomim...,17.0,53.0,124.0,2023-02-02,...,0.0,0.0,0.0,0.0,5,0.000000,0.000000,0,5,
450,1567498483493474304,tzimoch,False,False,2022-09-07 13:02:00,w szpitalu w krośnie od trzech tygodni zamknię...,4.0,40.0,65.0,2022-09-08,...,3.0,0.0,0.0,0.0,5,0.000000,0.000000,0,5,


In [51]:

seed_topic_list = [ ["szczepienia", "szczepieniach", "szczepionki", "szczepienie"],
                    ["szpital", "opieka", "nfz",  "placówka"]
]

topic_model, topics, probs = bertopic_guided(tweets_t5, seed_topic_list, 3)
# representation_model = KeyBERTInspired(random_state=42)
# calculate_probabilities = True # get document's topic probs for each detected topic, not just the predicted one
# umap_model = UMAP(n_neighbors=30, n_components=5, min_dist=0.0, metric='cosine', random_state=42)
# nr_topics = 4
# topic_model = BERTopic(language='polish',seed_topic_list=seed_topic_list, nr_topics=4, verbose=True, representation_model=representation_model, calculate_probabilities=calculate_probabilities)
# topics, probs = topic_model.fit_transform(tweets_t5.text)


Batches: 100%|██████████| 15/15 [00:03<00:00,  4.42it/s]
2023-12-30 18:05:24,283 - BERTopic - Transformed documents to Embeddings
Batches: 100%|██████████| 1/1 [00:00<00:00, 64.96it/s]
2023-12-30 18:05:25,848 - BERTopic - Reduced dimensionality
2023-12-30 18:05:25,861 - BERTopic - Clustered reduced embeddings
2023-12-30 18:05:26,286 - BERTopic - Reduced number of topics from 2 to 2


In [52]:
ignore_outlier = True
topic_info_df = topic_model.get_topic_info()
if (ignore_outlier):
    topic_info_df = topic_info_df.loc[topic_info_df.Topic != -1]

fig = px.histogram(y=topic_info_df['Name'], x=topic_info_df['Count'], orientation='h', title='Histogram of topic occurences' + (' (outlier topic -1 omitted)' if ignore_outlier else ''))
fig.update_layout(height=900)
fig.update_xaxes(title_text='# of Occurences')

# Update y-axis label
fig.update_yaxes(title_text='Topic name')
fig.show()

In [20]:
df_tweet_document_infos = topic_model.get_document_info(tweets_t5.text)
df_tweet_document_infos

Unnamed: 0,Document,Topic,Name,Top_n_words,Probability,Representative_document
0,2 miliardy dla chorych na raka zamiast na szcz...,0,0_pacjentów_zdrowotnej_lekarzy_szpitalach,pacjentów - zdrowotnej - lekarzy - szpitalach ...,0.832562,False
1,2⃣ konkret na kolejną kadencję zjednoczonej pr...,0,0_pacjentów_zdrowotnej_lekarzy_szpitalach,pacjentów - zdrowotnej - lekarzy - szpitalach ...,1.000000,False
2,premier morawieckim o antyszczepionkowym wiecu...,1,1_szczepionki_szczepienia_szczepionek_szczepim...,szczepionki - szczepienia - szczepionek - szcz...,0.860265,False
3,hołownia: jeśli nie dostaniesz się do państwow...,0,0_pacjentów_zdrowotnej_lekarzy_szpitalach,pacjentów - zdrowotnej - lekarzy - szpitalach ...,0.856323,False
4,szpital w pyrzycach od miesięcy przechodzi zna...,0,0_pacjentów_zdrowotnej_lekarzy_szpitalach,pacjentów - zdrowotnej - lekarzy - szpitalach ...,0.972867,False
...,...,...,...,...,...,...
447,leki muszą być dostępne‼️ chory na cukrzycę ni...,0,0_pacjentów_zdrowotnej_lekarzy_szpitalach,pacjentów - zdrowotnej - lekarzy - szpitalach ...,1.000000,False
448,składam wniosek formalny o przerwę i błyskawic...,0,0_pacjentów_zdrowotnej_lekarzy_szpitalach,pacjentów - zdrowotnej - lekarzy - szpitalach ...,0.893784,False
449,z interwencją poselską w nfz ✌️ dlaczego pomim...,0,0_pacjentów_zdrowotnej_lekarzy_szpitalach,pacjentów - zdrowotnej - lekarzy - szpitalach ...,0.927528,False
450,w szpitalu w krośnie od trzech tygodni zamknię...,0,0_pacjentów_zdrowotnej_lekarzy_szpitalach,pacjentów - zdrowotnej - lekarzy - szpitalach ...,0.979476,False


In [25]:
topic_mapping = {0: 'szczepienia', 1: 'publiczna opieka zdrowotna'}
df_tweet_document_infos['topic_name'] = df_tweet_document_infos['Topic'].map(topic_mapping)

In [26]:
tweets_t5['topic_name'] = df_tweet_document_infos.loc[tweets_t5.index, 'topic_name']
tweets_t5

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
0,1713913388227543294,pomaska,False,False,2023-10-16 13:42:00,2 miliardy dla chorych na raka zamiast na szcz...,192.0,232.0,1856.0,2023-10-17,...,0.0,0.0,0.0,0.0,5,0.000000,0.000000,-1,5,szczepienia
1,1698925227424546962,czarnecki_pis,False,False,2023-09-05 05:05:00,2⃣ konkret na kolejną kadencję zjednoczonej pr...,3.0,5.0,13.0,2023-09-05,...,0.0,1.0,0.0,0.0,4,0.000000,0.000000,1,5,szczepienia
2,1471097328069222402,czarnecki_pis,False,False,2021-12-15 12:38:00,premier morawieckim o antyszczepionkowym wiecu...,1.0,0.0,6.0,2021-12-16,...,2.0,0.0,0.0,0.0,5,0.000000,0.000000,0,5,publiczna opieka zdrowotna
3,1711423497447067865,l_dobrzynski,False,False,2023-10-09 16:48:00,hołownia: jeśli nie dostaniesz się do państwow...,,0.0,3.0,2023-10-10,...,1.0,0.0,0.0,0.0,5,0.666667,0.333333,-1,5,szczepienia
4,1704561973797572778,l_dobrzynski,False,False,2023-09-20 18:23:00,szpital w pyrzycach od miesięcy przechodzi zna...,,0.0,4.0,2023-09-21,...,0.0,0.0,0.0,0.0,5,0.000000,0.000000,1,5,szczepienia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
447,1670999777931132928,tzimoch,False,False,2023-06-20 03:39:00,leki muszą być dostępne‼️ chory na cukrzycę ni...,1.0,28.0,43.0,2023-06-20,...,0.0,0.0,0.0,0.0,5,0.000000,0.000000,0,5,szczepienia
448,1622914274619260928,tzimoch,False,False,2023-02-07 11:04:00,składam wniosek formalny o przerwę i błyskawic...,3.0,14.0,39.0,2023-02-07,...,1.0,0.0,0.0,0.0,5,0.000000,0.000000,0,5,szczepienia
449,1620804000743301120,tzimoch,False,False,2023-02-01 15:19:00,z interwencją poselską w nfz ✌️ dlaczego pomim...,17.0,53.0,124.0,2023-02-02,...,0.0,0.0,0.0,0.0,5,0.000000,0.000000,0,5,szczepienia
450,1567498483493474304,tzimoch,False,False,2022-09-07 13:02:00,w szpitalu w krośnie od trzech tygodni zamknię...,4.0,40.0,65.0,2022-09-08,...,3.0,0.0,0.0,0.0,5,0.000000,0.000000,0,5,szczepienia


In [33]:
tweets = pd.read_csv("data/tweets_bertopic_updated.csv")
tweets['topic_name'].unique()

array([nan, 'imigranci', 'mieszkania', 'gospodarka morska',
       'trzecia droga'], dtype=object)

In [37]:
tweets

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
0,1720011855823765544,trzaskowski_,True,False,2023-11-02 09:35:00,wiadomość prosto od mera kijowa vitaliy_klychk...,457.0,399.0,3461.0,2023-11-02,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,30,
1,1719636816771285367,pomaska,True,False,2023-11-01 08:45:00,pis jest znany z przecinania wstęgi po kilka r...,469.0,224.0,1034.0,2023-11-01,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,8,
2,1718925236274336067,pomaska,True,False,2023-10-30 09:38:00,drastyczny wzrost ceny hurtowej oleju napędowe...,155.0,180.0,562.0,2023-10-30,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,26,
3,1716753316548432358,pomaska,True,False,2023-10-24 09:47:00,transmisja konferencji prasowej opozycji w tvp...,549.0,388.0,3479.0,2023-10-24,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,13,
4,1716756647312277650,trzaskowski_,True,False,2023-10-24 10:00:00,panie prezydencie jaśniej się nie da jest demo...,1137.0,864.0,7150.0,2023-10-24,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,3,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16866,1714553353806426149,m_gdula,False,False,2023-10-18 08:05:00,karolu bardzo dziękuje za twoje zaangażowanie ...,,0.0,2.0,2023-10-18,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,4,
16867,1714553135308341274,m_gdula,False,False,2023-10-18 08:04:00,dziękuje ci serdecznie to bardzo ważne dla mni...,,0.0,1.0,2023-10-18,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,4,
16868,1714552951920820558,m_gdula,False,False,2023-10-18 08:04:00,dziękuje panie franku teraz na pewno trzeba wa...,,0.0,3.0,2023-10-18,...,0.0,0.0,0.0,0.0,5,0.0,0.0,1,4,
16869,1714549182587904069,urbaniak_michal,False,False,2023-10-18 07:49:00,januszu dziękuję za miłe słowa życzę owocnej p...,2.0,0.0,8.0,2023-10-18,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,4,


In [38]:
for index, row in tweets_t5.iterrows():
    tweet_id = row['tweet_id']
    topic_name_5 = row['topic_name']

    tweets.loc[tweets['tweet_id'] == tweet_id, 'topic_name'] = topic_name_5

tweets

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
0,1720011855823765544,trzaskowski_,True,False,2023-11-02 09:35:00,wiadomość prosto od mera kijowa vitaliy_klychk...,457.0,399.0,3461.0,2023-11-02,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,30,
1,1719636816771285367,pomaska,True,False,2023-11-01 08:45:00,pis jest znany z przecinania wstęgi po kilka r...,469.0,224.0,1034.0,2023-11-01,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,8,
2,1718925236274336067,pomaska,True,False,2023-10-30 09:38:00,drastyczny wzrost ceny hurtowej oleju napędowe...,155.0,180.0,562.0,2023-10-30,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,26,
3,1716753316548432358,pomaska,True,False,2023-10-24 09:47:00,transmisja konferencji prasowej opozycji w tvp...,549.0,388.0,3479.0,2023-10-24,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,13,
4,1716756647312277650,trzaskowski_,True,False,2023-10-24 10:00:00,panie prezydencie jaśniej się nie da jest demo...,1137.0,864.0,7150.0,2023-10-24,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,3,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16866,1714553353806426149,m_gdula,False,False,2023-10-18 08:05:00,karolu bardzo dziękuje za twoje zaangażowanie ...,,0.0,2.0,2023-10-18,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,4,
16867,1714553135308341274,m_gdula,False,False,2023-10-18 08:04:00,dziękuje ci serdecznie to bardzo ważne dla mni...,,0.0,1.0,2023-10-18,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,4,
16868,1714552951920820558,m_gdula,False,False,2023-10-18 08:04:00,dziękuje panie franku teraz na pewno trzeba wa...,,0.0,3.0,2023-10-18,...,0.0,0.0,0.0,0.0,5,0.0,0.0,1,4,
16869,1714549182587904069,urbaniak_michal,False,False,2023-10-18 07:49:00,januszu dziękuję za miłe słowa życzę owocnej p...,2.0,0.0,8.0,2023-10-18,...,0.0,0.0,0.0,0.0,4,0.0,0.0,1,4,


In [39]:
tweets['topic_name'].unique()

array([nan, 'szczepienia', 'imigranci', 'publiczna opieka zdrowotna',
       'mieszkania', 'gospodarka morska', 'trzecia droga'], dtype=object)

In [40]:
tweets.to_csv("data/tweets_bertopic_updated.csv")

## Topic 18 & 13

In [67]:
tweets_t18 = tweets[tweets['detected_topic'] == 18]
# tweets_t5.reset_index(drop=True, inplace=True)
tweets_t18

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
1129,1716537636402147645,mhorala,True,False,2023-10-23 19:30:00,jutro bardzo ważne (i dobre) wiadomości dotyczące cpk stay tuned,689.0,394.0,2233.0,2023-10-24,...,2.0,0.0,0.0,0.0,5,0.0,0.0,0,18,
1369,1718926781976105277,sjkaleta,False,False,2023-10-30 09:44:00,tutaj link do pełnego wywiadu: wyborczapl/magazyn/7124059…,12.0,14.0,35.0,2023-10-30,...,3.0,0.0,0.0,0.0,5,0.0,0.0,0,18,
2241,1714021228124528671,dgpopiolek,True,False,2023-10-16 20:51:00,już wiemy na pewno że siłą waszych głosów serial “daria wszędzie naraz” będzie miał drugi sezon bardzo wam dziękuję za zaufanie i mam nadzieję że będziecie śledzić jego fabułę premiera już tej jesieni dgp2023 drugakadencja odwagaitroska poslankacodziennychspraw,81.0,103.0,1896.0,2023-10-17,...,2.0,0.0,0.0,0.0,5,0.0,0.0,1,18,
2431,1641453003302649861,szymon_holownia,False,False,2023-03-30 14:51:00,"już w drodze do krakowa na spotkanie organizowane przez wydawnictwoznak w ""loży"" przy rynku głównym zapraszam jeśli macie czas i ochotę porozmawiamy o nadziei odwadze i wierze w zwycięstwo spotkanie poprowadzi małgorzata bugaj dziennikarka rmf_classic",235.0,55.0,302.0,2023-03-31,...,2.0,0.0,0.0,0.0,4,0.0,0.0,0,18,
2453,1629413408838696960,szymon_holownia,False,False,2023-02-25 09:30:00,doszliśmy do wniosku z kosiniakkamysz że skoro tyle już ze sobą rozmawiamy to może ktoś chciałby posłuchać o czym to chyba pierwszy taki podcast w polsce link do całego odcinka: openspotifycom/episode/2ab…,639.0,108.0,447.0,2023-02-25,...,3.0,0.0,0.0,0.0,5,0.0,0.0,0,18,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14932,1626648661999378432,urbaniak_michal,True,False,2023-02-17 18:23:00,już jutro 18022023 od godziny 12:00 konwencjaprogramowa konfederacja_ śledźcie nasze media społecznościowe już od 11:30 noweotwarcie,3.0,10.0,57.0,2023-02-18,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,18,
14933,1626654339358986274,krzysztofbosak,True,False,2023-02-17 18:46:00,szybka relacja z przygotowań do jutrzejszej konwencji wyborczej konfederacja_ zapraszamy jutro do śledzenia transmisji na żywo na naszych kanałach od 11:30 studio i wywiady a od 12:00 konwencja i po niej ponownie wywiady z liderami noweotwarcie,21.0,20.0,230.0,2023-02-18,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,18,
16003,1387677542862270464,mmzawisza,False,False,2021-04-29 07:58:00,dziś o 12:10 będę gościć w lradiowa w radioopole zapraszam do słuchania,,2.0,25.0,2021-04-29,...,0.0,0.0,0.0,0.0,2,0.0,0.0,0,18,
16149,1706069713078423634,tzimoch,False,False,2023-09-24 22:14:00,szanowna pani redaktor jaka była aktywność 3d a właściwie trzeciejdrogi olbrzymia ma pani rację konferencje prasowe to nie aktywność ale setki kandydatów i setki wspierających wolontariuszy działało na wysokich obrotach💪✌️,,22.0,55.0,2023-09-25,...,1.0,0.0,0.0,0.0,5,0.0,0.0,1,18,


In [68]:
tweets_t13 = tweets[tweets['detected_topic'] == 13]
# tweets_t5.reset_index(drop=True, inplace=True)
tweets_t13

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,detected_topic,topic_name
3,1716753316548432358,pomaska,True,False,2023-10-24 09:47:00,transmisja konferencji prasowej opozycji w tvp info 8 lat tego tam nie grali,549.0,388.0,3479.0,2023-10-24,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,13,
23,1711644403553444282,barbaraanowacka,True,False,2023-10-10 07:26:00,brawo pomaska - skutecznie punktuje kłamstwa pis a przy okazji wspiera fundacjawosp 💪,21.0,102.0,421.0,2023-10-10,...,1.0,0.0,0.0,0.0,4,0.0,0.0,1,13,
49,1713875840272830587,pomaska,False,False,2023-10-16 11:13:00,a co tam w cbos_info słychać cisza jakaś,40.0,27.0,398.0,2023-10-16,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,13,
85,1711429741243187584,pomaska,False,False,2023-10-09 17:13:00,pracownicy tvp chcieli ośmieszyć donaldtusk ośmieszyli samych siebie i całą tę szczujnię na usługach pis utrzymywaną z publicznych pieniędzy debatatvp wszyscyztuskiem,90.0,101.0,587.0,2023-10-10,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,13,
88,1711404834954342830,pomaska,False,False,2023-10-09 15:34:00,szokuje was splot zdarzeń ws debaty w tvp zobaczcie co się działo w mediach publicznych przez ostatnie 8 lat wymazane serduszko wośp awanturujący się sitek paski w tvp wymyślony kreator mody czy „przypadkowy przechodzień”… przypominamy wybryki tvp barbaraanowacka,65.0,277.0,697.0,2023-10-10,...,3.0,0.0,0.0,0.0,2,0.0,0.0,-1,13,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16818,1713971451366101281,pikus_pol,True,False,2023-10-16 17:33:00,zobaczcie jak wygląda poniżanie dziennikarzy tvp 🤬🤬🤬,536.0,389.0,977.0,2023-10-17,...,0.0,0.0,0.0,0.0,0,0.0,0.0,-1,13,
16819,1713169190108983555,radekfogiel,True,False,2023-10-14 12:25:00,halo gazeta_wyborcza co tu się stało dlaczego zniknął tekst z dzisiejszego poranka ktoś kazał usunąć czy to naciski na wolne media,109.0,470.0,1142.0,2023-10-15,...,0.0,0.0,0.0,0.0,5,0.0,0.0,0,13,
16835,1715358514481180687,urbaniak_michal,False,False,2023-10-20 13:25:00,to jak to jest z tą antysystemowością pjj skoro współpracują z pis,25.0,27.0,251.0,2023-10-21,...,0.0,0.0,0.0,0.0,5,0.0,0.0,-1,13,
16849,1714911825404273107,wieczorekdarek,False,False,2023-10-19 07:50:00,no tak swoją drogą czego to jeszcze ten pis nie wymyśli a wystarczy godnie oddać władze jak się przegrało……,3.0,6.0,26.0,2023-10-19,...,0.0,1.0,0.0,0.0,5,0.0,0.0,0,13,


In [69]:
tweets_t13['topic_name'] = 'media publiczne'

In [70]:
tweets.loc[tweets.index.isin(tweets_t13.index), 'topic_name'] = tweets_t13['topic_name'].values
tweets.to_csv("data/tweets_bertopic_updated.csv")

In [71]:
t = pd.read_csv("data/tweets_bertopic_updated.csv")
t['topic_name'].unique()

array([nan, 'media publiczne', 'szczepienia', 'tereny zielone',
       'imigranci', 'publiczna opieka zdrowotna', 'mieszkania',
       'gospodarka morska', 'trzecia droga'], dtype=object)