In [83]:
from classification import analyze_text

In [89]:
import pandas as pd
from tqdm import tqdm

def classify(data_path: str):
    data = pd.read_pickle(f'dane/done/{data_path}.pkl')
    print(f'data length: {len(data)}')

    data['openai_results'] = None

    classification_results = []
    
    for i, row in tqdm(data.iterrows(), total=len(data), desc='Classifying'):

        text = row['text']
        
        try:
            result = analyze_text(text)
            classification_results.append(result)
            data.iat[i, data.columns.get_loc('openai_results')] = result

        except Exception as e:
            print(f"An error occurred: {e}")
            print(classification_results)
            classification_results.append(None)
            continue
        
    data.to_pickle(f'dane/done/{data_path}.pkl')
    print(classification_results)

In [90]:
classify('tweets_with_sentiment_updated')

data length: 19809


Classifying:   0%|          | 0/400 [00:00<?, ?it/s]

Classifying: 100%|██████████| 400/400 [2:17:54<00:00, 20.69s/it]   

['[    {        "text": "na proste pytanie o pakt migracyjny i zaporę na granicy donald tusk pogubił się",        "topic": "Imigranci",        "sentiment": "neutral"    },    {        "text": "nie odpowiedział jakie będzie realizował wizje",        "topic": "brak tematu",        "sentiment": "neutral"    },    {        "text": "skoro nie odpowiedział to znaczy że zrobi to czego chcą niemcy",        "topic": "brak tematu",        "sentiment": "negative"    }]', '[{}]', '[  {    "text": "zawsze działamy z myślą o dobru polaków dlatego twardo bronimy naszych interesów w brukseli nie zgadzamy się na ograniczanie suwerenności na odbieranie nam wolności i decyzyjności na dyktat z zagranicy",    "topic": "Unia Europejska",    "sentiment": "positive"  },  {    "text": "dopóki rządzimy polacy mogą spać spokojnie",    "topic": "bezpieczeństwo narodowe",    "sentiment": "positive"  }]', '[  {    "text": "jako poseł i przewodniczący kw_gov_pl robiłem wszystko by zakończyć dziką reprywatyzację dzię




----

### Tu była zabawa z temp, zignorujcie

In [72]:
classify('tweets_with_sentiment_updated')

data length: 19809


Classifying:   0%|          | 1/501 [00:01<10:05,  1.21s/it]

[{}]


Classifying:   0%|          | 2/501 [00:06<30:39,  3.69s/it]

[    {        "text": "marcinbosacki jerzybuzek to ja dziękuję serdecznie za wsparcie",        "topic": "polityka",        "sentiment": "positive"    }]


Classifying:   1%|          | 3/501 [00:14<44:34,  5.37s/it]

[    {        "text": "dziękuję wszystkim warszawiakom i polonii za to że obdarzyliście mnie tak ogromnym zaufaniem",        "topic": "wybory",        "sentiment": "positive"    }]


Classifying:   1%|          | 4/501 [00:22<55:49,  6.74s/it]

[{"text": "jutro międzynarodowa konferencja o wprowadzaniu na rynek odkryć naukowych z jerzybuzek sejm platforma_org bitly/1nj5evs", "topic": "konferencja naukowa", "sentiment": "neutral"}]


Classifying:   1%|          | 5/501 [00:34<1:09:24,  8.40s/it]

[    {        "text": "jakiej muzyki słuchacie podczas jazdy komunikacją miejską",        "topic": "transport publiczny",        "sentiment": ""    },    {        "text": "polecam: bitly/1paoryh muzyka platforma_org",        "topic": "media",        "sentiment": ""    }]


Classifying:   1%|          | 6/501 [00:38<57:46,  7.00s/it]  

[  {    "text": "książki są lustrem: widzisz w nich tylko to co już masz w sobie -carlos ruiz zafón",    "topic": "literatura",    "sentiment": "neutral"  }]


Classifying:   1%|▏         | 7/501 [00:43<53:25,  6.49s/it]

[  {    "text": "zapraszam na międzynarodowy event ''uczta dla 5000'' przy pl defilad :-)",    "topic": "500plus",    "sentiment": "positive"  }]


Classifying:   2%|▏         | 8/501 [00:47<46:29,  5.66s/it]

[    {        "text": "Antoni Macierewicz odpowiada na manipulacje: prokuratura zakwestionowała wniosek który przywołał TVN",        "topic": "TVP",        "sentiment": "neutral"    }]


Classifying:   2%|▏         | 9/501 [01:02<1:08:24,  8.34s/it]

[  {    "text": "wypłata kwot wskazanych przez etpcz byłaby oczywiście bezprawna i wprost naruszałaby konstytucję z uwagi na orzecznictwo tk przesądzające że etpcz nie ma kognicji do oceny ustroju rp",    "topic": "sądownictwo",    "sentiment": "neutral"  },  {    "text": "stanowisko ms_gov_pl przekazało do msz_rp i w pełni je podtrzymuje",    "topic": "polityka zagraniczna",    "sentiment": "neutral"  }]


Classifying:   2%|▏         | 10/501 [01:12<1:14:52,  9.15s/it]

[  {    "text": "z tej rozmowy właśnie wynika że mec adwokatrosati popiera w pełni plan \"ataku siekierą\" na konstytucję by zrealizować cel polityczny czyli odmówienie sejmom poprzednich kadencji dokonywanie zmian w sądownictwie podważając decyzje prezydenta tk oraz krs",    "topic": "sądownictwo",    "sentiment": "negative"  }]


Classifying:   2%|▏         | 11/501 [01:20<1:11:02,  8.70s/it]

[    {        "text": "na cmentarzu bródnowskim zapaliliśmy znicze romanowi dmowskiemu",        "topic": "Patriotyzm",        "sentiment": "positive"    },    {        "text": "i żołnierzom wyklętym cześć ich pamięci",        "topic": "Prawa człowieka",        "sentiment": "positive"    }]


Classifying:   2%|▏         | 12/501 [01:26<1:03:02,  7.74s/it]

[{"text": "tak wyglądały awanse sędziowskie przed 2018 rokiem", "topic": "sądownictwo", "sentiment": null}]


Classifying:   3%|▎         | 13/501 [01:52<1:48:18, 13.32s/it]

[    {        "text": "konrad szymański powinien w sprawach kpo i relacji z polski z ue co najwyżej milczeć",        "topic": "Unia Europejska",        "sentiment": "negative"    },    {        "text": "on był liderem fatalnych negocjacji budżetowych klimatycznych zgody ma warunkowość i pułapki kpo samobiczował polskę",        "topic": "Unia Europejska",        "sentiment": "negative"    },    {        "text": "negocjując kolejne \"kompromisy\" w sprawie sn de facto uznając kompetencję ue w dziedzinie sądownictwa",        "topic": "Unia Europejska",        "sentiment": "negative"    },    {        "text": "wykuł oręże ke i tuskowi którymi ci skutecznie prowadzili kampanię polityczną w polsce",        "topic": "Unia Europejska",        "sentiment": "negative"    },    {        "text": "wszystkie nasze ostrzeżenia wobec jego strategii i pomysłów się ziściły",        "topic": "Unia Europejska",        "sentiment": "negative"    },    {        "text": "jak widać dalej nie zrozumiał głębi s

Classifying:   3%|▎         | 14/501 [02:05<1:47:57, 13.30s/it]

[{"text": "podałem kwoty netto czyli ile polska traci na całym systemie po odliczeniu zysków sp ktore wydatkowane są na inwestycje w oze oraz przeciwdziałanie podwyżkom cen prądu wywołana obowiązywaniem tego systemu to kuriozum dlatego polska powinna wyjść z ets (wystarczy uchylenie ustawy implementującej dyrektywę)", "topic": "energia jądrowa", "sentiment": "neutral"}]


Classifying:   3%|▎         | 15/501 [02:12<1:31:45, 11.33s/it]

[{"text": "kłamie pan ponieważ w sprawie unijnego budżetu głosowałem przeciw manipuluje pan również znaczeniem przełożenia budżetu na później proponowane akty i tryb ich uchwalania co do których także zawsze jako suwerenna_pol byliśmy przeciw", "topic": "Unia Europejska", "sentiment": "negative"}]


Classifying:   3%|▎         | 16/501 [02:25<1:37:00, 12.00s/it]

[  {    "text": "w tej kolorowej koalicji ma to właśnie wyglądać w ten sposób że jedni nie zgodzą się na obietnice drugich z wzajemnością",    "topic": "koalicja",    "sentiment": "neutral"  },  {    "text": "w ten sposób żadne obietnice nie będą spełniane",    "topic": "obietnice",    "sentiment": "negative"  },  {    "text": "łączy ich jedynie żądza władzy",    "topic": "władza",    "sentiment": "negative"  }]


Classifying:   3%|▎         | 17/501 [02:55<2:18:21, 17.15s/it]

[    {        "text": "tak działa system ets i pakiet klimatyczny ue",        "topic": "Unia Europejska",        "sentiment": "neutral"    },    {        "text": "większość kosztów produkcji cen prądu w polsce to dzisiaj opłata ets",        "topic": "Energia jądrowa",        "sentiment": "neutral"    },    {        "text": "donald tusk i ewa kopacz ustawili pakietem klimatycznym",        "topic": "Unia Europejska",        "sentiment": "neutral"    },    {        "text": "ukryty unijny podatek którego pokrywanie przez polską gospodarkę oznacza że jesteśmy płatnikami netto",        "topic": "Unia Europejska",        "sentiment": "negative"    },    {        "text": "jeśli spojrzymy na podstawowe przepływy finansowe w ue w zeszłym roku kosztował polaków 33 mld złotych netto",        "topic": "Unia Europejska",        "sentiment": "negative"    },    {        "text": "z fitfor55 który opozycja popierała będzie jeszcze gorzej bo jeszcze nie wszedł w życie a zakłada jeszcze ostrzejsze cele",

Classifying:   4%|▎         | 18/501 [03:15<2:26:23, 18.19s/it]

[    {        "text": "konstrukcja spłaty kpo ma być oparta przede wszystkim na odpisie za system ets polska jest największym pokrzywdzonym tym systemem aktualnie odczuwamy skutki pakietu klimatycznego z 2014 roku który wszedł w tym zakresie w 2019 roku (uwolnienie spekulacji na rynku ets) polska płaci najwięcej za funkcjonowanie gospodarki w ramach ets ponieważ nie mamy atomu a nie stać nas na odejście od węgla w takim tempie jakiego oczekuje ue dlatego płacimy będzie tylko gorzej bo system ets został \"podkręcono\" pakietem fitfor55",        "topic": "energia jądrowa",        "sentiment": "neutral"    },    {        "text": "konstrukcja spłaty kpo ma być oparta przede wszystkim na odpisie za system ets polska jest największym pokrzywdzonym tym systemem aktualnie odczuwamy skutki pakietu klimatycznego z 2014 roku który wszedł w tym zakresie w 2019 roku (uwolnienie spekulacji na rynku ets) polska płaci najwięcej za funkcjonowanie gospodarki w ramach ets ponieważ nie mamy atomu a nie st

Classifying:   4%|▍         | 19/501 [03:17<1:47:32, 13.39s/it]

[  {    "text": "odpowiedź może być tylko jedna",    "topic": "wybory",    "sentiment": "neutral"  }]


Classifying:   4%|▍         | 19/501 [03:23<1:26:13, 10.73s/it]


KeyboardInterrupt: 

In [69]:
classify('tweets_with_sentiment_updated')

data length: 19809


Classifying:   0%|          | 1/501 [00:02<24:23,  2.93s/it]

[{"text": "gchlasta dziękuję serdecznie", "topic": "none", "sentiment": "neutral"}]


Classifying:   0%|          | 2/501 [00:06<27:32,  3.31s/it]

[    {        "text": "marcinbosacki jerzybuzek to ja dziękuję serdecznie za wsparcie",        "topic": "none",        "sentiment": "neutral"    }]


Classifying:   1%|          | 3/501 [00:10<28:55,  3.48s/it]

[    {        "text": "dziękuję wszystkim warszawiakom i polonii za to że obdarzyliście mnie tak ogromnym zaufaniem",        "topic": "wybory",        "sentiment": "positive"    }]


Classifying:   1%|          | 4/501 [00:17<42:13,  5.10s/it]

[{"text": "jutro międzynarodowa konferencja o wprowadzaniu na rynek odkryć naukowych z jerzybuzek sejm platforma_org bitly/1nj5evs", "topic": "społeczeństwo", "sentiment": "none"}]


Classifying:   1%|          | 5/501 [00:24<45:34,  5.51s/it]

[    {        "text": "jakiej muzyki słuchacie podczas jazdy komunikacją miejską",        "topic": "transport publiczny",        "sentiment": "none"    },    {        "text": "polecam: bitly/1paoryh muzyka platforma_org",        "topic": "media",        "sentiment": "none"    }]


Classifying:   1%|          | 6/501 [00:29<45:40,  5.54s/it]

[    {        "text": "książki są lustrem: widzisz w nich tylko to co już masz w sobie -carlos ruiz zafón",        "topic": "platforma",        "sentiment": "none"    }]


Classifying:   1%|▏         | 7/501 [00:32<39:04,  4.75s/it]

[    {        "text": "zapraszam na międzynarodowy event ''uczta dla 5000'' przy pl defilad :-)",        "topic": "500plus",        "sentiment": "positive"    }]


Classifying:   2%|▏         | 8/501 [00:37<38:22,  4.67s/it]

[  {    "text": "Antoni Macierewicz odpowiada na manipulacje: prokuratura zakwestionowała wniosek który przywołał TVN",    "topic": "TVP",    "sentiment": "neutral"  }]


Classifying:   2%|▏         | 9/501 [00:48<54:08,  6.60s/it]

[{"text": "wypłata kwot wskazanych przez etpcz byłaby oczywiście bezprawna i wprost naruszałaby konstytucję", "topic": "sądownictwo", "sentiment": "negative"}, {"text": "orzecznictwo tk przesądzające że etpcz nie ma kognicji do oceny ustroju rp", "topic": "sądownictwo", "sentiment": "negative"}, {"text": "stanowisko ms_gov_pl przekazało do msz_rp i w pełni je podtrzymuje", "topic": "rząd", "sentiment": "neutral"}]


Classifying:   2%|▏         | 10/501 [00:56<58:34,  7.16s/it]

[{"text": "z tej rozmowy właśnie wynika że mec adwokatrosati popiera w pełni plan \"ataku siekierą\" na konstytucję by zrealizować cel polityczny czyli odmówienie sejmom poprzednich kadencji dokonywanie zmian w sądownictwie podważając decyzje prezydenta tk oraz krs", "topic": "sądownictwo", "sentiment": "negative"}]


Classifying:   2%|▏         | 10/501 [01:00<49:16,  6.02s/it]


KeyboardInterrupt: 

In [66]:
classify('tweets_with_sentiment_updated')

data length: 19809


Classifying:   0%|          | 1/501 [00:03<33:18,  4.00s/it]

[{"text": "gchlasta dziękuję serdecznie", "topic": "none", "sentiment": "neutral"}]


Classifying:   0%|          | 2/501 [00:07<31:43,  3.81s/it]

[    {        "text": "marcinbosacki jerzybuzek to ja dziękuję serdecznie za wsparcie",        "topic": "none",        "sentiment": "neutral"    }]


Classifying:   1%|          | 3/501 [00:11<33:10,  4.00s/it]

[{"text": "dziękuję wszystkim warszawiakom i polonii za to że obdarzyliście mnie tak ogromnym zaufaniem już po raz piąty", "topic": "wybory", "sentiment": "positive"}]


Classifying:   1%|          | 4/501 [00:19<44:25,  5.36s/it]

[{"text": "jutro międzynarodowa konferencja o wprowadzaniu na rynek odkryć naukowych z jerzybuzek sejm platforma_org bitly/1nj5evs", "topic": "społeczeństwo", "sentiment": "none"}]


Classifying:   1%|          | 5/501 [00:23<40:29,  4.90s/it]

[{"text": "jakiej muzyki słuchacie podczas jazdy komunikacją miejską polecam: bitly/1paoryh muzyka platforma_org", "topic": "media", "sentiment": "none"}]


Classifying:   1%|          | 6/501 [00:27<38:13,  4.63s/it]

[    {        "text": "książki są lustrem: widzisz w nich tylko to co już masz w sobie -carlos ruiz zafón",        "topic": "platforma",        "sentiment": "none"    }]


Classifying:   1%|▏         | 7/501 [00:31<36:08,  4.39s/it]

[{"text": "zapraszam na międzynarodowy event ''uczta dla 5000'' przy pl defilad :-)", "topic": "wośp", "sentiment": "positive"}]


Classifying:   2%|▏         | 8/501 [00:36<37:42,  4.59s/it]

[{"text": "antoni macierewicz odpowiada na manipulacje: prokuratura zakwestionowała wniosek który przywołał tvn więcej na niezaleznapl niezaleznapl niezaleznapl/467227-antoni-…", "topic": "TVP", "sentiment": "neutral"}]


Classifying:   2%|▏         | 8/501 [00:38<39:27,  4.80s/it]


KeyboardInterrupt: 

In [63]:
classify('tweets_with_sentiment_updated')

data length: 19809


Classifying:   0%|          | 0/501 [00:00<?, ?it/s]

Classifying:   0%|          | 1/501 [00:08<1:11:06,  8.53s/it]

[  {    "text": "gchlasta",    "topic": "none",    "sentiment": "neutral"  },  {    "text": "dziękuję serdecznie",    "topic": "none",    "sentiment": "positive"  }]


Classifying:   0%|          | 2/501 [00:14<56:10,  6.76s/it]  

[    {        "text": "marcinbosacki jerzybuzek to ja dziękuję serdecznie za wsparcie",        "topic": "none",        "sentiment": "neutral"    }]


Classifying:   1%|          | 3/501 [00:23<1:05:27,  7.89s/it]

[{"text": "dziękuję wszystkim warszawiakom i polonii", "topic": "społeczeństwo", "sentiment": "positive"}, {"text": "za to że obdarzyliście mnie tak ogromnym zaufaniem", "topic": "wybory", "sentiment": "positive"}]


Classifying:   1%|          | 4/501 [00:34<1:16:00,  9.18s/it]

[  {    "text": "jutro międzynarodowa konferencja o wprowadzaniu na rynek odkryć naukowych",    "topic": "społeczeństwo",    "sentiment": "none"  },  {    "text": "z jerzybuzek sejm platforma_org",    "topic": "platforma",    "sentiment": "none"  }  ]


Classifying:   1%|          | 5/501 [00:43<1:14:07,  8.97s/it]

[  {    "text": "jakiej muzyki słuchacie podczas jazdy komunikacją miejską",    "topic": "transport publiczny",    "sentiment": "none"  },  {    "text": "polecam: bitly/1paoryh muzyka platforma_org",    "topic": "platforma obywatelska",    "sentiment": "positive"  }]


Classifying:   1%|          | 6/501 [00:46<59:29,  7.21s/it]  

[{"text": "książki są lustrem: widzisz w nich tylko to co już masz w sobie -carlos ruiz zafón", "topic": "none", "sentiment": "neutral"}]


Classifying:   1%|▏         | 7/501 [00:50<50:51,  6.18s/it]

[  {    "text": "zapraszam na międzynarodowy event ''uczta dla 5000'' przy pl defilad :-)",    "topic": "500plus",    "sentiment": "positive"  }]


Classifying:   2%|▏         | 8/501 [00:57<51:29,  6.27s/it]

[    {        "text": "Antoni Macierewicz odpowiada na manipulacje: prokuratura zakwestionowała wniosek który przywołał TVN",        "topic": "TVP",        "sentiment": "neutral"    }]


Classifying:   2%|▏         | 8/501 [01:14<1:16:53,  9.36s/it]


KeyboardInterrupt: 

In [52]:
import pandas as pd

data = pd.read_pickle(f'dane/done/tweets_with_sentiment_updated.pkl')
data_temp_02 = data.iloc[2101:2202]

In [54]:
for i in data_temp_02['openai_results']:
    print(i)

[  {    "text": "na proste pytanie o pakt migracyjny i zaporę na granicy donald tusk pogubił się nie odpowiedział jakie będzie realizował wizje skoro nie odpowiedział to znaczy że zrobi to czego chcą niemcy",    "topic": "relokacja",    "sentiment": "negative"  },  {    "text": "na proste pytanie o pakt migracyjny i zaporę na granicy donald tusk pogubił się nie odpowiedział jakie będzie realizował wizje skoro nie odpowiedział to znaczy że zrobi to czego chcą niemcy",    "topic": "granica polsko-białoruska",    "sentiment": "negative"  },  {    "text": "na proste pytanie o pakt migracyjny i zaporę na granicy donald tusk pogubił się nie odpowiedział jakie będzie realizował wizje skoro nie odpowiedział to znaczy że zrobi to czego chcą niemcy",    "topic": "Rosja",    "sentiment": "negative"  },  {    "text": "na proste pytanie o pakt migracyjny i zaporę na granicy donald tusk pogubił się nie odpowiedział jakie będzie realizował wizje skoro nie odpowiedział to znaczy że zrobi to czego chcą

----

In [95]:
import pandas as pd

data = pd.read_pickle('dane/done/tweets_with_sentiment_updated.pkl')
data

Unnamed: 0,tweet_id,username,is_retweet,is_pinned,date,text,replies,retweets,likes,m,...,X,PUNCT,SPACE,SYM,INTJ,topic,TextBlob_Subjectivity,TextBlob_Polarity,sentiment_herbert,openai_results
0,1720011855823765544,trzaskowski_,True,False,2023-11-02 09:35:00,wiadomość prosto od mera kijowa vitaliy_klychk...,457.0,399.0,3461.0,2023-11-02,...,0.0,0.0,0.0,0.0,0.0,4,0.0,0.0,1,"[{""text"": ""wiadomość prosto od mera kijowa vit..."
1,1719636816771285367,pomaska,True,False,2023-11-01 08:45:00,pis jest znany z przecinania wstęgi po kilka r...,469.0,224.0,1034.0,2023-11-01,...,0.0,0.0,0.0,0.0,0.0,5,0.0,0.0,0,"[{""text"": ""pis jest znany z przecinania wstęgi..."
2,1719378456910221417,donaldtusk,True,False,2023-10-31 15:39:00,meldunek od serca,2253.0,2383.0,11381.0,2023-11-01,...,0.0,0.0,0.0,0.0,0.0,4,0.0,0.0,1,"[\n {\n ""text"": ""meldunek od serca"",\n ..."
3,1718925236274336067,pomaska,True,False,2023-10-30 09:38:00,drastyczny wzrost ceny hurtowej oleju napędowe...,155.0,180.0,562.0,2023-10-30,...,0.0,0.0,0.0,0.0,0.0,5,0.0,0.0,0,"[\n {\n ""text"": ""drastyczny wzrost ceny hu..."
4,1716753316548432358,pomaska,True,False,2023-10-24 09:47:00,transmisja konferencji prasowej opozycji w tvp...,549.0,388.0,3479.0,2023-10-24,...,0.0,0.0,0.0,0.0,0.0,5,0.0,0.0,0,"[\n {\n ""text"": ""transmisja konferencji pr..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19804,1714553353806426149,m_gdula,False,False,2023-10-18 08:05:00,karolu bardzo dziękuje za twoje zaangażowanie ...,,0.0,2.0,2023-10-18,...,0.0,0.0,0.0,0.0,0.0,4,0.0,0.0,1,
19805,1714553135308341274,m_gdula,False,False,2023-10-18 08:04:00,dziękuje ci serdecznie to bardzo ważne dla mni...,,0.0,1.0,2023-10-18,...,0.0,0.0,0.0,0.0,0.0,4,0.0,0.0,1,
19806,1714552951920820558,m_gdula,False,False,2023-10-18 08:04:00,dziękuje panie franku teraz na pewno trzeba wa...,,0.0,3.0,2023-10-18,...,0.0,0.0,0.0,0.0,0.0,5,0.0,0.0,1,
19807,1714549182587904069,urbaniak_michal,False,False,2023-10-18 07:49:00,januszu dziękuję za miłe słowa życzę owocnej p...,2.0,0.0,8.0,2023-10-18,...,0.0,0.0,0.0,0.0,0.0,4,0.0,0.0,1,


In [94]:
data[~data['openai_results'].isna()].to_pickle('dane/done/tweets_cutoff.pkl')