In [1]:
import pandas as pd
import numpy as np
import copy
import warnings
import plotly
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
from sklearn import metrics
from sklearn.model_selection import train_test_split
from PIL import Image 
import random
warnings.filterwarnings("ignore")
from tqdm import tqdm
import string

import torch
from torch import nn
from transformers import AutoTokenizer
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
from transformers import AutoModel, AutoModelForSequenceClassification
from transformers import DataCollatorWithPadding

In [2]:
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_rows', None)

# Data

In [3]:
news = pd.read_csv('/kaggle/input/articles-updated/articles_updated.csv', sep='\t')

In [4]:
news.columns

Index(['Web', 'Title', 'Url', 'Datetime', 'Abstract', 'Unnamed: 5'], dtype='object')

In [5]:
news.head()

Unnamed: 0,Web,Title,Url,Datetime,Abstract,Unnamed: 5
0,idnes.cz,PŘEHLEDNĚ: Co nového nás čeká v roce 2023. Za co více zaplatíme i dostaneme,https://www.idnes.cz/zpravy/domaci/cesko-zmeny-v-roce-2023-prehledne.A221230_105559_domaci_knn,2023-01-01,"Česko si zvolí nového prezidenta, na pražském magistrátu usedne nový primátor. Řada lidí bude muset za pohotovostí cestovat do jiného města, statisíce motoristů zase čeká výměna řidičských průkazů. To vše přinese rok 2023. Redakce iDNES.cz přináší přehledně seznam hlavních změn.",
1,idnes.cz,Česko vstoupilo do roku 2023. Zákaz pyrotechniky v centru Prahy nezabral,https://www.idnes.cz/praha/zpravy/silvestr-novy-rok-hasici-policie-zachranna-sluzba-pripravy-vyjezdy-pyrotechnika.A221231_145404_domaci_pitt,2023-01-01,"Česká republika vstoupila do nového roku 2023. Oslavy se konaly na řadě míst, tradičně největší byly v centru Prahy, kde i přes zákaz došlo k odpalování pyrotechniky. Na Václavském náměstí před půlnocí muž kopl do hlavy policistu. Do druhé hodiny ranní zasahovali hasiči u padesátky požárů, záchranáři využili i specializované vozidlo Golem.",
2,idnes.cz,"Hodnocení skončeného předsednictví: Češi uspěli, ale neumí se tím pochlubit",https://www.idnes.cz/zpravy/domaci/ceske-predsednictvi-v-rade-eu-hodnoceni.A221213_104017_domaci_knn,2023-01-01,"Spolu s koncem roku předala Česká republika pomyslné žezlo předsednictví v Radě EU Švédsku. Tím zakončila půl rok, během kterého zodpovídala za její fungování a stála tak „v čele Evropy“. Podle odborníků i politiků, které redakce iDNES.cz oslovila, země v této zkoušce obstála. Úspěchy jsou ale málo vidět a vláda je nedokázala dostatečně „prodat“.",
3,idnes.cz,Kalousek má novou favoritku. Podpořil na Hrad Nerudovou místo Fischera,https://www.idnes.cz/volby/volba-prezidenta-2023-kalousek-podpora-danuse-nerudove.A230101_085308_prezidentske-volby-2023_kop,2023-01-01,"Necelé dva týdny zbývají do volby nové hlavy státu a do tábora přívrženců bývalé rektorky Mendelovy univerzity v Brně Danuše Nerudové veřejně přešel bývalý ministr financí a expředseda TOP 09 Miroslav Kalousek. Dosud přitom podporoval senátora Pavla Fischera, který ale podle Kalouska nemá šanci na postup do druhého kola volby.",
4,idnes.cz,"Zeman udělil Medaili za hrdinství hasiči, který zahynul při požáru roubenky",https://www.idnes.cz/zpravy/domaci/zeman-oceneni-medaile-hasic-pozar-dvorak-in-memoriam.A230101_093737_domaci_bur,2023-01-01,Prezident Miloš Zeman udělil Medaili za hrdinství in memoriam Janu Dvořákovi. Dobrovolný hasič zahynul v listopadu při požáru roubenky v Novém Boru - Arnultovicích.,


# Preproc

In [6]:
news[~news['Unnamed: 5'].isna()]

Unnamed: 0,Web,Title,Url,Datetime,Abstract,Unnamed: 5
2603,ac24.cz,Počet mrtvých při útoku na dněperský byt vzrostl na 44,poradce Zelenského rezignoval,https://www.ac24.cz/zpravy-ze-sveta/pocet-mrtvych-pri-utoku-na-dnepersky-byt-vzrostl-na-44-zelenskeho-poradce-rezignoval/,2023-01-17,"Počet obětí útoku na byt v Dněpru, k němuž došlo v sobotu odpoledne, kdy se odehrávaly poslední víkendové ruské letecké útoky proti ukrajinské energetické infrastruktuře. (Foto: Twitter)"
2774,czechfreepress.cz,BKP: Profesionální lež – nástroj autogenocidy jedince i lidstva,https://www.czechfreepress.cz//vase-free-zona/bkp-profesionalni-lez-nastroj-autogenocidy-jedince-i-lidstva.html,2023-01-16,"„Ďábel je lhář a vrah.“ (J 8,44) „A není divu, vždyť sám satan se převléká za anděla světla","není tedy nic překvapujícího na tom, že se jeho služebníci převlékají za služebníky spravedlnosti. Jejich konec bude jako jejich skutky!“ (2Kor 11,14-15) Čeká je Peklo pak budou psi a čarodějníci, smilníci, vrahové a modláři i každý, kdo miluje a činí lež.“ (Zj 22,15)Komu slouží internet, google, sociální sítě, masmédia? Duchu pravdy, anebo duchu lži? Tvůrci sociálních médií se vyjádřili, že publikovat pravdu je prý pro lidi nudné."


In [7]:
print('The number of articles before processing :',len(news))
news = news[news['Unnamed: 5'].isna()]
print('The number of articles after processing :',len(news))

The number of articles before processing : 2792
The number of articles after processing : 2790


In [8]:
news[news["Abstract"].isna()]

Unnamed: 0,Web,Title,Url,Datetime,Abstract,Unnamed: 5
328,"Řekl to v neděli v pořadu České televize Otázky Václava Moravce. V polovině prosince uvedl i sám prezident, že amnestii do konce svého mandátu nevyhlásí. K vyhlášení amnestie na rozdíl od prezidentské milosti by potřeboval spolupodepsání premiérem.",,,,,
526,"V tajné volbě Svatoně podpořilo 57 z 68 přítomných senátorů. „Chtěl bych velmi poděkovat za projevenou důvěru,“ řekl po zvolení Svatoň.",,,,,
708,"Pronajímatel má ze zákona právo na jednostranné zvýšení nájemného za pronájem bytu. Při zvyšování musí však být dodrženy zákonné podmínky, jakož i případná ujednání obsažená v nájemní smlouvě.",,,,,
1251,"Řekl to v neděli v pořadu České televize Otázky Václava Moravce. V polovině prosince uvedl i sám prezident, že amnestii do konce svého mandátu nevyhlásí. K vyhlášení amnestie na rozdíl od prezidentské milosti by potřeboval spolupodepsání premiérem.",,,,,
1474,lidovky.cz,Hlásíte se z páté třídy na víceleté gymnázium,https://www.lidovky.cz/serialy/gymnazium-patak-prijimaci-zkousky-test-lekce-predmet.A230112_110310_ln_specialy_ape,2023-01-20,,
1475,lidovky.cz,Hlásíte se z deváté třídy na střední školu,https://www.lidovky.cz/serialy/stredni-skola-gymnazium-prijimaci-zkousky-test-nanecisto-lekce.A230112_110519_ln_specialy_ape,2023-01-20,,
1731,"V tajné volbě Svatoně podpořilo 57 z 68 přítomných senátorů. „Chtěl bych velmi poděkovat za projevenou důvěru,“ řekl po zvolení Svatoň.",,,,,
2201,aktualne.cz,ŽIVĚ,,,,
2202,,,,,,
2369,aktualne.cz,ŽIVĚ,,,,


In [9]:
print('the number of articles before processing :',len(news))
news = news.dropna(subset=['Abstract'])
print('The number of articles after processing :',len(news))

the number of articles before processing : 2790
The number of articles after processing : 2779


In [10]:
duplicate_rows = news[news.duplicated()]
print("Duplicate Rows:")
print(duplicate_rows)

Duplicate Rows:
                    Web                                             Title  \
2773  czechfreepress.cz  Za našimi zády se dějí věci, je to smutné čtení…   

                                                                                              Url  \
2773  https://www.czechfreepress.cz//politika/za-nasimi-zady-se-deji-veci-je-to-smutne-cteni.html   

        Datetime  \
2773  2023-01-15   

                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               Abstract  \
2773  Zatímco veřejnost se zabývá prezidentskými volbami, Pětikoalice v jejich stínu usilovně 

In [11]:
print('The number of articles before processing :',len(news))
news = news.drop_duplicates()
print('The number of articles after processing :',len(news))

The number of articles before processing : 2779
The number of articles after processing : 2778


In [12]:
news.reset_index(drop=True, inplace=True)

In [13]:
news = news.drop('Unnamed: 5', axis=1)

In [14]:
news.head()

Unnamed: 0,Web,Title,Url,Datetime,Abstract
0,idnes.cz,PŘEHLEDNĚ: Co nového nás čeká v roce 2023. Za co více zaplatíme i dostaneme,https://www.idnes.cz/zpravy/domaci/cesko-zmeny-v-roce-2023-prehledne.A221230_105559_domaci_knn,2023-01-01,"Česko si zvolí nového prezidenta, na pražském magistrátu usedne nový primátor. Řada lidí bude muset za pohotovostí cestovat do jiného města, statisíce motoristů zase čeká výměna řidičských průkazů. To vše přinese rok 2023. Redakce iDNES.cz přináší přehledně seznam hlavních změn."
1,idnes.cz,Česko vstoupilo do roku 2023. Zákaz pyrotechniky v centru Prahy nezabral,https://www.idnes.cz/praha/zpravy/silvestr-novy-rok-hasici-policie-zachranna-sluzba-pripravy-vyjezdy-pyrotechnika.A221231_145404_domaci_pitt,2023-01-01,"Česká republika vstoupila do nového roku 2023. Oslavy se konaly na řadě míst, tradičně největší byly v centru Prahy, kde i přes zákaz došlo k odpalování pyrotechniky. Na Václavském náměstí před půlnocí muž kopl do hlavy policistu. Do druhé hodiny ranní zasahovali hasiči u padesátky požárů, záchranáři využili i specializované vozidlo Golem."
2,idnes.cz,"Hodnocení skončeného předsednictví: Češi uspěli, ale neumí se tím pochlubit",https://www.idnes.cz/zpravy/domaci/ceske-predsednictvi-v-rade-eu-hodnoceni.A221213_104017_domaci_knn,2023-01-01,"Spolu s koncem roku předala Česká republika pomyslné žezlo předsednictví v Radě EU Švédsku. Tím zakončila půl rok, během kterého zodpovídala za její fungování a stála tak „v čele Evropy“. Podle odborníků i politiků, které redakce iDNES.cz oslovila, země v této zkoušce obstála. Úspěchy jsou ale málo vidět a vláda je nedokázala dostatečně „prodat“."
3,idnes.cz,Kalousek má novou favoritku. Podpořil na Hrad Nerudovou místo Fischera,https://www.idnes.cz/volby/volba-prezidenta-2023-kalousek-podpora-danuse-nerudove.A230101_085308_prezidentske-volby-2023_kop,2023-01-01,"Necelé dva týdny zbývají do volby nové hlavy státu a do tábora přívrženců bývalé rektorky Mendelovy univerzity v Brně Danuše Nerudové veřejně přešel bývalý ministr financí a expředseda TOP 09 Miroslav Kalousek. Dosud přitom podporoval senátora Pavla Fischera, který ale podle Kalouska nemá šanci na postup do druhého kola volby."
4,idnes.cz,"Zeman udělil Medaili za hrdinství hasiči, který zahynul při požáru roubenky",https://www.idnes.cz/zpravy/domaci/zeman-oceneni-medaile-hasic-pozar-dvorak-in-memoriam.A230101_093737_domaci_bur,2023-01-01,Prezident Miloš Zeman udělil Medaili za hrdinství in memoriam Janu Dvořákovi. Dobrovolný hasič zahynul v listopadu při požáru roubenky v Novém Boru - Arnultovicích.


# Tokenizace

In [15]:
bert_uncased_tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

tokenizer_config.json:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

In [16]:
class BertBaseDataset(Dataset):
    def __init__(self, tokenizer, df, text_col, max_len):
        self.tokenizer = tokenizer
        self.texts = df[text_col].values.tolist()
        self.max_len = max_len

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        res = self.tokenizer(
            self.texts[idx],
            return_tensors="pt",
            padding=False,
            truncation=True,
            # return_special_tokens_mask=True,
            max_length=self.max_len,
        )
        res = {k:v[0] for k,v in res.items()}
        return res
    
def dynamic_pad_data_loader(tokenizer, dataset, batch_size, shuffle):
    data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
    
    return DataLoader(
        dataset,
        batch_size=batch_size,
        shuffle=shuffle,
        collate_fn=data_collator
    )

In [17]:
backbone = "nlptown/bert-base-multilingual-uncased-sentiment"
tokenizer = AutoTokenizer.from_pretrained(backbone)

ds = BertBaseDataset(tokenizer, news, "Abstract", None)
dl = dynamic_pad_data_loader(tokenizer, ds, batch_size=32, shuffle=False)

tokenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/872k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

# Sentiment Analyza

In [18]:
model = AutoModelForSequenceClassification.from_pretrained(backbone)
model.eval()

preds = []

with torch.no_grad(), tqdm(total=len(dl)) as pbar:
    for batch in dl:
        output = model(**batch)
        preds.append(output["logits"])
        pbar.update(1)

# Concatenate the logits from all batches
preds = torch.cat(preds, dim=0)

print("Shape of all logits:", preds.shape)

pytorch_model.bin:   0%|          | 0.00/669M [00:00<?, ?B/s]

  0%|          | 0/87 [00:00<?, ?it/s]You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
100%|██████████| 87/87 [10:25<00:00,  7.19s/it]

Shape of all logits: torch.Size([2778, 5])





# Vysledky

In [19]:
preds = preds.softmax(1).numpy()
preds_df = pd.DataFrame(preds, columns=[f"{i+1} stars" for i in range(5)])
preds_df["predicted stars"] = preds.argmax(axis=1) + 1
preds_df.insert(0, "Title", news['Title'])
preds_df.insert(0, "Abstract", news["Abstract"])
preds_df.insert(0, "Datetime", news["Datetime"])
preds_df.insert(0, 'Web', news['Web'])
preds_df.head()

Unnamed: 0,Web,Datetime,Abstract,Title,1 stars,2 stars,3 stars,4 stars,5 stars,predicted stars
0,idnes.cz,2023-01-01,"Česko si zvolí nového prezidenta, na pražském magistrátu usedne nový primátor. Řada lidí bude muset za pohotovostí cestovat do jiného města, statisíce motoristů zase čeká výměna řidičských průkazů. To vše přinese rok 2023. Redakce iDNES.cz přináší přehledně seznam hlavních změn.",PŘEHLEDNĚ: Co nového nás čeká v roce 2023. Za co více zaplatíme i dostaneme,0.088154,0.072447,0.159511,0.369156,0.310732,4
1,idnes.cz,2023-01-01,"Česká republika vstoupila do nového roku 2023. Oslavy se konaly na řadě míst, tradičně největší byly v centru Prahy, kde i přes zákaz došlo k odpalování pyrotechniky. Na Václavském náměstí před půlnocí muž kopl do hlavy policistu. Do druhé hodiny ranní zasahovali hasiči u padesátky požárů, záchranáři využili i specializované vozidlo Golem.",Česko vstoupilo do roku 2023. Zákaz pyrotechniky v centru Prahy nezabral,0.213713,0.120329,0.124306,0.232894,0.308758,5
2,idnes.cz,2023-01-01,"Spolu s koncem roku předala Česká republika pomyslné žezlo předsednictví v Radě EU Švédsku. Tím zakončila půl rok, během kterého zodpovídala za její fungování a stála tak „v čele Evropy“. Podle odborníků i politiků, které redakce iDNES.cz oslovila, země v této zkoušce obstála. Úspěchy jsou ale málo vidět a vláda je nedokázala dostatečně „prodat“.","Hodnocení skončeného předsednictví: Češi uspěli, ale neumí se tím pochlubit",0.317008,0.359434,0.20793,0.082485,0.033143,2
3,idnes.cz,2023-01-01,"Necelé dva týdny zbývají do volby nové hlavy státu a do tábora přívrženců bývalé rektorky Mendelovy univerzity v Brně Danuše Nerudové veřejně přešel bývalý ministr financí a expředseda TOP 09 Miroslav Kalousek. Dosud přitom podporoval senátora Pavla Fischera, který ale podle Kalouska nemá šanci na postup do druhého kola volby.",Kalousek má novou favoritku. Podpořil na Hrad Nerudovou místo Fischera,0.448963,0.300542,0.145913,0.0722,0.032383,1
4,idnes.cz,2023-01-01,Prezident Miloš Zeman udělil Medaili za hrdinství in memoriam Janu Dvořákovi. Dobrovolný hasič zahynul v listopadu při požáru roubenky v Novém Boru - Arnultovicích.,"Zeman udělil Medaili za hrdinství hasiči, který zahynul při požáru roubenky",0.205436,0.065649,0.127099,0.26019,0.341625,5


In [20]:
len(preds_df)

2778

In [21]:
preds_df

Unnamed: 0,Web,Datetime,Abstract,Title,1 stars,2 stars,3 stars,4 stars,5 stars,predicted stars
0,idnes.cz,2023-01-01,"Česko si zvolí nového prezidenta, na pražském magistrátu usedne nový primátor. Řada lidí bude muset za pohotovostí cestovat do jiného města, statisíce motoristů zase čeká výměna řidičských průkazů. To vše přinese rok 2023. Redakce iDNES.cz přináší přehledně seznam hlavních změn.",PŘEHLEDNĚ: Co nového nás čeká v roce 2023. Za co více zaplatíme i dostaneme,0.088154,0.072447,0.159511,0.369156,0.310732,4
1,idnes.cz,2023-01-01,"Česká republika vstoupila do nového roku 2023. Oslavy se konaly na řadě míst, tradičně největší byly v centru Prahy, kde i přes zákaz došlo k odpalování pyrotechniky. Na Václavském náměstí před půlnocí muž kopl do hlavy policistu. Do druhé hodiny ranní zasahovali hasiči u padesátky požárů, záchranáři využili i specializované vozidlo Golem.",Česko vstoupilo do roku 2023. Zákaz pyrotechniky v centru Prahy nezabral,0.213713,0.120329,0.124306,0.232894,0.308758,5
2,idnes.cz,2023-01-01,"Spolu s koncem roku předala Česká republika pomyslné žezlo předsednictví v Radě EU Švédsku. Tím zakončila půl rok, během kterého zodpovídala za její fungování a stála tak „v čele Evropy“. Podle odborníků i politiků, které redakce iDNES.cz oslovila, země v této zkoušce obstála. Úspěchy jsou ale málo vidět a vláda je nedokázala dostatečně „prodat“.","Hodnocení skončeného předsednictví: Češi uspěli, ale neumí se tím pochlubit",0.317008,0.359434,0.20793,0.082485,0.033143,2
3,idnes.cz,2023-01-01,"Necelé dva týdny zbývají do volby nové hlavy státu a do tábora přívrženců bývalé rektorky Mendelovy univerzity v Brně Danuše Nerudové veřejně přešel bývalý ministr financí a expředseda TOP 09 Miroslav Kalousek. Dosud přitom podporoval senátora Pavla Fischera, který ale podle Kalouska nemá šanci na postup do druhého kola volby.",Kalousek má novou favoritku. Podpořil na Hrad Nerudovou místo Fischera,0.448963,0.300542,0.145913,0.0722,0.032383,1
4,idnes.cz,2023-01-01,Prezident Miloš Zeman udělil Medaili za hrdinství in memoriam Janu Dvořákovi. Dobrovolný hasič zahynul v listopadu při požáru roubenky v Novém Boru - Arnultovicích.,"Zeman udělil Medaili za hrdinství hasiči, který zahynul při požáru roubenky",0.205436,0.065649,0.127099,0.26019,0.341625,5
5,idnes.cz,2023-01-01,"Kam se hrabe Babišova žvanírna, Zeman říkal Sněmovně mnohem hůř! Jak chce vláda zmodernizovat výuku oxymóronu v českých školách? Jak pravicová vláda dotuje stamiliony nezávislá média, aby psala správně? A těšíte se na Polčákův návrat? V Malostranském zápisníku píše komentátor MF DNES Miroslav Korecký.",Malostranský zápisník: Se Zemanem končí košilaté označení českých poslanců,0.561323,0.246295,0.107634,0.05151,0.033238,1
6,idnes.cz,2023-01-01,"Prvním dítětem narozeným v letošním roce v Česku je Anička. Přišla na svět v nemocnici ve Šternberku na Olomoucku osm minut po půlnoci. O minutu později se v Ústavu pro péči o matku a dítě v pražském Podolí narodila holčička Timea. Mezi prvními novorozenci v krajích převažují dívky, chlapečků je jen pět.",Prvním miminkem roku je Anička ze Šternberka. Minutu po ní se narodila Timea,0.176296,0.201573,0.1944,0.244075,0.183655,4
7,idnes.cz,2023-01-01,Hasiči v Česku během silvestrovské noci zasahovali u 286 požárů. Je to asi o třetinu víc než loni. Zásahy u požárů také tvořily tři čtvrtiny všech výjezdů hasičů. Záchranáři v krajích pak kromě zranění petardami ošetřovali i oči poraněné při otevírání sektu a opařené dítě.,Požárů na silvestra bylo o třetinu víc než loni. Hasiči zachraňovali i z komína,0.785202,0.121507,0.043305,0.019971,0.030014,1
8,idnes.cz,2023-01-01,"Loňský rok byl na českých silnicích zřejmě druhý nejméně tragický za víc než 60 let. Obětí nehod bylo podle předběžných údajů policie 468, což bylo o dvě nehody méně než o rok dřív.",Obětí nehod ubylo. Loňský rok byl na silnicích jeden z méně tragických,0.645269,0.250444,0.067852,0.018977,0.017458,1
9,idnes.cz,2023-01-01,"S novoročním projevem vystoupil předseda Senátu Miloš Vystrčil z ODS. „Česká republiko, dobrý den,“ zahájil projev stejnými slovy jako před třiceti lety tehdejší šéf Senátu Milan Uhde v den, kdy po rozdělení Československa vznikla samostatná Česká republika. Vystrčil ocenil poklidný způsob rozdělení společného státu Čechů a Slováků před 30 lety.","Postavme se dezinformátorům a populistům, vyzval šéf Senátu Vystrčil",0.183144,0.164758,0.154964,0.23833,0.258804,5


In [22]:
csv_path = "/kaggle/working/preds_abstract_web_bert.csv"

# Save the DataFrame to a CSV file
preds_df.to_csv(csv_path, index=False)