Taking the baseline and building on it, trying to improve it.

In [1]:
# imports
import json
import gzip
import numpy as np
from datetime import datetime
from sklearn.preprocessing import OneHotEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.sparse import hstack
from sklearn.linear_model import Ridge
from sklearn.preprocessing import MultiLabelBinarizer

In [2]:
def read_json(data_path: str) -> list:
    with gzip.open(data_path, 'rt', encoding='utf-8') as f:
        return json.load(f)

In [3]:
def open_json(filename):
    with open(filename, 'r', encoding='utf-8') as file:
        try:
            data = json.load(file)
            print("JSON is valid.")
        except json.JSONDecodeError as e:
            print(f"Invalid JSON: {e}")
    return data

In [4]:
data = open_json("data/rtvslo_train.json")

JSON is valid.


In [5]:
data[0]

{'url': 'https://www.rtvslo.si/sport/kosarka/liga-nba/v-javnost-prisel-nov-posnetek-moranta-s-pistolo/668124',
 'authors': ['T. J.'],
 'date': '2023-05-14T18:17:00',
 'title': 'V javnost prišel nov posnetek Moranta s pištolo',
 'paragraphs': ['Moštvo iz Tennesseeja je ob tem zapisalo, da je Morant suspendiran z vseh klubskih dejavnosti, do preiskave disciplinske komisije Lige NBA pa dogodka ne bo komentiralo. Video je bil sicer medtem že izbrisan. Na njem se Morant vozi na sovoznikovem sedežu, kot je videti, pa v levi roki drži pištolo. Kdaj je posnetek nastal, sicer ni jasno.',
  'Marca je bil že kaznovan, potem ko je objavil posnetek iz nočnega lokala, na njem pa ima v rokah pištolo. Posnetek je nastal v Denverju, kjer je gostoval z Grizliji. Ker pištola ni bila njegova, jo je po preiskavi lige in obljubi, da bo poiskal profesionalno pomoč, odnesel z blažjo kaznijo osmih tekem prepovedi. Komisar lige Adam Silver je tedaj njegovo dejanje označil za neodgovorno, nepremišljeno in nevarn

In [6]:
tii = data[1] # test iteration instance
datetime.strptime(tii["date"].split("T")[0], "%Y-%m-%d").strftime("%A")
tii["date"].split("T")[1].split(":")[0]
tii["url"].split("/")
# tii["topics"]
" ".join(tii["authors"])
np.sqrt(tii["n_comments"])

6.244997998398398

In [7]:
i = 0
for a in data:
    if "topics" not in a.keys():
        continue
        print(i, ":", a)
    elif a["topics"] != a["url"].split("/")[3]:
        print(i, ":", "'topics' in topic v url se ne ujemata!")
        print("'{}' :: '{}'".format(a["topics"], a["url"].split("/")[3]))
        print(a)
    i+=1

In [8]:
# sestavimo prvi del podatkov - dan v tednu, ura, avtorji, topic, subtopic
data_part1 = []

for article in data: # iteriramo cez vse clanke

    # samo datum, kot string
    date_string = article["date"].split("T")[0]
    # dan v tednu iz datuma
    day_of_week = datetime.strptime(date_string, "%Y-%m-%d").strftime("%A")

    # (samo) ura objave članka
    hour = article["date"].split("T")[1].split(":")[0]

    # avtorji
    # authors = " ".join(article["authors"]) # kar zdruzimo v string, da bo encoder lahko sprejel

    #topic
    if "topics" in article.keys():
        # ce ima topic, ga kar direktno vzamemo
        topic = article["topics"] # sem preveril, da je vedno isto, kot v url... - ziher je ziher
    else:
        # ce manjka topic, ga vzamemo iz url-ja
        topic = article["url"].split("/")[3]

    #subtopic (samo prvi)
    subtopic = article["url"].split("/")[4]

    # sestavimo vrstico
    new_row = [
        day_of_week,
        hour,
        # authors,
        topic,
        subtopic
    ]

    data_part1.append(new_row)


# in damo v one-hot encoding
onehotenc = OneHotEncoder(handle_unknown="ignore")
data_part1_enc = onehotenc.fit_transform(data_part1)

In [9]:
data_part1_enc

<20981x4796 sparse matrix of type '<class 'numpy.float64'>'
	with 83924 stored elements in Compressed Sparse Row format>

In [10]:
print(data_part1_enc)

  (0, 3)	1.0
  (0, 25)	1.0
  (0, 37)	1.0
  (0, 1373)	1.0
  (1, 0)	1.0
  (1, 20)	1.0
  (1, 36)	1.0
  (1, 1278)	1.0
  (2, 2)	1.0
  (2, 17)	1.0
  (2, 34)	1.0
  (2, 235)	1.0
  (3, 3)	1.0
  (3, 26)	1.0
  (3, 37)	1.0
  (3, 2150)	1.0
  (4, 6)	1.0
  (4, 15)	1.0
  (4, 34)	1.0
  (4, 546)	1.0
  (5, 2)	1.0
  (5, 27)	1.0
  (5, 37)	1.0
  (5, 2150)	1.0
  (6, 2)	1.0
  :	:
  (20974, 3139)	1.0
  (20975, 6)	1.0
  (20975, 25)	1.0
  (20975, 37)	1.0
  (20975, 3759)	1.0
  (20976, 6)	1.0
  (20976, 24)	1.0
  (20976, 40)	1.0
  (20976, 796)	1.0
  (20977, 6)	1.0
  (20977, 17)	1.0
  (20977, 37)	1.0
  (20977, 3759)	1.0
  (20978, 6)	1.0
  (20978, 27)	1.0
  (20978, 39)	1.0
  (20978, 671)	1.0
  (20979, 6)	1.0
  (20979, 23)	1.0
  (20979, 34)	1.0
  (20979, 1314)	1.0
  (20980, 6)	1.0
  (20980, 29)	1.0
  (20980, 37)	1.0
  (20980, 1373)	1.0


In [11]:
# avtorje posebej onehot encode-amo, ker gre za sezname več avtorjev

data_authors = []

# sestavimo tabelo s seznami avtorjev za vsak clanek
for article in data:
    new_row = article["authors"]
    data_authors.append(new_row)

# z multilabelbinarizer binariziramo sezname
mlb_authors = MultiLabelBinarizer(sparse_output=True) # izhod naj bo sparse matrika
data_authors_onehot = mlb_authors.fit_transform(data_authors)

In [12]:
data_authors

[['T. J.'],
 ['La. Da.'],
 ['Katja Šifkovič', 'Program Ars'],
 ['M. R.'],
 ['P. G.'],
 ['A. G.'],
 ['N. H.'],
 ['Andrej Karoli', 'Val 202'],
 ['M. K.'],
 ['Erna Strniša', 'Radio Slovenija'],
 ['T. K. B.'],
 ['N. H.'],
 ['G. C.'],
 ['Slavko Jerič'],
 ['G. C.'],
 ['T. J.'],
 ['T. O.', 'T. J.'],
 ['N. H.'],
 ['B. V.', 'K. S.'],
 ['G. V.', 'B. V.'],
 ['A. P. J.'],
 ['Niko Hari'],
 ['A. G.'],
 ['Tilen Jamnik'],
 ['Toni Gruden', 'Slavko Jerič'],
 ['A. G.'],
 ['B. V.'],
 ['Larisa Daugul'],
 ['G. C.'],
 ['G. C.'],
 ['Žana E. Čeh'],
 ['A. G.'],
 ['Al. Ma.'],
 ['M. R.'],
 ['To. G.', 'M. R.'],
 ['Niko Hari'],
 ['G. V.', 'B. V.'],
 ['Slavko Jerič'],
 ['G. C.'],
 ['Rok Šuligoj', 'TV Slovenija'],
 ['A. J.'],
 ['G. Pr.'],
 ['N. H.', 'Nataša Uršič', 'Prvi'],
 ['A. G.'],
 ['G. C.'],
 ['J. R.'],
 ['A. J.'],
 ['M. R.'],
 ['Kaja Sajovic'],
 ['T. K. B.'],
 ['Tilen Jamnik'],
 ['J. R.'],
 ['P. G.'],
 ['Peter Kuhar', 'Program Ars'],
 ['T. O.', 'M. R.'],
 ['Al. Ma.'],
 ['B. V.'],
 ['Irena Cunja', 'TV Slovenija

In [13]:
print(data_authors_onehot)
print(data_authors_onehot.shape)

  (0, 427)	1
  (1, 227)	1
  (2, 216)	1
  (2, 365)	1
  (3, 247)	1
  (4, 344)	1
  (5, 5)	1
  (6, 316)	1
  (7, 45)	1
  (7, 499)	1
  (8, 244)	1
  (9, 120)	1
  (9, 381)	1
  (10, 431)	1
  (11, 316)	1
  (12, 131)	1
  (13, 420)	1
  (14, 131)	1
  (15, 427)	1
  (16, 434)	1
  (16, 427)	1
  (17, 316)	1
  (18, 70)	1
  (18, 199)	1
  (19, 70)	1
  :	:
  (20958, 11)	1
  (20959, 98)	1
  (20960, 433)	1
  (20961, 433)	1
  (20962, 98)	1
  (20963, 431)	1
  (20964, 199)	1
  (20965, 431)	1
  (20966, 5)	1
  (20967, 433)	1
  (20968, 431)	1
  (20969, 5)	1
  (20970, 431)	1
  (20971, 245)	1
  (20972, 431)	1
  (20973, 98)	1
  (20974, 199)	1
  (20975, 5)	1
  (20976, 316)	1
  (20977, 99)	1
  (20977, 245)	1
  (20978, 433)	1
  (20979, 367)	1
  (20979, 563)	1
  (20980, 98)	1
(20981, 571)


In [14]:
data_authors_onehot

<20981x571 sparse matrix of type '<class 'numpy.int32'>'
	with 24298 stored elements in Compressed Sparse Row format>

In [15]:
# skupaj zlepimo prejsnje feature in na novo encode-ane avtorje
data_part1_enc = hstack([data_part1_enc, data_authors_onehot])

In [16]:
data_part1_enc

<20981x5367 sparse matrix of type '<class 'numpy.float64'>'
	with 108222 stored elements in Compressed Sparse Row format>

In [17]:
data[0]["keywords"]

['Ja Morant', 'Memphis Grizzlies', 'Liga NBA']

In [18]:
data[0]["gpt_keywords"]

['Jaja Morant',
 'košarka',
 'pištola',
 'Memphis Grizzlies',
 'NBA',
 'suspenz',
 'disciplinska komisija',
 'video',
 'Denver',
 'Grizliji',
 'Adam Silver',
 'terapevt',
 'ESPN',
 'zabijanje',
 'odgovornost',
 'incident',
 'superzvezdnik',
 'strelec',
 'podajalec',
 'končnica']

In [19]:
c = 0
i = 0
for a in data:
    if len(a["gpt_keywords"]) <= 2:
        print(i, ":", a["id"], ":", a)
        print(a["gpt_keywords"])
        print(len(a["gpt_keywords"]))
        c += 1
    i += 1
print(c)

289 : 670550 : {'url': 'https://www.rtvslo.si/sport/kosarka/drzavno-kosarkarsko-prvenstvo/helios-s-preobratom-v-zadnji-cetrtini-izenacil-serijo-proti-olimpiji/670550', 'topics': 'sport', 'authors': ['M. L.'], 'date': '2023-06-03T15:37:00', 'figures': [{'caption': 'Košarkarji Heliosa so ob odlični zadnji četrtini, ki so jo dobili s 24:16, slavili v Stožicah.', 'img': 'https://img.rtvcdn.si/_up/upload/2023/06/03/66088562.jpg', 'source': 'www.alesfevzer.com'}, {'caption': 'Matic Rebec je po izključitvi Yogija Ferrella dobro izkoristil priložnost na paretu, postal je tretji strelec Ljubljančanov.', 'img': 'https://img.rtvcdn.si/_up/upload/2023/06/03/66088561.jpg', 'source': 'www.alesfevzer.com'}], 'lead': 'Košarkarji Heliosa Sunsov so dobili drugo tekmo finala Lige Nove KBM v Stožicah. Cedevito Olimpijo so premagali z 82:81. Tretja tekma serije je na sporedu v četrtek v Domžalah.', 'paragraphs': ['V seriji na tri zmage je uvodni obračun v Domžalah dobila Olimpija z 88:84, tokrat Domžalčani

In [20]:
# enako kot za avtorje naredimo se z gpt_keywords

data_gptkeywords = []

# sestavimo tabelo s seznami gpt keywordov za vsak clanek
for article in data:
    new_row = article["gpt_keywords"]
    data_gptkeywords.append(new_row)

# z multilabelbinarizer binariziramo sezname
mlb_gptkeywords = MultiLabelBinarizer(sparse_output=True) # izhod naj bo sparse matrika
data_gptkeywords_onehot = mlb_gptkeywords.fit_transform(data_gptkeywords)

In [21]:
data_gptkeywords

[['Jaja Morant',
  'košarka',
  'pištola',
  'Memphis Grizzlies',
  'NBA',
  'suspenz',
  'disciplinska komisija',
  'video',
  'Denver',
  'Grizliji',
  'Adam Silver',
  'terapevt',
  'ESPN',
  'zabijanje',
  'odgovornost',
  'incident',
  'superzvezdnik',
  'strelec',
  'podajalec',
  'končnica'],
 ['državni zbor',
  'ocena',
  'efektivnost',
  'seja',
  'zakon',
  'predlog',
  'interpelacija',
  'referendum',
  'civilna družba',
  'koalicija',
  'ovire',
  'opozicija',
  'volivci',
  'legitimnost',
  'sodelovanje',
  'kritike',
  'vodenje',
  'javnost'],
 ['Denis&Denis',
  'roman',
  'Andrej Skubic',
  'kresnik',
  'pisatelj',
  'tehnologija',
  'umetna inteligenca',
  'avatar',
  'metaverzum',
  'introspekcija',
  'glitch',
  'banalnost',
  'moškost',
  'pisateljevanje',
  'odnosi',
  'zakon',
  'starševstvo',
  'jezik',
  'paranoja'],
 ['Benjamin Šeško',
  'avstrijsko prvenstvo',
  'Salzburg',
  'Linz',
  'Austrija',
  'Gradec',
  'Tomi Horvat',
  'Jon Gorenc Stanković',
  'LASK',

In [22]:
data_gptkeywords_onehot

<20981x111424 sparse matrix of type '<class 'numpy.int32'>'
	with 420638 stored elements in Compressed Sparse Row format>

In [23]:
# skupaj zlepimo prejsnje feature in gpt keyworde
data_part1_enc = hstack([data_part1_enc, data_gptkeywords_onehot])

In [24]:
# sestavimo se drugi del podatkov - title in besedilo
data_part2 = []

for article in data: # iteriramo cez vse clanke

    # konkateniramo naslov in vse odstavke
    new_row = article["title"] + " " + " ".join(article["paragraphs"])
    # new_row = " ".join(article["paragraphs"]) # sem probal tudi to, ker to pise na slacku ampak marko mi je na vajah rekel, da je dal tudi title

    data_part2.append(new_row)


# in vektoriziramo
vectorizer = TfidfVectorizer()
data_part2_vect = vectorizer.fit_transform(data_part2)

In [25]:
data_part2

['V javnost prišel nov posnetek Moranta s pištolo Moštvo iz Tennesseeja je ob tem zapisalo, da je Morant suspendiran z vseh klubskih dejavnosti, do preiskave disciplinske komisije Lige NBA pa dogodka ne bo komentiralo. Video je bil sicer medtem že izbrisan. Na njem se Morant vozi na sovoznikovem sedežu, kot je videti, pa v levi roki drži pištolo. Kdaj je posnetek nastal, sicer ni jasno. Marca je bil že kaznovan, potem ko je objavil posnetek iz nočnega lokala, na njem pa ima v rokah pištolo. Posnetek je nastal v Denverju, kjer je gostoval z Grizliji. Ker pištola ni bila njegova, jo je po preiskavi lige in obljubi, da bo poiskal profesionalno pomoč, odnesel z blažjo kaznijo osmih tekem prepovedi. Komisar lige Adam Silver je tedaj njegovo dejanje označil za neodgovorno, nepremišljeno in nevarno. Marca je Morant obiskoval terapevta, pogovoril pa se je tudi s Silverjem. Izvrstni organizator igre, ki navdušuje s svojo eksplozivnostjo in silovitimi zabijanji, je zatem za ESPN dejal, da se zav

In [26]:
data_part2_vect

<20981x276525 sparse matrix of type '<class 'numpy.float64'>'
	with 5867478 stored elements in Compressed Sparse Row format>

In [27]:
# zdruzimo oba dela
data_model = hstack([data_part1_enc, data_part2_vect])

In [28]:
data_model

<20981x393316 sparse matrix of type '<class 'numpy.float64'>'
	with 6396338 stored elements in Compressed Sparse Row format>

In [29]:
# se y oz. stevila komentarjev
ground_truth = []

for article in data:

    # korenimo st komentarjev
    new_row = np.sqrt(article["n_comments"])

    ground_truth.append(new_row)

In [30]:
ground_truth

[8.774964387392123,
 6.244997998398398,
 1.0,
 1.4142135623730951,
 2.6457513110645907,
 2.8284271247461903,
 0.0,
 5.656854249492381,
 1.7320508075688772,
 4.358898943540674,
 4.242640687119285,
 2.23606797749979,
 8.246211251235321,
 6.244997998398398,
 11.916375287812984,
 18.841443681416774,
 26.267851073127396,
 0.0,
 18.110770276274835,
 16.0312195418814,
 5.477225575051661,
 4.123105625617661,
 3.3166247903554,
 5.0,
 13.564659966250536,
 12.569805089976535,
 3.1622776601683795,
 16.97056274847714,
 6.855654600401044,
 3.605551275463989,
 3.4641016151377544,
 6.928203230275509,
 10.63014581273465,
 1.0,
 18.49324200890693,
 6.244997998398398,
 0.0,
 5.744562646538029,
 2.449489742783178,
 7.937253933193772,
 2.0,
 3.0,
 1.0,
 3.4641016151377544,
 8.0,
 0.0,
 2.8284271247461903,
 1.4142135623730951,
 7.14142842854285,
 2.0,
 4.58257569495584,
 1.0,
 8.12403840463596,
 1.0,
 26.229754097208,
 2.23606797749979,
 5.0,
 1.4142135623730951,
 4.123105625617661,
 12.727922061357855,
 0.

In [31]:
# model
model = Ridge()
model.fit(data_model, ground_truth)

In [32]:
# pripravimo test set na isti nacin

test = open_json("data/rtvslo_test.json")
test_part1 = []
test_part2 = []
test_authors = []
test_gptkeywords = []

for article in test:

    # samo datum, kot string
    date_string = article["date"].split("T")[0]
    # dan v tednu iz datuma
    day_of_week = datetime.strptime(date_string, "%Y-%m-%d").strftime("%A")

    # (samo) ura objave članka
    hour = article["date"].split("T")[1].split(":")[0]

    # avtorji
    # authors = " ".join(article["authors"]) # kar zdruzimo v string, da bo encoder lahko sprejel

    #topic
    if "topics" in article.keys():
        # ce ima topic, ga kar direktno vzamemo
        topic = article["topics"] # sem preveril, da je vedno isto, kot v url... - ziher je ziher
    else:
        # ce manjka topic, ga vzamemo iz url-ja
        topic = article["url"].split("/")[3]

    #subtopic (samo prvi)
    subtopic = article["url"].split("/")[4]

    # sestavimo vrstico
    new_row1 = [
        day_of_week,
        hour,
        # authors,
        topic,
        subtopic
    ]

    test_part1.append(new_row1)

    # konkateniramo naslov in vse odstavke
    new_row2 = article["title"] + " " + " ".join(article["paragraphs"])

    test_part2.append(new_row2)

    new_row3 = article["authors"]
    test_authors.append(new_row3)

    new_row4 = article["gpt_keywords"]
    test_gptkeywords.append(new_row4)

# uporabimo isti encoder in vectorizer in mlb-je
test_part1_enc = onehotenc.transform(test_part1)
test_part2_vect = vectorizer.transform(test_part2)
test_authors_onehot = mlb_authors.transform(test_authors)
test_gptkeywords_onehot = mlb_gptkeywords.transform(test_gptkeywords)

test = hstack([test_part1_enc, test_authors_onehot, test_gptkeywords_onehot, test_part2_vect])

JSON is valid.




In [33]:
test_part1_enc

<568x4796 sparse matrix of type '<class 'numpy.float64'>'
	with 2179 stored elements in Compressed Sparse Row format>

In [34]:
test_authors_onehot

<568x571 sparse matrix of type '<class 'numpy.int32'>'
	with 654 stored elements in Compressed Sparse Row format>

In [35]:
test_gptkeywords_onehot

<568x111424 sparse matrix of type '<class 'numpy.int32'>'
	with 9190 stored elements in Compressed Sparse Row format>

In [36]:
test_part2_vect

<568x276525 sparse matrix of type '<class 'numpy.float64'>'
	with 166088 stored elements in Compressed Sparse Row format>

In [37]:
test

<568x393316 sparse matrix of type '<class 'numpy.float64'>'
	with 178111 stored elements in Compressed Sparse Row format>

In [38]:
# predict
predictions = model.predict(test)

# potenciranje, da dobimo iz korenov nazaj st. komentarjev
predictions_submit = []
for p in predictions:
    # predictions_submit.append(p ** 2)
    predictions_submit.append(np.square(p))

# and save
np.savetxt('predictions/predictions.txt', predictions_submit)