In [6]:
import re
import pickle

import spacy
import numpy as np
import pandas as pd

from src.cleaner.model import Cleaner
import plotly.express as px

In [2]:
import plotly.io as pio
pio.renderers.default = "notebook_connected"

In [3]:
df = pd.read_parquet("../data/processed/scrapped_cleaned.gzip")

In [135]:
df.columns

Index(['_id', 'site', 'domain', 'title', 'content', 'date', 'link',
       'title_skipped_because_min_length', 'title_skipped_alpha_count',
       'title_skipped_because_max_numeric',
       'title_skipped_because_max_non_ascii',
       'title_skipped_because_forbidden_chars',
       'content_skipped_because_min_length', 'content_skipped_alpha_count',
       'content_skipped_because_max_numeric',
       'content_skipped_because_max_non_ascii',
       'content_skipped_because_forbidden_chars'],
      dtype='object')

In [136]:
with open("../data/processed/stats/scrapped.pickle", "rb") as o:
    stats = pickle.load(o)

In [41]:
stats

{'title_skipped_because_min_length': array([7714,   75], dtype=uint64),
 'title_skipped_alpha_count': array([  7, 476], dtype=uint64),
 'title_skipped_because_max_numeric': array([  59, 3983], dtype=uint64),
 'title_skipped_because_max_non_ascii': array([0, 0], dtype=uint64),
 'title_skipped_because_forbidden_chars': array([  7, 591], dtype=uint64),
 'content_skipped_because_min_length': array([   9325, 1081111], dtype=uint64),
 'content_skipped_alpha_count': array([    38, 118124], dtype=uint64),
 'content_skipped_because_max_numeric': array([   26, 35149], dtype=uint64),
 'content_skipped_because_max_non_ascii': array([0, 0], dtype=uint64),
 'content_skipped_because_forbidden_chars': array([    63, 213157], dtype=uint64)}

In [42]:
cleaner = Cleaner(columns=["title", "content"])

cleaner.print_stats(stats=stats)


Cleaning statistics:
title Skipped because line length was below minimum (lines/chars): [7714   75]
title Skipped because line had forbidden characters (lines/chars): [  7 591]
title Skipped because alpha count was below minimum (lines/chars): [  7 476]
title Skipped because digit count was above maximum (lines/chars): [  59 3983]
title Skipped because too many non-ascii characters (lines/chars): [0 0]
content Skipped because line length was below minimum (lines/chars): [   9325 1081111]
content Skipped because line had forbidden characters (lines/chars): [    63 213157]
content Skipped because alpha count was below minimum (lines/chars): [    38 118124]
content Skipped because digit count was above maximum (lines/chars): [   26 35149]
content Skipped because too many non-ascii characters (lines/chars): [0 0]


In [137]:
with open("contents.txt", "w") as o:
    o.write("\n\n".join([title for title in df["content"]]))

In [3]:
df

Unnamed: 0,_id,site,domain,title,content,date,link,title_skipped_because_min_length,title_skipped_alpha_count,title_skipped_because_max_numeric,title_skipped_because_max_non_ascii,title_skipped_because_forbidden_chars,content_skipped_because_min_length,content_skipped_alpha_count,content_skipped_because_max_numeric,content_skipped_because_max_non_ascii,content_skipped_because_forbidden_chars
0,621a40c1e811eb1197fac818,https://www.timesnewroman.ro/,monden/,Megan Fox e mai bună în dormitor decât în baie,"Ca să arate că nu este chiar perfectă, Megan F...",2009-10-01 00:00:00+00:00,,"[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]"
1,621a40b7e811eb1197fac810,https://www.timesnewroman.ro/,monden/,,"Un coreean a fost arestat pentru că a violat, ...",2009-09-11 00:00:00+00:00,,"[1, 20]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]"
2,621a40c1e811eb1197fac81f,https://www.timesnewroman.ro/,monden/,Departamentul de scouting de la Radio Zu,Morar și Buzdugan au împrumutat la Radio Zu mo...,2009-09-18 00:00:00+00:00,,"[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]"
3,621a40c1e811eb1197fac822,https://www.timesnewroman.ro/,monden/,,Într-un articol emoționant din ziarul de dumin...,2009-09-14 00:00:00+00:00,,"[1, 5]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]"
4,621a40cbe811eb1197fac824,https://www.timesnewroman.ro/,monden/,,Alina Plugaru mi-a înseninat ziua. Nimic nu cr...,2009-11-01 00:00:00+00:00,,"[1, 25]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
156392,622b3cbc7fed76a032c94043,https://www.digi24.ro/,stiri/externe,Forțele ruse încearcă să încercuiască principa...,Forțele ruse caută să încercuiască principalel...,2022-03-11 10:41:00+00:00,https://www.digi24.ro/stiri/externe/fortele-ru...,"[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]"
156393,622b3cbc7fed76a032c94044,https://www.digi24.ro/,stiri/externe,SUA vor acorda Columbiei statutul de aliat maj...,Președintele american Joe Biden l-a primit joi...,2022-03-11 10:35:00+00:00,https://www.digi24.ro/stiri/externe/sua-vor-ac...,"[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]"
156394,622b3cbc7fed76a032c94045,https://www.digi24.ro/,stiri/externe,Foto O dronă ucraineană de recunoaștere s-a pr...,O dronă ucraineană de recunoaștere s-a prăbuși...,2022-03-11 10:28:00+00:00,https://www.digi24.ro/stiri/externe/o-drona-uc...,"[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]"
156395,622b3cbc7fed76a032c94046,https://www.digi24.ro/,stiri/externe,Noua invenție a propagandei ruse: Păsări migra...,Ministerul rus al Apărării răspândește noi inf...,2022-03-11 10:08:00+00:00,https://www.digi24.ro/stiri/externe/noua-inven...,"[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]","[0, 0]"


In [62]:
line = "- Prima reacție a celor 18.000 de angajați Microsoft în momentul în care au fost anunțați că sunt concediați a fost ”Are you sure you want to fire me? Yes / No / Cancel”;"
r6 = re.compile(r"- ")

r6.sub("", line)

'Prima reacție a celor 18.000 de angajați Microsoft în momentul în care au fost anunțați că sunt concediați a fost ”Are you sure you want to fire me? Yes / No / Cancel”;'

In [109]:
line = "( a)"
a = re.compile(r"\( (.+)\)")
a.sub(r"(\1)", line)

'(a)'

In [111]:
line = "<a asd fds erw red>"
a = re.compile(r"<(.+)>")
a.sub(r"\1", line)

'a asd fds erw red'

In [123]:
line = """
1. În satul Olimpic fiecare se cunoaște cu fiecare, asta și pentru că au numele scrise pe tricouri.
2. Cel mai bogat om din sat e preotul satului Olimpic, fiindcă are o biserică medaliată toată cu aur.
3. Primarul satului olimpic i-a împroprietărit pe țăranii din sat cu loturi olimpice.4. În localitate există și curva satului Olimpic, care face sex cu clanul sportivilor.
5. Țăranii din satul Olimpic au intrat în campanie agricolă și recoltează de pe câmp sulițe, discuri și ciocane.
6. Există o veche rivalitate între satul Olimpic și satul vecin.
7. Principalele canale media sunt postul de radio Antena Satelor Olimpice și emisiunea TV Viața Satului Olimpic .
8. Bătrânii satului Olimpic au o vorbă: Sportivul care e fără de păcat are voie să arunce primul cu sulița.
9. Primarul satului a cerut Comitetului Olimpic ca satul Olimpic să devină municipiu
10. Primarul din satul Olimpic le-a promis sătenilor că dacă va fi reales le va face și un teren de sport.
"""

r6 = re.compile(r"[1-9]+\.")

line = r6.sub("", line)
line = line.replace("\n", '')

line

' În satul Olimpic fiecare se cunoaște cu fiecare, asta și pentru că au numele scrise pe tricouri. Cel mai bogat om din sat e preotul satului Olimpic, fiindcă are o biserică medaliată toată cu aur. Primarul satului olimpic i-a împroprietărit pe țăranii din sat cu loturi olimpice. În localitate există și curva satului Olimpic, care face sex cu clanul sportivilor. Țăranii din satul Olimpic au intrat în campanie agricolă și recoltează de pe câmp sulițe, discuri și ciocane. Există o veche rivalitate între satul Olimpic și satul vecin. Principalele canale media sunt postul de radio Antena Satelor Olimpice și emisiunea TV Viața Satului Olimpic . Bătrânii satului Olimpic au o vorbă: Sportivul care e fără de păcat are voie să arunce primul cu sulița. Primarul satului a cerut Comitetului Olimpic ca satul Olimpic să devină municipiu10. Primarul din satul Olimpic le-a promis sătenilor că dacă va fi reales le va face și un teren de sport.'

In [129]:
line = """
1. O rachetă balistică lansată din Tiraspol ajunge la București în 35 de minute. Calculați înălțimea maximă atinsă. (1 punct.) Estimați numărul de victime. (2 puncte);2. O brigadă de tancuri pleacă din Moscova simultan cu o brigadă care pleacă din Odessa. Desenați un AK-47, tancurile oricum sunt pe drum; (1 punct);3. Se dă o populație în Crimeea. Care este intersecția dintre mulțimea celor care vor anexarea și mulțimea celor deportați în Siberia? (1 punct;)4. Relieful României este:
a.) Favorabil unei invazii pe mare;
b) Favorabil unui desant aerian;
c) E suficient Vasile Ernu;5. Sașa are un lagăr cu 50 de locuri în Siberia. În fiecare zi îi vin 2 prizonieri și îi moare unul. După cât timp va trebui Sașa să mai construiască un lagăr?6. Se dă următorul enunț în limba română: “Ana are mere”. Este adevărat că Ana are mere?
a) Nu știu, eu vorbesc doar limba moldovenească (1 punct;);
b) Da (deportat Siberia).7. Vladimir Putin se află într-o pădure cu 2000 de urși, dar are doar 6 gloanțe pe țeavă. În cât timp va omorî el toți urșii?
a.) Depinde de debitul de apă al pârâului în care îi îneacă (2 puncte);
b) Urșii au fost îndepărtați deja pentru că amenințau drepturile minorității ruse din pădure (1 punct).8. Limba oficială a României este
a) Limba română (0 puncte);
b) Limba maghiară (3 puncte);
c) Davai ceas (9 puncte);9. Versurile “Ce-ți doresc eu ție, dulce Românie” vă sugerează:
a.) Dezmembrarea Poloniei;
b) Invadarea Cehoslovaciei;
c) Cernobîl;10. Primul gulag a fost înființat în 1918 iar KGB-ul a luat ființă în 1954. Calculați vârsta lui Ion Iliescu.* Se acordă o invazie din oficiu
"""

r6 = re.compile(r"[1-9]+\.")
r14 = re.compile(r"\b[a-zA-Z]\.?\)\b")

line = r6.sub("", line)
line = r14.sub("", line)
line = line.replace("\n", '')


line

' O rachetă balistică lansată din Tiraspol ajunge la București în 35 de minute. Calculați înălțimea maximă atinsă. (1 punct.) Estimați numărul de victime. (2 puncte); O brigadă de tancuri pleacă din Moscova simultan cu o brigadă care pleacă din Odessa. Desenați un AK-47, tancurile oricum sunt pe drum; (1 punct); Se dă o populație în Crimeea. Care este intersecția dintre mulțimea celor care vor anexarea și mulțimea celor deportați în Siberia? (1 punct;) Relieful României este:a.) Favorabil unei invazii pe mare;b) Favorabil unui desant aerian;c) E suficient Vasile Ernu; Sașa are un lagăr cu 50 de locuri în Siberia. În fiecare zi îi vin 2 prizonieri și îi moare unul. După cât timp va trebui Sașa să mai construiască un lagăr? Se dă următorul enunț în limba română: “Ana are mere”. Este adevărat că Ana are mere?a) Nu știu, eu vorbesc doar limba moldovenească (1 punct;);b) Da (deportat Siberia). Vladimir Putin se află într-o pădure cu 2000 de urși, dar are doar 6 gloanțe pe țeavă. În cât timp

In [128]:
line = """
Mai multe asociații civice participă, sâmbătă, la o manifestație de solidaritate cu poporul ucrainean în fața Ambasadei Ucrainei la București, potrivit News.ro. S-a scandat ”Ucraina” și ”Zelenski”, fiind intonat imnul țării vecine. Apoi, participanții s-au deplasat la Ambasada Rusiei pentru a protesta față de invadarea Ucrainei și pentru a cere oprirea războiului. Un tânăr a aruncat cu ouă înspre clădirea Ambasadei, fiind luat de jandarmi pentru verificări.
/* (c)AdOcean 2003-2019, thinkdigital_ro.biziday.ro.Allsite.inread */ ado.slave('adoceanthinkdigitalrowpirewlpdy', {myMaster: 'GSn6F4G5Q0eNI0MxfDC.T321AeMGSQbf6B3d2t8hqU3.L7'});
Proteste mult mai ample decât la București au avut loc în alte capitale europene. La Londra, Paris, Nicosia, Berlin, Atena, Helsinki, Madrid și Milano zeci de mii de oameni au defilat cu steaguri ucrainene și cu pancarde împotriva războiului.
Un miting pe care organizatorii l-au estimat la 20.000 de persoane a avut loc în capitala Elveției, Berna, unde steagul ucrainean a fost arborat deasupra sediului consiliului municipal.
/* (c)AdOcean 2003-2019, thinkdigital_ro.biziday.ro.Allsite.rectangle_300x250_2 */ ado.slave('adoceanthinkdigitalrouaniqssjrc', {myMaster: 'GSn6F4G5Q0eNI0MxfDC.T321AeMGSQbf6B3d2t8hqU3.L7'});
În America Latină, protestatarii s-au alăturat mitingurilor de vineri din Argentina, Brazilia, Mexic și Peru, scandând “Trăiască Ucraina”.
La Sidney, câteva sute de oameni au mărșăluit printr-o ploaie torențială, scandând “Ucraina va învinge!”, în timp ce protestatarii de la Tokyo au cerut expulzarea Rusiei din Consiliul de Securitate al Națiunilor Unite.
Surse alternative: Reuters, BBC, News.ro
Echipa Biziday nu a solicitat și nu a acceptat nicio formă de finanțare din fonduri guvernamentale. Spațiile de publicitate sunt limitate, iar reclama neinvazivă.
Dacă îți place ce facem, poți contribui tu pentru susținerea echipei Biziday.
Susține echipa Biziday
Mai multe știri
"""

r6 = re.compile(r"\/\*.+")

line = r6.sub("", line)
line

'\nMai multe asociații civice participă, sâmbătă, la o manifestație de solidaritate cu poporul ucrainean în fața Ambasadei Ucrainei la București, potrivit News.ro. S-a scandat ”Ucraina” și ”Zelenski”, fiind intonat imnul țării vecine. Apoi, participanții s-au deplasat la Ambasada Rusiei pentru a protesta față de invadarea Ucrainei și pentru a cere oprirea războiului. Un tânăr a aruncat cu ouă înspre clădirea Ambasadei, fiind luat de jandarmi pentru verificări.\n\nProteste mult mai ample decât la București au avut loc în alte capitale europene. La Londra, Paris, Nicosia, Berlin, Atena, Helsinki, Madrid și Milano zeci de mii de oameni au defilat cu steaguri ucrainene și cu pancarde împotriva războiului.\nUn miting pe care organizatorii l-au estimat la 20.000 de persoane a avut loc în capitala Elveției, Berna, unde steagul ucrainean a fost arborat deasupra sediului consiliului municipal.\n\nÎn America Latină, protestatarii s-au alăturat mitingurilor de vineri din Argentina, Brazilia, Mexi

In [130]:
line = """
@ZelenskyyUa) February 26,2022
Totuși, un răspuns din partea guvernului de la Ankara care să confirme afirmațiile liderului ucrainean nu a venit încă. Conform Convenției de la Montreux cu privire la statutul strâmtorilor, din 1936, Turcia deține controlul asupra strâmtorilor Bosfor și Dardanele și poate limita trecerea navelor de luptă în timpul războiului sau dacă se simte amenințată.
Vineri, ministrul turc de externe a precizat că nu poate restricționa accesul navelor de război rusești în Marea Neagră prin strâmtorile sale, așa cum a cerut Ucraina, din cauza unei clauze regăsite într-un pact internațional care prevede că navele au dreptul să se întoarcă la bazele militare de unde au fost detașate.
Echipa Biziday nu a solicitat și nu a acceptat nicio formă de finanțare din fonduri guvernamentale. Spațiile de publicitate sunt limitate, iar reclama neinvazivă.
Dacă îți place ce facem, poți contribui tu pentru susținerea echipei Biziday.
Susține echipa Biziday
Mai multe știri

@@@@@@@RALee85 @200_zoka @jpg2t785 @Danspiun @TheDeadDistrict @Rebel44CZ @@
"""

r6 = re.compile(r"@.+")

line = r6.sub("", line)
line

'\n\nTotuși, un răspuns din partea guvernului de la Ankara care să confirme afirmațiile liderului ucrainean nu a venit încă. Conform Convenției de la Montreux cu privire la statutul strâmtorilor, din 1936, Turcia deține controlul asupra strâmtorilor Bosfor și Dardanele și poate limita trecerea navelor de luptă în timpul războiului sau dacă se simte amenințată.\nVineri, ministrul turc de externe a precizat că nu poate restricționa accesul navelor de război rusești în Marea Neagră prin strâmtorile sale, așa cum a cerut Ucraina, din cauza unei clauze regăsite într-un pact internațional care prevede că navele au dreptul să se întoarcă la bazele militare de unde au fost detașate.\nEchipa Biziday nu a solicitat și nu a acceptat nicio formă de finanțare din fonduri guvernamentale. Spațiile de publicitate sunt limitate, iar reclama neinvazivă.\nDacă îți place ce facem, poți contribui tu pentru susținerea echipei Biziday.\nSusține echipa Biziday\nMai multe știri\n\n\n'

In [132]:
line = """
Ambasada Rusiei în Franța a solicitat explicații din partea autorităților de la Paris cu privire la oprirea navei de marfă.
Statele membre UE au convenit vineri să înghețe activele europene ale președintelui rus Vladimir Putin și ale lui Serghei Lavrov, ministrul de Externe al Rusiei. Anterior, atât UE cât și SUA au anunțat un set de sancțiuni economice care vizează mai multe persoane și companii rusești, ca răspuns la invazia Ucrainei.
Surse alternative: Sky News, Reuters
Echipa Biziday nu a solicitat și nu a acceptat nicio formă de finanțare din fonduri guvernamentale. Spațiile de publicitate sunt limitate, iar reclama neinvazivă.
Dacă îți place ce facem, poți contribui tu pentru susținerea echipei Biziday.
Susține echipa Biziday
Mai multe știri
"""

r17 = re.compile(r"Surse alternative:.+")

line = line.replace("Mai multe știri", " ")
line = line.replace("Susține echipa Biziday", " ")
line = line.replace(
    "Dacă îți place ce facem, poți contribui tu pentru susținerea echipei Biziday.", " "
)
line = line.replace(
    "Echipa Biziday nu a solicitat și nu a acceptat nicio"
    + " formă de finanțare din fonduri guvernamentale. Spațiile de publicitate sunt limitate, iar reclama neinvazivă.",
    " ",
)
r17.sub("", line)

'\nAmbasada Rusiei în Franța a solicitat explicații din partea autorităților de la Paris cu privire la oprirea navei de marfă.\nStatele membre UE au convenit vineri să înghețe activele europene ale președintelui rus Vladimir Putin și ale lui Serghei Lavrov, ministrul de Externe al Rusiei. Anterior, atât UE cât și SUA au anunțat un set de sancțiuni economice care vizează mai multe persoane și companii rusești, ca răspuns la invazia Ucrainei.\n\n \n \n \n \n'

REZULTATE BACALAUREAT

REZULTATE EVALUARE NAȚIONALĂ

Rezultate Admitere Liceu

Prezența la vot în județul

Răspuns: 


In [3]:
from wordcloud import WordCloud
import time
import advertools as adv

wc = WordCloud(background_color = 'white', width = 3840, height = 2160)

Min date: Timestamp('2007-03-29 00:00:00+0000', tz='UTC')

In [4]:
stop_words = adv.stopwords["romanian"]
stop_words.add("însă")
stop_words.add("și")
stop_words.add("şi")
stop_words.add("Şi")
stop_words.add("de")
stop_words.add("cu")
stop_words.add("în")
stop_words.add("din")
stop_words.add("spune")
stop_words.add("spus")
stop_words.add("trebuie")
stop_words.add("într o")
stop_words.add("într un")
stop_words.add("făcut")
stop_words.add("dacă")
stop_words.add("așa")
stop_words.add("s au")
stop_words.add("într")


Wordcloud for all data

In [225]:
time_ = pd.Timestamp("2010-01-01 00:00:00+0000", tz="UTC")
year = pd.Timedelta(days=366)
while time_ < pd.Timestamp.utcnow():
    sentences = ""
    for sentence in df[(df.date > time_) & (df.date <= time_ + year)]["content"]:
        sentences += sentence
    for stop_word in stop_words:
        sentences = re.sub(fr"\b({stop_word})\b", " ", sentences, flags=re.I)
    sentences = re.sub(r"\b[a-zA-Z1-9]\b", " ", sentences, flags=re.I)
    sentences = re.sub(r"\bs\b", " ", sentences)
    sentences = re.sub(r"\bS\b", " ", sentences)
    sentences = re.sub(" +", " ", sentences).strip()

    wc.generate_from_text(sentences)
    num_words = len(sentences.split(" "))
    wc.to_file(f"content_{time_}_{num_words}.png")
    time_ += year


Wordcloud for fake/valid data splitted

In [None]:
time_ = pd.Timestamp("2010-01-01 00:00:00+0000", tz="UTC")
year = pd.Timedelta(days=366)
while time_ < pd.Timestamp.utcnow():
    sentences = ""
    for sentence in df[
        (df.date > time_) & (df.date <= time_ + year) & (df.site == "https://www.timesnewroman.ro/")
    ]["content"]:
        sentences += sentence
    for stop_word in stop_words:
        sentences = re.sub(fr"\b({stop_word})\b", " ", sentences, flags=re.I)
    sentences = re.sub(r"\b[a-zA-Z1-9]\b", " ", sentences, flags=re.I)
    sentences = re.sub(r"\bs\b", " ", sentences)
    sentences = re.sub(r"\bS\b", " ", sentences)
    sentences = re.sub(" +", " ", sentences).strip()

    wc.generate_from_text(sentences)
    num_words = len(sentences.split(" "))
    wc.to_file(f"content_{time_}_{num_words}_fake.png")
    time_ += year

In [5]:
time_ = pd.Timestamp("2010-01-01 00:00:00+0000", tz="UTC")
year = pd.Timedelta(days=366)
while time_ < pd.Timestamp.utcnow():
    sentences = ""
    for sentence in df[
        (df.date > time_) & (df.date <= time_ + year) & (df.site != "https://www.timesnewroman.ro/")
    ]["content"]:
        sentences += sentence
    for stop_word in stop_words:
        sentences = re.sub(fr"\b({stop_word})\b", " ", sentences, flags=re.I)
    sentences = re.sub(r"\b[a-zA-Z1-9]\b", " ", sentences, flags=re.I)
    sentences = re.sub(r"\bs\b", " ", sentences)
    sentences = re.sub(r"\bS\b", " ", sentences)
    sentences = re.sub(" +", " ", sentences).strip()
    if sentences != "":
        wc.generate_from_text(sentences)
        num_words = len(sentences.split(" "))
        wc.to_file(f"content_{time_}_{num_words}_valid.png")
    time_ += year



In [229]:
from stop_words import get_stop_words
stop_words = get_stop_words('ro')
len(stop_words)

274

In [213]:
sentences = """
1. În satul Olimpic fiecare se cunoaște cu fiecare, asta și pentru că au numele scrise pe tricouri.
2. Cel mai bogat om din sat e preotul satului Olimpic, fiindcă are o biserică medaliată toată cu aur.
3. Primarul satului olimpic i-a împroprietărit pe țăranii din sat cu loturi olimpice.
4. În localitate există și curva satului Olimpic, care face sex cu clanul sportivilor.
5. Țăranii din satul Olimpic au intrat în campanie agricolă și recoltează de pe câmp sulițe, discuri și ciocane.
6. Există o veche rivalitate între satul Olimpic și satul vecin.
7. Principalele canale media sunt postul de radio Antena Satelor Olimpice și emisiunea TV Viața Satului Olimpic .
8. Bătrânii satului Olimpic au o vorbă: Sportivul care e fără de păcat are voie să arunce primul cu sulița.
9. Primarul satului a cerut Comitetului Olimpic ca satul Olimpic să devină municipiu
10. Primarul din satul Olimpic le-a promis sătenilor că dacă va fi reales le va face și un teren de sport.
"""
for stop_word in stop_words:
    sentences = re.sub(fr" {stop_word} ", " ", sentences, flags=re.I)


In [214]:
sentences

'\n1. satul Olimpic cunoaște fiecare, numele scrise tricouri.\n2. bogat om sat preotul satului Olimpic, fiindcă biserică medaliată aur.\n3. Primarul satului olimpic i-a împroprietărit țăranii sat loturi olimpice.4. localitate există curva satului Olimpic, sex clanul sportivilor.\n5. Țăranii satul Olimpic intrat campanie agricolă recoltează câmp sulițe, discuri ciocane.\n6. Există veche rivalitate satul Olimpic satul vecin.\n7. Principalele canale media postul radio Antena Satelor Olimpice emisiunea TV Viața Satului Olimpic .\n8. Bătrânii satului Olimpic vorbă: Sportivul păcat voie arunce sulița.\n9. Primarul satului cerut Comitetului Olimpic satul Olimpic devină municipiu\n10. Primarul satul Olimpic le-a promis sătenilor reales teren sport.\n'

In [191]:
sentences = "Ana are mere multe si pere faine si la ana la sda la "
for stop_word in stop_words:
    sentences = re.sub(fr"\b{stop_word}\b", "", sentences)

sentences

'Ana  mere   pere faine   ana  sda  '

In [None]:
sentences = "Ana are mere multe si pere faine si la la la"

for stop_word in adv.stopwords["romanian"]:
    sentences = re.sub(fr" {stop_word} "," ", sentences)

sentences

https://monkeylearn.com/text-analysis/

plot the count of news by domain (for fake/valid news and both)

In [4]:
domain_number = []

for domain in df["domain"].unique():
    domain_number.append(
        {
            "domain": domain,
            "length": len(df[df.domain == domain]),
            "type": "valid" if ("stiri" in domain) or ("" == domain) else "fake",
        }
    )


fig = px.histogram(domain_number, x="domain", y="length", color="type", text_auto=".2s")
fig.show()


In [17]:
domain_number = []
time_ = pd.Timestamp("2010-01-01 00:00:00+0000", tz="UTC")
year = pd.Timedelta(days=366)
while time_ < pd.Timestamp.utcnow():
    df_ = df[(df.date > time_) & (df.date <= time_ + year)]
    for domain in df["domain"].unique():
        domain_number.append(
            {
                "domain": domain,
                "length": len(df_[df_.domain == domain]),
                "type": "valid" if ("stiri" in domain) or ("" == domain) else "fake",
                "year": time_,
            }
        )
    time_ += year


fig = px.histogram(domain_number, x="domain", y="length", color="year", text_auto=".2s")
fig.show()


word count by domain

In [15]:
domain_word_count = []
for domain in df["domain"].unique():
    word_count: int = 0
    for news in df[df.domain == domain]["content"]:
        word_count += len(news.split(" "))
    domain_word_count.append(
        {
            "domain": domain,
            "word_count": word_count,
            "type": "valid" if ("stiri" in domain) or ("" == domain) else "fake",
        }
    )


fig = px.histogram(domain_word_count, x="domain", y="word_count", color="type", text_auto=".2s")
fig.show()


In [18]:
domain_number = []
time_ = pd.Timestamp("2010-01-01 00:00:00+0000", tz="UTC")
year = pd.Timedelta(days=366)
while time_ < pd.Timestamp.utcnow():
    df_ = df[(df.date > time_) & (df.date <= time_ + year)]
    for domain in df["domain"].unique():
        word_count: int = 0
        for news in df_[df_.domain == domain]["content"]:
            word_count += len(news.split(" "))
        domain_number.append(
            {
                "domain": domain,
                "word_count": word_count,
                "type": "valid" if ("stiri" in domain) or ("" == domain) else "fake",
                "year": time_,
            }
        )
    time_ += year


fig = px.histogram(domain_number, x="domain", y="word_count", color="year", text_auto=".2s")
fig.show()


sentence count by domain

In [19]:
domain_sentence_count = []
for domain in df["domain"].unique():
    sentence_count: int = 0
    for news in df[df.domain == domain]["content"]:
        sentence_count += len(news.split("."))
    domain_sentence_count.append(
        {
            "domain": domain,
            "sentence_count": sentence_count,
            "type": "valid" if ("stiri" in domain) or ("" == domain) else "fake",
        }
    )


fig = px.histogram(
    domain_sentence_count, x="domain", y="sentence_count", color="type", text_auto=".2s"
)
fig.show()


In [20]:
domain_sentence_count = []
time_ = pd.Timestamp("2010-01-01 00:00:00+0000", tz="UTC")
year = pd.Timedelta(days=366)
while time_ < pd.Timestamp.utcnow():
    df_ = df[(df.date > time_) & (df.date <= time_ + year)]
    for domain in df["domain"].unique():
        sentence_count: int = 0
        for news in df_[df_.domain == domain]["content"]:
            sentence_count += len(news.split("."))
        domain_sentence_count.append(
            {
                "domain": domain,
                "sentence_count": sentence_count,
                "type": "valid" if ("stiri" in domain) or ("" == domain) else "fake",
                "year": time_,
            }
        )
    time_ += year


fig = px.histogram(
    domain_sentence_count, x="domain", y="sentence_count", color="year", text_auto=".2s"
)
fig.show()


In [27]:
years = [domain["year"] for domain in domain_sentence_count]
fig = px.bar(domain_sentence_count, x="domain", y="sentence_count", color="domain", barmode="group",
             facet_row="domain", facet_col="year",
             category_orders={"day": [time_ ],
                              "domain": ["fake", "valid"]})
fig.show()

average word length by domain

In [23]:
domain_word_count = []
for domain in df["domain"].unique():
    word_count: list[int] = []
    for news in df[df.domain == domain]["content"]:
        word_count.append(np.mean([len(news) for news in  news.split(" ")]))
    domain_word_count.append(
        {
            "domain": domain,
            "word_length_average": np.mean(word_count),
            "type": "valid" if ("stiri" in domain) or ("" == domain) else "fake",
        }
    )


fig = px.histogram(
    domain_word_count, x="domain", y="word_length_average", color="type", text_auto=".2s"
)
fig.show()


average sentence length by domain

In [26]:
domain_word_count = []
for domain in df["domain"].unique():
    sentence_average: list[int] = []
    for news in df[df.domain == domain]["content"]:
        sentence_average.append(np.mean([len(news) for news in  news.split(".")]))
    domain_word_count.append(
        {
            "domain": domain,
            "sentence_length_average": np.mean(sentence_average),
            "type": "valid" if ("stiri" in domain) or ("" == domain) else "fake",
        }
    )


fig = px.histogram(
    domain_word_count, x="domain", y="sentence_length_average", color="type", text_auto=".2s"
)
fig.show()


sentiment analysis per domains

```
pip install -U pip setuptools wheel
pip install -U 'spacy[cuda113]'
python -m spacy ro_core_news_sm
```

NER by domain

In [88]:
nlp = spacy.load("ro_core_news_sm")

domain_word_count1 = []
for domain in df["domain"].unique():
    ner_object_frequecy: dict[str, int] = {}
    ner_tag_object: dict[str, list[str]] = {}

    print(domain)

    for news in tqdm.tqdm(df[df.domain == domain]["content"]):
        doc = nlp(news)
        for ent in doc.ents:

            if ent.text not in ner_object_frequecy.keys():
                ner_object_frequecy[ent.text] = 1
            else:
                ner_object_frequecy[ent.text] += 1

            if ent.label_ not in ner_tag_object.keys():
                ner_tag_object[ent.label_] = [ent.text]
            else:
                ner_tag_object[ent.label_].append(ent.text)
    domain_word_count1.append(
        {
            "domain": domain,
            "ner_object_frequecy": ner_object_frequecy,
            "ner_tag_object": ner_tag_object,
            "type": "valid" if ("stiri" in domain) or ("" == domain) else "fake",
        }
    )


monden/


 78%|███████▊  | 4956/6360 [06:01<01:35, 14.75it/s]

In [None]:
import gzip
import pickle
with gzip.open("../models/pickles/ner_per_domain.gzip", "wb") as o:
    pickle.dump(domain_word_count1, o)

In [None]:
# import pickle
# with open("../models/pickles/ner_per_domain.pickle", "wb") as o:
#     pickle.dump(domain_word_count, o)

In [43]:
domains = []
for domain in domain_word_count:
    for tag in domain["ner_tag_object"]:
        domains.append(
            {
                "domain": domain["domain"],
                "type": domain["type"],
                "tag": tag,
                "tag_length": len(domain["ner_tag_object"][tag]),
            }
        )
        
fig = px.histogram(
    domains, x="tag", y="tag_length", color="domain", text_auto=".2s"
)
fig.show()

In [46]:
domains = []
for domain in domain_word_count:
    for tag in domain["ner_tag_object"]:
        domains.append(
            {
                "domain": domain["domain"],
                "type": domain["type"],
                "tag": tag,
                "tag_length": len(domain["ner_tag_object"][tag]),
            }
        )
        
fig = px.histogram(
    domains, x="domain", y="tag_length", color="tag", text_auto=".2s"
)
fig.show()

In [47]:
domains = []
for domain in domain_word_count:
    for tag in domain["ner_tag_object"]:
        domains.append(
            {
                "domain": domain["domain"],
                "type": domain["type"],
                "tag": tag,
                "tag_length": len(domain["ner_tag_object"][tag]),
            }
        )
        
fig = px.histogram(
    domains, x="domain", y="tag_length", color="tag", text_auto=".2s", barmode='group'
)
fig.show()

In [70]:
domains = []
for domain in domain_word_count:
    sorted_tags = dict(sorted(domain["ner_object_frequecy"].items(), key=lambda item: item[1],  reverse=True))
    index: int = 10

    for word in sorted_tags:
        domains.append(
            {
                "domain": domain["domain"],
                "type": domain["type"],
                "word": word,
                "word_freq": domain["ner_object_frequecy"][word],
            }
        )
        index -= 1
        if index == 0:
            break

fig = px.histogram(
    domains, x="domain", y="word_freq", color="word", text_auto=".2s"
)
fig.show()

In [73]:
domains = []
for domain in domain_word_count:
    sorted_tags = dict(
        sorted(domain["ner_object_frequecy"].items(), key=lambda item: item[1], reverse=True)
    )
    index: int = 10

    for word in sorted_tags:
        tag_: str = ""
        for tag in domain["ner_tag_object"]:
            if word in domain["ner_tag_object"][tag]:
                tag_ = tag
                break

        domains.append(
            {
                "domain": domain["domain"],
                "type": domain["type"],
                "word": word,
                "word_freq": domain["ner_object_frequecy"][word],
                "tag": tag_,
            }
        )
        index -= 1
        if index == 0:
            break


fig = px.histogram(
    domains, x="domain", y="word_freq", color="word", text_auto=".2s", barmode='group'
)
fig.show()

In [74]:
domains = []
for domain in domain_word_count:
    sorted_tags = dict(
        sorted(domain["ner_object_frequecy"].items(), key=lambda item: item[1], reverse=True)
    )
    index: int = 10

    for word in sorted_tags:
        tag_: str = ""
        for tag in domain["ner_tag_object"]:
            if word in domain["ner_tag_object"][tag]:
                tag_ = tag
                break

        domains.append(
            {
                "domain": domain["domain"],
                "type": domain["type"],
                "word": word,
                "word_freq": domain["ner_object_frequecy"][word],
                "tag": tag_,
            }
        )
        index -= 1
        if index == 0:
            break

fig = px.histogram(domains, x="domain", y="word_freq", color="tag", text_auto=".2s", barmode='group')
fig.show()

In [26]:
# import pickle
# with open("../models/pickles/ner_per_domain.pickle", "wb") as o:
#     pickle.dump(domain_word_count, o)

In [27]:
# import gzip
# import pickle
# with gzip.open("../models/pickles/ner_per_domain.gzip", "wb") as o:
    # pickle.dump(domain_word_count, o)

N-grams

keyword extraction

TF-IDF

POS

In [75]:
import tqdm

In [78]:
nlp = spacy.load("ro_core_news_sm")

domain_word_count = []
for domain in df["domain"].unique():
    print(domain)
    pos_object_frequecy: dict[str, int] = {}
    pos_tag_object: dict[str, list[str]] = {}

    for news in tqdm.tqdm(df[df.domain == domain]["content"]):
        doc = nlp(news)
        for ent in doc:

            if ent.text not in pos_object_frequecy.keys():
                pos_object_frequecy[ent.text] = 1
            else:
                pos_object_frequecy[ent.text] += 1

            if ent.pos_ not in pos_tag_object.keys():
                pos_tag_object[ent.pos_] = [ent.text]
            else:
                pos_tag_object[ent.pos_].append(ent.text)
    domain_word_count.append(
        {
            "domain": domain,
            "pos_object_frequecy": pos_object_frequecy,
            "pos_tag_object": pos_tag_object,
            "type": "valid" if ("stiri" in domain) or ("" == domain) else "fake",
        }
    )


monden/


100%|██████████| 6360/6360 [07:40<00:00, 13.80it/s]


it-stiinta/


100%|██████████| 1503/1503 [02:02<00:00, 12.31it/s]


sport/


100%|██████████| 1167/1167 [01:34<00:00, 12.41it/s]


politic/


100%|██████████| 5209/5209 [06:03<00:00, 14.35it/s]


life-death/


100%|██████████| 6264/6264 [06:43<00:00, 15.51it/s]





100%|██████████| 2772/2772 [04:42<00:00,  9.82it/s]


stiri/economie


100%|██████████| 19362/19362 [34:28<00:00,  9.36it/s] 


stiri/externe


100%|██████████| 26892/26892 [45:12<00:00,  9.91it/s]  


stiri/actualitate


100%|██████████| 40760/40760 [1:10:44<00:00,  9.60it/s]


stiri/actualitate/politica


100%|██████████| 32783/32783 [57:27<00:00,  9.51it/s]  


stiri/sport


100%|██████████| 3404/3404 [06:14<00:00,  9.09it/s]


stiri/sci-tech


100%|██████████| 2208/2208 [04:19<00:00,  8.51it/s]


In [81]:
# import gzip
# import pickle
# with gzip.open("../models/pickles/pos_per_domain.gzip", "wb") as o:
#     pickle.dump(domain_word_count, o)

In [82]:
domains = []
for domain in domain_word_count:
    for tag in domain["pos_tag_object"]:
        domains.append(
            {
                "domain": domain["domain"],
                "type": domain["type"],
                "tag": tag,
                "tag_length": len(domain["pos_tag_object"][tag]),
            }
        )
        
fig = px.histogram(
    domains, x="tag", y="tag_length", color="domain", text_auto=".2s"
)
fig.show()

In [83]:
domains = []
for domain in domain_word_count:
    for tag in domain["pos_tag_object"]:
        domains.append(
            {
                "domain": domain["domain"],
                "type": domain["type"],
                "tag": tag,
                "tag_length": len(domain["pos_tag_object"][tag]),
            }
        )
        
fig = px.histogram(
    domains, x="domain", y="tag_length", color="tag", text_auto=".2s"
)
fig.show()

In [84]:
domains = []
for domain in domain_word_count:
    for tag in domain["pos_tag_object"]:
        domains.append(
            {
                "domain": domain["domain"],
                "type": domain["type"],
                "tag": tag,
                "tag_length": len(domain["pos_tag_object"][tag]),
            }
        )
        
fig = px.histogram(
    domains, x="domain", y="tag_length", color="tag", text_auto=".2s", barmode='group'
)
fig.show()

In [85]:
domains = []
for domain in domain_word_count:
    sorted_tags = dict(sorted(domain["pos_object_frequecy"].items(), key=lambda item: item[1],  reverse=True))
    index: int = 10

    for word in sorted_tags:
        domains.append(
            {
                "domain": domain["domain"],
                "type": domain["type"],
                "word": word,
                "word_freq": domain["pos_object_frequecy"][word],
            }
        )
        index -= 1
        if index == 0:
            break

fig = px.histogram(
    domains, x="domain", y="word_freq", color="word", text_auto=".2s"
)
fig.show()

In [86]:
domains = []
for domain in domain_word_count:
    sorted_tags = dict(
        sorted(domain["pos_object_frequecy"].items(), key=lambda item: item[1], reverse=True)
    )
    index: int = 10

    for word in sorted_tags:
        tag_: str = ""
        for tag in domain["pos_tag_object"]:
            if word in domain["pos_tag_object"][tag]:
                tag_ = tag
                break

        domains.append(
            {
                "domain": domain["domain"],
                "type": domain["type"],
                "word": word,
                "word_freq": domain["pos_object_frequecy"][word],
                "tag": tag_,
            }
        )
        index -= 1
        if index == 0:
            break


fig = px.histogram(
    domains, x="domain", y="word_freq", color="word", text_auto=".2s", barmode='group'
)
fig.show()

In [87]:
domains = []
for domain in domain_word_count:
    sorted_tags = dict(
        sorted(domain["pos_object_frequecy"].items(), key=lambda item: item[1], reverse=True)
    )
    index: int = 10

    for word in sorted_tags:
        tag_: str = ""
        for tag in domain["pos_tag_object"]:
            if word in domain["pos_tag_object"][tag]:
                tag_ = tag
                break

        domains.append(
            {
                "domain": domain["domain"],
                "type": domain["type"],
                "word": word,
                "word_freq": domain["pos_object_frequecy"][word],
                "tag": tag_,
            }
        )
        index -= 1
        if index == 0:
            break

fig = px.histogram(domains, x="domain", y="word_freq", color="tag", text_auto=".2s", barmode='group')
fig.show()