In [26]:
import re
import dataclasses

import bs4
import requests_html


In [None]:
@dataclasses.dataclass
class NewsInfo:
    title: str
    content: str


In [2]:
def extract_from_news(url: str) -> NewsInfo:
    empty_return = NewsInfo("", "")
    if url.split(".")[-1] in ["pdf", "doc", "docx", "xls", "xlsx", "txt"]:
        return empty_return

    if url.split(".")[-1] in ["jpg", "jpeg", "png"]:
        return empty_return

    if ".pdf" in url:
        return empty_return

    session = requests_html.HTMLSession()
    data = session.get(url, timeout=10)

    if "PDF" in data.text:
        return empty_return

    soup = bs4.BeautifulSoup(data.text)
    # title: str = " ".join([p.text for p in soup.find_all("title")])
    title = " ".join([p.text for p in soup.find_all("h1")])
    title = clean_text(title)

    content: str = " ".join([p.text for p in soup.find_all("p")])
    content = clean_text(content)

    content = " ".join([word for word in content.split(" ")[: min(len(content.split(" ")), 1000)]])

    return NewsInfo(title=title, content=content)


In [59]:
ak24_signature = re.compile(r"Mai mult despre: .+ Aktual24")
tnr_signature = re.compile(r"Noi tocmai ne-am desfăcut câte o bere TNR. .+ comentariu.")
biziday_signature = re.compile(r"Echipa Biziday .+ Susține echipa Biziday")
infoalert_signature = re.compile(r"Te așteptăm .+ mai jos:")
activenews_signature = re.compile(r"Pentru că suntem cenzurați pe Facebook .+")

spaces = re.compile(r"\s+")


def clean_text(text: str) -> str:
    text = text.replace("\n", " ")
    text = text.replace("\r", " ")
    text = text.replace("\t", " ")
    text = text.replace("\xa0", " ")
    text = text.replace("•", " ")
    text = text.replace("\u2022", " ")
    text = text.replace("\u25e6", " ")
    text = text.replace(" +", " ")
    text = text.strip()
    text = spaces.sub(" ", text)
    text = ak24_signature.sub("", text)
    text = tnr_signature.sub("", text)
    text = biziday_signature.sub("", text)
    text = infoalert_signature.sub("", text)
    text = activenews_signature.sub("", text)
    return text


In [13]:
def extract_from_news(url: str) -> NewsInfo:
    empty_return = NewsInfo("", "")
    if url.split(".")[-1] in ["pdf", "doc", "docx", "xls", "xlsx", "txt"]:
        return empty_return

    if url.split(".")[-1] in ["jpg", "jpeg", "png"]:
        return empty_return

    if ".pdf" in url:
        return empty_return

    session = requests_html.HTMLSession()
    data = session.get(url, timeout=10)

    if "PDF" in data.text:
        return empty_return

    soup = bs4.BeautifulSoup(data.text)
    # title: str = " ".join([p.text for p in soup.find_all("title")])
    title = " ".join([p.text for p in soup.find_all("h1")])
    title = clean_text(title)

    content: str = " ".join([p.text for p in soup.find_all("p")])
    content = clean_text(content)

    content = " ".join([word for word in content.split(" ")[: min(len(content.split(" ")), 1000)]])

    return NewsInfo(title=title, content=content)


Digi24

In [20]:
url = "https://www.digi24.ro/stiri/externe/proces-civil-urias-impotriva-rusiei-sute-de-avocati-dau-in-judecata-regimul-putin-mercenarii-si-oligarhii-care-sustin-razboiul-1958925"
print(extract_from_news(url).__dict__)


{'title': 'Proces civil uriaș împotriva Rusiei. Sute de avocați dau în judecată regimul Putin, mercenarii și oligarhii care susțin războiul', 'content': 'Un consorțiu de avocați ucraineni și internaționali se pregătește să lanseze o acțiune civilă în masă împotriva statului rus, precum și a contractorilor militari privați, dar și împotriva oamenilor de afaceri care susțin efortul de război al Rusiei în Ucraina, în încercarea de a obține despăgubiri financiare pentru milioanele de victime ucrainene cauzate de invazia rusă începută de armata lui Vladimir Putin pe 24 februarie, transmite în exclusivitate The Guardian.  Echipa, formată din sute de avocați și mai multe firme de avocatură importante, intenționează să introducă „acțiuni multiple în diferite jurisdicții împotriva unor ținte diferite”, inclusiv Regatul Unit și SUA, a declarat Jason McCue, un avocat din Londra care coordonează inițiativa, într-un interviu direct de la Kiev. Planul constă în folosirea hotărârilor judecătorești di

In [34]:
url = "https://www.aktual24.ro/putin-si-incordeaza-muschii-a-ordonat-noi-exercitii-nucleare-inclusiv-cu-rachete-intercontinentale/"
print(extract_from_news(url).__dict__)


{'title': 'Putin si incordeaza muschii. A ordonat noi exercitii nucleare, inclusiv cu rachete intercontinentale', 'content': 'AK-24 | 1 iunie 2022  externe Fortele nucleare ruse fac exercitii nucleare in regiunea rusa Ivanovo, situata la 1.000 de kilometri de Kiev, potrivit Ministerul rus al Apararii. Aproape 1.000 de militari participa la manevre intense cu 100 de vehicule, inclusiv lansatoare de rachete balistice intercontinentale (ICBM) de tip Yars. Aceste exercitii vin in conditiile in care in urma cu doar cateva zile armata rusa a anuntat ca a testat cu succes un nou tir de racheta de croaziera hipersonica Zircon, racheta despre care Putin a spus ca este „invincibila” Racheta a fost lansata de pe fregata Amiral Gorskov din Marea Barent in directia unei tinte din Marea Alba, in zona Arcticii, potrivit unui comunicat al Ministerului rus al Apararii. Primul tir oficial cu Zircon dateaza din octombrie 2020, presedintele Vladimir Putin salutand atunci un „eveniment major”. Luna trecuta

In [22]:
https://caplimpede.ro/hackerii-anonymous-avertizeaza-rusia-s-a-deschis-sezonul-de-vanatoare/url = ""
print(extract_from_news(url).__dict__)

{'title': 'Hackerii Anonymous avertizeaza Rusia: „S-a deschis sezonul de vanatoare”', 'content': 'Grupul de hackeri Anonymous au transmis un nou mesaj Rusiei: „S-a deschis sezonul „de vânătoare” pentru site-urile instituțiilor guvernamentale”, avertizează hackerii și promit că liderul de la Kremlin se va „confrunta cu atacuri cibernetice fără precedent din toate colţurile lumii”, scrie Observatornews.ro. În urmă cu nouă zile, hackerii din grupul Anonymous a declarat ”război cibernetic” Rusiei şi preşedintelui Vladimir Putin după invazia rusă în Ucraina şi au cerut Moscovei să-şi retragă trupele din această ţară. Pe 7 martie, Anonymous a transmis că a piratat serviciile ruseşti de streaming Wink şi Ivi şi canalele TV în direct Russia 24, Channel One, Moscow 24, pentru a difuza imagini ale invaziei din Ucraina, după ce televiziunile fidele Kremlinului au prezentat invazia Ucrainei ca pe o operaţiune de eliberare a fraţilor de peste graniţă, în care nu sunt loviţi civili, ci doar obiectiv

In [37]:
url = "https://www.timesnewroman.ro/monden/borcea-a-golit-3-jumbo-uri-si-inca-tot-nu-are-destule-cadouri-pentru-cati-copii-are/"
print(extract_from_news(url).__dict__)

{'title': 'Borcea a golit 3 Jumbo-uri și încă tot nu are destule cadouri pentru câți copii are', 'content': 'Numai Cristi Borcea să nu fii de Ziua copiilor. A alergat mai ceva ca un maratonist în ultimele zile după cadouri, dar încă e departe de a fi terminat. Deși a golit complet trei magazine Jumbo, Cristi Borcea nu are nici măcar acum destule cadouri pentru toți copiii pe care îi are.     „Dacă aș putea să dau timpul înapoi, probabil aș face mult mai puțin sex“, oftează Borcea. „Poate n-a fost chiar cea mai bună ideea să fac sex de 2-3 ori pe oră, dacă mă limitam la sex o dată la 6 ore, ca orice om normal, nu ajungeam aici. Sau măcar dacă mai alternam și eu, să fi făcut sex și cu bărbați, nu doar cu femei. Dar aia e, acum e prea târziu pentru astfel de regrete.“ Ca o consolare, Cristi Borcea se poate alina cu faptul că va intra în Cartea Recordurilor pentru străduința sa. „Mi-au spus că o să am două recorduri, unul pentru persoana care a golit în cel mai scurt timp în magazin Jumbo,

In [45]:
url = "https://www.biziday.ro/216715-2/"
print(extract_from_news(url).__dict__)

{'title': 'Cod Galben de furtuni în nordul Munteniei, în Carpații Meridionali și în aproape toată Moldova, până la ora 21. Se vor semnala descărcări electrice, ploi torențiale, vânt și grindină.', 'content': 'Administrația Națională de meteorologie a emis o avertizare de Cod Galben de instabilitatea atmosferică accentuată, valabil de la ora 12:00 până la ora 21:00. În intervalul menționat în Carpații Meridionali, local în Moldova, precum și în nordul Munteniei, se vor înregistra frecvente descărcări electrice, averse torențiale, intensificări de scurtă durată ale vântului, vijelii și grindină. Cantităţile de apă vor depăşi 20-30 l/mp şi izolat 40 l/mp. Astfel de manifestări vor fi pe arii restrânse și în centrul și sud-estul țării, precum și în restul zonelor montane. '}
