In [8]:
import pandas as pd
import numpy as np

import spacy
# load spacy model with binaries and configuration information
nlp = spacy.load("pl_core_news_lg")

import re
from unidecode import unidecode

In [9]:
fakenews_df = pd.read_csv("C:/Users/kubas/Desktop/narrator/database/fact-checks/fakenews.pl/2021-11-11.csv")
demagog_df = pd.read_csv("C:/Users/kubas/Desktop/narrator/database/fact-checks/demagog.org.pl/2021-11-12.csv")
fakehunter_df = pd.read_csv("C:/Users/kubas/Desktop/narrator/database/fact-checks/fakehunter.pap.pl/2021-11-12.csv")

In [10]:
def to_lowercase(text):
    return text.lower()

pl_stopwords = set(open("C:/Users/kubas/Desktop/narrator/database/ext/pl_stopwords.txt", encoding="utf-8", mode='r').read().split("\n"))
def remove_stopwords(text, stopwords = pl_stopwords):
    return ' '.join([word for word in text.split(" ") if word not in stopwords])
    
def remove_mentions(text):
    return re.sub(r'\B\@([\w\-]+)','', text)    

def remove_hashtags(text):
    return re.sub(r'\B\#([\w\-]+)','', text)    

def remove_urls(text):
    return re.sub(r'http\S+','', text)    

def remove_emojis(text):
    regrex_pattern = re.compile(pattern = "["
    u"\U0001F600-\U0001F64F"  # emoticons
    u"\U0001F300-\U0001F5FF"  # symbols & pictographs
    u"\U0001F680-\U0001F6FF"  # transport & map symbols
    u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                       "]+", flags = re.UNICODE)
    return regrex_pattern.sub(r'', text)

def remove_punctuation(text):
    return re.sub(r'[^\w\s]','', text)    

def remove_numbers(text):
    return re.sub(r' \d+','', text)    

def remove_n_lenght_words(text, n = 2):
    return ' '.join([word for word in text.split(" ") if len(word) > n])

def remove_duplicated_spaces(text):
    return " ".join(text.split())

def preprocess_text(text):
    text = to_lowercase(text)
    text = remove_mentions(text)
    text = remove_hashtags(text)
    text = remove_urls(text)
    text = remove_emojis(text)
    text = remove_punctuation(text)
    text = remove_numbers(text)
    text = remove_n_lenght_words(text)
    text = remove_duplicated_spaces(text)
    return text

def preprocess_new_text(text):
    return nlp(preprocess_text(text))

In [11]:
def process_fakenews_df(df):
    # Deletetes useless column
    df.drop('Unnamed: 0', 1, inplace = True)
    
    # Parse date
    months = {' stycznia ': '-1-', ' lutego ': '-2-', ' marca ': '-3-',' kwietnia ': '-4-',' maja ': '-5-',' czerwca ':'-6-',' lipca ':'-7-',' sierpnia ':'-8-',' września ':'-9-',' października ':'-10-',' listopada ':'-11-',' grudnia ':'-12-'}
    df['date'].replace(months, regex = True, inplace = True)    
    df['date'] = df['date'].str[10:]
    
    # Preprocessing text later used for spaCy
    #df['pr_title'] = df['title'].apply(lambda text: preprocess_text(text))
    
    # Applying spaCy Doc constructor
    # df['nlp_title'] = list(nlp.pipe(df['pr_title']))
    return df

def process_demagog_df(df):
    # Deletetes useless column
    df.drop('Unnamed: 0', 1, inplace = True)
    
    df['date'] = df['date'].str.replace('.','-',regex=True)
    df['date'] = df['date'].str[-10:]
    
    # Preprocessing text later used for spaCy
    # df['pr_title'] = df['title'].apply(lambda text: preprocess_text(text))
    
    # Applying spaCy Doc constructor
    # df['nlp_title'] = list(nlp.pipe(df['pr_title']))

    return df

def process_fakehunter_df(df):
    # Deletetes useless column
    df.drop('Unnamed: 0', 1, inplace = True)
    
    df['date'] = df['date'].str.replace('.','-',regex=True)
    df['date'] = df['date'].str[16:-6]
    
    # Preprocessing text later used for spaCy
    #df['pr_title'] = df['title'].apply(lambda text: preprocess_text(text))
    
    # Applying spaCy Doc constructor
    #df['nlp_title'] = list(nlp.pipe(df['pr_title']))
    return df

def top_n_sisters(n, text, df):
    text = preprocess_new_text(text)
    
    df['similarity_to_text'] = df['nlp_title'].apply(lambda new_text: new_text.similarity(text))
    return df.sort_values(by=['similarity_to_text'], ascending=False).head(n)

In [12]:
df = process_fakenews_df(fakenews_df)
df.to_csv("clean_fakenews.csv")

In [13]:
df = process_fakehunter_df(fakehunter_df)
df.to_csv("clean_fakehunter.csv")

In [14]:
df = process_demagog_df(demagog_df)
df.to_csv("clean_demagog.csv")

In [175]:
text = "Oszukali społeczeństwo tlenkiem grafenu, skutecznością amantadyny, a na końcu - lekiem dla koni (iwermektyna). W rzeczywistości najskuteczniejsze okazują się być: szczepienia ochronne, zasady san. - epid., tlen, przeciwciała monoklonalne, sterydy, niektóre leki p/wirusowe."
top_n_sisters(40, text, df)

Unnamed: 0,url,title,verdict,date,pr_title,nlp_title,similarity_to_text
375,https://fakenews.pl/zdrowie/wczesniaki-nie-dos...,"Wcześniaki nie dostaną leków, które ratują ich...",Fałsz,29-1-2020,wcześniaki nie dostaną leków które ratują ich ...,"(wcześniaki, nie, dostaną, leków, które, ratuj...",0.758218
369,https://fakenews.pl/zdrowie/nie-leki-na-raka-n...,"Nie, leki na raka nie zostały skreślone z list...",Fałsz,19-2-2020,nie leki na raka nie zostały skreślone listy l...,"(nie, leki, na, raka, nie, zostały, skreślone,...",0.754324
275,https://fakenews.pl/zdrowie/szczepionki-nie-za...,Szczepionki nie zapobiegają transmisji wirusa?...,Fałsz,21-5-2021,szczepionki nie zapobiegają transmisji wirusa ...,"(szczepionki, nie, zapobiegają, transmisji, wi...",0.748967
304,https://fakenews.pl/zdrowie/prognozowane-powik...,Prognozowane powikłania poszczepienne COVID-19...,W większości fałsz,30-12-2020,prognozowane powikłania poszczepienne covid19 ...,"(prognozowane, powikłania, poszczepienne, covi...",0.738897
243,https://fakenews.pl/zdrowie/wiekszosc-zmarlych...,Większość zmarłych z powodu COVID-19 to osoby ...,Analiza,25-10-2021,większość zmarłych powodu covid19 to osoby peł...,"(większość, zmarłych, powodu, covid19, to, oso...",0.738079
301,https://fakenews.pl/zdrowie/ksiadz-z-gorzowa-s...,Ksiądz z Gorzowa: szczepionki na COVID-19 wytw...,Fałsz,8-1-2021,ksiądz gorzowa szczepionki na covid19 wytwarza...,"(ksiądz, gorzowa, szczepionki, na, covid19, wy...",0.724161
317,https://fakenews.pl/zdrowie/szczepionki-z-ludz...,Szczepionki z ludzkich płodów? Sprawdzamy,Fałsz,16-11-2020,szczepionki ludzkich płodów sprawdzamy,"(szczepionki, ludzkich, płodów, sprawdzamy)",0.721983
277,https://fakenews.pl/zdrowie/nie-szczepienia-ni...,"Nie, szczepienia nie spowodowały katastrofalny...",Fałsz,13-5-2021,nie szczepienia nie spowodowały katastrofalnyc...,"(nie, szczepienia, nie, spowodowały, katastrof...",0.719534
156,https://fakenews.pl/spoleczenstwo/nie-edukator...,"Nie, edukatorzy seksualni nie podają dzieciom ...",Fałsz,3-9-2020,nie edukatorzy seksualni nie podają dzieciom ś...,"(nie, edukatorzy, seksualni, nie, podają, dzie...",0.717714
264,https://fakenews.pl/zdrowie/nie-chip-ze-szczep...,"Nie, chip ze szczepionki na COVID-19 nie zosta...",Satyra / Żart,6-7-2021,nie chip ze szczepionki na covid19 nie został ...,"(nie, chip, ze, szczepionki, na, covid19, nie,...",0.71767


In [174]:
preprocess_new_text(text)

oszukali społeczeństwo tlenkiem grafenu skutecznością amantadyny na końcu lekiem dla koni iwermektyna rzeczywistości najskuteczniejsze okazują się być szczepienia ochronne zasady san epid tlen przeciwciała monoklonalne sterydy niektóre leki pwirusowe