In [1]:
import pandas as pd
import json

In [2]:
with open("BP_data/czechData.json", encoding="utf8") as f:
    docs = json.load(f)

with open("BP_data/topicData.json", encoding="utf8") as f:
    topics = json.load(f)

In [3]:
df_docs = pd.DataFrame(docs)
df_docs.head()

Unnamed: 0,text,id,title,date
0,Příchod nové evropské měny o půlnoci na 1. led...,d1,\n304 miliony lidí ve 12 zemích si začalo vymě...,"Jan 2, 2002 12:00:00 AM"
1,Česká republika se sice zatím k jednotné evrop...,d14000,,"Jan 2, 2002 12:00:00 AM"
2,"V době, kdy eurobankomaty už několik hodin vyd...",d2,,"Jan 2, 2002 12:00:00 AM"
3,"Jak na Nový rok, tak po celý rok. Platí-li zná...",d3,\nDva na jednoho. Zeman a Klaus ve svém prvním...,"Jan 2, 2002 12:00:00 AM"
4,V první vteřině roku 2002 se v havlíčkobrodské...,d14001,,"Jan 2, 2002 12:00:00 AM"


In [4]:
df_docs = df_docs.drop("date", axis=1)
df_docs.head()

Unnamed: 0,text,id,title
0,Příchod nové evropské měny o půlnoci na 1. led...,d1,\n304 miliony lidí ve 12 zemích si začalo vymě...
1,Česká republika se sice zatím k jednotné evrop...,d14000,
2,"V době, kdy eurobankomaty už několik hodin vyd...",d2,
3,"Jak na Nový rok, tak po celý rok. Platí-li zná...",d3,\nDva na jednoho. Zeman a Klaus ve svém prvním...
4,V první vteřině roku 2002 se v havlíčkobrodské...,d14001,


In [5]:
df_topics = pd.DataFrame(topics)
df_topics.head()

Unnamed: 0,narrative,description,id,title,lang
0,"Relevantní jsou jakékoliv dokumenty, které pos...",Najděte dokumenty o růstech cen po zavedení Eura.,q1,Inflace Eura,cs
1,Máme zájem o využití energie z tzv. obnoviteln...,Hledáme informace o využití energie z obnovite...,q2,Obnovitelné zdroje,cs
2,"Relevantní dokumenty zmiňují název filmu, hry ...","Najděte dokumenty, jež podávají informace o he...",q3,Role policisty,cs
3,"Hledáme informace o bezpečnostních opatřeních,...",Summit NATO a přijatá bezpečnostní opatření v ...,q4,Summit NATO a bezpečností opatření,cs
4,Relevantní dokumenty uvádějí některé či hlavní...,Jaké příčiny může mít astma u dětí?,q5,Astma u dětství,cs


In [6]:
print(df_topics['lang'].unique())

['cs']


In [7]:
df_topics = df_topics.drop(['narrative', 'lang'], axis=1)

In [8]:
df_topics.head()

Unnamed: 0,description,id,title
0,Najděte dokumenty o růstech cen po zavedení Eura.,q1,Inflace Eura
1,Hledáme informace o využití energie z obnovite...,q2,Obnovitelné zdroje
2,"Najděte dokumenty, jež podávají informace o he...",q3,Role policisty
3,Summit NATO a přijatá bezpečnostní opatření v ...,q4,Summit NATO a bezpečností opatření
4,Jaké příčiny může mít astma u dětí?,q5,Astma u dětství


In [9]:
with open("BP_data/stop_words_czech.json", encoding="utf8") as f:
    stop_words = json.load(f)

In [10]:
import re
from unidecode import unidecode

def clean_text(text):
    text=re.sub('\w*\d\w*','', text)
    text=re.sub('\n',' ',text)
    text = re.sub(r'^https?:\/\/.*[\r\n]*', '', text)
    text=re.sub('[^A-Za-z0-9]+ ', ' ', text)
    text=re.sub('"().,_', '',text)
    return text

def clean_df(df):
    for col in df.columns:
        if col == 'id':
            continue
        df[col] = df[col].str.lower()
        df[col] = df[col].apply(lambda x: unidecode(x, "utf-8"))
        df[col] = df[col].apply(lambda x: clean_text(x))

clean_df(df_docs)
clean_df(df_topics)


In [11]:
df_docs.to_csv('BP_data/docs_cleaned.csv')
df_topics.to_csv('BP_data/topics_cleaned.csv')

In [12]:
df_docs.head()

Unnamed: 0,text,id,title
0,prichod nove evropske meny o pulnoci na leden ...,d1,miliony lidi ve zemich si zacalo vymenovat sv...
1,ceska republika se sice zatim k jednotne evrop...,d14000,
2,v dobe kdy eurobankomaty uz nekolik hodin vyda...,d2,
3,jak na novy rok tak po cely rok plati-li zname...,d3,dva na jednoho zeman a klaus ve svem prvnim s...
4,v prvni vterine roku se v havlickobrodske nemo...,d14001,


In [13]:
df_topics.head()

Unnamed: 0,description,id,title
0,najdete dokumenty o rustech cen po zavedeni eura.,q1,inflace eura
1,hledame informace o vyuziti energie z obnovite...,q2,obnovitelne zdroje
2,najdete dokumenty jez podavaji informace o her...,q3,role policisty
3,summit nato a prijata bezpecnostni opatreni v ...,q4,summit nato a bezpecnosti opatreni
4,jake priciny muze mit astma u deti?,q5,astma u detstvi


In [14]:
df_topics = df_topics.rename(columns={'description':'text'})

In [15]:
df_topics.head()

Unnamed: 0,text,id,title
0,najdete dokumenty o rustech cen po zavedeni eura.,q1,inflace eura
1,hledame informace o vyuziti energie z obnovite...,q2,obnovitelne zdroje
2,najdete dokumenty jez podavaji informace o her...,q3,role policisty
3,summit nato a prijata bezpecnostni opatreni v ...,q4,summit nato a bezpecnosti opatreni
4,jake priciny muze mit astma u deti?,q5,astma u detstvi


In [16]:
df_combined = df_docs.append(df_topics, ignore_index=True)
df_combined

Unnamed: 0,text,id,title
0,prichod nove evropske meny o pulnoci na leden ...,d1,miliony lidi ve zemich si zacalo vymenovat sv...
1,ceska republika se sice zatim k jednotne evrop...,d14000,
2,v dobe kdy eurobankomaty uz nekolik hodin vyda...,d2,
3,jak na novy rok tak po cely rok plati-li zname...,d3,dva na jednoho zeman a klaus ve svem prvnim s...
4,v prvni vterine roku se v havlickobrodske nemo...,d14001,
...,...,...,...
81780,hledame informace o ztratach na kulturnim dedi...,q46,zaplavy a ztraty na kulturnim dedictvi
81781,najdete dokumenty ktere pojednavaji o politick...,q47,pim fortuynova politika
81782,najdete dokumenty o laureatech nobelovy ceny z...,q48,novelovy ceny za chemii
81783,ve kterych africkych zemich probiha obcanska v...,q49,obcanske valky v africe


In [17]:
from gensim.models import Word2Vec



In [18]:
text = [x for x in df_combined['text']]
title = [x for x in df_combined['title']]

for i in title:
    text.append(i)

len(text)

163570

In [20]:
import numpy as np

data = []

for i in text:
    data.append(i.split())


In [21]:
model = Word2Vec(data, vector_size=300, min_count=2, window=5, sg=1, workers=4)

In [22]:
model.save('BP_data/w2vmodel.model')
print(len(model.wv.key_to_index))

325801


In [23]:
# Function returning vector reperesentation of a document
def get_embedding_w2v(doc_tokens):
    embeddings = []
    if len(doc_tokens)<1:
        return np.zeros(300)
    else:
        for tok in doc_tokens:
            if tok in model.wv.key_to_index:
                embeddings.append(model.wv.word_vec(tok))
            else:
                embeddings.append(np.random.rand(300))
        # mean the vectors of individual words to get the vector of the document
        return np.mean(embeddings, axis=0)

# Getting Word2Vec Vectors for Testing Corpus and Queries
df_docs['vector'] = df_docs['text'].apply(lambda x :get_embedding_w2v(x.split()))
df_topics['vector'] = df_topics['text'].apply(lambda x :get_embedding_w2v(x.split()))



  embeddings.append(model.wv.word_vec(tok))


In [24]:
df_docs.head()

Unnamed: 0,text,id,title,vector
0,prichod nove evropske meny o pulnoci na leden ...,d1,miliony lidi ve zemich si zacalo vymenovat sv...,"[-0.06511202786886916, 0.1703164008817582, 0.0..."
1,ceska republika se sice zatim k jednotne evrop...,d14000,,"[-0.0253067878951639, 0.16174144702934332, 0.0..."
2,v dobe kdy eurobankomaty uz nekolik hodin vyda...,d2,,"[-0.01440328729315948, 0.10518538704182073, 0...."
3,jak na novy rok tak po cely rok plati-li zname...,d3,dva na jednoho zeman a klaus ve svem prvnim s...,"[-0.03898168788097193, 0.13833440503854924, 0...."
4,v prvni vterine roku se v havlickobrodske nemo...,d14001,,"[0.005426974545447479, 0.13925755345903337, 0...."


In [25]:
df_docs.to_csv('BP_data/vectorized_data.csv')