# Laboratorium 4 Singular Value Decomposition
### Autor: Krzysztof Hardek

In [24]:
import wikipediaapi
import numpy as np

## Zad 1 Wyszukiwarka
### 1 Duży zbiór dokumentów tekstowych
Korzystam z api wikipedii dla pythona 3. Zajego pomocą wyszukuje około 1100 stron z kategorii muzyka oraz odpowiendio przetwarzam ich zawartość. Funkcja parse_content filtruje Stringa w taki sposób, aby przy grupowaniu stringi typu "Terrordrome" oraz "Terrordrome;" były traktowane jako to samo słowo. 

In [25]:
wiki = wikipediaapi.Wikipedia('en')


def parse_content(content):
    content = content.replace('.', '')
    content = content.replace(',', '')
    content = content.replace('(', '')
    content = content.replace(')', '')
    content = content.replace(':', '')
    content = content.replace('-', ' ')
    content = content.replace('\n', ' ')
    content = content.replace('"', '')
    content = content.replace(';', '')
    content = content.replace('==', '')
    content = content.replace('–', ' ')
    content = content.replace('”', '')
    content = content.replace('„', '')
    content = content.replace('?', '') # questionable
    content = content.replace('!', '') # questionable
    return content


def valid_page(title):
    if 'Category' not in title and 'Wikipedia' not in title and "List" not in title:
        return True
    return False

def fill_list(categorymembers, list, level=0, max_level=1):
    for c in categorymembers.values():
        if valid_page(c.title):
            list.append(c.title)
        if c.ns == wikipediaapi.Namespace.CATEGORY and level < max_level:
            fill_list(c.categorymembers, list, level=level + 1, max_level=max_level)

cat = wiki.page('Category:Physics')
document_titles = []
fill_list(cat.categorymembers, document_titles)

document_titles = document_titles[:1010]  #cutting list in order to improve execution time

### 2 Słownik słów kluczowych (termów)
Term jest pythonowym słownikiem. Są tam skojarzone ze sobą słowo oraz jego indeks w później tworzonych wektorach.

In [26]:
term = {}
term_idx = 0

for doc in document_titles:
    content = wiki.page(doc).text
    content = parse_content(content)
    content_list = content.split()
    for word in content_list:
        if word not in term:
            term[word] = term_idx
            term_idx += 1

### 3 Wyznaczenie wektorów cech bag-of-words. 
Wektor $ d_j $ jest reprezentowany przez bags_of_words[j]

In [27]:
bags_of_words = np.zeros((len(document_titles), len(term)))


for doc_idx, doc in enumerate(document_titles):
    content = wiki.page(doc).text
    content = parse_content(content)
    content_list = content.split()
    for word in content_list:
        word_idx = term[word] 
        bags_of_words[doc_idx][word_idx] += 1


### 4  Zbudowanie rzadkiej macierzy wektorów cech term-by-document matrix.

In [28]:
term_by_doc = bags_of_words.transpose()

### 5 Wstępne przetworzenie zbioru danych przez inverse document frequency

In [29]:
def doc_count(vec):
    counter = 0
    for i in range(len(vec)):
        if vec[i] > 0:
            counter += 1
    return counter

N = len(document_titles)

for term_idx in range(len(term_by_doc)):
    n_w = doc_count(term_by_doc[term_idx])
    IDF = np.log(N/n_w)
    for doc_idx in range(len(term_by_doc[term_idx])):
        term_by_doc[term_idx][doc_idx] *= IDF


### 6 Funkcja pozwalająca na wprowadzenie zapytania

In [30]:
def similar_docs(word_list, k, similarity_measure, term_by_doc):
    q = np.zeros((len(term_by_doc)))
    similarity_vec = np.zeros((len(document_titles)))
    docs_names = []
    
    for word in word_list:
        if word in term:
            term_idx = term[word]
            q[term_idx] += 1
            
    for doc_idx in range(len(document_titles)):
        d = term_by_doc[:, doc_idx]
        similarity_vec[doc_idx] = similarity_measure(q, d)
    
    indexes = sorted(range(len(similarity_vec)), key = lambda i: similarity_vec[i])[-k:]
    
    for idx in indexes:
        docs_names.insert(0, document_titles[idx])
        
    return docs_names


def similarity_measure1(q, d):
    q_arr = np.array(q)
    q_T = q_arr.transpose()
    
    if q_T.dot(d) == 0:
        return 0
    
    return q_T.dot(d) / (np.linalg.norm(q) * np.linalg.norm(d))


docs_names = similar_docs(["patricle", "fusion", "fractal"], 3, similarity_measure1, term_by_doc)
print(docs_names)

['Fractal dimension', 'Fractal analysis', 'Nuclear fusion']


### 7  Użycie zmodyfikowanej miary prawdopodobienstwa, korzystającej z wektorów znormalizowanych

In [31]:
def normalize(d):
    if(np.linalg.norm(d) == 0):
        return np.zeros(len(d))
    
    return d/np.linalg.norm(d)


def similarity_measure2(q, d):
    q_n = normalize(q)
    d_n = normalize(d)
    q_n = np.array(q_n)
    q_n_T = q_n.transpose()
    if q_n_T.dot(d_n) == 0:
        return 0
    
    return abs(q_n_T.dot(d_n)) # abs probably redundant 

    
docs_names = similar_docs(["particle", "fusion", "fractal"], 3, similarity_measure2, term_by_doc)
print(docs_names)
m = np.random.rand(3, 3)

['Fractal dimension', 'Fractal analysis', 'Nuclear fusion']


### 8 Usuwanie szumu z macierzy term_by_doc za pomocą SVD oraz low rank approximation

In [32]:
def low_rank_appr(A, k):
    u, s, v = np.linalg.svd(A, full_matrices=False,)
    return  np.matrix(u[:, :k]) * np.diag(s[:k]) * np.matrix(v[:k, :])


clean_term_by_doc = low_rank_appr(term_by_doc, 100)

### 9 Porównanie działania funkcji bez szumu oraz z szumem

In [41]:
docs_names_clean = similar_docs(["particle", "quantum", "wave", "air", "water", "equation"], 3, similarity_measure2, clean_term_by_doc)
docs_names = similar_docs(["particle", "quantum", "wave", "air", "water", "equation"], 3, similarity_measure2, term_by_doc)
print(docs_names_clean)
print(docs_names)

['Quantum mechanics', 'Hydrodynamic quantum analogs', 'Transactional interpretation']
['Quantum mechanics', 'Refraction', 'Matter wave clock']


W tym wyszukiwaniu starałem sie wyszukać strony związane jak najbardziej z mechaniką kwantową. Słowa air oraz water są mało adekwatne do tematu. Widać, że przy redukcji szumu mają one mniejszy wpływ na wyszukanie i wyniki są bardziej związanie z tematem głównym

In [43]:
docs_names_clean = similar_docs(["particle", "quantum", "wave", "stone", "water", "equation"], 3, similarity_measure2, clean_term_by_doc)
docs_names = similar_docs(["particle", "quantum", "wave", "stone", "water", "equation"], 3, similarity_measure2, term_by_doc)
print(docs_names_clean)
print(docs_names)

['Quantum mechanics', 'Transactional interpretation', 'Heisenberg cut']
['Quantum mechanics', 'Matter wave clock', 'Refraction']


Analogiczna sytuacja. Słowa stone oraz water kompletnie nie pasują. Redukcja szumu to wyłapuje

In [48]:
docs_names_clean = similar_docs(["particle", "quantum", "wave", "mass", "speed", "equation"], 3, similarity_measure2, clean_term_by_doc)
docs_names = similar_docs(["particle", "quantum", "wave", "mass", "speed", "equation"], 3, similarity_measure2, term_by_doc)
print(docs_names_clean)
print(docs_names)

['Quantum mechanics', 'Matter wave clock', 'Transactional interpretation']
['Quantum mechanics', 'Invariant mass', 'Matter wave clock']


W tym przypadku obydwa wyszukania są na podobnym poziomie.

### Optymalna wartość k

In [56]:
docs_names_clean = similar_docs(["particle", "quantum", "wave", "mass", "speed", "equation"], 30, similarity_measure2, clean_term_by_doc)
docs_names = similar_docs(["particle", "quantum", "wave", "mass", "speed", "equation"], 30, similarity_measure2, term_by_doc)
print(docs_names_clean)
print(docs_names)

['Quantum mechanics', 'Matter wave clock', 'Transactional interpretation', 'Copenhagen interpretation', 'Heisenberg cut', 'Hydrodynamic quantum analogs', 'Observer effect (physics)', 'Interpretations of quantum mechanics', 'Classical physics', 'History of quantum mechanics', 'Observer (quantum physics)', 'John Stewart Bell Prize', 'The Principles of Quantum Mechanics', 'Faster-than-light', 'Koopman–von Neumann classical mechanics', 'Schrödinger–Newton equation', 'Coherence (physics)', 'Quantization (physics)', 'Branches of physics', 'Quantum potential', 'Speed of light', 'The Physical Principles of the Quantum Theory', 'Action at a distance', 'Philosophy of physics', 'U-bit', 'Über quantentheoretische Umdeutung kinematischer und mechanischer Beziehungen', 'Quantum non-equilibrium', 'Mathematical formulation of quantum mechanics', 'Relational approach to quantum physics', 'Quantum number']
['Quantum mechanics', 'Invariant mass', 'Matter wave clock', 'Speed of light', 'Schrödinger–Newton

Wydaje mi się że od około k = 20 wśród ostatnich wyszukań zaczynają pojawiać się mniej adekwatne strony. Uważam więc, że dla takich liczb (1000 dokumentów, 6 słów klucz), zwracanie kilkunastu najbardziej odpowiadających dokumentów będzie rozsądną decyzją. 