# Get text clostest to the wikipedia cognitive load text

In [65]:
import csv
import pandas as pd
import spacy
from gensim import corpora
from gensim.models.tfidfmodel import TfidfModel
from gensim.models.lsimodel import LsiModel
from gensim.similarities import MatrixSimilarity

In [92]:
nlp = spacy.load("de")

In [11]:
# Read data
data = pd.read_csv("datasets/clt.csv", sep=",", encoding = "utf-8")

### Wrangle data and build corpus

In [102]:

# Get all texts in list
documents = []

for document in data["text"]:
    documents.append(document)

from nltk.corpus import stopwords
stopwords = stopwords.words('german')

tokenized_documents = []

# Tokenize each document
for index, document in enumerate(documents):
    #tokenized_documents.append(([token.lower_ 
    #                             for token in doc if (token.is_alpha == True 
    #                                                  and token.text not in stopwords)]))
    tokenized_documents.append([token.lower() for token in document.split()])

# Build dictionary
dictionary = corpora.Dictionary(tokenized_documents)

# Build corpus
corpus = [dictionary.doc2bow(document) for document in tokenized_documents]

# Build tf-idf representation
tfidf = TfidfModel(corpus)

# Change corpus according to model
tfidf_model = tfidf[corpus]

### Change wikipedia representation

In [103]:
# Get data
wikipedia = ""

with open("datasets/clt_wikipedia.txt") as file:
    for l in file:
        wikipedia = l

wikipedia_tokens = [token.lower() for token in wikipedia.split() if token not in stopwords]

# Create document representation from data
wikipedia_tuples = dictionary.doc2bow(wikipedia_tokens)



## LSA

In [104]:
# Run LSA
lsa = LsiModel(corpus, num_topics = 300)

# Build similarity matrix
similarities = MatrixSimilarity(lsa[corpus], num_features=lsa.num_terms)

# Get most similar text compared to origin wikipedia entry
best_candidate = similarities[lsa[wikipedia_tuples]]

# Show me the best candidate
print(sorted(enumerate(best_candidate), key=lambda x: x[1], reverse=True))[0:20]

print(documents[18])

[(18, 0.57989264), (37, 0.56788445), (14, 0.52291572), (22, 0.51325983), (63, 0.50370324), (78, 0.50132543), (64, 0.49617299), (60, 0.46252349), (25, 0.45030314), (15, 0.44746932), (10, 0.44380844), (70, 0.44029707), (75, 0.432652), (76, 0.42977303), (39, 0.42936102), (7, 0.42906737), (49, 0.42705083), (67, 0.42611316), (16, 0.42075834), (52, 0.4162102)]
Die Cognitive-Load-Theory ist eine Theorie, welche erklärt, durch welche Einflüsse das Lernen erleichtert oder erschwert werden kann. Man geht davon aus, dass der Mensch beim Lernen eine gewisse kognitive Belastung auf sich trägt, welche eine wichtige Rolle spielt. Bei der Cognitive-Load-Theory geht man davon aus, dass das Gedächtnis des Menschen in verschiedene Bereiche aufgeteilt ist. Zum Prozess der Informationsverarbeitung von neu Gelerntem, ist das Arbeitsgedächtnis sehr wichtig. Dieses ist eine Art Kurzzeitgedächtnis und ist daher sowohl zeitlich als auch von der Kapazität beschränkt. Um ein erfolgreiches Lernen zu ermöglichen, i