# HCI
Execute the first cell that will download and load the corpus into memory. Or follow the next steps.
1. Replace the `corpus_root` with the directory where the course files are
2. Every file should have the next form: week-the_file.pdf.txt
3. You can use Glyph&Cog pdftotext.exe (http://www.foolabs.com/xpdf/download.html) or another tool to convert the pdfs to plain text:

```
@echo off
FOR %%F IN (*.pdf) DO (
echo working in %%F
pdftotext.exe -layout "%%F" "%%F.layout.txt"
rem pdftotext.exe -raw "%%F" "%%F.raw.txt"
rem pdftotext.exe -table "%%F" "%%F.table.txt"
)
PAUSE
```

In [2]:
import os
import classicdb.fetch as fetch
from nltk.corpus import CategorizedPlaintextCorpusReader

url = "https://sites.google.com/site/xchgdir/public/hci.tar.gz?attredirects=0&d=1"
data_home = fetch.get_data_home()
classic_home = os.path.join(data_home, "hci_home")
print("download and extracting file from " + url)
fetch.download_and_unzip(url, classic_home, "hci.tar.gz")
print("downloaded and extracted to " + classic_home)
corpus_root = os.path.join(classic_home, "hci")
# corpus_root = "E:\\data\\sesiones"
corpus_reader = CategorizedPlaintextCorpusReader(corpus_root, r'(w[0-9]+)\-.*.txt', cat_pattern=r'(\w+)/*', encoding='ISO-8859-1')

cats = corpus_reader.categories()
print(cats)

download and extracting file from https://sites.google.com/site/xchgdir/public/hci.tar.gz?attredirects=0&d=1


downloaded and extracted to C:\Users\khas.aiur\scikit_learn_data\hci_home
['w1', 'w10', 'w11', 'w12', 'w13', 'w14', 'w15', 'w16', 'w2', 'w3', 'w4', 'w5', 'w6', 'w7', 'w8', 'w9']


Concordance and similarity for a given term in the complete non-stemmed corpus.
** área != area != areas != áreas **

In [9]:
terms = ["llamativo"]

# http://www.nltk.org/book/ch01.html
from nltk.text import Text  
all_text = Text(word.lower() for word in corpus_reader.words())

for term in terms:
    print("CONCORDANCE: ", term.upper())
    all_text.concordance(term, width=150)
    print()
    
    print("SIMILARITY: ", term.upper())
    all_text.similar(term)
    print()

# print("COMMON CONTEXTS: ")
# all_text.common_contexts([term, "teorías"])

CONCORDANCE:  LLAMATIVO
Displaying 1 of 1 matches:
a productividad · la eficiencia · la usabilidad · que el producto sea llamativo 18 la naturaleza de la interacción persona - computador : la interacc

SIMILARITY:  LLAMATIVO






In [23]:
terms = ["hofstede"]

from nltk.text import Text
from nltk.text import ConcordanceIndex
from nltk.text import ContextIndex

filetexts = {}
fileconcs = {}
fileconts = {}
for fileid in corpus_reader.fileids():
    filetexts[fileid] = Text(word.lower() for word in corpus_reader.words(fileid))
    fileconcs[fileid] = ConcordanceIndex(word.lower() for word in corpus_reader.words(fileid))
    # fileconts[fileid] = ContextIndex(word.lower() for word in corpus_reader.words(fileid))

for term in terms:
    print("CONCORDANCE: ", term.upper())
    for fileid in corpus_reader.fileids():
        if fileconcs[fileid].offsets(term):
            print("* ", fileid)
            filetexts[fileid].concordance(term, width=100)
            print()

CONCORDANCE:  HOFSTEDE
*  w16-Internacionalización.pdf.layout.txt
Displaying 4 of 4 matches:
 teoría de las dimensiones culturales · geert hofstede desarrolló un modelo sistemático para evaluar
s uai perú chile extraído de http :// geert - hofstede . com / countries . html ( datos al año 2010 
 teoría de las dimensiones culturales · geert hofstede establece que estos resultados son relativos 
 teoría de las dimensiones culturales · geert hofstede establece que estos resultados son relativos 



Concordance and similarity for a given term in the complete stemmed corpus. 

In [2]:
term = "tiempos"

# http://www.nltk.org/book/ch01.html
from nltk.text import Text
from nltk import PorterStemmer, LancasterStemmer, word_tokenize, SnowballStemmer

stemmer = SnowballStemmer('spanish')
term = stemmer.stem(term)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                
all_text = Text(stemmer.stem(word.lower()) for word in word_tokenize(corpus_reader.raw(), 'spanish'))

print("CONCORDANCE")
all_text.concordance(term, width=150)
print()

print("SIMILARITY")
all_text.similar(term)
print()

print("COMMON CONTEXTS")
all_text.common_contexts([term, "teorías"])

CONCORDANCE
Displaying 25 of 45 matches:
arroll de tecnic multiprocessing desarroll de ambient windows ajust del tiemp de respuest a las caracterist human 14 raic histor ( iv ) factor human 
il model predict ( analisis de accion ) : analisis cuantit par estim el tiemp necesari par realiz las tar , en bas a estim de tiemp par accion tipic 
ntit par estim el tiemp necesari par realiz las tar , en bas a estim de tiemp par accion tipic ( inspeccion orient a la eficient ) 9 prueb de usabil 
usuari · aplic en etap tempran del desarroll desventaj : · requier much tiemp · requier prepar ( experient ) previ · requier metodolog de definicion 
dispon se ejecut 22 model predict el model keystrok level : propuest de tiemp tipic , com : presion una tecl : 0,2 ­ 1,2 sec . ( promedi 0.35 ) posic
dit : evalu mas de un aspect recolect dat primari ­ mediacion cuantit ( tiemp , numer de error etc. ) comp altern de diseñ , evalu requer de eficient
em de usabil . 1 problem cosmet : el problem ser arregl a m

mensaj trat nivel numer hotel manej result cumplimient equip proces
compar analisis lenguaj principi estil punt diseñ uso tip list

COMMON CONTEXTS
('The following word(s) were not found:', 'tiemp teorías')
