# Palabras clave (1ª versión)

## Frecuencia de aparición

In [None]:
from collections import defaultdict

def get_keywords(words):
    word_counts = defaultdict(lambda : 0)
    for w in words:
        word_counts[w]+= 1
    return [ x for x,_ in sorted(word_counts.iteritems(), key=lambda (_,freq):freq, reverse=True)][:10]

## Carga de documentos

Dataset URL: http://www.lsi.us.es/~fermin/corpusCine.zip

Nos quedamos con los ficheros .xml, que tienen una estructura del estilo:

```xml
<review author="XXX" title="XXX" rank="X" maxRank="X" source="XXX">
	<summary>XXX</summary>
	<body>XXX</body>
</review>
```

In [None]:
import os
import config

### Detección de la codificación

In [None]:
import chardet

with open(config.DATASET_MUCHOCINE_RAW+'/100.xml', 'r') as fd:
    txt = fd.read()
    
print chardet.detect(txt)

### Parseado con expresiones regulares

In [None]:
import codecs  # Know your encoding
import re

def parse_file(file_path):
    retval = {'file': os.path.basename(file_path)}
    with codecs.open(file_path,'r', encoding='ISO-8859-2') as fd:
        f = fd.read().strip()
    reg_expr = re.compile(r'\<review author="(?P<author>.*)" title="(?P<title>.*)" rank="(?P<rank>\d)".*\>\s*<summary>(?P<summary>.*)</summary>\s*<body>(?P<body>.*)</body>\s*</review>')
    regexp_result = reg_expr.search(f.strip())
    for key in ['author', 'rank', 'title', 'summary', 'body']:
        retval[key] = regexp_result.group(key)
    return retval

### Carga

In [None]:
documents = []
for file_name in os.listdir(config.DATASET_MUCHOCINE_RAW):
    try:
        documents.append(
            parse_file(config.DATASET_MUCHOCINE_RAW+'/'+file_name)
        )
    except Exception as e:
        print file_name
        print e.message
documents.sort(key=lambda x: x['file'])

In [None]:
print documents[0]

## 1ª versión. Contar palabras

In [None]:
def txt2words(txt):
    words = [w for w in txt.split(' ') if w!='']
    return words

In [None]:
print get_keywords(txt2words(documents[0]['body']))

## 2ª versión. Stopwords

In [None]:
## Taken from NLTK corpus so you don't have to download

#import nltk
#nltk.download()
#from nltk.corpus import stopwords
#print filter_symbols(
#    ' '.join(
#        sorted(stopwords.words('spanish'))
#    )
#)

STOPWORDS = set('''
a al algo algunas algunos ante antes como con contra cual cuando de del desde donde durante e el ella ellas ellos
en entre era erais eran eras eres es esa esas ese eso esos esta estaba estabais estaban estabas estad estada estadas
estado estados estamos estando estar estaremos estara estaran estaras estare estareis estaria estariais estariamos
estarian estarias estas este estemos esto estos estoy estuve estuviera estuvierais estuvieran estuvieras estuvieron
estuviese estuvieseis estuviesen estuvieses estuvimos estuviste estuvisteis estuvieramos estuviesemos estuvo esta
estabamos estais estan estas este esteis esten estes fue fuera fuerais fueran fueras fueron fuese fueseis fuesen fueses
fui fuimos fuiste fuisteis fueramos fuesemos ha habida habidas habido habidos habiendo habremos habra habran habras
habre habreis habria habriais habriamos habrian habrias habeis habia habiais habiamos habian habias han has hasta
hay haya hayamos hayan hayas hayais he hemos hube hubiera hubierais hubieran hubieras hubieron hubiese hubieseis
hubiesen hubieses hubimos hubiste hubisteis hubieramos hubiesemos hubo la las le les lo los me mi mis mucho muchos
muy mas mi mia mias mio mios nada ni no nos nosotras nosotros nuestra nuestras nuestro nuestros o os otra otras otro
otros para pero poco por porque que quien quienes que se sea seamos sean seas sentid sentida sentidas sentido sentidos
seremos sera seran seras sere sereis seria seriais seriamos serian serias seais siente sin sintiendo sobre sois somos
son soy su sus suya suyas suyo suyos si tambien tanto te tendremos tendra tendran tendras tendre tendreis tendria
tendriais tendriamos tendrian tendrias tened tenemos tenga tengamos tengan tengas tengo tengais tenida tenidas tenido
tenidos teniendo teneis tenia teniais teniamos tenian tenias ti tiene tienen tienes todo todos tu tus tuve tuviera
tuvierais tuvieran tuvieras tuvieron tuviese tuvieseis tuviesen tuvieses tuvimos tuviste tuvisteis tuvieramos tuviesemos
tuvo tuya tuyas tuyo tuyos tu un una uno unos vosostras vosostros vuestra vuestras vuestro vuestros y ya yo el eramos
'''.split())

def txt2words(txt):
    words = [w for w in txt.split(' ') if w!='' and w not in STOPWORDS]
    return words

In [None]:
print get_keywords(txt2words(documents[0]['body']))

## 3ª versión. Quitando mayúsculas, tildes...

In [None]:
def txt2words(txt):
    txt = txt.lower()  # Text in lowercase
    table = dict(zip( #  Quitar tildes
        [ord(x) for x in u'áéíóúü'],
        [ord(x) for x in u'aeiouu']
    ))
    txt = txt.translate(table)    
    txt = ''.join([
        letter for letter in txt 
        if letter in set(u'abcdefghijklmnñopqrstuvwxyz0123456789 ')]
    )
    words = [w for w in txt.split(' ') if w!='' and w not in STOPWORDS]
    return words

In [None]:
print get_keywords(txt2words(documents[0]['body']))

## 4ª versión. Raíces léxicas

In [None]:
from nltk.stem.snowball import SpanishStemmer
stemmer = SpanishStemmer()

def txt2words(txt):
    txt = txt.lower()  # Text in lowercase
    table = dict(zip( #  Quitar tildes
        [ord(x) for x in u'áéíóúü'],
        [ord(x) for x in u'aeiouu']
    ))
    txt = txt.translate(table)    
    txt = ''.join([
        letter for letter in txt 
        if letter in set(u'abcdefghijklmnñopqrstuvwxyz0123456789 ')]
    )
    words = [
        stemmer.stem(w)
        for w in txt.split(' ')
        if w!='' and w not in STOPWORDS
    ]
    return words

In [None]:
print get_keywords(txt2words(documents[0]['body']))

## Aplicándolo a todos los documentos

In [None]:
for d in documents:
    for key in ['body', 'summary']:
        d[key+'_tokens'] = txt2words(d[key])

### Exploración

In [None]:
# Film titles
titles = sorted(list({d['title'] for d in documents}))
print '\n'.join(titles)

In [None]:
def explore(title):
    print title
    for kws in [get_keywords(d['body_tokens']) for d in documents if title==d['title']]:
        print ', '.join(kws)

In [None]:
explore('Rambo: acorralado')

In [None]:
explore('Saw')

In [None]:
explore('Los puentes de Madison')

In [None]:
explore('2001, Odisea del espacio')

In [None]:
explore('Apocalypto')

## Exportar/Importar

In [None]:
import json
import zlib

'''
# Keys to keep
keys_export = ['file', 'title', 'author','rank', 'summary_tokens', 'body_tokens']
# New data structure to export
docs_export = [
    {key: d[key] for key in keys_export}
    for d in documents
]'''

# Export
with open(config.DATASET_MUCHOCINE, 'w+') as fd:
    fd.write(zlib.compress(json.dumps(documents)))
    
# Import
with open(config.DATASET_MUCHOCINE, 'r') as fd:
    docs_import =json.loads(zlib.decompress(fd.read()))