## Importamos las librerías que se van a usar 

In [1]:
import glob
import sys, csv
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import wordpunct_tokenize
from scipy.special import psi
from wordcloud import WordCloud
import xml.etree.ElementTree as ET
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')
import warnings
warnings.simplefilter("ignore", DeprecationWarning)
from sklearn.decomposition import LatentDirichletAllocation as LDA
import pandas as pd


## Cargamos los documentos 


In [2]:
filenames = glob.glob('AbstractsClassS/*.xml')


## Definimos algunas funciones para procesar los documentos 


In [3]:
#La siguiente funcion devuelve el abstract de un archivo que se le introduzca.
def getabstract(filename):
    punctuations = '''!()-[]{};:'"\,<>./?@#$%^&*_~123456789'''
    try:
        tree = ET.parse(filename, parser= ET.XMLParser(encoding = 'iso-8859-5'))
        root = tree.getroot()
    except:
        return " "
    doc = " "
    for i in root[0]:
        if i.tag == 'AbstractNarration' and i.text is not None:
            doc = i.text
            doc = doc.replace('<br/>', ' ')
            doc = doc.replace('т\x80\x99',' ')
            doc = doc.replace('т\x80\x94', ' ')
            doc = doc.replace('т\x80\x9c', ' ')
            doc = doc.replace('т\x80\x9d', ' ')
            no_punt = ""
            for char in doc:
                if char not in punctuations:
                    no_punt = no_punt + char
            doc = no_punt
            doc = doc.lower()
            doc = ' '.join([word for word in doc.split() if word not in stopwords.words('english')])
    # print doc
    return doc
#la siguiente funci'on devuelve el título de un artícilo dado


def gettitle(filename):
    punctuations = '''!()-[]{};:'"\,<>./?@#$%^&*_~123456789'''
    try:
        tree = ET.parse(filename, parser= ET.XMLParser(encoding = 'iso-8859-5'))
        root = tree.getroot()
    except:
        return " "
    doc = " "
    for i in root[0]:
        if i.tag == 'AwardTitle' and i.text is not None:
            doc = i.text
            doc = doc.lower()
            doc = ' '.join([word for word in doc.split() if word not in stopwords.words('english')])
            no_punt = ""
            for char in doc:
                if char not in punctuations:
                    no_punt = no_punt + char
            doc = no_punt
    # print doc
    return doc

#La siguiente funcion  devuelve una lista con todos los abstracts no vacios
def getalldocs():
    files = filenames
    docs = []
    for file in files:
        doc = getabstract(file)
        # print doc
        if doc != " ":
            docs.append(doc)
    # print docs
    return docs


#La siguiente funci'on devuelve todos los titulos del premio de un articulo dado

def getalltitles():
    files = filenames
    titles = []
    for file in files:
        tit = gettitle(file)
        doc = getabstract(file)
        # print doc
        if doc != " ":
            titles.append(tit)
    # print docs
    return titles


## Ahora procesamos los datos y hacemos un word cloud

In [None]:
#Pegamos las dos listas
listTitle_Abstract = {'titles': getalltitles(), 'abstract': getalldocs()}
#Convertimos la lista en un data frame
abstTitleDF = pd.DataFrame(listTitle_Abstract, columns=['titles', 'abstract'])
# Pegamos todos las palabras procesadas.
long_string = ','.join(list(abstTitleDF['titles'].values))
long_string += ','.join(list(abstTitleDF['abstract'].values))
wordcloud = WordCloud(background_color="white", max_words=10000, contour_width=3, contour_color='steelblue')
# Generamos un word cloud
wordcloud.generate(long_string)
# Visualizaci'on del word cloud
wordcloud.to_image()


## Ahora contamos las palabras más repetidas en los documentos

In [None]:
def plot_10_most_common_words(count_data, count_vectorizer):
    import matplotlib.pyplot as plt
    words = count_vectorizer.get_feature_names()
    total_counts = np.zeros(len(words))
    for t in count_data:
        total_counts += t.toarray()[0]

    count_dict = (zip(words, total_counts))
    count_dict = sorted(count_dict, key=lambda x: x[1], reverse=True)[0:10]
    words = [w[0] for w in count_dict]
    counts = [w[1] for w in count_dict]
    x_pos = np.arange(len(words))

    plt.figure(2, figsize=(15, 15 / 1.6180))
    plt.subplot(title='Las diez palabras más usadas')
    sns.set_context("notebook", font_scale=1.25, rc={"lines.linewidth": 2.5})
    sns.barplot(x_pos, counts, palette='husl')
    plt.xticks(x_pos, words, rotation=90)
    plt.xlabel('Palabras')
    plt.ylabel('Cantidad')
    plt.show()


# Inicializamos el count vectorizer cpn las English stop words
count_vectorizer = CountVectorizer(stop_words='english')
# Fit and transform de los documentos procesados
count_data = count_vectorizer.fit_transform(long_string.split())
# Visualisamos las 10 palabras mas usadas
plot_10_most_common_words(count_data, count_vectorizer)

## Ahora aplicamos Latent Diriclet Allocation a los documentos, para clasificar los documentos por temas, sería bueno poder comparar varios escenarios y escoger el número de temas de la mejor manera posible

In [None]:
# La siguiente funci'on  devuelve los temas datos por lda y sus palabras
def print_topics(model, count_vectorizer, n_top_words):
    words = count_vectorizer.get_feature_names()
    for topic_idx, topic in enumerate(model.components_):
        print("\nTopic #%d:" % topic_idx)
        print(" ".join([words[i]
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))


# Definimos el numero de temas y palabras por tema
number_topics = 5
number_words = 10
# Creamos y ajustamos el LDA
lda = LDA(n_components=number_topics, n_jobs=-1)
lda.fit(count_data)
# Imprimimos los temas y las palabras
print("Temas encontrados  via LDA:")
print_topics(lda, count_vectorizer, number_words)



## Finalmente guardamaos en un diccionario los documentos con su tema asignado por el algoritmo, después graficamos los resultados

In [None]:
doc_topic = lda.transform(count_data)
r = dict()
for i in range(number_topics):
    r[i]=[]
for n in range(doc_topic.shape[0]):
    topic_most_pr = doc_topic[n].argmax()
    r[topic_most_pr].append(n)

s=[]
for i in range(number_topics):
    s.append(len(r[i]))
# Data to plot
labels = list(range(number_topics))
sizes = s

# Plot
plt.pie(sizes, labels=labels,
autopct='%1.1f%%', shadow=True, startangle=140)

plt.axis('equal')
plt.show()

   