# Examen Gestión de Información no estructurada
__Arturo Sánchez Palacio__

## Teoría

### Ejercicio 1.  Pre-procesamiento de textos. Enumere las tareas que lo componen. ¿En qué se diferencian stemming y lematización? Ponga un ejemplo.

El preprocesamiento de texto es la tarea previa básica a la minería de textos y permite dejar los textos a estudiar preparados para el análisis. Se compone de las siguientes tareas:

* Constitución del corpus.
* Detección del idioma.
* Segmentación en frases.
* Tokenización.
* Normalización (Stemming y Formas Canónicas).
* Análisis Gramatical.
* Análisis Sintáctico.
* Shallow Parsing.

El stemming consiste en extraer las raíces de las palabras y trabajar con dichas raíces en lugar de las palabras completas a la hora de analizar los documentos. Es un proceso puramente morfológico que no tiene en cuenta el contexto. La lematización por su parte consiste en extraer a partir de una palabra su lema o forma canónica. En este caso sí se tiene en cuenta el contexto que permite en ocasiones desambiguar.

El caso no está resulto -> Caso 

Me caso en Septiembre de 2022 -> Casar

El stemming de casar es cas frente a su forma normal que es casar.

### Ejercicio 2. ¿Cuáles son los principales mecanismos de evaluación de un sistema de clasificación atendida? ¿Es suficiente con dar un solo parámetro para ver la bondad de un sistema de clasificación?

Una vez realizada una clasificación se debe emplear el conjunto de validación para la construcción de la matriz de confusión. Esta matriz nos aporta una gran cantidad de información para la calidad del modelo pudiéndose calcular a partir de ella:
* la tasa de aciertos (cuántos individuos están bien clasificados entre el total) 
* la precision indica lo relevante de tus resultados (aciertos positivos contra positivos en total)
* el recall indica el porcentaje de resultados relevantes correctamente clasificados (aciertos positivos entre predicciones positivas)

La relevancia de estos parámetros se debe a que según lo balanceada que esté la muestra la tasa de acierto nos puede llevar a error. Si tenemos un problema de detección de fraude en el que hay pocos ejemplos de positivo frente a muchos de negativo. Un modelo que clasificara todo como negativo podría tener una tasa de acierta muy alta y sin embargo no sería un buen modelo pues no estaría cumpliendo su misión.

Otras métricas interesantes son el diagrama de Precision-Recall o las curvas ROC.

### Ejercicio 3. Un Banco de Consumo de tamaño medio desea agilizar su proceso de tramitación de quejas y reclamaciones de los clientes. Actualmente el primer paso es una clasificación manual realizada por empleados del banco. Este proceso es lento y tiene un coste alto. ¿Qué sistema propondría usted para mecanizar este procedimiento? Indique si emplearía un software comercial, software de libre distribución o realizaría un programa a medida. Indique también el algoritmo recomendado.

A la hora de construir un modelo para afrontar este problema optaría por un modelo de clasificación. Si se tratara de un banco joven que no contara con suficientes datos quizá fuera necesario recurrir directamente a un software comercial pues el banco no dispondría de la suficiente información para la construcción de un modelo adecuado. En caso de disponer de dicha información definiría el proyecto según las necesidades de la empresa (quizá interese clasificar las quejas por tema (atención, problemas con la web,...) o por urgencia para su atención (inmediatas, urgentes, leves...). Una vez definidas las categorías entrenaría un modelo de clasificación que se iría revisando periódicamente para su mejora y actualización. Como algoritmo emplearía el Support Vector Machine.

A la hora de decidir entre software comercial y software libre esto dependería en gran parte de los recursos humanos del banco dependiendo de su capacidad y costumbre de trabajo con programación. Posiblemente la opción más cauta sería comenzar con software comercial por garantizar su asistencia en todo momento y paralelamente comenzar a desarrollar una solución propia de la empresa.Una vez que esta solución esté depurada se podría prescindir del software logrando una considerable reducción de costes.

### Ejercicio 4. Enumere los principales paquetes open-source de PLN. Describa brevemente la arquitectura de dichos paquetes.

Los principales paquetes open-source de PLN son:
* Lucene
* Solr
* ElasticSearch

Todos ellos fundamentados en la arquitectura UIMA. UIMA es una plataforma que busca proveer representaciones comunes de los datos (CAS) para el objeto analizado, coordinar el flujo de trabajo de los motores de análisis y empaquetar motores de análisis en un desarrollo genérico y portable. Es es términos generales una pltaforma que auna varios motores de análisis con el fin de extraer información valiosa a partir de datos no estructurados.

Los dos conceptos clave de la arquitectura UIMA son:
* __Motor de Análisis__. Programa que analiza los elementos e infiere información a partir de ellos. Se construyen a partir de bloquees llamados anotadores.
* __Anotador__. Un anotador es un componente que contiene análisis lógicos y emplea todos los recursos necesarios para ejecutar ese logicial. Realiza tareas de análisis lingüístico obteniendo y registrando anotaciones.

La UIMA define una estructura común de análisis (CAS) para que los anotadores representen y compartan su información.

### Ejercicio 5. ¿Cuáles son los algoritmos más frecuentes que se utilizan para la extracción de tópicos? ¿Qué librerías Python son las más utilizadas que implementen dichos algoritmos?

Los algoritmos que más se utilizan para el modelado de tópicos son:
* Latent Dirichlet Allocation (LDA).
* Probabilistic Latent Semantic Analysis (PLSA).
* Correlated Topic Model

La biblioteca más empleada en Python para el modelo de tópicos es Gensim.

## Práctica

Se importan a continuación los módulos utilizados para este examen:

In [1]:
from nltk.corpus import PlaintextCorpusReader
import textacy, spacy, nltk
from stop_words import get_stop_words
import gensim
from gensim import corpora, models
import pyLDAvis.gensim

### Ejercicio 1. Realize un preprocesamiento del siguiente texto:

En primer lugar se carga el texto vía string:

In [2]:
Zambrano = """María Zambrano (1904, Vélez Málaga-1991, Madrid) figura en la cima de
la filosofía del pensamiento español. Desde 1909 a 1924 vivió en Segovia,
donde conoció a Antonio Machado. Discípula predilecta de Ortega y
Gasset, asistió también a clases de García Morente, Manuel Bartolomé
Cossío y Xavier Zubiri. Empezó a publicar artículos en 1928 y su primer
libro, Horizonte del liberalimo data de 1930. Ya en la República, participó
en las Misiones Pedagógicas. Su exilio la llevó por Chile, México, Cuba,
Puerto Rico, Roma, París y Suiza."""

Detectamos el idioma del texto:

In [4]:
textacy.text_utils.detect_language(Zambrano)

'es'

Se empleará Spacy por tratarse de un texto en castellano. Para ello se procede a la carga del modelo:

In [3]:
nlp = spacy.load('es_core_news_sm')

Se procesa el texto según este modelo:

In [5]:
Zambrano_proc = nlp(Zambrano)

Se presentan a continuación las frases del texto:

In [16]:
print("Frases:")
n_frases = 0
for sent in Zambrano_proc.sents:
    print(sent)
    n_frases=n_frases + 1
print("\n El texto consta de",n_frases,"frases.")


Frases:
María Zambrano (1904, Vélez Málaga-1991, Madrid) figura en la cima de
la filosofía del pensamiento español.
Desde 1909 a 1924 vivió en Segovia,
donde conoció a Antonio Machado.
Discípula predilecta de Ortega y
Gasset, asistió también a clases de García Morente, Manuel Bartolomé
Cossío y Xavier Zubiri.
Empezó a publicar artículos en 1928 y su primer
libro, Horizonte del liberalimo data de 1930.
Ya en la República, participó
en las Misiones Pedagógicas.
Su exilio la llevó por Chile, México, Cuba,
Puerto Rico, Roma, París y Suiza.

 El texto consta de 6 frases.


Se presenta a continuación la lista de palabras del texto:

In [17]:
print("Palabras:")
for palabra in Zambrano_proc:
    print(palabra.text)

Palabras:
María
Zambrano
(
1904
,
Vélez
Málaga-1991
,
Madrid
)
figura
en
la
cima
de


la
filosofía
del
pensamiento
español
.
Desde
1909
a
1924
vivió
en
Segovia
,


donde
conoció
a
Antonio
Machado
.
Discípula
predilecta
de
Ortega
y


Gasset
,
asistió
también
a
clases
de
García
Morente
,
Manuel
Bartolomé


Cossío
y
Xavier
Zubiri
.
Empezó
a
publicar
artículos
en
1928
y
su
primer


libro
,
Horizonte
del
liberalimo
data
de
1930
.
Ya
en
la
República
,
participó


en
las
Misiones
Pedagógicas
.
Su
exilio
la
llevó
por
Chile
,
México
,
Cuba
,


Puerto
Rico
,
Roma
,
París
y
Suiza
.


### Ejercicio 2. Extraiga y escriba por pantalla las formas normales y la categoría gramatical de cada una de las palabras del texto anterior.

In [27]:
print("Formas normales junto a su categoría gramatical:")
for palabra in Zambrano_proc:
    print(palabra.lemma_, palabra.pos_)

Formas normales junto a su categoría gramatical:
María PROPN
Zambrano PROPN
( PUNCT
1904 NOUN
, PUNCT
Vélez PROPN
Málaga-1991 PROPN
, PUNCT
Madrid PROPN
) PUNCT
figurar VERB
en ADP
lo DET
cima NOUN
de ADP

 SPACE
lo DET
filosofía NOUN
del ADP
pensamiento NOUN
español ADJ
. PUNCT
Desde ADP
1909 NOUN
a ADP
1924 NOUN
vivir VERB
en ADP
Segovia PROPN
, PUNCT

 SPACE
donde PRON
conocer VERB
a ADP
Antonio PROPN
Machado PROPN
. PUNCT
Discípula VERB
predilecto ADJ
de ADP
Ortega PROPN
y CONJ

 SPACE
Gasset PROPN
, PUNCT
asistir VERB
también ADV
a ADP
clase NOUN
de ADP
García PROPN
Morente PROPN
, PUNCT
Manuel PROPN
Bartolomé PROPN

 SPACE
Cossío PROPN
y CONJ
Xavier PROPN
Zubiri PROPN
. PUNCT
Empezó AUX
a ADP
publicar VERB
artículo NOUN
en ADP
1928 NOUN
y CONJ
su DET
﻿1 ADJ

 SPACE
librar NOUN
, PUNCT
Horizonte PROPN
del ADP
liberalimo ADJ
datar VERB
de ADP
1930 NOUN
. PUNCT
Ya ADV
en ADP
lo DET
República PROPN
, PUNCT
participar VERB

 SPACE
en ADP
los DET
Misiones PROPN
Pedagógicas PROPN
. PUNC

### Ejercicio 3. Realice una extracción de entidades del texto anterior. Deben aparecer al menos entidades de tipo persona, localización y organización. Comente los resultados obtenidos.

In [29]:
print("\n Entidades:")
for entidad in Zambrano_proc.ents:
    print(entidad.text, entidad.label_)


 Entidades:
María Zambrano PER
Vélez Málaga-1991 MISC
Madrid LOC
Segovia LOC
Antonio Machado PER
Discípula PER
Ortega PER
García Morente PER
Manuel Bartolomé
Cossío PER
Xavier Zubiri PER
Empezó PER
Horizonte del liberalimo data MISC
Ya en la República MISC
Misiones Pedagógicas MISC
Chile LOC
México LOC
Cuba LOC
Puerto Rico LOC
Roma LOC
París LOC
Suiza LOC


La detección de entidades es bastante buena detecta y acierta con todas las localizaciones a excepción de Vélez Málaga quizá por la confusión que genera la fecha. 

En cuanto a personas su acierto es más parcial. Si bien detecta a todas las personas mencionadas algunas como la propia María Zambrano, Antonio Machado o García Morente se detectan como un única entidad mientras que en Ortega y Gasset  solo detecta Ortega y en Manuel Bartolomé Cossío detecta como dos entidades Manuel Bartolomé y Cossío.

No detecta entidades de tipo organización pues no aparece ninguna en el texto.

Por último algunas entidades se catalogan en miscelánea (cabe suponer que por el uso de mayúsculas) como son "Ya en la República". (Si el ya se introduce en minúsculas solo capta República), Vélez Málaga-1991 por lo antes comentado o Misiones Pegadógicas.

### Ejercicio 4. Extraiga los ficheros que se encuentran en el archivo docus.zip en un directorio. Léalos desde su notebook y realice las tareas de pre-procesamiento que considere necesarias para abordar una extracción de tópicos. Genere 3 tópicos y saque por pantalla la lista con los 5 términos más frecuentes de cada tópico.

Se procede en primer lugar a la construcción del corpus a partir de los archivos presentes en el fichero comprimido:

In [30]:
docs_dir = "./docus/"
documentos = PlaintextCorpusReader(docs_dir, '.*') 

Los documentos presentes en el directorio son:

In [31]:
print(documentos.fileids()) 

['0001.txt', '0002.txt', '0003.txt', '0004.txt', '0005.txt', '0006.txt', '0007.txt', '0008.txt', '0009.txt', '0010.txt', '0011.txt', '0012.txt', '0013.txt', '0014.txt', '0015.txt']


Se procede a detectar el idioma de los documentos con el fin de elegir el modelo para la extracción de tópicos:

In [36]:
for titulo in documentos.fileids():
    print(titulo, textacy.text_utils.detect_language(documentos.raw(fileids=titulo)))

0001.txt es
0002.txt es
0003.txt es
0004.txt es
0005.txt es
0006.txt pt
0007.txt es
0008.txt es
0009.txt es
0010.txt es
0011.txt es
0012.txt es
0013.txt es
0014.txt es
0015.txt es


Detecta español en todos los textos exceptuando uno que aparece en portugues. Este texto se comprueba manualmente viendo que también se encuentra en castellano.

In [37]:
documentos.raw(fileids="0006.txt")

'Vargas Llosa anuncia un libro sobre el golpe militar auspiciado por la CIA en Guatemala en 1954'

Una vez hecho esto se elige el modelo de Spacy para extracción de tópicos y se procede al procesado de los textos:

In [38]:
nlp = spacy.load('es_core_news_sm') #Es redundante ya se hizo antes

In [42]:
doc_list = []
for titulo in documentos.fileids():
    doc_list.append(documentos.raw(fileids=titulo))

Se realiza un análisis LDA. Para ello es necesario vectorizar el documento lo que requiere la transformación a minúsculas de todas las palabras, el paso a forma normal y la eliminación de las palabras vacías.

Se carga en primer lugar la lista de palabras vacías en español:

In [40]:
es_stop = get_stop_words('es')

Se recorre cada documentos pasando las palabras a minúsculas, obteniendo las formas normales y añadiéndolas a la lista si no son palabras vacías. Además se añade como restricción que tenga longitud mayor que uno porque lo más probable es que sea una palabra vacía o un signo de puntuación:

In [43]:
textos = []
palabras = []

for doc in doc_list:
    doc_min = doc.lower()
    doc = nlp(doc_min)
    for token in doc:
        if (not token.lemma_ in es_stop) and (len(token.lemma_)>1):
            palabras.append(token.lemma_)
    textos.append(palabras)
    palabras = []

En textos se almacenan los documentos ya procesados. Tras ello se procede a la construcción del diccionario de términos:

In [44]:
dictionary = corpora.Dictionary(textos)

Tras esto se genera la matriz de términos documentos:

In [45]:
corpus = [dictionary.doc2bow(texto) for texto in textos]

Finalmente se construye el modelo LDA. Se fijan tres clusters porque son en teoría los presentes en los documentos: baloncesto, Literatura y tecnología.

In [46]:
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=3, id2word = dictionary, passes=50)

Se visualizan los cinco términos más frecuentes en cada tópico:

In [47]:
terminos_topic = ldamodel.print_topics(num_topics=3, num_words=5)

In [48]:
for terminos in terminos_topic:
    print(terminos)

(0, '0.025*"ordenador" + 0.025*"principal" + 0.024*"madrid" + 0.014*"nuevo" + 0.014*"entrar"')
(1, '0.020*"librar" + 0.020*"parir" + 0.020*"portugal" + 0.012*"apple" + 0.012*"canasta"')
(2, '0.029*"temporada" + 0.023*"baloncesto" + 0.023*"parir" + 0.016*"olympiacos" + 0.016*"haber"')


### Ejercicio 5. Obtenga el resultado gráfico del análisis mediante la librería pyLDAvis. Comente los resultados obtenidos.

In [49]:
pyLDAvis.enable_notebook()

data = pyLDAvis.gensim.prepare(ldamodel, corpus, dictionary)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [50]:
pyLDAvis.display(data)

#### Comentario.

El modelo devuelve tres tópicos que no se corresponden con los esperados a priori: Baloncesto, Literatura y Ordenadores. Por las palabras que aparecen en cada grupo se puede observar que en todos ellos se entremezclan textos de los tres temas. Los clusters se encuentran separados entre ellos por el empleo de los distintos términos.