# Recursos para Minería de Texto en Español
En este notebook exploramos algunas de las herramientas de uso libre disponibles para realizar tareas básicas de NLP con texto en español.

Eric Andrés Jardón Chao <br/>
14 de octubre de 2021 <br/>

[Repositorio de Recursos NLP en español](https://github.com/dav009/awesome-spanish-nlp) <br/>

[NLP básico con Spacy en español](https://necronet.github.io/Spacy-getting-started-in-spanish/)

[POS Tagging & Lemmatization - CLARIN](https://www.clarin.eu/resource-families/tools-part-speech-tagging-and-lemmatization)

In [2]:
import nltk
import spacy

2021-10-15 15:22:34.782759: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2021-10-15 15:22:34.783372: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.


# NLTK + Open Multilingual WordNet
[Open Multilingual Wordnet](http://compling.hss.ntu.edu.sg/omw/)


In [3]:
from nltk.corpus import wordnet as wn

In [4]:
nltk.download('wordnet')
nltk.download('omw')   

[nltk_data] Downloading package wordnet to /home/echao/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw to /home/echao/nltk_data...
[nltk_data]   Package omw is already up-to-date!


True

In [7]:
print(wn.synsets('bank')[0].lemma_names('spa')
)
print(wn.synsets('computer')[0].lemma_names('spa'))

['margen', 'orilla', 'vera']
['computadora', 'ordenador', 'procesador']


In [None]:
nltk.download('stopwords')

In [9]:
# hapaxes()  palabras que ocurren una sola vez en el texto
nltk.corpus.stopwords.words("spanish")

['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'más',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 'sí',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'también',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'mí',
 'antes',
 'algunos',
 'qué',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 'él',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 'tú',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'mío',
 'mía',
 'míos',
 'mías',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',
 'vuestro'

## Recursos de la UNAM
Del Curso de Procesamiento de Lenguaje Natural con Python de la UNAM.
Podemos encontrar Corpus y otros tutoriales para trabajar con texto en español.
- [Sitio de Corpus Lingüísticos de la UNAM](http://www.iling.unam.mx/corpus/)
- [Curso de Procesamiento de Lenguaje Natural con Python de la UNAM](http://www.corpus.unam.mx/cursopln/)

Un **corpus** es un conjunto de documentos destinado a la investigación; sea texto, video, audio u otro formato.
Para el curso de NLP de la UNAM se utilizó un corpus de documentos legales en español. (quizás no es el mejor caso pues es una forma muy particular de hablar, distinta del español conversacional o coloquial)

# Part-Of-Speech Taggers en Español

Un **POST Tagger** es un programa que lee texto en algún lenguaje y asigna partes de discurso correspondientes a cada palabra (y cada token) tales como: _sustantivo_, _verbo_, _adjetivo_, etcétera.

- [Stanford NLP Group](https://nlp.stanford.edu/software/tagger.shtml)
    - _Download full Stanford Tagger_ (~129MB)
    -  Descomprimir el zip, ubicar `stanford_postagger.jar`
    - Ubicar la carpeta /models y adentro el archivo `spanish.tagger`
    - Se requiere la ruta completa de ambos archivos para utilizarlos con Python y NLTK
    - [**Guía**](https://nlp.stanford.edu/software/spanish-faq.shtml#tagset)

"Python: 2020s advice: You should always use a Python interface to the CoreNLPServer for performant use in Python. For NLTK, use the nltk.parse.corenlp module. Historically, NLTK (2.0+) contains an interface to the Stanford POS tagger. The original version was written by Nitin Madnani: documentation (note: in old versions, manually set the character encoding or you get ASCII!), code, on Github. After a while there was a better CoreNLPPOSTagger class."

- [Tree POSTagger - University of Stuttgart](https://www.cis.lmu.de/~schmid/tools/TreeTagger/)
- [SpaCy](https://spacy.io/models), que implementa casi todo de lo que hemos visto



In [49]:
## DO NOT RUN -- files not found

from nltk.tag import StanfordPOSTagger

tokens = "El chavo del ocho es un programa famoso en latinoamérica".lower().split()

tagger = "/mnt/c/Users/ericj/Downloads/.../spanish.tagger"
jarfile = "/mnt/c/Users/ericj/Downloads/.../stanford-postagger.jar"

tagger = StanfordPOSTagger(tagger, jarfile)
tags = tagger.tag(tokens)

LookupError: Could not find stanford-postagger.jar jar file at /mnt/c/Users/ericj/Downloads/.../stanford-postagger.jar

# Word & Sentence Tokenizing in spanish
**Sentence**: Utilizamos una	instancia	de	`PunktSentenceTokenizer` que	funciona	para	una	gran	
variedad	de	idiomas.
**Word**: usamos la librería `spaCy`

In [10]:
import re
import nltk.data
es_tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle') # sentence tokenizer

In [11]:
txt = "¿Quién eres tú? ¡Hola! ¿Dónde estoy?"
print(txt)
print(es_tokenizer.tokenize(txt))

¿Quién eres tú? ¡Hola! ¿Dónde estoy?
['¿Quién eres tú?', '¡Hola!', '¿Dónde estoy?']


In [12]:
import spacy
nlp = spacy.load("es_core_news_sm")
# En terminal: python -m spacy download es_core_news_sm

In [13]:
txt = "¿Quién eres tú? ¡Hola! ¿Dónde estoy?"
doc = nlp(txt)
print([(w.text, w.pos_) for w in doc])  # no da el POS más adecuado, quizás probar con md, lg o trf

[('¿', 'PUNCT'), ('Quién', 'PRON'), ('eres', 'AUX'), ('tú', 'PRON'), ('?', 'PUNCT'), ('¡', 'PUNCT'), ('Hola', 'PROPN'), ('!', 'PUNCT'), ('¿', 'PUNCT'), ('Dónde', 'PRON'), ('estoy', 'AUX'), ('?', 'PUNCT')]


# Stemming

Using Snowball Stemmer.

In [14]:
txt= """
Las propiedades de los jesuitas sirvieron para crear nuevos centros
de enseñanza y residencias universitarias, ¿cierto?. Sus riquezas, para beneficiar 
a los sectores más necesitados, se destinaron a la creación de hospitales 
y hospicios. Promovió un nuevo plan de Estudios Universitarios, que fue 
duramente contestado por la Universidad de Salamanca, proponiendo un plan 
propio, que a la postre fue implantado años después."""

tokens = [w.text for w in nlp(txt)]
print(tokens)

['\n', 'Las', 'propiedades', 'de', 'los', 'jesuitas', 'sirvieron', 'para', 'crear', 'nuevos', 'centros', '\n', 'de', 'enseñanza', 'y', 'residencias', 'universitarias', ',', '¿', 'cierto', '?', '.', 'Sus', 'riquezas', ',', 'para', 'beneficiar', '\n', 'a', 'los', 'sectores', 'más', 'necesitados', ',', 'se', 'destinaron', 'a', 'la', 'creación', 'de', 'hospitales', '\n', 'y', 'hospicios', '.', 'Promovió', 'un', 'nuevo', 'plan', 'de', 'Estudios', 'Universitarios', ',', 'que', 'fue', '\n', 'duramente', 'contestado', 'por', 'la', 'Universidad', 'de', 'Salamanca', ',', 'proponiendo', 'un', 'plan', '\n', 'propio', ',', 'que', 'a', 'la', 'postre', 'fue', 'implantado', 'años', 'después', '.']


In [15]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('spanish')
print(stemmer.stem('prolongación'))
print(stemmer.stem('aprehenderla'))

prolong
aprehend


In [57]:
stemmed_text = [stemmer.stem(w) for w in tokens]
stemmed_text

['\n',
 'las',
 'propiedad',
 'de',
 'los',
 'jesuit',
 'sirv',
 'par',
 'cre',
 'nuev',
 'centr',
 '\n',
 'de',
 'enseñ',
 'y',
 'resident',
 'universitari',
 ',',
 '¿',
 'ciert',
 '?',
 '.',
 'sus',
 'riquez',
 ',',
 'par',
 'benefici',
 '\n',
 'a',
 'los',
 'sector',
 'mas',
 'necesit',
 ',',
 'se',
 'destin',
 'a',
 'la',
 'creacion',
 'de',
 'hospital',
 '\n',
 'y',
 'hospici',
 '.',
 'promov',
 'un',
 'nuev',
 'plan',
 'de',
 'estudi',
 'universitari',
 ',',
 'que',
 'fue',
 '\n',
 'dur',
 'contest',
 'por',
 'la',
 'univers',
 'de',
 'salamanc',
 ',',
 'propon',
 'un',
 'plan',
 '\n',
 'propi',
 ',',
 'que',
 'a',
 'la',
 'postr',
 'fue',
 'implant',
 'años',
 'despues',
 '.']

# Lemmatizing
Suele ser más útil que el stemming.
Puede hacerse con SpaCy, FreeLing, CLARIN, Stanford CoreNLP

En este caso, utilizamos Spacy


In [58]:
doc = nlp(txt)
# cada uno de los objetos en el doc tiene diferentes propiedades

In [59]:
for w in doc:
    print(w, '->', w.lemma_)


 -> 

Las -> el
propiedades -> propiedad
de -> de
los -> el
jesuitas -> jesuita
sirvieron -> servir
para -> para
crear -> crear
nuevos -> nuevo
centros -> centro

 -> 

de -> de
enseñanza -> enseñanza
y -> y
residencias -> residencia
universitarias -> universitario
, -> ,
¿ -> ¿
cierto -> cierto
? -> ?
. -> .
Sus -> su
riquezas -> riqueza
, -> ,
para -> para
beneficiar -> beneficiar

 -> 

a -> a
los -> el
sectores -> sector
más -> más
necesitados -> necesitado
, -> ,
se -> él
destinaron -> destinar
a -> a
la -> el
creación -> creación
de -> de
hospitales -> hospital

 -> 

y -> y
hospicios -> hospicio
. -> .
Promovió -> promover
un -> uno
nuevo -> nuevo
plan -> plan
de -> de
Estudios -> Estudios
Universitarios -> Universitarios
, -> ,
que -> que
fue -> ser

 -> 

duramente -> duramente
contestado -> contestado
por -> por
la -> el
Universidad -> Universidad
de -> de
Salamanca -> Salamanca
, -> ,
proponiendo -> proponer
un -> uno
plan -> plan

 -> 

propio -> propio
, -> ,
que -> que
a

# Text Clustering

- [Multilingual LDA Pipeline - ArticiAI](https://github.com/ArtificiAI/Multilingual-Latent-Dirichlet-Allocation-LDA)
- [Tutorial](https://github.com/ArtificiAI/Multilingual-Latent-Dirichlet-Allocation-LDA/blob/master/Multilingual-LDA-Pipeline-Tutorial.ipynb)

Before using any lackage you must do some text pre-procesing on the corpus

- tokenization
- normalization (e.g. lowercase)
- stop-word removal
- stemming