<a href="https://colab.research.google.com/github/jgermanob/COCID-PLN/blob/master/notebooks/Preprocesamiento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 4) Preprocesamiento de Texto



In [None]:
!python3 -m spacy download es_core_news_sm

In [None]:
from nltk.tokenize import RegexpTokenizer
from nltk import FreqDist
import spacy
import re

## 4.1) Carga de texto

In [None]:
!wget https://raw.githubusercontent.com/jgermanob/COCID-PLN/master/Corpora/elramoazul.txt

In [None]:
TEXT_PATH = 'elramoazul.txt'

In [None]:
input_file = open(TEXT_PATH, encoding='utf8').read()

In [None]:
input_file

## 4.2) Tokenización

Dada una secuencia de caracteres y un documento, la tokenización es la tarea de dividir el texto en unidades, llamadas _tokens_. Es posible que durante este proceso también se necesario desechar cierto tipo de caracteres, como los signos de puntuación.

Estos tokens a menudo se denominan vagamente términos o palabras, pero a veces es importante hacer una distinción tipo/token. Un token es una instancia de una secuencia de caracteres en algún documento particular que se agrupan como una unidad semántica útil para el procesamiento. Un tipo es la clase de todos los tokens que contienen la misma secuencia de caracteres.


In [None]:
# Convertir el texto a minusculas
input_file = input_file.lower()
# Definir una expresión regular para tokenizar el texto
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(input_file)

In [None]:
tokens[:15]

## 4.3) Análisis morfológico

Por razones gramaticales, los documentos van a utilizar diferentes formas de una palabra, como _organize_, _organizes_ y _organizing_. Además, hay familias de palabras relacionadas por derivación con significados similares, como democracia, democrático y democratización. En muchas situaciones, parece que sería útil buscar una de estas palabras para devolver documentos que contienen otra palabra en el conjunto.

El análisis morfológico es un campo de la lingüística que estudia la estructura de las palabras. Identifica cómo se produce una palabra mediante el uso de morfemas. El morfema es el elemento más pequeño de una palabra que tiene función y significado gramatical. El morfema libre y el morfema unido son los dos tipos de morfemas. Un solo morfema libre puede convertirse en una palabra completa.


In [None]:
nlp = spacy.load('es_core_news_sm')

In [None]:
input_file = re.sub('\n+',' ', input_file)
input_file = re.sub(r'[^\w\s]','', input_file)

In [None]:
input_file

In [None]:
doc = nlp(input_file)

In [None]:
token = doc[8]

In [None]:
token

In [None]:
print(token.morph) 

Al tratarse de un verbo, se presentan los siguientes campos:

* Mood: Indica el tono de verbo en la oración. En este caso, el _mood_ subjuntivo se utiliza para expresar un deseo, una duda, una demanda o una situación hipotética.

* Number: se refiere a si el sujeto es singular o plural. En este caso es singular.

* Person: Esta se refiere a si la(s) persona(s) referida(s) está(n) hablando, se les habla o se habla acerca de ellos. En este caso se asigna la tercera persona.

* Tense: Los tiempos verbales son cambios o adiciones a los verbos para mostrar cuándo tuvo lugar la acción: en el pasado, presente o futuro. En este caso el analizador asigna tiempo presente.

* VerbForm: Es una característica flexiva de verbos y auxiliares, sin embargo, también se usa como característica léxica de algunos adjetivos y adverbios. En este caso, como se el _Mood_ es no vacío, se considera finito.

Para conocer todos los campos de cada tipo de palabra, es posible consultar el formato [CoNLL-U](https://universaldependencies.org/format.html#morphological-annotation).


### 4.3.1) Lematización

La lematización generalmente se refiere a hacer un análisis mofológico de las palabras, normalmente con el objetivo de eliminar solo las terminaciones flexivas y devolver la forma base o de diccionario de una palabra, que se conoce como el lema.

In [None]:
lemmas = [token.lemma_ for token in doc]

In [None]:
lemmas[:15]

## 4.4) Etiquetado PoS (_Part of Speech_)
 Esta es una técnica fundamental en PLN que consiste en etiquetar cada palabra de un documento en su correspondiente categoría gramatical o parte de la oración. Su importancia radica en la gran cantidad de información que brindan sobre una palabra y sus vecinos.

 Las partes de la oración se pueden dividir en dos amplias supercategorías: tipos de clase cerrada y tipos de clase abierta. Las clases cerradas son aquellas que tienen un número relativamente fijo de miembros. Por ejemplo, las preposiciones son una clase cerrada porque hay un conjunto fijo de ellas en inglés; rara vez se añaden nuevas preposiciones. Por el contrario, los sustantivos y verbos son clases abiertas porque continuamente se acuñan nuevos sustantivos y verbos o se toman prestados de otros idiomas.

 Las palabras de clase cerrada también son generalmente palabras funcionales como de, eso, el, que tienden a ser muy cortas, ocurren con frecuencia y, a menudo, tienen usos estructurantes en la gramática.

 Hay cuatro clases abiertas principales que ocurren en los idiomas del mundo; sustantivos, verbos, adjetivos y adverbios.


La biblioteca SpaCy utiliza las [etiquetas POS universales](https://universaldependencies.org/u/pos/), son:

* ADJ: adjetivo
* ADP: adposición
* ADV: adverbio
* AUX: auxiliar
* CCONJ: conjunción de coordinación
* DET: determinante
* INTJ: interjección
* NOUN: sustantivo
* NUM: numeral
* PART: particula
* PRON: pronombre
* PROPN: nombre propio
* PUNCT: punctuación
* SCONJ: conjunción subordinada
* SYM: simbolo
* VERB: verbo
* X: otro


In [None]:
tokens = doc[8:19]
for token in tokens:
  print('{}: {}'.format(token.text, token.pos_))

## Ejercicio.
Realizar el análisis del texto "El ramo azul" y contestar las siguientes preguntas.

#### 1) ¿Cuántas palabras hay en el texto? (descartando símbolos de puntuación).

#### 2) ¿Cuántas palabras diferentes hay? (Lista de tipos)

#### 3) Después de lematizar las palabras, ¿cuántas palabras diferentes hay?

#### 4) ¿Cuál es la diversidad léxica del texto dado? (relación de palabras únicas con respecto al número total de palabras)

$dl = \frac{\#\ tipos}{\#\ palabras}$

#### 5) ¿Cuáles son las 20 palabras (únicas) más frecuentes en el texto? ¿Cuál es su frecuencia?.

Es posible utilizar la clase [`FreqDist`](https://www.nltk.org/api/nltk.probability.FreqDist.html) de NLTK.

#### 6) ¿Cuál es el número promedio de palabras por oración?

#### 7) ¿Cuál es la frecuencia de sustantivos, adjetivos y verbos en el texto?