<center><img src="img/aism_logo.png" alt="Logo AI Saturdays Madrid" title="Logo AI Saturdays Madrid" width="150"/></center>

# N-gramas

Los _**n-gramas**_ son secuencias continuas de $n$ palabras o tokens en un documento. En términos técnicos, se pueden definir como  secuencias vecinas de elementos en un documento y se usan en muchas tareas de procesamiento del lenguaje natural.

Los n-gramas se clasifican en distintos tipos en función del valor de $n$, es decir, del número de tokens que formen la secuencia. Así, hablamos de unigramas (1 token), bigramas (2 tokens), trigramas (3 tokens) y, en general, de n-gramas cuando la secuencia está formada por 4 o más tokens.

Para saber el número de n-gramas posibles $k$ que hay en una oración formada por $x$ número de palabras, podemos hacer el siguiente cálculo:

$$k = x - (n - 1)$$

Es decir, en un frase formada por 10 palabras, el número de bigramas y trigramas que podemos obtener es:

$$k_2 = x - (n - 1) = 10 - (2 - 1) = 9$$

$$k_3 = x - (n - 1) = 10 - (3 - 1) = 8$$

Los diferentes tipos de n-gramas son adecuados para diferentes tipos de aplicaciones. Así, es recomendable probar con diferentes n-gramas para concluir con seguridad cuál funciona mejor para el análisis de nuestros datos en forma de texto.

Trabajar con n-gramas nos permite reducir la dimensionalidad de un documento al combinar dos o más palabras en un mismo token, si así transmite una cantidad más significativa de información que como tokens separados.

Vamos a ver un cómo podemos obtener diferentes tipos de n-gramas de los documentos de un corpus y ver cuáles son los más frecuentes.

In [6]:
!pip install unidecode

Collecting unidecode
  Downloading Unidecode-1.3.8-py3-none-any.whl (235 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.5/235.5 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.8


In [7]:
# Importamos las librerías
import numpy as np
import pandas as pd

import re
import string
from unidecode import unidecode

import nltk
from nltk.corpus import stopwords
from nltk.util import ngrams

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [9]:
data = pd.read_csv('/content/drive/MyDrive/data_saturdays/winemag-data-130k-v2.csv', usecols=['description'])
data.head()

Unnamed: 0,description
0,"Aromas include tropical fruit, broom, brimston..."
1,"This is ripe and fruity, a wine that is smooth..."
2,"Tart and snappy, the flavors of lime flesh and..."
3,"Pineapple rind, lemon pith and orange blossom ..."
4,"Much like the regular bottling from 2012, this..."


In [None]:
# Importamos los datos
# data = pd.read_csv('data/winemag-data-130k-v2.csv', usecols=['description'])
# data.head()

Unnamed: 0,description
0,"Aromas include tropical fruit, broom, brimston..."
1,"This is ripe and fruity, a wine that is smooth..."
2,"Tart and snappy, the flavors of lime flesh and..."
3,"Pineapple rind, lemon pith and orange blossom ..."
4,"Much like the regular bottling from 2012, this..."


En primer lugar vamos a preprocesar los textos. Las técnicas de preprocesamiento que usemos dependerán como siempre de nuestro problema específico.

In [10]:
# Ponemos en minúsculas
data['description_clean'] = data['description'].str.lower()
# Eliminamos acentos y otros símbolos
data['description_clean'] = data['description_clean'].apply(unidecode)
# Eliminamos números
data['description_clean'] = data['description_clean'].apply(lambda x: re.sub(r'\d+', ' ', x))

In [11]:
# Eliminamos signos de puntuación
data['description_clean'] = data['description_clean'].str.translate(str.maketrans(string.punctuation,
                                                                                  ' '*len(string.punctuation)))

In [12]:
# Eliminamos espacios innecesarios
data['description_clean'] = data['description_clean'].str.replace(r'\s{2,}', ' ',
                                                                  regex=True).str.strip()

In [14]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [15]:
# Eliminamos las stopwords
stop = stopwords.words('english')
data['description_clean'] = data['description_clean'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop)]))

Ahora vamos a usar la librería NLTK para buscar diferentes tipos de n-gramas y quedarnos con los más frecuentes.

## Unigramas

In [16]:
# Obtenemos los unigramas
words_list = ' '.join(description for description in data['description_clean']).split()

# Calculamos el número de unigramas
len(words_list)

3255489

In [17]:
# Mostramos los 5 primeros unigramas
words_list[:5]

['aromas', 'include', 'tropical', 'fruit', 'broom']

In [18]:
# Calculamos el tamaño del vocabulario (unigramas únicos)
len(set(words_list))

30253

In [19]:
# Calculamos el número de ocurrencias de cada unigrama
freq = nltk.FreqDist(words_list)

# Mostramos los 20 más frecuentes
freq.most_common(20)

[('wine', 80360),
 ('flavors', 62796),
 ('fruit', 49939),
 ('aromas', 39639),
 ('palate', 38523),
 ('acidity', 35003),
 ('finish', 34974),
 ('tannins', 30878),
 ('drink', 30323),
 ('cherry', 29322),
 ('black', 29020),
 ('ripe', 27377),
 ('red', 21784),
 ('spice', 19233),
 ('notes', 19047),
 ('oak', 17769),
 ('fresh', 17527),
 ('rich', 17466),
 ('dry', 17222),
 ('berry', 16979)]

In [20]:
# Mostramos algunos de los 20 menos frecuentes
freq.most_common()[-20:]

[('nonnorlando', 1),
 ('burmtt', 1),
 ('refocusing', 1),
 ('mayhave', 1),
 ('bradgate', 1),
 ('doga', 1),
 ('clavule', 1),
 ('troughs', 1),
 ('molinie', 1),
 ('gelin', 1),
 ('conservatory', 1),
 ('sawing', 1),
 ('mith', 1),
 ('agrelo', 1),
 ('cultish', 1),
 ('buff', 1),
 ('leathered', 1),
 ('vets', 1),
 ('krause', 1),
 ('infiltrations', 1)]

In [21]:
# Para obtener los que solo aparecen 1 vez
[unigram for unigram in freq.most_common() if unigram[1] == 1]

[('staved', 1),
 ('recycled', 1),
 ('aromatica', 1),
 ('acitity', 1),
 ('reap', 1),
 ('spatz', 1),
 ('sperling', 1),
 ('acadia', 1),
 ('liquer', 1),
 ('funded', 1),
 ('vincens', 1),
 ('stoneleigh', 1),
 ('pancole', 1),
 ('jumper', 1),
 ('imagines', 1),
 ('maded', 1),
 ('childish', 1),
 ('ensconsed', 1),
 ('artsy', 1),
 ('acustic', 1),
 ('brao', 1),
 ('approacheable', 1),
 ('afterntaste', 1),
 ('pinay', 1),
 ('rabino', 1),
 ('jaggy', 1),
 ('paladin', 1),
 ('fragility', 1),
 ('glazing', 1),
 ('tulle', 1),
 ('cheneve', 1),
 ('weber', 1),
 ('chevres', 1),
 ('herbeceous', 1),
 ('impersonate', 1),
 ('abbess', 1),
 ('rylint', 1),
 ('formentini', 1),
 ('canah', 1),
 ('michlits', 1),
 ('aligi', 1),
 ('sassu', 1),
 ('delicatio', 1),
 ('envigorates', 1),
 ('doldrums', 1),
 ('pomerols', 1),
 ('secured', 1),
 ('qulaity', 1),
 ('ss', 1),
 ('desiring', 1),
 ('sims', 1),
 ('olie', 1),
 ('vanguards', 1),
 ('negrel', 1),
 ('rattle', 1),
 ('restricts', 1),
 ('lyrarakis', 1),
 ('sawtooth', 1),
 ('nez', 1)

## Bigramas

In [22]:
# Obtenemos los bigramas
bigrams_list = [' '.join(g) for g in ngrams(' '.join(description for description in data['description_clean']).split(), 2)]

# Calculamos el número de ocurrencias de cada bigrama
freq_b = nltk.FreqDist(bigrams_list)

# Mostramos los 20 más frecuentes
freq_b.most_common(20)

[('black cherry', 8140),
 ('fruit flavors', 7529),
 ('full bodied', 6932),
 ('cabernet sauvignon', 5239),
 ('ready drink', 4308),
 ('palate offers', 4232),
 ('black fruit', 3506),
 ('medium bodied', 3399),
 ('pinot noir', 3221),
 ('black currant', 3020),
 ('red berry', 3018),
 ('black pepper', 2877),
 ('red fruit', 2762),
 ('white pepper', 2589),
 ('red cherry', 2549),
 ('cabernet franc', 2424),
 ('finish drink', 2326),
 ('stone fruit', 2318),
 ('firm tannins', 2295),
 ('nose palate', 2254)]

## Trigramas

In [23]:
# Obtenemos los trigramas
trigrams_list = [' '.join(g) for g in ngrams(' '.join(mensaje for mensaje in data['description_clean']).split(), 3)]

# Calculamos el número de ocurrencias de cada trigrama
freq_t = nltk.FreqDist(trigrams_list)

# Mostramos los 20 más frecuentes
freq_t.most_common(20)

[('fine grained tannins', 1110),
 ('full bodied wine', 1105),
 ('blend cabernet sauvignon', 1080),
 ('cabernet sauvignon merlot', 1021),
 ('wine ready drink', 979),
 ('black fruit flavors', 828),
 ('new french oak', 800),
 ('medium bodied wine', 708),
 ('red berry fruits', 674),
 ('dried black cherry', 671),
 ('merlot cabernet sauvignon', 660),
 ('red fruit flavors', 579),
 ('ripe black cherry', 578),
 ('merlot cabernet franc', 574),
 ('black cherry fruit', 566),
 ('palate offers dried', 528),
 ('cabernet sauvignon cabernet', 470),
 ('full bodied palate', 470),
 ('sauvignon cabernet franc', 469),
 ('aromas lead nose', 422)]

# Colocaciones y PMI Score

Examinemos la oración `"Adoro los perritos calientes"`. Hay tres pares de palabras: `("Adoro", "los"), ("los", "perritos") y ("perritos", "calientes")`.

Los dos primeros pares de palabras o bigramas son aleatorios y no transmiten ninguna información significativa juntos. Sin embargo, las palabras `'perritos'` y `'calientes'` juntas transmiten el nombre de un alimento. Si decidiéramos tratar este par como un único token la dimensionalidad de la oración se reduciría en uno y estaríamos creando un bigrama.

Como hemos comentado, no todos los pares de palabras de la lista de tokens transmitirán la misma información.  Una _**colocación**_ _(collocation)_ es una secuencia de palabras que ocurre de una forma inusualmente frecuente. Por ejemplo `'vino tinto'` es una colocación, mientras que `'el vino'` no lo es.

Una característica de las colocaciones es que son resistentes a la sustitución con palabras que tienen un significado similar, por ejemplo, `'vino rojo'` suena muy raro.

Para manejar las colocaciones comenzamos extrayendo del texto una lista de n-gramas de palabras, ya que las colocaciones son esencialmente n-gramas frecuentes.

En particular, queremos encontrar los n-gramas que ocurren más a menudo de lo que sería esperable en base a la frecuencia de las palabras individuales. Como veremos, las colocaciones que aparecen son muy específicas del género del texto, es decir, de lo que este trate.

Esto nos va a permitir entender si dos (o más) palabras forman realmente un concepto único. Si este es el caso, podemos reducir la dimensionalidad de nuestra tarea, ya que ese par o conjunto de palabras (llamadas bigramas o n-gramas en el caso general de $n$ palabras) se pueden considerar como una sola palabra y, por lo tanto, podemos eliminar un vector de nuestros cálculos.

Si consideramos la expresión `"redes sociales"` para nosotros es obvio que ambas palabras pueden tener un significado independiente pero que, sin embargo, cuando están juntas expresan un concepto único y preciso.

Lo que ocurre es que encontrar este tipo de colocaciones en el texto de forma automática no es una tarea fácil, ya que si ambas palabras son frecuentes por sí mismas su co-ocurrencia podría ser solo una casualidad. Para evaluar que la co-ocurrencia es significativa usaremos el criterio de _**información mutua puntual (PMI)**_. PMI nos permite cuantificar la probabilidad de coexistencia de dos palabras, teniendo en cuenta el hecho de que podría deberse a la frecuencia de las palabras individuales.

NLTK proporciona el objeto Pointwise Mutual Information (PMI) que asigna una métrica estadística para comparar cada n-grama. El algoritmo calcula la probabilidad (logarítmica) de co-ocurrencia escalada por el producto de la probabilidad única de ocurrencia de la siguiente manera:

$$\text{PMI}(a,b)=\log\frac{P(a,b)}{P(a)P(b)}$$

Ahora, sabiendo que cuando $a$ y $b$ son independientes su probabilidad conjunta es igual al producto de sus probabilidades marginales, es decir, cuando la razón es igual a 1 (por lo tanto, el logaritmo es igual a 0), significa que las dos palabras juntas no forman un concepto único, sino que coexisten por casualidad.

Por otro lado, si una de las palabras (o incluso ambas) tiene una probabilidad baja de ocurrencia si se consideran de forma singular, pero su probabilidad conjunta junto con la otra palabra es alta, significa que es probable que las dos expresen una concepto único.

Ahora veamos una aplicación práctica del PMI usando nuestros textos de las descripciones de los vinos.

In [24]:
from nltk.collocations import BigramCollocationFinder, BigramAssocMeasures
from nltk.corpus import stopwords

Creamos un listado con todas palabras de los textos después de haberlos preprocesado y limpiado igual que hicimos para buscar los unigramas más frecuentes:

In [25]:
words_list = ' '.join(description for description in data['description_clean']).split()

A continuación, usamos la librería NLTK para localizar las colocaciones y asociarles una puntuación de aparición usando una variación de la métrica PMI que hemos comentado.

In [26]:
finder = BigramCollocationFinder.from_words(words_list)
bgm = BigramAssocMeasures()
score = bgm.mi_like

Asociamos cada colocación con la puntuación obtenida y mostramos las 20 más frecuentes.

In [27]:
collocations = [(' '.join(bigram), round(pmi, 2)) for bigram, pmi in finder.score_ngrams(score)]
collocations[:20]

[('full bodied', 1793.06),
 ('petit verdot', 1755.39),
 ('cabernet sauvignon', 1726.29),
 ('pinot noir', 1499.32),
 ('petite sirah', 998.28),
 ('black cherry', 633.84),
 ('ready drink', 507.44),
 ('forest floor', 499.22),
 ('medium bodied', 495.85),
 ('cabernet franc', 452.04),
 ('stainless steel', 396.5),
 ('touriga nacional', 379.54),
 ('sauvignon blanc', 312.38),
 ('tightly wound', 262.26),
 ('root beer', 232.82),
 ('lip smacking', 219.23),
 ('vinho verde', 199.01),
 ('nero avola', 183.2),
 ('cigar box', 172.76),
 ('creme brulee', 169.37)]

# Practice

**Importa el conjunto de datos `medical_reports_es.csv` en una variable llamada `data` y muestra las 5 primeras filas.**

In [29]:
# Importa las librerías necesarias


In [33]:
# Importa los datos
data = pd.read_csv('/content/drive/MyDrive/data_saturdays/medical_reports_es.csv', usecols=['report'])
data.head()

Unnamed: 0,report
0,"Presentamos el caso de una mujer de 30 años, f..."
1,El paciente es un varón de 38 años que acudió ...
2,"Se trata de una mujer de 35 años, con antecede..."
3,"Varón de 43 años originario de Marruecos, que ..."
4,"Se trata de una paciente de 15 años de edad, s..."


**Preprocesa los textos de los informes con las operaciones que creas necesarias (texto en minúsculas, eliminar números y símbolos, quitar stopwords...) y guarda los textos limpios en una columna llamada `clean_report`.**

In [None]:
# Importa las librerías necesarias


In [34]:
# Pon en minúsculas
data['clean_report'] = data['report'].str.lower()
# Elimina acentos y otros símbolos
data['clean_report'] = data['clean_report'].apply(unidecode)
# Eliminam números
data['clean_report'] = data['clean_report'].apply(lambda x: re.sub(r'\d+', ' ', x))


In [35]:
# Elimina signos de puntuación
data['clean_report'] = data['clean_report'].str.translate(str.maketrans(string.punctuation,
                                                                                  ' '*len(string.punctuation)))

In [36]:
# Elimina espacios innecesarios
# Eliminamos espacios innecesarios
data['clean_report'] = data['clean_report'].str.replace(r'\s{2,}', ' ',
                                                                  regex=True).str.strip()

In [37]:
# Elimina las stopwords
stop = stopwords.words('spanish')
data['clean_report'] = data['clean_report'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop)]))

**Muestra los 25 unigramas más frecuentes.**

In [38]:
# Obtén los unigramas
# Obtenemos los unigramas
words_list1 = ' '.join(description for description in data['clean_report']).split()

# Calcula el número de ocurrencias de cada unigrama
freq = nltk.FreqDist(words_list1)

# Muestra los 25 más frecuentes
freq.most_common(25)


[('paciente', 2381),
 ('tratamiento', 1556),
 ('anos', 1470),
 ('mg', 1370),
 ('tras', 905),
 ('meses', 883),
 ('cm', 797),
 ('derecho', 786),
 ('estudio', 783),
 ('dl', 760),
 ('izquierdo', 750),
 ('exploracion', 736),
 ('realizo', 733),
 ('dias', 722),
 ('diagnostico', 698),
 ('dolor', 679),
 ('normal', 677),
 ('l', 668),
 ('antecedentes', 645),
 ('dia', 638),
 ('evolucion', 630),
 ('lesion', 626),
 ('renal', 590),
 ('derecha', 576),
 ('izquierda', 511)]

**Muestra los 25 bigramas más frecuentes.**

In [None]:
# Importa las librerías necesarias


In [39]:
# Obtén los bigramas
bigrams_list1 = [' '.join(g) for g in ngrams(' '.join(description for description in data['clean_report']).split(), 2)]

# Calcula el número de ocurrencias de cada bigrama
freq_b = nltk.FreqDist(bigrams_list1)

# Muestra los 25 más frecuentes
freq_b.most_common(25)

[('mg dl', 551),
 ('varon anos', 408),
 ('anos edad', 332),
 ('exploracion fisica', 286),
 ('mujer anos', 260),
 ('x cm', 211),
 ('antecedentes personales', 198),
 ('anos antecedentes', 183),
 ('cm diametro', 167),
 ('agudeza visual', 150),
 ('mg dia', 148),
 ('g dl', 147),
 ('paciente anos', 147),
 ('inicio tratamiento', 140),
 ('ojo izquierdo', 140),
 ('ojo derecho', 127),
 ('u l', 127),
 ('radiografia torax', 121),
 ('ambos ojos', 119),
 ('ecografia abdominal', 115),
 ('meses despues', 114),
 ('funcion renal', 112),
 ('dolor abdominal', 106),
 ('mg h', 103),
 ('hipertension arterial', 100)]

**Muestra los 25 trigramas más frecuentes.**

In [40]:
# Obtén los trigramas
trigrams_list1 = [' '.join(g) for g in ngrams(' '.join(description for description in data['clean_report']).split(), 3)]

# Calcula el número de ocurrencias de cada trigrama
freq_t = nltk.FreqDist(trigrams_list1)

# Muestra los 25 más frecuentes
freq_t.most_common(25)

[('varon anos edad', 115),
 ('paciente varon anos', 91),
 ('creatinina mg dl', 86),
 ('x x cm', 81),
 ('mujer anos edad', 81),
 ('varon anos antecedentes', 81),
 ('anos edad antecedentes', 78),
 ('bajo anestesia general', 58),
 ('mujer anos antecedentes', 55),
 ('hemoglobina g dl', 52),
 ('paciente anos edad', 51),
 ('unidad cuidados intensivos', 48),
 ('ojo derecho od', 48),
 ('ojo izquierdo oi', 48),
 ('anos antecedentes personales', 44),
 ('mg kg dia', 40),
 ('agudeza visual av', 39),
 ('anos antecedentes interes', 36),
 ('hb g dl', 36),
 ('diabetes mellitus tipo', 36),
 ('urea mg dl', 36),
 ('antecedentes personales interes', 35),
 ('proteina c reactiva', 35),
 ('glucosa mg dl', 33),
 ('paciente dado alta', 32)]

**Ahora busca las 20 colocaciones más frecuentes formadas por bigramas y compara el resultado con lo obtenido anteriormente.**

In [None]:
# Importa las librerías necesarias


In [41]:
# Busca las colocaciones
finder = BigramCollocationFinder.from_words(words_list1)
# Calcula las puntuaciones
bgm = BigramAssocMeasures()
score = bgm.mi_like

In [42]:
# Asocia cada colocación a su puntuación
collocations = [(' '.join(bigram), round(pmi, 2)) for bigram, pmi in finder.score_ngrams(score)]
# Quédate con las 20 más frecuentes
collocations[:20]

[('mg dl', 160.66),
 ('agudeza visual', 111.02),
 ('exploracion fisica', 107.75),
 ('varon anos', 102.9),
 ('anatomia patologica', 73.65),
 ('resonancia magnetica', 63.22),
 ('anos edad', 58.85),
 ('antecedentes personales', 58.71),
 ('ambos ojos', 43.02),
 ('cuidados intensivos', 41.77),
 ('mujer anos', 41.66),
 ('radiografia torax', 39.98),
 ('diabetes mellitus', 37.56),
 ('hipertension arterial', 31.58),
 ('partes blandas', 29.03),
 ('intestino delgado', 28.75),
 ('cuero cabelludo', 28.0),
 ('x cm', 25.62),
 ('puso manifiesto', 25.08),
 ('bajo anestesia', 25.0)]

Vemos que este método funciona muy bien a la hora de encontrar colocaciones habituales en textos médicos, como `agudeza visual`, `anatomía patológica`, `exploración física`, `intestino delgado`, `diabetes mellitus`...

Aquí al eliminar los acentos y demás símbolos no ASCII usando la librería `unidecode` hemos eliminado las eñes, lo cual cuando se trabaja con textos médicos no es un buena idea ya que, por ejemplo, `ano` y `año` hacen referencia a conceptos muy diferentes y ambos muy importantes en este contexto.

Si al preprocesar los textos has tenido esto en cuenta, ¡buen trabajo!