El código proporciona una implementación de un modelo de "n-gramas", que es una técnica utilizada en el procesamiento del lenguaje natural para analizar secuencias de palabras o caracteres en un texto.

En particular, este código se enfoca en la generación de n-gramas y su representación como vectores de características para poder realizar comparaciones y cálculos de similitud entre diferentes n-gramas.

En general, los modelos de n-gramas se pueden utilizar en diversas aplicaciones, como la clasificación de texto, la corrección ortográfica, la generación de texto predictivo y la detección de plagio. Este código podría ser útil para cualquiera de estas aplicaciones, o para cualquier otra tarea que implique la comparación y análisis de secuencias de texto

In [1]:
from ngram import Ngram

Este es un código en Python que define una clase llamada Ngram. Esta clase tiene varios métodos para calcular la similitud de n-gramas de palabras. Los n-gramas son subcadenas de longitud n de una cadena dada.

####El constructor de la clase acepta tres argumentos:

- **word**: La cadena que se va a analizar.
- **n**: El valor de n para los n-gramas. El valor predeterminado es 3.
- **symbol_count**: La cantidad de símbolos permitidos en la cadena. El valor predeterminado es 27, lo que indica que hay 26 letras del alfabeto inglés y un espacio.

####Los siguientes son los métodos de la clase Ngram:

- iproduct(self, other): Este método toma otro objeto Ngram como argumento y calcula el producto interno entre los conjuntos de valores enteros (índices) de los n-gramas. Devuelve la cantidad de elementos en la intersección de los dos conjuntos.

- **norm(self)**: Este método calcula la norma del vector. La norma del vector es la raíz cuadrada de la suma de los cuadrados de sus elementos. En este caso, los vectores son vectores binarios y la norma se calcula como la raíz cuadrada de la cantidad de elementos distintos de cero en la representación de los n-gramas.

- **compare(self, other)**: Este método compara dos objetos Ngram basándose en el producto interno y la norma (distancia coseno).

- **ngrams(self, as_value=True)**: Este método genera un conjunto de n-gramas únicos de la palabra limpia de acentos y normalizada (sin repeticiones de n-gramas). El conjunto es representado como un conjunto de valores enteros (índices) de los n-gramas. El índice de un n-grama es calculado como la suma de los valores de los símbolos que lo componen multiplicados por la base (cantidad de símbolos) elevado a la posición del símbolo en el n-grama.

- **as_vector(self, n)**: Este método genera un vector de valores flotantes de la secuencia de valores de n-gramas. Cada valor del vector es la representación de un bloque de n bits del vector binario reconstruido a partir del conjunto de valores de valores de n-gramas (ngrams_values).

d: La cadena que se va a analizar.
n: El valor de n para los n-gramas. El valor predeterminado es 3.
symbol_count: La cantidad de símbolos permitidos en la cadena. El valor predeterminado es 27, lo que indica que hay 26 letras del alfabeto inglés y un espacio.
El objeto Ngram inicializa varios atributos en el constructor:

self.n: El valor de n para los n-gramas.
self.word: La cadena que se va a analizar.
self.symbol_count: La cantidad de símbolos permitidos en la cadena.
self.ngrams_values: Un conjunto de enteros que representan los índices de los n-gramas únicos en la cadena.


###Los siguientes son los métodos de la clase Ngram:

iproduct(self, other): Este método toma otro objeto Ngram como argumento y calcula el producto interno entre los conjuntos de valores enteros (índices) de los n-gramas. Devuelve la cantidad de elementos en la intersección de los dos conjuntos.
norm(self): Este método calcula la norma del vector. La norma del vector es la raíz cuadrada de la suma de los cuadrados de sus elementos. En este caso, los vectores son vectores binarios y la norma se calcula como la raíz cuadrada de la cantidad de elementos distintos de cero en la representación de los n-gramas.
compare(self, other): Este método compara dos objetos Ngram basándose en el producto interno y la norma (distancia coseno).
ngrams(self, as_value=True): Este método genera un conjunto de n-gramas únicos de la palabra limpia de acentos y normalizada (sin repeticiones de n-gramas). El conjunto es representado como un conjunto de valores enteros (índices) de los n-gramas. El índice de un n-grama es calculado como la suma de los valores de los símbolos que lo componen multiplicados por la base (cantidad de símbolos) elevado a la posición del símbolo en el n-grama.
as_vector(self, n): Este método genera un vector de valores flotantes de la secuencia de valores de n-gramas. Cada valor del vector es la representación de un bloque de n bits del vector binario reconstruido a partir del conjunto de valores de valores de n-gramas (ngrams_values).

In [2]:
name1 = "Lautaro Julián Matas"
name2 = "Matas Lautaro Julián "
name3 = "Joaquín Ratta Laureano"

In [3]:
trigram1 = Ngram(name1, 3)
trigram2 = Ngram(name2, 3)
trigram3 = Ngram(name3, 3)

print("Similitud entre", name1, "y", name2, ":", trigram1.compare(trigram2))
print("Similitud entre", name1, "y", name3, ":", trigram1.compare(trigram3))

Similitud entre Lautaro Julián Matas y Matas Lautaro Julián  : 0.8651809126974003
Similitud entre Lautaro Julián Matas y Joaquín Ratta Laureano : 0.05270462766947299


In [4]:
bigram1 = Ngram(name1, 2)
bigram2 = Ngram(name2, 2)
bigram3 = Ngram(name3, 2)

print("Similitud entre", name1, "y", name2, ":", bigram1.compare(bigram2))
print("Similitud entre", name1, "y", name3, ":", bigram1.compare(bigram3))

Similitud entre Lautaro Julián Matas y Matas Lautaro Julián  : 0.9192547197409877
Similitud entre Lautaro Julián Matas y Joaquín Ratta Laureano : 0.3086066999241839


In [5]:
block_size = 4

vector1 = bigram1.as_vector(block_size)
vector2 = bigram2.as_vector(block_size)
vector3 = bigram3.as_vector(block_size)

print("Similitud entre", name1, "y", name2, ":", vector1.dot(vector2))
print("Similitud entre", name1, "y", name3, ":", vector1.dot(vector3))


vector length: 183
vector length: 183
vector length: 183
Similitud entre Lautaro Julián Matas y Matas Lautaro Julián  : 0.9627444424437364
Similitud entre Lautaro Julián Matas y Joaquín Ratta Laureano : 0.49762298806791294


In [6]:
block_size = 8

vector1 = trigram1.as_vector(block_size)
vector2 = trigram2.as_vector(block_size)
vector3 = trigram3.as_vector(block_size)

print("Similitud entre", name1, "y", name2, ":", vector1.dot(vector2))
print("Similitud entre", name1, "y", name3, ":", vector1.dot(vector3))

vector length: 2461
vector length: 2461
vector length: 2461
Similitud entre Lautaro Julián Matas y Matas Lautaro Julián  : 0.8049671335907912
Similitud entre Lautaro Julián Matas y Joaquín Ratta Laureano : 0.005277808825509006
