## ¿Qué es el procesamiento del lenguaje natural?  

Wikipedia:



 El procesamiento del lenguaje natural (NLP) es un subcampo de la lingüística, la informática, la ingeniería de la información y la inteligencia artificial que se ocupa de las interacciones entre las computadoras y los lenguajes humanos (naturales), en particular, cómo programar las computadoras para procesar y analizar grandes cantidades de datos del lenguaje natural. 
 Los desafíos en el procesamiento del lenguaje natural con frecuencia implican el reconocimiento del habla, la comprensión del lenguaje natural y la generación del lenguaje natural.  

### Aplicaciones populares

 - Traducción automática 
 - Reconocimiento de voz 
 - Respuestas a preguntas (question answering)  
 - Resumen de texto
 - Chatbots 
 - Texto a voz y voz a texto
 - Voicebots
 - Generación de texto y audio 
 - Análisis de los sentimientos 
 - Extracción de información  

 Enlace: https://paperswithcode.com/area/natural-language-processing 

### Puntos de inflexión 

 
El NLP  hizo olas a partir de 2014 con el lanzamiento de Amazon Alexa, un renovado Apple Siri, Google Assistant y Microsoft Cortana. Google también lanzó una versión muy mejorada de Google Translate en 2016, y ahora los chatbots y voicebots son mucho más comunes. Dicho esto, no fue hasta 2018 que NLP tuvo su propio momento ImageNet con el lanzamiento de grandes modelos de lenguaje preentrenados entrenados con la arquitectura Transformer; el más notable de estos fue  BERT de Google, que se lanzó en noviembre de 2018. 


En 2019, los modelos generativos como GPT-2 de OpenAI causaron sensación, generando nuevo contenido sobre la marcha basado en contenido anterior, una hazaña que antes era insuperable. En 2020, OpenAI lanzó una versión aún más grande e impresionante, GPT-3, basada en sus éxitos anteriores. 


De cara al 2023 y más allá, la NLP ya no es un subcampo experimental de la IA. Junto con la visión por computadora, NLP ahora está preparado para tener muchas aplicaciones de base amplia en la empresa.  

Enlace: https://medium.com/@smdtechnosol/the-success-of-nlp-natural-language-processing-in-2024-c123d8341733

### Introducción al preprocesamiento de texto

Dado que, el texto es la forma más no estructurada de todos los datos disponibles, hay varios tipos de ruido en él y los datos no son fácilmente analizables sin ningún procesamiento previo. Todo el proceso de limpieza y estandarización del texto, que lo hace sin ruido y listo para el análisis, se conoce como preprocesamiento de texto.

Se compone principalmente de tres pasos:

 *  Eliminación de ruido
 *  Normalización del léxico
 *  Estandarización de objetos


### Eliminación de ruido

Cualquier fragmento de texto que no sea relevante para el contexto de los datos y la salida final se puede especificar como ruido.

Por ejemplo, `stopwords`  (palabras de uso común de un idioma, es, am, the, of, in, etc), URL o enlaces, entidades de medios sociales (menciones, hashtags), puntuaciones y palabras específicas de la industria. Este paso trata sobre la eliminación de todos los tipos de entidades ruidosas presentes en el texto.

Un enfoque general para la eliminación de ruido es preparar un diccionario de entidades ruidosas e iterar el objeto de texto con tokens (o con palabras), eliminando esos tokens que están presentes en el diccionario de ruido.

In [5]:
## Simple código para remover palabras ruidosas de texto

lista_ruido = ["is", "a", "of,""this", "..."]
def remove_ruido(input_text):
  ## Completar


#remove_ruido("Word Embeddings is a form of represent ...")

'WordEmbeddingsformofrepresent'

Otro enfoque es utilizar las expresiones regulares al tratar con patrones especiales de ruido.  El siguiente código de Python elimina un patrón de expresiones regulares de un texto de entrada:

In [6]:
import re

def remove_regex(input_text, regex_pattern):
  urls = re.finditer(regex_pattern, input_text)
  for i in urls:
    input_text = re.sub(i.group().strip(), '', input_text)
  return input_text

regex_pattern = '#[\w]*'
remove_regex("Word Embeddings is a #form of represent ...*", regex_pattern)


'Word Embeddings is a  of represent ...*'

#### Normalización del léxico

Otro tipo de ruido textual es acerca de las múltiples representaciones exhibidas por una sola palabra.

Por ejemplo, `jugar`, `jugador`, `jugar`, `jugar` y `jugar` son las diferentes variaciones de la palabra - `jugar`, aunque significan cosas diferentes, contextualmente todas son similares. El paso convierte todas las disparidades de una palabra en su forma normalizada (también conocida como `lema``). 


Las prácticas de normalización del léxico más comunes son:

* `Stemming`:  es un proceso rudimentario basado en reglas para eliminar los sufijos ("ing", "ly", "es", "s", etc.) de una palabra (para el idioma inglés por ejemplo).
* `Lemmatización`:  es un procedimiento organizado y paso a paso para obtener la forma de la raíz de la palabra haciendo hace uso de vocabulario (importancia de diccionario de palabras) y del análisis morfológico (estructura de palabras y relaciones gramaticales).

A continuación se realizan estos procesos utilizando la popular biblioteca de python: NLTK.


In [23]:
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')

from nltk.stem.wordnet import WordNetLemmatizer
lem = WordNetLemmatizer()

from nltk.stem.porter import PorterStemmer
stem = PorterStemmer()

word = "analyzing"
lem.lemmatize(word, "v")

[nltk_data] Downloading package wordnet to /home/clara/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /home/clara/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


'analyze'

In [24]:
stem.stem(word)

'analyz'

#### Estandarización de objetos

Los datos de texto a menudo contienen palabras o frases que no están presentes en ningún diccionario léxico estándar. Estas piezas no son reconocidas por los motores de búsqueda y los modelos.

Algunos de los ejemplos son: acrónimos, hashtags con palabras adjuntas y slangs coloquiales. Con la ayuda de expresiones regulares y diccionarios de datos preparados manualmente, este tipo de ruido puede solucionarse, el siguiente código utiliza un método de búsqueda en el diccionario para reemplazar el slangs de lasredes sociales de un texto.

In [9]:
lookup_dict = {'rt': 'Retweet', 'dm':'direct message', 'awsm': "awesome",
               'luv': 'love'}

def lookup_words(input_text):
  words = input_text.split()
  new_words = []
  for word in words:
    if word.lower() in lookup_dict:
      word = lookup_dict[word.lower()]
    new_words.append(word)
    new_text = " ".join(new_words)
    return new_text

lookup_words("RT this is a retweeted tweet by awsm C-Lara")

'Retweet'

Además de los tres pasos analizados hasta ahora, otros tipos de preprocesamiento de texto incluyen codificación-decodificación de ruido, corrector gramatical y corrección ortográfica, etc.

### Texto  a características 

Para analizar los datos preprocesados, es necesario convertirlos en características. Dependiendo del uso, las características del texto se pueden construir utilizando técnicas variadas: análisis sintáctico, entidades, N-grams, características basadas en palabras, características estadísticas e embeddings  de palabras.

- Análisis sintáctico: el análisis sintáctico involucra el análisis de las palabras en la oración y su disposición de manera que muestra las relaciones entre las palabras. La gramática de dependencia y las etiquetas de categorías gramaticales  son los atributos importantes de las sintácticas de texto.

- Árboles de dependencia: Las oraciones se componen de algunas palabras unidas entre sí. La relación entre las palabras en una oración está determinada por la gramática básica de la dependencia. La gramática de dependencia es una clase de análisis de texto sintáctico que trata con relaciones binarias asimétricas (etiquetadas) entre dos elementos léxicos (palabras). Cada relación puede representarse en forma de triplete (relation, governor, dependent). Este tipo de árbol, cuando se analiza de forma recursiva de manera descendente, proporciona tripletas de relación gramatical como salida que se pueden usar como características para muchos problemas de NLP como el análisis de sentimientos, la identificación de actores y entidades y la clasificación de texto.


- Etiquetado de categorías gramaticales: Aparte de las relaciones gramaticales, cada palabra en una oración también está asociada con una categoría gramatical (POS) (sustantivos, verbos, adjetivos, adverbios, etc.). Las etiquetas POS definen el uso y la función de una palabra en la oración.

In [10]:
## Completar

[nltk_data] Downloading package punkt to /home/clara/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/clara/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


[('I', 'PRP'),
 ("'m", 'VBP'),
 ('learning', 'VBG'),
 ('Natural', 'NNP'),
 ('Language', 'NNP'),
 ('Processing', 'NNP'),
 ('and', 'CC'),
 ('Deep', 'NNP'),
 ('Learning', 'NNP'),
 ('on', 'IN'),
 ('Github', 'NNP'),
 ('and', 'CC'),
 ('Analytics', 'NNP'),
 ('Vidhya', 'NNP')]

#### Tokenización

La tokenización es el proceso de dividir el texto en unidades significativas mínimas, como palabras, signos de puntuación, símbolos, etc.

In [26]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist
from scipy.sparse import lil_matrix

# Corpus de ejemplo
corpus = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?"
]

## Completa


El etiquetado gramatical se usa para muchos propósitos importantes en NLP:

1. Desambiguación del sentido de la palabra: algunas palabras del lenguaje tienen múltiples significados según su uso. Por ejemplo, en las dos oraciones siguientes:

* `" Please book my flight for Delhi"``

* `"I am going to read this book in the flight"``

"Book" se utiliza con un contexto diferente, sin embargo, la etiqueta de categoría gramatical para ambos casos es diferente. En la oración inicial , la palabra "book" se usa como verbo, mientras que en la segunda se usa como un sustantivo. 

Lectura: https://medium.com/aimonks/word-sense-disambiguation-resolving-ambiguity-in-natural-language-processing-3986a83d41fa 

2. Mejora de las características basadas en palabras: un modelo de aprendizaje podría aprender diferentes contextos de una palabra cuando se usan palabras como características, sin embargo, si la parte de la etiqueta de catagoría gramatical está vinculada a ellas, el contexto se conserva, por lo que se crean características sólidas. Por ejemplo:

    * Oración - `"book my flight, I will read this book"``

    * Tokens – ("book", 2), ("my", 1), ("flight", 1), ("I", 1), ("will", 1), ("read", 1), ("this", 1)

   * Tokens with POS – ("book_VB", 1), ("my_PRP$", 1), ("flight_NN", 1), ("I_PRP", 1), ("will_MD", 1), ("read_VB", 1), ("this_DT", 1), ("book_NN", 1).

3. Normalización y lematización: las etiquetas POS son la base del proceso de lematización para convertir una palabra a su forma básica (lema).

4. Eliminación de stopwords suficientes: las etiquetas P OS también son útiles para la eliminación eficiente de stopwords.

      Por ejemplo, hay algunas etiquetas que siempre definen las palabras de baja frecuencia/menos importantes de un lenguaje. Por ejemplo: (IN - “within”, “upon”, “except”), (CD -"one","two", "hundred" ), (MD - "may", "mu st", etc.)


In [25]:
import nltk
from nltk.tokenize import word_tokenize

# Oración de ejemplo
#oracion = 

Etiquetas gramaticales:
The : DT
quick : JJ
brown : NN
fox : NN
jumps : VBZ
over : IN
the : DT
lazy : JJ
dog : NN
. : .


#### Fragmentación (chunking)

 La fragmentación implica la combinación de tokens relacionados en un solo token, la creación de grupos de sustantivos relacionados, grupos de verbos relacionados, etc.

In [2]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

# Completa

#grammar = r"""
#    NP: {<DT|JJ|NN.*>+}          # Frase nominal
#    PP: {<IN><NP>}                # Frase preposicional
#    VP: {<VB.*><NP|PP|CLAUSE>+$}  # Frase verbal
#    CLAUSE: {<NP><VP>}            # Cláusula



(S
  (NP The/DT black/JJ cat/NN)
  sat/VBD
  (PP on/IN (NP the/DT mat/NN))
  ./.)


### Extracción de entidades

Las entidades se definen como las partes  más importantes de una oración: frases nominales, frases verbales o ambas. Los algoritmos de detección de entidades generalmente son modelos conjuntos de análisis basados en reglas,  diccionarios de búsqueda, etiquetado pos y análisis de dependencias. La aplicabilidad de la detección de entidades se puede ver en los robots de chat automatizados, los analizadores de contenido y la información del consumidor.

El modelado de tópicos y el reconocimiento de entidades con nombre son los dos métodos de detección de entidades clave en el NLP.


#####  Reconocimiento de entidad nombrada (NER)

El proceso de detección de las entidades nombradas, tales como nombres de personas, nombres de ubicaciones, nombres de compañías, etc. desde el texto se llama `NER``.

Por ejemplo :

Sentencia: Sergey Brin, el gerente de Google Inc. está caminando por las calles de Nueva York.

Entidades nombradas - ("persona": "Sergey Brin"), ("org": "Google Inc."), ("ubicación": "Nueva York")

Un modelo típico de NER consiste en tres bloques:

* Identificación de frases de nombre: este paso trata de extraer todas las frases de nombres de un texto mediante el análisis de dependencia y el etiquetado de categorías gramaticales.

* Clasificación de frases: este es el paso de clasificación en el que todas las frases nominales extraídas se clasifican en categorías respectivas (ubicaciones, nombres, etc.). La API de Google Maps proporciona un buen camino para eliminar la ambigüedad de las ubicaciones. Luego, las bases de datos abiertas de dbpedia y wikipedia se pueden usar para identificar nombres de personas o nombres de compañías. Aparte de esto, uno puede anotar las tablas de búsqueda y los diccionarios combinando información de diferentes fuentes.

* Desambiguación de entidades: a veces es posible que las entidades se clasifiquen incorrectamente, por lo que es útil crear una capa de validación sobre los resultados. El uso de grafos de conocimiento puede ser explotado para este propósito. Los grafos de conocimiento popular son: Google Knowledge Graph, IBM Watson y Wikipedia.


In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk

# Oración de ejemplo
sentence = "Apple Inc. was founded by Steve Jobs and Steve Wozniak in 1976. Its headquarters is located in Cupertino, California."

# Tokenización de la oración
tokens = word_tokenize(sentence)

# Etiquetado gramatical (POS tagging) de los tokens
pos_tags = pos_tag(tokens)

# Reconocimiento de entidades nombradas (NER) utilizando ne_chunk
named_entities = ne_chunk(pos_tags)

# Función para extraer las entidades nombradas reconocidas
def extract_named_entities(tree):
   pass 
# Extracción de las entidades nombradas reconocidas
named_entities = extract_named_entities(named_entities)

# Impresión de las entidades nombradas reconocidas
print("Entidades nombradas reconocidas:")
for entity in named_entities:
    print(entity)


##### Modelado de tópicos

El modelado de tópicos es un proceso de identificación automática de los tópicos presentes en un corpus de texto, deriva los patrones ocultos entre las palabras en el corpus de una manera no supervisada. Los temas se definen como "un patrón repetitivo de términos co-ocurrentes en un corpus".
Un buen modelo de tema resulta en:  "salud", "médico", "paciente", "hospital" para un tópico - Salud, y "granja", "cultivos", "trigo" para un tema - "Agricultura".

Latent Dirichlet  Allocation(LDA) es una de las técnica de modelado de temas más popular, pero no es la única!. Ver: https://www.leewayhertz.com/topic-modeling-in-nlp/ 

In [27]:
#!pip install gensim

In [29]:
doc1 = "Sugar is bad to consume. My sister likes to have sugar, but not my father"
doc2 = "My father spends aa lot of time driving my sister around the dance practice"
doc3 = "Doctors suggest that driving my cause increased stress and blood preassure."

doc_complete = [doc1, doc2, doc3]
doc_clean = [doc.split() for doc in doc_complete]

import gensim
from gensim import corpora

# Creando el diccionario de términos de nuestro corpus, donde cada término único tiene asignado un índice
diccionario = corpora.Dictionary(doc_clean)
# Convertir la lista de documentos (corpus) en la Matriz de Términos del Documento utilizando el diccionario preparado anteriormente
doc_term_matrix = [diccionario.doc2bow(doc) for doc in doc_clean]
# Creando el objeto para el modelo LDA, usando la libreria gensim

LDA = gensim.models.ldamodel.LdaModel

# Corriendo y entrenando el modelo LDA en la Matriz de Términos de Documentos

ldamodel = LDA(doc_term_matrix, num_topics =3, id2word =diccionario, passes = 50)

# Resultados
print(ldamodel.print_topics())

[(0, '0.061*"driving" + 0.061*"my" + 0.061*"blood" + 0.061*"Doctors" + 0.061*"that" + 0.061*"and" + 0.061*"cause" + 0.061*"stress" + 0.061*"preassure." + 0.061*"increased"'), (1, '0.058*"to" + 0.058*"My" + 0.058*"sister" + 0.058*"father" + 0.058*"my" + 0.033*"likes" + 0.033*"but" + 0.033*"consume." + 0.033*"not" + 0.033*"Sugar"'), (2, '0.030*"driving" + 0.030*"my" + 0.030*"lot" + 0.030*"practice" + 0.030*"of" + 0.030*"dance" + 0.030*"around" + 0.030*"aa" + 0.030*"the" + 0.030*"spends"')]


In [3]:
import nltk
from nltk.corpus import wordnet as wn

# Definición de la oración de ejemplo
sentence = "Barack Obama was born in Hawaii."

# Tokenización de la oración
tokens = nltk.word_tokenize(sentence)

# Etiquetado gramatical (POS tagging) de los tokens
pos_tags = nltk.pos_tag(tokens)

# Mapeo de etiquetas POS de NLTK a las etiquetas POS de WordNet
def map_pos(tag):
    if tag.startswith('N'):
        return 'n'
    elif tag.startswith('V'):
        return 'v'
    elif tag.startswith('J'):
        return 'a'
    elif tag.startswith('R'):
        return 'r'
    else:
        return None

# Procesamiento de las entidades reconocidas
for word, pos_tag in pos_tags:
    # Mapeo de la etiqueta POS a la correspondiente en WordNet
    wn_pos = map_pos(pos_tag)
    if wn_pos:
        # Búsqueda de sinónimos en WordNet
        synsets = wn.synsets(word, pos=wn_pos)
        if synsets:
            # Seleccionar el primer synset como representante del concepto
            entity = synsets[0].name().split('.')[0]
            print("Entity:", word)
            print("Label:", pos_tag)
            print("Entity Link:", entity)
            print()


Entity: was
Label: VBD
Entity Link: be

Entity: born
Label: VBN
Entity Link: bear

Entity: Hawaii
Label: NNP
Entity Link: hawaii



#### N-gramas como características

Una combinación de N palabras juntas se llama N-Gramas. Los N-gramas (N> 1) son generalmente más informativos en comparación con las palabras (unigramas) como características. Además, los bigrams (N = 2) se consideran como las características más importantes de todas las demás. El siguiente código genera bigramas de un texto.

In [13]:
def generate_ngrams(texto, n):
  words = texto.split()
  output = []
  for i in range(len(words) -n +1 ):
    output.append(words[i:i + n])

  return output

generate_ngrams("Assigns the POS tag the most frequently occurring with a word in the training corpus", 2)

[['Assigns', 'the'],
 ['the', 'POS'],
 ['POS', 'tag'],
 ['tag', 'the'],
 ['the', 'most'],
 ['most', 'frequently'],
 ['frequently', 'occurring'],
 ['occurring', 'with'],
 ['with', 'a'],
 ['a', 'word'],
 ['word', 'in'],
 ['in', 'the'],
 ['the', 'training'],
 ['training', 'corpus']]

### Estadisticas de  características

Los datos de texto también se pueden cuantificar directamente en números usando varias técnicas descritas a continuación


####  Frecuencia de términos-Frecuencia de documento inversa (TF - IDF)

TF-IDF es un modelo ponderado comúnmente utilizado para problemas de recuperación de información. Su objetivo es convertir los documentos de texto en modelos vectoriales en función de la aparición de palabras en los documentos sin tener en cuenta el orden exacto. 

La fórmula general para calcular TF-IDF es: 

$$TF-IDF(t,d,D)=TF(t,d)\times IDF(t,D)$$ 

Donde: 

- `t`  es el término. 
- `d` es el documento. 
- `D` es el conjunto de documentos. 

In [14]:
import sklearn
from sklearn.feature_extraction.text import TfidfVectorizer
obj = TfidfVectorizer()
corpus = ["Document retrieval using TF-IDF matching score", "Document retrieval using TF-IDF cosine similarity",
         "IDF is the inverse of the document frequency which measures the informativeness of term."]

X = obj.fit_transform(corpus)
print(X)


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m23.0[0m[39;49m -> [0m[32;49m24.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
  (0, 1)	0.2805198619076071
  (0, 10)	0.36122039714507487
  (0, 16)	0.36122039714507487
  (0, 14)	0.36122039714507487
  (0, 3)	0.2805198619076071
  (0, 7)	0.47496141327993013
  (0, 11)	0.47496141327993013
  (1, 1)	0.2805198619076071
  (1, 10)	0.36122039714507487
  (1, 16)	0.36122039714507487
  (1, 14)	0.36122039714507487
  (1, 3)	0.2805198619076071
  (1, 0)	0.47496141327993013
  (1, 12)	0.47496141327993013
  (2, 1)	0.1298209308406929
  (2, 3)	0.1298209308406929
  (2, 6)	0.21980594303058684
  (2, 15)	0.6594178290917605
  (2, 5)	0.21980594303058684
  (2, 9)	0.4396118860611737
  (2, 2)	0.21980594303058684
  (2, 17)	0.21980594303058684
  (2, 8)	0.21980594303058684
  (2, 4)	0.21980594303058684
  (2, 13)	0.21980594303058684


El modelo crea un diccionario de vocabulario y asigna un índice a cada palabra. Cada fila en la salida contiene una tupla `(i, j)`` y un valor tf-idf de palabra en el índice j en el documento i.




### Embeddings  de palabras (vectores de texto)

El embeddings de palabras es la forma moderna de representar palabras como vectores. El objetivo del embeddings  de palabras es redefinir las características de las palabras de alta dimensión en vectores de características de baja dimensión, preservando la similitud contextual en el corpus. Se utilizan ampliamente en modelos de aprendizaje profundo, como las redes neuronales convolucionales y las redes neuronales recurrentes.

Word2Vec y GloVe son los dos modelos populares para crear embedding de texto de un texto. Estos modelos toman un cuerpo de texto como entrada y producen los vectores de palabras como salida.

**El modelo de Word2Vec se compone de un módulo de preprocesamiento, un modelo de red neuronal superficial llamado Continuous Bag of Words y otro modelo de red neuronal superficial llamado skip-gram**. Estos modelos son ampliamente utilizados para todos los demás problemas del NLP.

Lectura: https://www.ruder.io/word-embeddings-1/ 

In [4]:
import warnings
warnings.filterwarnings("ignore")


from gensim.models import Word2Vec
sentences = [['data', 'science'], ['cesar', 'science', 'data', 'analytics'], ['machine', 'learning'], ['deep', 'learning']]

# Entrenamiento del modelo en el corpus
model = Word2Vec(sentences, min_count =1)
model.wv.similarity('data','science')

-0.023671668

Se pueden usar como vectores de características para un modelo ML, para medir la similitud del texto utilizando técnicas de similitud de coseno, clustering de palabras y técnicas de clasificación de texto.

## Tareas elementales importantes del NLP

Mostramos diferentes casos de uso y problemas en el campo del procesamiento del lenguaje natural.

### Clasificación de texto

La clasificación de textos es uno de los problemas clásicos del NLP. Entre los ejemplos notorios se incluyen: Identificación de correo electrónico no deseado, clasificación de temas de noticias, clasificación de opiniones y organización de páginas web por motores de búsqueda.

La clasificación de texto,  se define como una técnica para clasificar sistemáticamente un objeto de texto (documento u oración) en una de las categorías fijas. Es realmente útil cuando la cantidad de datos es demasiado grande, especialmente para fines de organización, filtrado de información y almacenamiento.

Un clasificador típico de lenguaje natural consta de dos partes: (a) Entrenamiento (b) Predicción. En primer lugar la entrada de texto se procesa y se crean características. Los modelos de aprendizaje automático aprenden estas características y se utilizan para predecir el nuevo texto.




In [5]:
#! pip install textblob


In [16]:
## Código que usa un clasificador de Bayes que usa la biblioteca de  textblob (construida sobre NLTK)

from textblob.classifiers import NaiveBayesClassifier as NBC
from textblob import TextBlob

corpus_entrenamiento = [
                       ('I am exhausted of this work.', 'Class_B'),
                       ("I can't cooperate with this", 'Class_B'),
                       ('He is my badest enemy!', 'Class_B'),
                       ('My management is poor.', 'Class_B'),
                       ('I love this burger.', 'Class_A'),
                       ('This is an brilliant place!', 'Class_A'),
                       ('I feel very good about these dates.', 'Class_A'),
                       ('This is my best work.', 'Class_A'),
                       ("What an awesome view", 'Class_A'),
                       ('I do not like this dish', 'Class_B')]
corpus_prueba = [
                ("I am not feeling well today.", 'Class_B'),
                ("I feel brilliant!", 'Class_A'),
                ('Gary is a friend of mine.', 'Class_A'),
                ("I can't believe I'm doing this.", 'Class_B'),
                ('The date was good.', 'Class_A'), ('I do not enjoy my job', 'Class_B')]


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m23.0[0m[39;49m -> [0m[32;49m24.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [17]:
model = NBC(corpus_entrenamiento)
print(model.classify("Comentarios"))

Class_A


In [18]:
print(model.classify("I don't like their computer."))

Class_B


In [19]:
print(model.accuracy(corpus_prueba))

0.8333333333333334


Scikit Learn proporciona un framework pipeline para clasificación de texto.

In [20]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import classification_report
from sklearn import svm


# preparando datos para el modelo SVM (usando el corpus_entrenamiento, corpus_prueba desde el ejemplo anterior)

datos_entrenamiento = []
etiquetas_entrenamiento = []

for fila in corpus_entrenamiento:
  datos_entrenamiento.append(fila[0])
  etiquetas_entrenamiento.append(fila[1])


datos_prueba =[]
etiquetas_pruebas = []
for fila in corpus_prueba:
  datos_prueba.append(fila[0])
  etiquetas_pruebas.append(fila[1])

# Creamos vectores caracteristicas

vectorizer = TfidfVectorizer(min_df=4, max_df=0.9)

# Entrenamiento los vectores caracteristicas

vectores_entrenamiento = vectorizer.fit_transform(datos_entrenamiento)

# Aplicar el modelo sobre el conjunto de pruebas

vectores_prueba =vectorizer.transform(datos_prueba)

# Desempeño de la clasificacion de SVM kernel=linear

model = svm.SVC(kernel="linear")
model.fit(vectores_entrenamiento, etiquetas_entrenamiento)
prediction = model.predict(vectores_prueba)

print (classification_report(etiquetas_pruebas, prediction))

              precision    recall  f1-score   support

     Class_A       0.50      0.67      0.57         3
     Class_B       0.50      0.33      0.40         3

    accuracy                           0.50         6
   macro avg       0.50      0.50      0.49         6
weighted avg       0.50      0.50      0.49         6



El modelo de clasificación de texto depende en gran medida de la calidad y cantidad de las características, mientras que al aplicar cualquier modelo de aprendizaje automático, siempre es una buena práctica incluir más y más datos de entrenamiento.


#### Coincidencia de texto/ similitud

Una de las áreas importantes del NLP es la coincidencia de objetos de texto para encontrar similitudes. Las aplicaciones importantes de la coincidencia de texto incluyen la corrección automática de la ortografía, la deduplicación de datos y el análisis del genoma, etc.

Una serie de técnicas de coincidencia de texto están disponibles según el requerimiento.

*  Distancia de Levenshtein: la distancia de Levenshtein entre dos cadenas se define como el número mínimo de ediciones necesarias para transformar una cadena en otra, con las operaciones de edición permitidas que son la inserción, eliminación o sustitución de un solo carácter. A continuación se muestra la implementación para cálculos de memoria eficientes.

In [21]:
def levenshtein(s1,s2):
    if len(s1) > len(s2):
        s1,s2 = s2,s1
    distancias = range(len(s1) + 1)
    for index2,char2 in enumerate(s2):
        newDistancias = [index2+1]
        for index1,char1 in enumerate(s1):
            if char1 == char2:
                newDistancias.append(distancias[index1])
            else:
                 newDistancias.append(1 + min((distancias[index1], distancias[index1+1], newDistancias[-1])))
        distancias = newDistancias
    return distancias[-1]

print(levenshtein("analyze","analyse"))

1


* Coincidencia fonética: un algoritmo de coincidencia fonética toma una palabra clave como entrada (nombre de una persona, nombre de la ubicación, etc.) y produce una cadena de caracteres que identifica un conjunto de palabras que son (aproximadamente) fonéticamente similares. Es muy útil para buscar grandes corpuses de texto, corregir errores de ortografía y hacer coincidir nombres relevantes. Soundex y Metaphone son dos algoritmos fonéticos principales utilizados para este propósito. Revisar: https://medium.com/@ievgenii.shulitskyi/phonetic-matching-algorithms-50165e684526 

*  Coincidencia de cadenas flexible: un completo sistema de correspondencia de texto incluye diferentes algoritmos agrupados para calcular una variedad de variaciones de texto. Las expresiones regulares son realmente útiles para este propósito también. Otras técnicas comunes incluyen: coincidencia exacta de cadenas, correspondencia lematizada y correspondencia compacta (se ocupa de los espacios, puntuación, slangs, etc.).

* Similitud de coseno - Cuando el texto se representa como notación vectorial, también se puede aplicar una similitud de coseno general para medir la similitud vectorizada. El siguiente código convierte un texto en vectores (usando el término frecuencia) y aplica la similitud de coseno para proporcionar cercanía entre dos textos.

In [22]:
import math
from collections import Counter
def coseno_(vec1, vec2):
    comun = set(vec1.keys())& set(vec2.keys())
    numerador = sum([vec1[x]*vec2[x] for x in comun])

    sum1 = sum([vec1[x]**2 for x in vec1.keys()])
    sum2 = sum([vec2[x]**2 for x in vec2.keys()])
    denominador = math.sqrt(sum1) * math.sqrt(sum2)

    if not denominador:
        return 0.0
    else:
        return float(numerador)/ denominador

def texto_a_vector(text):
    words = text.split()
    return Counter(words)

text1 = 'This is an works of NLTK'
text2 = 'The work is about natural language processing'

vector1 = texto_a_vector(text1)
vector2 = texto_a_vector(text2)
coseno = coseno_(vector1, vector2)

print(coseno)

0.1543033499620919


#### Resolución de la coreferencia

La resolución de la coreferencia  es un proceso de búsqueda de vínculos relacionales entre las palabras (o frases) dentro de las oraciones. Considere una oración de ejemplo: "Donald went to John’s office to see the new table. He looked at it for an hour".

Los humanos pueden darse cuenta rápidamente de que "él" denota a Donald (y no a John), y que "esto" denota la mesa (y no la oficina de John). La resolución de referencia es el componente de NLP  que hace este trabajo automáticamente. Se utiliza para resumir documentos, responder preguntas y extraer información. Stanford CoreNLP proporciona una envoltura de python para fines comerciales.


#### Ejercicio

Explora código en python y NLTK de las siguientes tareas de NLP:

* Resumenes de texto: dado un artículo de texto o párrafo, resumirlo  automáticamente para producir las oraciones más importantes y relevantes ordenadas
* Traducción automática: traduce automáticamente el texto de un idioma humano a otro mediante el cuidado de la gramática, la semántica y la información sobre el mundo real, etc.
*  Generación y comprensión del lenguaje natural: la conversión de información de bases de datos informáticas o intenciones semánticas a lenguaje humano legible se denomina generación de lenguaje. La conversión de fragmentos de texto en estructuras más lógicas que son más fáciles de manipular por los programas de computadora se denomina comprensión del lenguaje.
*  Reconocimiento óptico de caracteres: dada una imagen que representa un texto impreso, determine el texto correspondiente.
* Documento a información: implica el análisis de datos textuales presentes en documentos (sitios web, archivos, pdf e imágenes) en un formato analizable y limpio.

In [6]:
## Tus respuestas

## Librerías importantes para NLP (python)

* Scikit-learn: Aprendizaje automático en Python
* Natural Language Toolkit (NLTK): el conjunto de herramientas completo para todas las técnicas de NLP.
* spaCy - Paquete industrial de NLP con Python y Cython.
* HuggingFaces es una comunidad y una plataforma que proporciona herramientas y recursos de vanguardia en NLP, facilitando el desarrollo y la implementación de soluciones basadas en inteligencia artificial en una amplia variedad de aplicaciones y dominios.
* fast.ai, es una plataforma integral que proporciona herramientas, recursos educativos y una comunidad activa para hacer que el aprendizaje profundo sea más accesible y práctico para todos, con el objetivo de democratizar la inteligencia artificial y fomentar la innovación en este campo.