# NLP - Enfoque tradicional
Este notebook cubre varios conceptos del procesamiento del lenguaje natural (NLP) tradicional y utiliza diferentes bibliotecas como NLTK, SpaCy, TextBlob, Gensim y Scikit-learn para implementarlos y visualizarlos.


In [2]:
!pip install nltk                   --user
!pip install spacy                  --user
!pip install textblob               --user
!pip install gensim                 --user
!pip install scikit-learn           --user
!pip install pyLDAvis               --user
!pip install language_tool_python   --user





Collecting spacy
  Using cached spacy-3.8.2-cp312-cp312-win_amd64.whl.metadata (27 kB)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy)
  Using cached murmurhash-1.0.10-cp312-cp312-win_amd64.whl.metadata (2.0 kB)
Collecting preshed<3.1.0,>=3.0.2 (from spacy)
  Using cached preshed-3.0.9-cp312-cp312-win_amd64.whl.metadata (2.2 kB)
Collecting thinc<8.4.0,>=8.3.0 (from spacy)
  Using cached thinc-8.3.2-cp312-cp312-win_amd64.whl.metadata (15 kB)
Collecting srsly<3.0.0,>=2.4.3 (from spacy)
  Using cached srsly-2.4.8-cp312-cp312-win_amd64.whl.metadata (20 kB)
Collecting catalogue<2.1.0,>=2.0.6 (from spacy)
  Using cached catalogue-2.0.10-py3-none-any.whl.metadata (14 kB)
Collecting weasel<0.5.0,>=0.1.0 (from spacy)
  Using cached weasel-0.4.1-py3-none-any.whl.metadata (4.6 kB)
Collecting typer<1.0.0,>=0.3.0 (from spacy)
  Using cached typer-0.13.0-py3-none-any.whl.metadata (15 kB)
Collecting pydantic!=1.8,!=1.8.1,<3.0.0,>=1.7.4 (from spacy)
  Using cached pydantic-2.9.2-py3-none-any.whl.met

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
gensim 4.3.3 requires numpy<2.0,>=1.18.5, but you have numpy 2.0.2 which is incompatible.






Collecting numpy<2.0,>=1.18.5 (from gensim)
  Using cached numpy-1.26.4-cp312-cp312-win_amd64.whl.metadata (61 kB)
Using cached numpy-1.26.4-cp312-cp312-win_amd64.whl (15.5 MB)
Installing collected packages: numpy
  Attempting uninstall: numpy
    Found existing installation: numpy 2.0.2
    Uninstalling numpy-2.0.2:
      Successfully uninstalled numpy-2.0.2
Successfully installed numpy-1.26.4


ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
blis 1.0.1 requires numpy<3.0.0,>=2.0.0, but you have numpy 1.26.4 which is incompatible.
thinc 8.3.2 requires numpy<2.1.0,>=2.0.0; python_version >= "3.9", but you have numpy 1.26.4 which is incompatible.










Collecting language_tool_python
  Using cached language_tool_python-2.8.1-py3-none-any.whl.metadata (12 kB)
Using cached language_tool_python-2.8.1-py3-none-any.whl (35 kB)
Installing collected packages: language_tool_python
Successfully installed language_tool_python-2.8.1




## 1. Tokenización y Etiquetado POS (Análisis Léxico y Sintáctico - NLTK y SpaCy)
-----

**Teoría:**\
La **tokenización** es el proceso de dividir un texto en unidades más pequeñas llamadas "tokens". Esto es importante porque la mayoría de las tareas de NLP necesitan trabajar con palabras individuales o grupos pequeños de palabras.\
El **etiquetado POS (Part-of-Speech)** clasifica cada palabra en su categoría gramatical (como sustantivo, verbo, adjetivo, etc.), lo cual es crucial para entender la estructura gramatical de una oración.

**Implementación con NLTK**



In [None]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger_eng')

# Ejemplo de texto en inglés
text = "The quick brown fox jumps over the lazy dog."

# Tokenización - Léxico
tokens = nltk.word_tokenize(text)
print("Tokens:", tokens)

# Etiquetado POS con NLTK - Sintáctico
pos_tags = nltk.pos_tag(tokens)
print("Etiquetas POS:", pos_tags)

**Visualización con Spacy**\
SpaCy proporciona una representación visual interactiva del **árbol de dependencias**, mostrando las **relaciones gramaticales** y las **etiquetas POS** *texto en cursiva*, lo que facilita la comprensión de la estructura de la oración.

In [None]:
'''Necesitamos el modelo en español porque cada idioma tiene su propia estructura gramatical y reglas sintácticas.
   Un modelo preentrenado en español como el de SpaCy puede realizar estas tareas de etiquetado gramatical y análisis sintáctico con precisión,
   porque ha sido entrenado en los patrones lingüísticos específicos de este idioma.'''
!python -m spacy download es_core_news_sm #decarga el modelo español de spacy (terminal)

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m63.7 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [11]:
import spacy
from spacy import displacy

# Cargar el modelo en español
nlp = spacy.load('en_core_web_sm')

# Texto de ejemplo
text = 'The quick brown fox jumps over the lazy dog.'

# Procesar el texto
doc = nlp(text)

# Visualizar el árbol de dependencias, incluyendo etiquetas POS
displacy.render(doc, style='dep', jupyter=True, options={'distance': 100})


## 2. Lematización y Reconocimiento de Entidades Nombradas (NER) (Análisis Léxico y Semántico - SpaCy)
--------

**Teoría:**\
La **lematización** reduce una palabra a su forma base o lema, ayudando a agrupar palabras con el mismo significado pero diferentes formas morfológicas.\
El **Reconocimiento de Entidades Nombradas (NER)** identifica entidades clave en el texto, como personas, lugares, organizaciones, etc., y es útil para extraer información relevante automáticamente.

**Implementación y visualización con SpaCy.**

In [14]:
import spacy
from spacy import displacy

!python -m spacy download es_core_news_sm
# Cargar modelo en español
nlp = spacy.load('es_core_news_sm')

# Texto de ejemplo
text = 'Apple fue fundada por Steve Jobs en California.'

# Procesar el texto
doc = nlp(text)

# Lematización - Léxico
print('Lemas:')
for token in doc:
    print(f'{token.text} -> {token.lemma_}')

# Visualización de Entidades Nombradas - léxico/semántico
displacy.render(doc, style='ent', jupyter=True)


Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m50.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
Lemas:
Apple -> Apple
fue -> ser
fundada -> fundar
por -> por
Steve -> Steve
Jobs -> Jobs
en -> en
California -> California
. -> .


## 3. Análisis de Sentimiento y Corrección Gramatical (Análisis Semántico - TextBlob)
-----------

**Teoría:**\
El **análisis de sentimiento** mide la polaridad del texto (positivo, negativo, neutral) y es útil para comprender la opinión o actitud expresada en grandes volúmenes de texto.\
La **corrección gramatical** asegura la claridad y precisión del texto, especialmente en aplicaciones de escritura asistida.

**Implementación con TextBlob. - Analisis de sentimiento**

In [15]:
from textblob import TextBlob

# Example text
text = 'This product is absolutely wonderful.'
blob = TextBlob(text)

# Sentiment Analysis
sentiment = blob.sentiment
print(f'Polarity: {sentiment.polarity}, Subjectivity: {sentiment.subjectivity}')
'''
La frase tiene un sentimiento extremadamente positivo,
por lo que la polaridad debería estar cerca de 1.0.
Dado que la frase expresa una opinión subjetiva sobre el producto,
la subjetividad también debería ser alta, cerca de 1.0
'''

Polarity: 1.0, Subjectivity: 1.0


'\nLa frase tiene un sentimiento extremadamente positivo,\npor lo que la polaridad debería estar cerca de 1.0.\nDado que la frase expresa una opinión subjetiva sobre el producto,\nla subjetividad también debería ser alta, cerca de 1.0\n'

**Implementación con Language Tool. - Corrección gramatical**

In [16]:
#!pip install language_tool_python
import language_tool_python
tool = language_tool_python.LanguageTool('en-US')
text_with_errors = "She go to the market and buy apples."

# Aplicar la corrección
matches = tool.check(text_with_errors)
corrected_text = language_tool_python.utils.correct(text_with_errors, matches)

print("Original text:", text_with_errors)
print("Corrected text:", corrected_text)



Downloading LanguageTool 6.4: 100%|██████████| 246M/246M [00:04<00:00, 55.4MB/s]
INFO:language_tool_python.download_lt:Unzipping /tmp/tmp_8ikm8fy.zip to /root/.cache/language_tool_python.
INFO:language_tool_python.download_lt:Downloaded https://www.languagetool.org/download/LanguageTool-6.4.zip to /root/.cache/language_tool_python.


Original text: She go to the market and buy apples.
Corrected text: She goes to the market and buy apples.


## 4. Bolsa de Palabras (BoW) y TF-IDF (Análisis Léxico - Gensim y Scikit-learn)
----------------

**Teoría:**\
La **Bolsa de Palabras (BoW)** representa un documento como un vector de frecuencias de palabras, ignorando el orden.\
El **TF-IDF** pondera la importancia de una palabra en un documento en relación con el conjunto de documentos, destacando palabras relevantes mientras se penalizan las comunes.

**Implementacion con Gensim - BoW**

In [17]:
# Gensim para Bolsa de Palabras (BoW)
import gensim
from gensim import corpora

# Documentos de ejemplo
documents = ['El gato negro saltó sobre el sofá.', 'El perro ladró fuertemente en la casa.']

# Tokenización
texts = [[word.lower() for word in document.split()] for document in documents]

# Creación del diccionario
dictionary = corpora.Dictionary(texts)
print("Diccionario:", dictionary.token2id)

#Creación de la bolsa de palabras
corpus_bow = [dictionary.doc2bow(text) for text in texts]
print('Bolsa de Palabras:', corpus_bow)

Diccionario: {'el': 0, 'gato': 1, 'negro': 2, 'saltó': 3, 'sobre': 4, 'sofá.': 5, 'casa.': 6, 'en': 7, 'fuertemente': 8, 'la': 9, 'ladró': 10, 'perro': 11}
Bolsa de Palabras: [[(0, 2), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1)], [(0, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1)]]


El diccionario representa el indice asignado a cada palabra.\
En la Bolsa de Palabras, tenemos un array por cada documento (frase en este caso). Cada array contiene una tupla (pares) por cada palabra. El primer numero de la tupla indica el indice de la palabra, el segundo cuantas veces se repite **en ese mismo** documento.\
\
Una representación más grafica de la bolsa de palabras:

In [18]:
# Convertir corpus_bow a una representación más visual utilizando pandas DataFrame
# Creamos una matriz donde las columnas serán las palabras y las filas serán los documentos
import pandas as pd
data = []

for bow in corpus_bow:
    bow_dict = dict(bow)
    data.append([bow_dict.get(dictionary.token2id[word], 0) for word in dictionary.token2id])

# Crear un DataFrame con las palabras como columnas y "doc 1", "doc 2" como índices
doc_names = [f"doc {i+1}" for i in range(len(corpus_bow))]
df_bow = pd.DataFrame(data, columns=[dictionary[id] for id in range(len(dictionary))], index=doc_names)

# Estilo de la tabla con líneas delimitadoras
styled_df_bow = df_bow.style.set_table_styles(
    [{'selector': 'th', 'props': [('border', '1px solid black')]},
     {'selector': 'td', 'props': [('border', '1px solid black')]}]
).set_properties(**{'text-align': 'center'})

# Mostrar la tabla estilizada
styled_df_bow

Unnamed: 0,el,gato,negro,saltó,sobre,sofá.,casa.,en,fuertemente,la,ladró,perro
doc 1,2,1,1,1,1,1,0,0,0,0,0,0
doc 2,1,0,0,0,0,0,1,1,1,1,1,1


**Implementacion con Scikit-learn - TF-IDF**

**Frecuencia de Término (TF):** Mide cuántas veces aparece una palabra específica en **un** documento.

**Frecuencia Inversa de Documentos (IDF):** Mide la rareza de una palabra en el conjunto de documentos. Si una palabra aparece en muchos documentos, su IDF será **baja**, porque es **menos informativa** (palabras comunes como "el", "y", "es").\
**La ponderación TF-IDF**: se calcula multiplicando la TF de la palabra por su IDF. Esto pondera la frecuencia de la palabra según su rareza en el conjunto de documentos.
\
**Casos de uso:** Clasificación de Textos, Búsqueda de Información, Filtrado de Palabras Relevantes

In [19]:
# Scikit-learn para TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
documents = [
    "El gato negro saltó sobre el sofá. Luego, el gato descansó cómodamente en su lugar favorito. El gato siempre salta con agilidad.",
    "El perro ladró fuertemente en la casa. Después, el perro salió a jugar en el jardín. El perro corre rápidamente.",
    "El gato cazó un ratón en el jardín. Los gatos son excelentes cazadores, siempre al acecho. El gato volvió al sofá.",
    "El perro dormía plácidamente en su cama. Cuando el perro se despertó, salió corriendo hacia el parque. El perro ama los paseos.",
    "Los gatos son animales muy independientes. Les gusta dormir durante el día y cazar por la noche. El gato siempre vuelve a casa.",
    "El perro es conocido por su lealtad hacia los humanos. El perro cuida la casa y siempre está alerta ante cualquier ruido extraño.",
    "El gato se subió al árbol para escapar del perro. Los gatos son conocidos por su capacidad de trepar y escapar del peligro.",
    "La computadora se apagó repentinamente mientras estaba ejecutando un programa importante. Después de reiniciarla, todos los archivos volvieron a estar accesibles."
]

# Crear y ajustar el vectorizador TF-IDF
vectorizer_tfidf = TfidfVectorizer()
X_tfidf = vectorizer_tfidf.fit_transform(documents)

# Obtener los nombres de las palabras (vocabulario)
feature_names = vectorizer_tfidf.get_feature_names_out()

# Convertir la matriz TF-IDF a un DataFrame de pandas
df_tfidf = pd.DataFrame(X_tfidf.toarray(), columns=feature_names)

# Añadir nombres de documentos (opcional)
df_tfidf.index = [
    '1 (gatos)',
    '2 (perros)',
    '3 (gatos)',
    '4 (perros)',
    '5 (gatos)',
    '6 (perros)',
    '7 (gatos)',
    '8 (computadoras)'
]
# Mostrar la tabla
print(df_tfidf)

                  accesibles    acecho  agilidad        al   alerta       ama  \
1 (gatos)           0.000000  0.000000  0.225216  0.000000  0.00000  0.000000   
2 (perros)          0.000000  0.000000  0.000000  0.000000  0.00000  0.000000   
3 (gatos)           0.000000  0.246797  0.000000  0.413670  0.00000  0.000000   
4 (perros)          0.000000  0.000000  0.000000  0.000000  0.00000  0.230705   
5 (gatos)           0.000000  0.000000  0.000000  0.000000  0.00000  0.000000   
6 (perros)          0.000000  0.000000  0.000000  0.000000  0.24537  0.000000   
7 (gatos)           0.000000  0.000000  0.000000  0.186692  0.00000  0.000000   
8 (computadoras)    0.240549  0.000000  0.000000  0.000000  0.00000  0.000000   

                  animales     ante     apagó  archivos  ...       son  \
1 (gatos)          0.00000  0.00000  0.000000  0.000000  ...  0.000000   
2 (perros)         0.00000  0.00000  0.000000  0.000000  ...  0.000000   
3 (gatos)          0.00000  0.00000  0.000000  0

### Ejemplo de motor de búsqueda
**Consulta:** El usuario ingresa una consulta, en este caso "gato sofá".\
**Transformación:** La consulta se transforma en su vector TF-IDF utilizando el mismo vectorizador que ya entrenaste con los documentos.
**Similitud de Coseno:** Calculamos la similitud de coseno entre el vector TF-IDF de la consulta y los vectores de TF-IDF de los documentos.\
* Similitud de Coseno: mide cuán similares son dos vectores (en este caso, el vector de la consulta y los vectores de los documentos).\
* El valor varía entre 0 y 1, donde 1 significa documentos idénticos.\

**Resultado:** Mostramos las similitudes de coseno para cada documento y resaltamos cuál es el más relevante.

In [20]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Tu consulta
query = "gato sofá"

# Normalizar la consulta usando el mismo vectorizador TF-IDF que ya has creado
query_tfidf = vectorizer_tfidf.transform([query])

# Calcular la similitud de coseno entre la consulta y cada documento
cosine_similarities = cosine_similarity(query_tfidf, X_tfidf).flatten()

# Mostrar las similitudes
print("Similitud de coseno entre la consulta y los documentos:")
for idx, sim in enumerate(cosine_similarities):
    print(f"Documento {idx + 1}: {sim}")

# Encontrar el documento más relevante
most_similar_doc_index = np.argmax(cosine_similarities)
print(f"\nEl documento más relevante para la consulta '{query}' es el Documento {most_similar_doc_index + 1}")


Similitud de coseno entre la consulta y los documentos:
Documento 1: 0.4090089090150796
Documento 2: 0.0
Documento 3: 0.3537824405001258
Documento 4: 0.0
Documento 5: 0.09766441205287543
Documento 6: 0.0
Documento 7: 0.08522379566333722
Documento 8: 0.0

El documento más relevante para la consulta 'gato sofá' es el Documento 1


# Practica

## Ejercicio: Exploración de la Normalización en Distintas Librerías

### Introducción:

La normalización del texto es un paso esencial en el procesamiento del lenguaje natural (NLP) que asegura que el texto esté limpio y estructurado para que pueda ser procesado por los algoritmos de NLP. En este ejercicio, aprenderás a aplicar diferentes técnicas de normalización del texto utilizando las librerías que hemos visto hasta ahora: **NLTK**, **SpaCy**, **TextBlob**, y **Gensim**.

### Técnicas de Normalización:

1. **Lowercasing**: Convertir todo el texto a minúsculas.
2. **Eliminar puntuación**: Eliminar signos de puntuación innecesarios.
3. **Eliminar números**: Remover los números que no aporten valor al análisis.
4. **Eliminar stop words**: Filtrar palabras comunes que no aportan información.
5. **Lematización**: Reducir las palabras a su forma base.
6. **Stemming (opcional)**: Aplicar stemming si la librería lo soporta.
7. **Corrección ortográfica**: Corregir errores ortográficos en el texto.
8. **Tokenización**: Dividir el texto en tokens.

### Instrucciones:

1. Busca en la documentación de cada librería (NLTK, SpaCy, TextBlob, Gensim) cómo puedes aplicar estas técnicas de normalización.
2. Implementa las soluciones que encuentres para normalizar el texto en cada librería.
3. Compara los resultados obtenidos en cada una:
 - ¿Qué diferencias encuentras entre las librerías?¿Cuáles son las fortalezas y limitaciones de cada una?
 - ¿Cómo afectó la normalización los resultados obtenidos en las diferentes técnicas de NLP (BoW, análisis de sentimiento, POS tagging, etc.)?
4. Documenta lo implementado en cada técnica, el output que refleje los cambios y una comparativa antes y después del cambio.

### Recursos:

Aquí tienes enlaces a la documentación de cada librería para comenzar tu investigación:

- [NLTK Documentation](https://www.nltk.org/)
- [SpaCy Documentation](https://spacy.io/usage)
- [TextBlob Documentation](https://textblob.readthedocs.io/en/dev/)
- [Gensim Documentation](https://radimrehurek.com/gensim/)