<a href="https://colab.research.google.com/github/edwinmgallego/Best-README-Template/blob/main/T%C3%A9cnicas_de_an%C3%A1lisis_textual_y_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import fitz  # PyMuPDF

# 🔹 Especifica la ruta del archivo PDF
pdf_path = "/ruta/del/archivo/tu_archivo.pdf"  # Cambia esto por la ruta real

# 🔹 Abrir el PDF y extraer el texto
doc = fitz.open(pdf_path)
text = "\n".join(page.get_text("text") for page in doc)

# 🔹 Imprimir el texto extraído
print(text)


# Procesamiento de Lenguaje Natural (NLP)

* El NLP combina la lingüística computacional con modelos estadísticos, de aprendizaje automático y aprendizaje profundo para permitir que las computadoras procesen y analicen grandes cantidades de datos de lenguaje natural.


In [5]:
# importando NLTK (Natural Language Toolkit), una librería de Python para el procesamiento de lenguaje natural. Además, desde nltk.tokenize, importas word_tokenize, que se usa para dividir un texto en palabras (tokenización).

import nltk
from nltk.tokenize import word_tokenize
# Download the 'punkt_tab' resource
#'punkt' es un paquete de NLTK que contiene datos necesarios para la tokenización de texto en inglés y otros idiomas.
nltk.download('punkt')
nltk.download('punkt_tab')


#Aquí word_tokenize(texto) divide el texto en palabras y signos de puntuación, devolviendo una lista de "tokens".
texto = "Hola, ¿cómo estás? Espero que todo bien."
tokens = word_tokenize(texto)
print(tokens)

#🔹 Observaciones:
#El texto se ha separado en palabras y signos de puntuación.
#El signo ¿ es un token independiente.
#El punto final . también es tratado como un token separado.


['Hola', ',', '¿cómo', 'estás', '?', 'Espero', 'que', 'todo', 'bien', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [7]:
!python -m spacy download es_core_news_sm # Download the Spanish language model

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m62.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


**Lematización**

In [8]:
#Esto importa la biblioteca spaCy, que es una poderosa herramienta para el procesamiento del lenguaje natural (NLP).

import spacy


#Aquí se carga un modelo de spaCy en español llamado es_core_news_sm. Este modelo tiene conocimiento sobre la gramática del español y permite realizar tareas como tokenización, lematización, análisis gramatical, reconocimiento de entidades.

nlp = spacy.load('es_core_news_sm') # Load the downloaded model
doc = nlp("Estoy corriendo en el parque")
for token in doc:
    print(token.text, token.lemma_)

Estoy estar
corriendo correr
en en
el el
parque parque


In [9]:
from nltk.corpus import stopwords
nltk.download('stopwords')


stop_words = set(stopwords.words('spanish'))
filtered_tokens = [word for word in tokens if not word in stop_words]
print(filtered_tokens)


['Hola', ',', '¿cómo', '?', 'Espero', 'bien', '.']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.



* TextBlob  es una biblioteca de procesamiento de texto que permite análisis de sentimientos, corrección ortográfica, traducción, etc.
texto = TextBlob("Me encanta este lugar, es maravilloso.")

*  Se crea un objeto TextBlob con el texto "Me encanta este lugar, es maravilloso.".

*  TextBlob analiza el texto y puede extraer información como polaridad y subjetividad.
print(texto.sentiment)

* texto.sentiment devuelve un objeto con dos valores:
** polarity (polaridad): Un valor entre -1 y 1 que indica si el sentimiento es negativo (-1), neutro (0) o positivo (1).
* * subjectivity (subjetividad): Un valor entre 0 y 1 que indica qué tan subjetivo es el texto (0 = objetivo, 1 = subjetivo).

In [10]:
from textblob import TextBlob



texto = TextBlob("Me encanta este lugar, es maravilloso.")
print(texto.sentiment)


Sentiment(polarity=0.0, subjectivity=0.0)


* nlp es un modelo de spaCy previamente cargado (por ejemplo, nlp = spacy.load("es_core_news_sm") si se usa el modelo en español).

* Se procesa el texto "Apple está buscando comprar una startup del Reino Unido por mil millones de dólares."
doc es un objeto de spaCy que contiene el análisis del texto, incluyendo tokens, entidades, dependencias gramaticales, etc.

* * doc.ents contiene las entidades nombradas que spaCy ha identificado en el texto.
* * El bucle for recorre cada entidad (ent) y muestra:
ent.text: el fragmento del texto que corresponde a la entidad.
ent.label_: la etiqueta de la entidad (tipo de entidad reconocida).

* Explicación de las etiquetas:
ORG → Organización (Apple)
LOC → Ubicación (Reino Unido)
MONEY → Cantidad de dinero (mil millones de dólares)
Si no se detectan correctamente, puede ser necesario utilizar un modelo más grande (es_core_news_md o es_core_news_lg) o ajustar el reconocimiento de entidades con entrenamiento adicional.

Conclusión
Este código utiliza spaCy para extraer entidades nombradas (como nombres de empresas, lugares y cantidades de dinero) de un texto en español y mostrarlas junto con su categoría.

In [11]:
doc = nlp("Apple está buscando comprar una startup del Reino Unido por mil millones de dólares.")


for ent in doc.ents:
    print(ent.text, ent.label_)


Apple ORG
Reino Unido LOC


6. Modelado de temas

* CountVectorizer: Convierte texto en una matriz de conteo de palabras.
LatentDirichletAllocation: Implementa el algoritmo LDA para la detección de temas en textos.



* n_components=2: Se extraerán dos temas principales de los documentos.
random_state=42: Se fija una semilla para reproducibilidad.
* fit(doc_term_matrix): Se entrena el modelo para identificar patrones de palabras que forman los temas.

* lda.components_ contiene los pesos de las palabras en cada tema.
topic.argsort()[-10:]: Obtiene las 10 palabras más representativas del tema actual (ordenadas por importancia).

* Resumen:
Convierte texto a una matriz numérica.
Usa LDA para extraer temas latentes.
Imprime palabras clave de cada tema.
🚀 ¡Este método es útil para clasificación automática de textos y análisis de contenido en NLP!


* 🏗️ ¿Cómo funciona LDA?
LDA modela cada documento como una combinación de temas, y cada tema como una combinación de palabras. Funciona con los siguientes pasos:
*
1️⃣ Convertir texto en datos estructurados

Se crea una matriz de documentos vs palabras usando técnicas como CountVectorizer (Bag of Words).
* 2️⃣ Asignación inicial de temas

Asigna palabras a temas de manera aleatoria.
* 3️⃣ Ajuste iterativo

Usa inferencia bayesiana para refinar la asignación de palabras a temas.
Ajusta los pesos de cada palabra en cada tema hasta que se alcance un equilibrio.
* 4️⃣ Extracción de temas

Devuelve una lista de temas con palabras representativas.
* 🧠 Modelo Matemático de LDA
LDA usa un modelo generativo basado en distribuciones de Dirichlet:

📌 Conceptos clave:

Un documento
𝑑
d es una mezcla de
𝐾
K temas.
Un tema
𝑧
z es una distribución sobre palabras.
Cada palabra en un documento se elige de acuerdo con la distribución del tema asignado.
🔢 Fórmulas básicas:

Distribución de temas en un documento:

𝜃
𝑑
∼
𝐷
𝑖
𝑟
𝑖
𝑐
ℎ
𝑙
𝑒
𝑡
(
𝛼
)
θ
d
​
 ∼Dirichlet(α)
Donde
𝜃
𝑑
θ
d
​
  es la probabilidad de cada tema en el documento
𝑑
d, y
𝛼
α es un parámetro de Dirichlet.

Distribución de palabras en un tema:

𝜙
𝑘
∼
𝐷
𝑖
𝑟
𝑖
𝑐
ℎ
𝑙
𝑒
𝑡
(
𝛽
)
ϕ
k
​
 ∼Dirichlet(β)
Donde
𝜙
𝑘
ϕ
k
​
  representa la distribución de palabras dentro del tema
𝑘
k, y
𝛽
β es otro parámetro de Dirichlet.

Asignación de palabras:

Para cada palabra en un documento:
Se elige un tema
𝑧
𝑑
𝑛
z
dn
​
  según la distribución
𝜃
𝑑
θ
d
​
 .
Se elige una palabra
𝑤
𝑑
𝑛
w
dn
​
  de la distribución
𝜙
𝑧
𝑑
𝑛
ϕ
z
dn
​

​
 .
LDA ajusta los valores de
𝜃
θ y
𝜙
ϕ mediante algoritmos como Colapso de Gibbs Sampling o Variational Inference.

📌 Ejemplo Visual
Supongamos que aplicamos LDA a estos documentos:

* 1️⃣ "Me gusta comer pizza y hamburguesas."
* 2️⃣ "El fútbol es mi deporte favorito."
* 3️⃣ "La inteligencia artificial está revolucionando el mundo."

LDA puede detectar dos temas:

Tema 1 (Comida): pizza, hamburguesa, comer.
Tema 2 (Deportes): fútbol, deporte, favorito.
Tema 3 (Tecnología): inteligencia, artificial, mundo.

In [12]:

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation


# Ejemplo de documentos
docs = ["Comer pizza es mi pasatiempo favorito.",
        "La inteligencia artificial es el futuro.",
        "El café colombiano es el mejor del mundo."]


# Convertir documentos a una matriz de conteos de palabras
vectorizer = CountVectorizer()
doc_term_matrix = vectorizer.fit_transform(docs)


# Aplicar LDA
lda = LatentDirichletAllocation(n_components=2, random_state=42)
lda.fit(doc_term_matrix)


# Mostrar los temas
for idx, topic in enumerate(lda.components_):
    print(f"Tema {idx}:")
    print([vectorizer.get_feature_names_out()[i] for i in topic.argsort()[-10:]])


Tema 0:
['pizza', 'comer', 'mi', 'mundo', 'colombiano', 'café', 'mejor', 'del', 'es', 'el']
Tema 1:
['comer', 'pizza', 'favorito', 'pasatiempo', 'artificial', 'futuro', 'inteligencia', 'la', 'el', 'es']
