<a href="https://colab.research.google.com/github/Leucocitokiller/Proyecto-Fina-NLP/blob/main/NLP_Jack_Reacher.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📚 Análisis NLP sobre texto de una novela.

In [None]:
import requests

# URL del archivo en GitHub (debe ser la URL raw)
url = 'https://raw.githubusercontent.com/Leucocitokiller/Proyecto-Fina-NLP/refs/heads/main/Zona%20peligrosa%20-%20Lee%20Child.txt'

# Descargar el contenido del archivo
response = requests.get(url)

# Verificar si la descarga fue exitosa
if response.status_code == 200:
    libro = response.text
    print("Archivo cargado correctamente.")
else:
    print("Hubo un error al cargar el archivo.")

# Mostrar las primeras 500 palabras del texto

print(libro[:500])


## 🧠 Técnicas de NLP aplicadas

### **1. Tokenización**
### **Qué es:**
### Es el proceso de dividir un texto en unidades más pequeñas llamadas tokens (normalmente palabras).

### **Para qué sirve:**
### Permite analizar el texto palabra por palabra. Es el primer paso para casi todas las tareas de NLP.



In [None]:
# Tokenización
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab') # Download the missing punkt_tab dataset

tokens = word_tokenize(libro)



## **2. Lematización**
## **Qué es:**
## Consiste en reducir las palabras a su forma base o raíz (lema).
## Ejemplo: "corriendo", "corría", "corriste" → "correr".

## **Para qué sirve:**
## Ayuda a agrupar palabras similares para análisis más precisos. Muy útil en análisis de sentimientos, búsqueda de información o resumen automático.

In [None]:
# Lematización
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

lemmatizer = WordNetLemmatizer()
lemmas = [lemmatizer.lemmatize(word) for word in tokens]

# Ver los primeros 50 lemas
print(lemmas[:100])


## **🧹 3. Limpieza **
## -STOP_WORDS: quita palabras comunes como "de", "que", "en", "la", que no aportan significado útil.

## -string.punctuation: elimina signos como .,!?¿...

## -isalpha(): se asegura de quedarte solo con palabras (sin números ni símbolos).

In [None]:
import spacy
from spacy.lang.es.stop_words import STOP_WORDS
import string

# Cargar modelo
nlp = spacy.load("es_core_news_sm")

# Suponemos que ya tenés esto:
# tokens -> lista de tokens
# lemmas -> lista de lemas (usando tokens)

# Limpieza de lemas:
lemmas_limpios = [
    palabra.lower()
    for palabra in lemmas
    if palabra.lower() not in STOP_WORDS             # eliminar stopwords
    and palabra not in string.punctuation             # eliminar puntuación
    and palabra.isalpha()                             # solo palabras (no números, etc.)
]

print(lemmas_limpios[:30])  # Mostrar primeros 30 para chequear



## **4. POS-tagging (Part-of-Speech Tagging)**
## **Qué es:**
## Es etiquetar cada palabra con su categoría gramatical: sustantivo, verbo, adjetivo, etc.

## **Para qué sirve:**
## Permite hacer análisis gramaticales y entender mejor la estructura del texto. Es útil en traducción automática, análisis sintáctico y generación de texto.

In [None]:
import spacy

# Download the model if it's not installed
!python -m spacy download es_core_news_sm # This line downloads the model

nlp = spacy.load("es_core_news_sm")

doc = nlp(libro)

# Lemas y POS por palabra
for token in doc[:10]:
    print(f"{token.text} →  POS: {token.pos_}")

## 📌 Contar cuántos verbos, sustantivos, etc. hay:

In [None]:
from collections import Counter

pos_counts = Counter(token.pos_ for token in doc)
print(pos_counts)


## 📊 Gráfica de los resultados:

In [None]:
import matplotlib.pyplot as plt

labels, values = zip(*pos_counts.items())

plt.figure(figsize=(12, 6))
bars = plt.bar(labels, values, color='skyblue')
plt.title("📊 Distribución de Partes del Discurso (POS)", fontsize=14)
plt.xlabel("Categoría Gramatical", fontsize=12)
plt.ylabel("Frecuencia", fontsize=12)

# Mejoras visuales
plt.xticks(rotation=45, ha='right', fontsize=10)
plt.tight_layout()  # Ajusta todo para que no se solapen los elementos

# Agrega etiquetas de valor sobre las barras si querés
for bar in bars:
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2, height + 2, str(height), ha='center', va='bottom', fontsize=9)

plt.show()


## **5. Reconocimiento de Entidades Nombradas (NER)**
## **Qué es:**
## Detecta entidades importantes como nombres de personas, lugares, fechas, organizaciones, etc.

## **Para qué sirve:**
## Es fundamental para tareas como extracción de información, motores de búsqueda inteligentes o asistentes virtuales.

In [None]:
# 🧾 5. Named Entity Recognition (NER)
entidades = [{"texto": ent.text, "tipo": ent.label_} for ent in doc.ents]

# Mostrar algunas entidades
for entidad in entidades[:10]:
    print(entidad)


## **6. Palabras más frecuentes**
## **Qué es:**
## Contar qué palabras aparecen más veces en el texto después de limpiar el contenido.

## **Para qué sirve:**
## Ayuda a identificar temas principales o patrones en el texto. Es común en análisis exploratorios y visualización de texto.

In [None]:
# 📊 6. Palabras más frecuentes
from collections import Counter

frecuencia = Counter(tokens_filtrados).most_common(50)
for palabra, freq in frecuencia:
    print(f"{palabra}: {freq}")

## **7. WordCloud (Nube de Palabras)**
## **Qué es:**
## Una visualización que muestra las palabras más frecuentes en tamaño proporcional a su frecuencia.

## **Para qué sirve:**
## Es una forma rápida y visual de entender de qué trata un texto sin leerlo todo.

In [None]:
# ☁️ 7. WordCloud
from wordcloud import WordCloud
import matplotlib.pyplot as plt

wordcloud = WordCloud(width=800, height=400, background_color='white').generate(' '.join(lemmas_limpios))
plt.figure(figsize=(12, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.title("Word Cloud del texto")
plt.show()

## **8. Bigramas / Trigramas (n-gramas)**
## **Qué es:**
## Son combinaciones de palabras consecutivas.
## Ejemplo: bigrama de “Don Quijote cabalgaba” → (“Don”, “Quijote”), (“Quijote”, “cabalgaba”).

## **Para qué sirve:**
## Permite detectar frases frecuentes y patrones en cómo se usan las palabras juntas. Muy usado en modelado de lenguaje, traducción y detección de estilo.

In [None]:
# 📛 8. Bigramas más frecuentes
from collections import Counter

# Crear bigramas correctamente (palabras consecutivas)
bigrams = list(zip(lemmas_limpios, lemmas_limpios[1:]))

# Contar frecuencia de los bigramas
bigrams_freq = Counter(bigrams).most_common(10)

# Guardar los resultados en una variable
bigrams_mas_frecuentes = [{"bigrama": bg, "frecuencia": freq} for bg, freq in bigrams_freq]

# Mostrar los bigramas
for item in bigrams_mas_frecuentes:
    print(f"{item['bigrama']}: {item['frecuencia']}")


## **🧩 ¿Cómo ver frases completas?**

In [None]:
import spacy

# Cargar el modelo en español
nlp = spacy.load("es_core_news_sm")

# Procesar el texto completo
doc = nlp(libro)

# Extraer todas las oraciones
oraciones = [sent.text.strip() for sent in doc.sents]

# Mostrar las primeras 10 oraciones
for i, oracion in enumerate(oraciones[:10]):
    print(f"{i+1}: {oracion}")



## **1 🧠 Palabras clave de pelea.**



In [None]:
palabras_pelea = ["pelea", "golpear", "golpeó", "puñetazo", "disparo", "disparó",
                  "patada", "empujó", "empujón", "estranguló", "golpes", "agresión",
                  "violencia", "derribó", "lucha", "forcejeo", "combate"]


## **🔧 Código completo para detectar peleas por capítulo**

In [None]:
import spacy
import matplotlib.pyplot as plt

# Cargar modelo de spaCy en español
nlp = spacy.load("es_core_news_sm")

# Palabras clave
palabras_pelea = ["pelea", "golpear", "golpeó", "puñetazo", "disparo", "disparó",
                  "patada", "empujó", "empujón", "estranguló", "golpes", "agresión",
                  "violencia", "derribó", "lucha", "forcejeo", "combate"]

# Separar por capítulos (suponiendo que empiezan con "CAPÍTULO" o número)
import re

# Divide cuando encuentra un número entero al principio de una línea (capítulo nuevo)
capitulos = re.split(r'\n\s*\d+\s*\n', libro)
capitulos = [c.strip() for c in capitulos if len(c.strip()) > 100]  # eliminamos capítulos vacíos


# Guardar cantidad de frases con pelea por capítulo
conteo_pelea_por_capitulo = []
frases_pelea = []

for cap in capitulos:
    doc = nlp(cap)
    oraciones = [sent.text.strip() for sent in doc.sents]
    frases = [frase for frase in oraciones if any(pal in frase.lower() for pal in palabras_pelea)]
    frases_pelea.append(frases)  # para verlas después si querés
    conteo_pelea_por_capitulo.append(len(frases))

# 📊 Graficar
plt.figure(figsize=(12, 6))
plt.plot(range(1, len(conteo_pelea_por_capitulo)+1), conteo_pelea_por_capitulo, marker='o', color='crimson')
plt.title("Número de escenas de pelea por capítulo")
plt.xlabel("Capítulo")
plt.ylabel("Cantidad de escenas con palabras clave")
plt.xticks(range(1, len(conteo_pelea_por_capitulo)+1))
plt.grid(True)
plt.tight_layout()
plt.show()


In [None]:
# Mostrar solo capítulos con frases de pelea
for i, frases in enumerate(frases_pelea, 1):  # empieza en 1
    if frases:  # Solo mostrar si hay frases
        print(f"📘 Capítulo {i}")
        for frase in frases:
            print(f" - {frase}")
        print("\n" + "="*80 + "\n")

## **2 🧠 Palabras clave de Muertes.**

In [None]:
# Palabras clave

palabras_muertes = ["el amor"]

In [None]:


# Guardar cantidad de frases con muerte por capítulo
conteo_muertes_por_capitulo = []
frases_muerte = []

for cap in capitulos:
    doc = nlp(cap)
    oraciones = [sent.text.strip() for sent in doc.sents]
    frases = [frase for frase in oraciones if any(pal in frase.lower() for pal in palabras_muertes)]
    frases_muerte.append(frases)  # para verlas después si querés
    conteo_muertes_por_capitulo.append(len(frases))

# 📊 Graficar
plt.figure(figsize=(12, 6))
plt.plot(range(1, len(conteo_muertes_por_capitulo)+1), conteo_muertes_por_capitulo, marker='o', color='crimson')
plt.title("Número de escenas de muerte por capítulo")
plt.xlabel("Capítulo")
plt.ylabel("Cantidad de escenas con palabras clave")
plt.xticks(range(1, len(conteo_muertes_por_capitulo)+1))
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
# Mostrar solo capítulos con frases de pelea
for i, frases in enumerate(frases_muerte, 1):  # empieza en 1
    if frases:  # Solo mostrar si hay frases
        print(f"📘 Capítulo {i}")
        for frase in frases:
            print(f" - {frase}")
        print("\n" + "="*80 + "\n")


# **Analisis de Sentimientos por Oración**

## **✅ Carga del modelo de sentimientos**

In [None]:
from transformers import pipeline
from spacy.lang.es import Spanish

# Cargar el modelo de sentimiento en español
sentiment_pipeline = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

# Cargar el NLP de spaCy para español
nlp = Spanish()
nlp.add_pipe("sentencizer")  # Solo segmenta en oraciones

## **✅ Paso 4: Analizar sentimientos por oración**


In [None]:
sentimientos_por_capitulo = []

for oraciones in oraciones:
    sentimientos = []
    for oracion in oraciones:
        try:
            result = sentiment_pipeline(oracion[:512])  # límite de tokens
            sentimientos.append({
                'oracion': oracion,
                'sentimiento': result[0]['label'],
                'score': result[0]['score']
            })
        except Exception as e:
            print(f"Error con oración: {oracion}\n{e}")
    sentimientos_por_capitulo.append(sentimientos)


## **✅  Ver resultados**


In [None]:
for i, cap in enumerate(sentimientos_por_capitulo, 1):
    print(f"📘 Capítulo {i}")
    for s in cap[:5]:  # Las primeras 5 oraciones
        print(f"{s['oracion']} → {s['sentimiento']} ({s['score']:.2f})")
    print("\n" + "="*80 + "\n")


#///////////////////////////////

In [None]:
import seaborn as sns
import pandas as pd

palabras_df = pd.DataFrame(frecuencia, columns=['palabra', 'frecuencia'])
sns.barplot(data=palabras_df, x='frecuencia', y='palabra')
plt.title("Top 10 palabras más frecuentes")
plt.xlabel("Frecuencia")
plt.ylabel("Palabra")
plt.show()

In [None]:
ents = [ent.text for ent in doc.ents if ent.label_ in ['PER', 'LOC', 'ORG']]
ent_freq = Counter(ents).most_common(10)
pd.DataFrame(ent_freq, columns=["Entidad", "Frecuencia"]).plot.bar(x='Entidad', y='Frecuencia', legend=False)
plt.title("Entidades nombradas más frecuentes")
plt.ylabel("Frecuencia")
plt.show()

In [None]:
from collections import Counter
pos_counts = Counter([token.pos_ for token in doc if token.is_alpha])
sns.barplot(x=list(pos_counts.keys()), y=list(pos_counts.values()))
plt.title("Distribución de categorías gramaticales")
plt.xlabel("POS")
plt.ylabel("Cantidad")
plt.show()


In [None]:
import networkx as nx

G = nx.Graph()
for (w1, w2), freq in bigrams_freq:
    G.add_edge(w1, w2, weight=freq)

plt.figure(figsize=(10,6))
nx.draw_networkx(G, with_labels=True, node_size=1500, font_size=10)
plt.title("Bigramas más frecuentes")
plt.show()




In [None]:
from textblob import TextBlob

# Assuming 'tokens_limpios' from previous cell contains the processed text
texto_procesado = ' '.join(tokens_filtrados)  # Join the tokens into a string

# Análisis de sentimientos por párrafo o línea
sentimientos = []
for frase in texto_procesado.split('\n'):
    blob = TextBlob(frase)
    sentimientos.append((frase, blob.sentiment.polarity))

# Mostrar las frases más positivas y más negativas
sentimientos_ordenados = sorted(sentimientos, key=lambda x: x[1])
print("Frase más negativa:\n", sentimientos_ordenados[0])
print("\nFrase más positiva:\n", sentimientos_ordenados[-1])


In [None]:

from nltk.sentiment import SentimentIntensityAnalyzer
import nltk
nltk.download('vader_lexicon')

sia = SentimentIntensityAnalyzer()

sentimientos = []
for frase in texto_procesado.split('\n'):
    score = sia.polarity_scores(frase)['compound']
    sentimientos.append((frase, score))

# Frases con sentimiento más marcado
sentimientos_ordenados = sorted(sentimientos, key=lambda x: x[1])
print("Frase más negativa:\n", sentimientos_ordenados[0])
print("\nFrase más positiva:\n", sentimientos_ordenados[-1])


In [None]:
import matplotlib.pyplot as plt

polaridades = [s[1] for s in sentimientos]
plt.figure(figsize=(12, 4))
plt.plot(polaridades)
plt.title("Evolución del sentimiento a lo largo del texto")
plt.xlabel("Línea del texto")
plt.ylabel("Polaridad (-1 a 1)")
plt.show()


In [None]:
pip install transformers torch


In [None]:
import re
from transformers import pipelinefrom collections import Counter
import matplotlib.pyplot as plt
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer

# --- 1. Separar el libro por capítulos ---
def separar_capitulos(texto):
    # Suponemos que los capítulos empiezan con "Capítulo", "CAPÍTULO", o un número solo
    caps = re.split(r'\bCap[ií]tulo\s+\d+\b', texto, flags=re.IGNORECASE)
    capitulos = [cap.strip() for cap in caps if len(cap.strip()) > 200]  # filtramos los vacíos
    return capitulos

capitulos = separar_capitulos(libro)
print(f"Cantidad de capítulos encontrados: {len(capitulos)}")

# --- 2. Resumen por capítulo ---
def resumir_texto(texto, num_oraciones=3):
    parser = PlaintextParser.from_string(texto, Tokenizer("spanish"))
    summarizer = LsaSummarizer()
    resumen = summarizer(parser.document, num_oraciones)
    return " ".join(str(oracion) for oracion in resumen)

resumenes = [resumir_texto(cap) for cap in capitulos]

# --- 3. Sentimiento por capítulo ---
sentimientos = []
for cap in capitulos:
    polaridad, subjetividad = pattern_sentiment(cap) # pattern_sentiment is used
    sentimientos.append(polaridad)

# --- 4. Buscar menciones de peleas ---
palabras_pelea = ["golpe", "disparo", "pelea", "lucha", "patada", "puñetazo", "forcejeo"]
conteo_pelea = []

for cap in capitulos:
    texto_min = cap.lower()
    count = sum(texto_min.count(p) for p in palabras_pelea)
    conteo_pelea.append(count)

# --- 5. Gráfico de sentimientos y peleas ---
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.plot(sentimientos, marker='o', color='blue')
plt.title("Sentimiento por capítulo (polaridad)")
plt.xlabel("Capítulo")
plt.ylabel("Polaridad (más positivo → más alto)")
plt.grid(True)

plt.subplot(1, 2, 2)
plt.bar(range(len(conteo_pelea)), conteo_pelea, color='red')
plt.title("Cantidad de peleas por capítulo")
plt.xlabel("Capítulo")
plt.ylabel("Menciones relacionadas a pelea")
plt.grid(True)

plt.tight_layout()
plt.show()

In [None]:
import spacy
from collections import Counter
import re
import string
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer
from textblob import TextBlob
from sklearn.decomposition import PCA

# Cargar modelo en español
nlp = spacy.load("es_core_news_sm")

# Cargar tu texto (puedes modificar para cargar un archivo .txt)
with open("libro.txt", "r", encoding="utf-8") as file:
    texto = file.read()

# Preprocesamiento: pasar a minúsculas y quitar saltos de línea
texto = texto.lower().replace('\n', ' ')

# Procesar el texto con SpaCy
doc = nlp(texto)

# 1️⃣ Tokenización, Limpieza y Lematización
tokens = [token.text for token in doc if token.is_alpha and not token.is_stop]
lemmas = [token.lemma_ for token in doc if token.is_alpha and not token.is_stop]

# 2️⃣ POS-tagging
pos_tags = [(token.text, token.pos_) for token in doc if token.is_alpha and not token.is_stop]

# 3️⃣ Bigramas más frecuentes
bigrams = list(zip(lemmas, lemmas[1:]))  # o usar tokens si preferís sin lematizar
bigrams_freq = Counter(bigrams).most_common(10)

# Imprimir resultados de POS-tagging y bigramas
print("🔠 Tokens limpiados:", tokens[:10])
print("\n🌱 Lemmas:", lemmas[:10])
print("\n🧾 POS-tagging:", pos_tags[:10])
print("\n📛 Bigramas más frecuentes:", bigrams_freq)

# 4️⃣ Resumen por Capítulos
def separar_capitulos(texto):
    capitulos = re.split(r'\n\d+\n', texto)  # Asume que los capítulos empiezan con el número en una línea sola
    return capitulos

capitulos = separar_capitulos(texto)

# Resumir cada capítulo (usando TextBlob o alguna librería de resumen)
def resumen_capitulo(texto):
    blob = TextBlob(texto)
    return blob.sentences[:3]  # Resumir las primeras 3 oraciones del capítulo

resumenes = [resumen_capitulo(capitulo) for capitulo in capitulos]

# Imprimir los resúmenes de los primeros 3 capítulos
for i, resumen in enumerate(resumenes[:3]):
    print(f"\n📘 Resumen del Capítulo {i+1}:")
    for oracion in resumen:
        print(f" - {oracion}")

# 5️⃣ Análisis de Sentimientos por Capítulo
def analisis_sentimientos(texto):
    blob = TextBlob(texto)
    return blob.sentiment.polarity  # Retorna el valor de polaridad (positivo/negativo)

sentimientos = [analisis_sentimientos(capitulo) for capitulo in capitulos]

# 6️⃣ Clustering de Capítulos
# Vectorizar el texto con TF-IDF
vectorizer = TfidfVectorizer(stop_words='spanish')
X = vectorizer.fit_transform(capitulos)

# Aplicar KMeans para hacer clustering de capítulos
kmeans = KMeans(n_clusters=5)  # Dividir en 5 clusters (ajustar según el libro)
kmeans.fit(X)

# Obtener las etiquetas de cada capítulo
etiquetas = kmeans.labels_

# Visualización de Clustering en 2D (usando PCA)
pca = PCA(n_components=2)
X_reducido = pca.fit_transform(X.toarray())

plt.figure(figsize=(10, 6))
plt.scatter(X_reducido[:, 0], X_reducido[:, 1], c=etiquetas, cmap='viridis')
plt.title('Clustering de Capítulos del Libro')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.colorbar(label='Cluster')
plt.show()

# Mostrar los capítulos asignados a cada cluster
for cluster in range(5):
    print(f"\nCapítulos en el Cluster {cluster}:")
    for i, label in enumerate(etiquetas):
        if label == cluster:
            print(f" - Capítulo {i+1}")
