<a href="https://colab.research.google.com/github/Leucocitokiller/Proyecto-Fina-NLP/blob/main/NLP_Jack_Reacher.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìö An√°lisis NLP sobre texto de una novela.

In [None]:
import requests

# URL del archivo en GitHub (debe ser la URL raw)
url = 'https://raw.githubusercontent.com/Leucocitokiller/Proyecto-Fina-NLP/refs/heads/main/Zona%20peligrosa%20-%20Lee%20Child.txt'

# Descargar el contenido del archivo
response = requests.get(url)

# Verificar si la descarga fue exitosa
if response.status_code == 200:
    libro = response.text
    print("Archivo cargado correctamente.")
else:
    print("Hubo un error al cargar el archivo.")

# Mostrar las primeras 500 palabras del texto

print(libro[:500])


## üß† T√©cnicas de NLP aplicadas

### **1. Tokenizaci√≥n**
### **Qu√© es:**
### Es el proceso de dividir un texto en unidades m√°s peque√±as llamadas tokens (normalmente palabras).

### **Para qu√© sirve:**
### Permite analizar el texto palabra por palabra. Es el primer paso para casi todas las tareas de NLP.



In [None]:
# Tokenizaci√≥n
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab') # Download the missing punkt_tab dataset

tokens = word_tokenize(libro)



## **2. Lematizaci√≥n**
## **Qu√© es:**
## Consiste en reducir las palabras a su forma base o ra√≠z (lema).
## Ejemplo: "corriendo", "corr√≠a", "corriste" ‚Üí "correr".

## **Para qu√© sirve:**
## Ayuda a agrupar palabras similares para an√°lisis m√°s precisos. Muy √∫til en an√°lisis de sentimientos, b√∫squeda de informaci√≥n o resumen autom√°tico.

In [None]:
# Lematizaci√≥n
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

lemmatizer = WordNetLemmatizer()
lemmas = [lemmatizer.lemmatize(word) for word in tokens]

# Ver los primeros 50 lemas
print(lemmas[:100])


## **üßπ 3. Limpieza **
## -STOP_WORDS: quita palabras comunes como "de", "que", "en", "la", que no aportan significado √∫til.

## -string.punctuation: elimina signos como .,!?¬ø...

## -isalpha(): se asegura de quedarte solo con palabras (sin n√∫meros ni s√≠mbolos).

In [None]:
import spacy
from spacy.lang.es.stop_words import STOP_WORDS
import string

# Cargar modelo
nlp = spacy.load("es_core_news_sm")

# Suponemos que ya ten√©s esto:
# tokens -> lista de tokens
# lemmas -> lista de lemas (usando tokens)

# Limpieza de lemas:
lemmas_limpios = [
    palabra.lower()
    for palabra in lemmas
    if palabra.lower() not in STOP_WORDS             # eliminar stopwords
    and palabra not in string.punctuation             # eliminar puntuaci√≥n
    and palabra.isalpha()                             # solo palabras (no n√∫meros, etc.)
]

print(lemmas_limpios[:30])  # Mostrar primeros 30 para chequear



## **4. POS-tagging (Part-of-Speech Tagging)**
## **Qu√© es:**
## Es etiquetar cada palabra con su categor√≠a gramatical: sustantivo, verbo, adjetivo, etc.

## **Para qu√© sirve:**
## Permite hacer an√°lisis gramaticales y entender mejor la estructura del texto. Es √∫til en traducci√≥n autom√°tica, an√°lisis sint√°ctico y generaci√≥n de texto.

In [None]:
import spacy

# Download the model if it's not installed
!python -m spacy download es_core_news_sm # This line downloads the model

nlp = spacy.load("es_core_news_sm")

doc = nlp(libro)

# Lemas y POS por palabra
for token in doc[:10]:
    print(f"{token.text} ‚Üí  POS: {token.pos_}")

## üìå Contar cu√°ntos verbos, sustantivos, etc. hay:

In [None]:
from collections import Counter

pos_counts = Counter(token.pos_ for token in doc)
print(pos_counts)


## üìä Gr√°fica de los resultados:

In [None]:
import matplotlib.pyplot as plt

labels, values = zip(*pos_counts.items())

plt.figure(figsize=(12, 6))
bars = plt.bar(labels, values, color='skyblue')
plt.title("üìä Distribuci√≥n de Partes del Discurso (POS)", fontsize=14)
plt.xlabel("Categor√≠a Gramatical", fontsize=12)
plt.ylabel("Frecuencia", fontsize=12)

# Mejoras visuales
plt.xticks(rotation=45, ha='right', fontsize=10)
plt.tight_layout()  # Ajusta todo para que no se solapen los elementos

# Agrega etiquetas de valor sobre las barras si quer√©s
for bar in bars:
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2, height + 2, str(height), ha='center', va='bottom', fontsize=9)

plt.show()


## **5. Reconocimiento de Entidades Nombradas (NER)**
## **Qu√© es:**
## Detecta entidades importantes como nombres de personas, lugares, fechas, organizaciones, etc.

## **Para qu√© sirve:**
## Es fundamental para tareas como extracci√≥n de informaci√≥n, motores de b√∫squeda inteligentes o asistentes virtuales.

In [None]:
# üßæ 5. Named Entity Recognition (NER)
entidades = [{"texto": ent.text, "tipo": ent.label_} for ent in doc.ents]

# Mostrar algunas entidades
for entidad in entidades[:10]:
    print(entidad)


## **6. Palabras m√°s frecuentes**
## **Qu√© es:**
## Contar qu√© palabras aparecen m√°s veces en el texto despu√©s de limpiar el contenido.

## **Para qu√© sirve:**
## Ayuda a identificar temas principales o patrones en el texto. Es com√∫n en an√°lisis exploratorios y visualizaci√≥n de texto.

In [None]:
# üìä 6. Palabras m√°s frecuentes
from collections import Counter

frecuencia = Counter(tokens_filtrados).most_common(50)
for palabra, freq in frecuencia:
    print(f"{palabra}: {freq}")

## **7. WordCloud (Nube de Palabras)**
## **Qu√© es:**
## Una visualizaci√≥n que muestra las palabras m√°s frecuentes en tama√±o proporcional a su frecuencia.

## **Para qu√© sirve:**
## Es una forma r√°pida y visual de entender de qu√© trata un texto sin leerlo todo.

In [None]:
# ‚òÅÔ∏è 7. WordCloud
from wordcloud import WordCloud
import matplotlib.pyplot as plt

wordcloud = WordCloud(width=800, height=400, background_color='white').generate(' '.join(lemmas_limpios))
plt.figure(figsize=(12, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.title("Word Cloud del texto")
plt.show()

## **8. Bigramas / Trigramas (n-gramas)**
## **Qu√© es:**
## Son combinaciones de palabras consecutivas.
## Ejemplo: bigrama de ‚ÄúDon Quijote cabalgaba‚Äù ‚Üí (‚ÄúDon‚Äù, ‚ÄúQuijote‚Äù), (‚ÄúQuijote‚Äù, ‚Äúcabalgaba‚Äù).

## **Para qu√© sirve:**
## Permite detectar frases frecuentes y patrones en c√≥mo se usan las palabras juntas. Muy usado en modelado de lenguaje, traducci√≥n y detecci√≥n de estilo.

In [None]:
# üìõ 8. Bigramas m√°s frecuentes
from collections import Counter

# Crear bigramas correctamente (palabras consecutivas)
bigrams = list(zip(lemmas_limpios, lemmas_limpios[1:]))

# Contar frecuencia de los bigramas
bigrams_freq = Counter(bigrams).most_common(10)

# Guardar los resultados en una variable
bigrams_mas_frecuentes = [{"bigrama": bg, "frecuencia": freq} for bg, freq in bigrams_freq]

# Mostrar los bigramas
for item in bigrams_mas_frecuentes:
    print(f"{item['bigrama']}: {item['frecuencia']}")


## **üß© ¬øC√≥mo ver frases completas?**

In [None]:
import spacy

# Cargar el modelo en espa√±ol
nlp = spacy.load("es_core_news_sm")

# Procesar el texto completo
doc = nlp(libro)

# Extraer todas las oraciones
oraciones = [sent.text.strip() for sent in doc.sents]

# Mostrar las primeras 10 oraciones
for i, oracion in enumerate(oraciones[:10]):
    print(f"{i+1}: {oracion}")



## **1 üß† Palabras clave de pelea.**



In [None]:
palabras_pelea = ["pelea", "golpear", "golpe√≥", "pu√±etazo", "disparo", "dispar√≥",
                  "patada", "empuj√≥", "empuj√≥n", "estrangul√≥", "golpes", "agresi√≥n",
                  "violencia", "derrib√≥", "lucha", "forcejeo", "combate"]


## **üîß C√≥digo completo para detectar peleas por cap√≠tulo**

In [None]:
import spacy
import matplotlib.pyplot as plt

# Cargar modelo de spaCy en espa√±ol
nlp = spacy.load("es_core_news_sm")

# Palabras clave
palabras_pelea = ["pelea", "golpear", "golpe√≥", "pu√±etazo", "disparo", "dispar√≥",
                  "patada", "empuj√≥", "empuj√≥n", "estrangul√≥", "golpes", "agresi√≥n",
                  "violencia", "derrib√≥", "lucha", "forcejeo", "combate"]

# Separar por cap√≠tulos (suponiendo que empiezan con "CAP√çTULO" o n√∫mero)
import re

# Divide cuando encuentra un n√∫mero entero al principio de una l√≠nea (cap√≠tulo nuevo)
capitulos = re.split(r'\n\s*\d+\s*\n', libro)
capitulos = [c.strip() for c in capitulos if len(c.strip()) > 100]  # eliminamos cap√≠tulos vac√≠os


# Guardar cantidad de frases con pelea por cap√≠tulo
conteo_pelea_por_capitulo = []
frases_pelea = []

for cap in capitulos:
    doc = nlp(cap)
    oraciones = [sent.text.strip() for sent in doc.sents]
    frases = [frase for frase in oraciones if any(pal in frase.lower() for pal in palabras_pelea)]
    frases_pelea.append(frases)  # para verlas despu√©s si quer√©s
    conteo_pelea_por_capitulo.append(len(frases))

# üìä Graficar
plt.figure(figsize=(12, 6))
plt.plot(range(1, len(conteo_pelea_por_capitulo)+1), conteo_pelea_por_capitulo, marker='o', color='crimson')
plt.title("N√∫mero de escenas de pelea por cap√≠tulo")
plt.xlabel("Cap√≠tulo")
plt.ylabel("Cantidad de escenas con palabras clave")
plt.xticks(range(1, len(conteo_pelea_por_capitulo)+1))
plt.grid(True)
plt.tight_layout()
plt.show()


In [None]:
# Mostrar solo cap√≠tulos con frases de pelea
for i, frases in enumerate(frases_pelea, 1):  # empieza en 1
    if frases:  # Solo mostrar si hay frases
        print(f"üìò Cap√≠tulo {i}")
        for frase in frases:
            print(f" - {frase}")
        print("\n" + "="*80 + "\n")

## **2 üß† Palabras clave de Muertes.**

In [None]:
# Palabras clave

palabras_muertes = ["el amor"]

In [None]:


# Guardar cantidad de frases con muerte por cap√≠tulo
conteo_muertes_por_capitulo = []
frases_muerte = []

for cap in capitulos:
    doc = nlp(cap)
    oraciones = [sent.text.strip() for sent in doc.sents]
    frases = [frase for frase in oraciones if any(pal in frase.lower() for pal in palabras_muertes)]
    frases_muerte.append(frases)  # para verlas despu√©s si quer√©s
    conteo_muertes_por_capitulo.append(len(frases))

# üìä Graficar
plt.figure(figsize=(12, 6))
plt.plot(range(1, len(conteo_muertes_por_capitulo)+1), conteo_muertes_por_capitulo, marker='o', color='crimson')
plt.title("N√∫mero de escenas de muerte por cap√≠tulo")
plt.xlabel("Cap√≠tulo")
plt.ylabel("Cantidad de escenas con palabras clave")
plt.xticks(range(1, len(conteo_muertes_por_capitulo)+1))
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
# Mostrar solo cap√≠tulos con frases de pelea
for i, frases in enumerate(frases_muerte, 1):  # empieza en 1
    if frases:  # Solo mostrar si hay frases
        print(f"üìò Cap√≠tulo {i}")
        for frase in frases:
            print(f" - {frase}")
        print("\n" + "="*80 + "\n")


# **Analisis de Sentimientos por Oraci√≥n**

## **‚úÖ Carga del modelo de sentimientos**

In [None]:
from transformers import pipeline
from spacy.lang.es import Spanish

# Cargar el modelo de sentimiento en espa√±ol
sentiment_pipeline = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

# Cargar el NLP de spaCy para espa√±ol
nlp = Spanish()
nlp.add_pipe("sentencizer")  # Solo segmenta en oraciones

## **‚úÖ Paso 4: Analizar sentimientos por oraci√≥n**


In [None]:
sentimientos_por_capitulo = []

for oraciones in oraciones:
    sentimientos = []
    for oracion in oraciones:
        try:
            result = sentiment_pipeline(oracion[:512])  # l√≠mite de tokens
            sentimientos.append({
                'oracion': oracion,
                'sentimiento': result[0]['label'],
                'score': result[0]['score']
            })
        except Exception as e:
            print(f"Error con oraci√≥n: {oracion}\n{e}")
    sentimientos_por_capitulo.append(sentimientos)


## **‚úÖ  Ver resultados**


In [None]:
for i, cap in enumerate(sentimientos_por_capitulo, 1):
    print(f"üìò Cap√≠tulo {i}")
    for s in cap[:5]:  # Las primeras 5 oraciones
        print(f"{s['oracion']} ‚Üí {s['sentimiento']} ({s['score']:.2f})")
    print("\n" + "="*80 + "\n")


#///////////////////////////////

In [None]:
import seaborn as sns
import pandas as pd

palabras_df = pd.DataFrame(frecuencia, columns=['palabra', 'frecuencia'])
sns.barplot(data=palabras_df, x='frecuencia', y='palabra')
plt.title("Top 10 palabras m√°s frecuentes")
plt.xlabel("Frecuencia")
plt.ylabel("Palabra")
plt.show()

In [None]:
ents = [ent.text for ent in doc.ents if ent.label_ in ['PER', 'LOC', 'ORG']]
ent_freq = Counter(ents).most_common(10)
pd.DataFrame(ent_freq, columns=["Entidad", "Frecuencia"]).plot.bar(x='Entidad', y='Frecuencia', legend=False)
plt.title("Entidades nombradas m√°s frecuentes")
plt.ylabel("Frecuencia")
plt.show()

In [None]:
from collections import Counter
pos_counts = Counter([token.pos_ for token in doc if token.is_alpha])
sns.barplot(x=list(pos_counts.keys()), y=list(pos_counts.values()))
plt.title("Distribuci√≥n de categor√≠as gramaticales")
plt.xlabel("POS")
plt.ylabel("Cantidad")
plt.show()


In [None]:
import networkx as nx

G = nx.Graph()
for (w1, w2), freq in bigrams_freq:
    G.add_edge(w1, w2, weight=freq)

plt.figure(figsize=(10,6))
nx.draw_networkx(G, with_labels=True, node_size=1500, font_size=10)
plt.title("Bigramas m√°s frecuentes")
plt.show()




In [None]:
from textblob import TextBlob

# Assuming 'tokens_limpios' from previous cell contains the processed text
texto_procesado = ' '.join(tokens_filtrados)  # Join the tokens into a string

# An√°lisis de sentimientos por p√°rrafo o l√≠nea
sentimientos = []
for frase in texto_procesado.split('\n'):
    blob = TextBlob(frase)
    sentimientos.append((frase, blob.sentiment.polarity))

# Mostrar las frases m√°s positivas y m√°s negativas
sentimientos_ordenados = sorted(sentimientos, key=lambda x: x[1])
print("Frase m√°s negativa:\n", sentimientos_ordenados[0])
print("\nFrase m√°s positiva:\n", sentimientos_ordenados[-1])


In [None]:

from nltk.sentiment import SentimentIntensityAnalyzer
import nltk
nltk.download('vader_lexicon')

sia = SentimentIntensityAnalyzer()

sentimientos = []
for frase in texto_procesado.split('\n'):
    score = sia.polarity_scores(frase)['compound']
    sentimientos.append((frase, score))

# Frases con sentimiento m√°s marcado
sentimientos_ordenados = sorted(sentimientos, key=lambda x: x[1])
print("Frase m√°s negativa:\n", sentimientos_ordenados[0])
print("\nFrase m√°s positiva:\n", sentimientos_ordenados[-1])


In [None]:
import matplotlib.pyplot as plt

polaridades = [s[1] for s in sentimientos]
plt.figure(figsize=(12, 4))
plt.plot(polaridades)
plt.title("Evoluci√≥n del sentimiento a lo largo del texto")
plt.xlabel("L√≠nea del texto")
plt.ylabel("Polaridad (-1 a 1)")
plt.show()


In [None]:
pip install transformers torch


In [None]:
import re
from transformers import pipelinefrom collections import Counter
import matplotlib.pyplot as plt
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer

# --- 1. Separar el libro por cap√≠tulos ---
def separar_capitulos(texto):
    # Suponemos que los cap√≠tulos empiezan con "Cap√≠tulo", "CAP√çTULO", o un n√∫mero solo
    caps = re.split(r'\bCap[i√≠]tulo\s+\d+\b', texto, flags=re.IGNORECASE)
    capitulos = [cap.strip() for cap in caps if len(cap.strip()) > 200]  # filtramos los vac√≠os
    return capitulos

capitulos = separar_capitulos(libro)
print(f"Cantidad de cap√≠tulos encontrados: {len(capitulos)}")

# --- 2. Resumen por cap√≠tulo ---
def resumir_texto(texto, num_oraciones=3):
    parser = PlaintextParser.from_string(texto, Tokenizer("spanish"))
    summarizer = LsaSummarizer()
    resumen = summarizer(parser.document, num_oraciones)
    return " ".join(str(oracion) for oracion in resumen)

resumenes = [resumir_texto(cap) for cap in capitulos]

# --- 3. Sentimiento por cap√≠tulo ---
sentimientos = []
for cap in capitulos:
    polaridad, subjetividad = pattern_sentiment(cap) # pattern_sentiment is used
    sentimientos.append(polaridad)

# --- 4. Buscar menciones de peleas ---
palabras_pelea = ["golpe", "disparo", "pelea", "lucha", "patada", "pu√±etazo", "forcejeo"]
conteo_pelea = []

for cap in capitulos:
    texto_min = cap.lower()
    count = sum(texto_min.count(p) for p in palabras_pelea)
    conteo_pelea.append(count)

# --- 5. Gr√°fico de sentimientos y peleas ---
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.plot(sentimientos, marker='o', color='blue')
plt.title("Sentimiento por cap√≠tulo (polaridad)")
plt.xlabel("Cap√≠tulo")
plt.ylabel("Polaridad (m√°s positivo ‚Üí m√°s alto)")
plt.grid(True)

plt.subplot(1, 2, 2)
plt.bar(range(len(conteo_pelea)), conteo_pelea, color='red')
plt.title("Cantidad de peleas por cap√≠tulo")
plt.xlabel("Cap√≠tulo")
plt.ylabel("Menciones relacionadas a pelea")
plt.grid(True)

plt.tight_layout()
plt.show()

In [None]:
import spacy
from collections import Counter
import re
import string
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer
from textblob import TextBlob
from sklearn.decomposition import PCA

# Cargar modelo en espa√±ol
nlp = spacy.load("es_core_news_sm")

# Cargar tu texto (puedes modificar para cargar un archivo .txt)
with open("libro.txt", "r", encoding="utf-8") as file:
    texto = file.read()

# Preprocesamiento: pasar a min√∫sculas y quitar saltos de l√≠nea
texto = texto.lower().replace('\n', ' ')

# Procesar el texto con SpaCy
doc = nlp(texto)

# 1Ô∏è‚É£ Tokenizaci√≥n, Limpieza y Lematizaci√≥n
tokens = [token.text for token in doc if token.is_alpha and not token.is_stop]
lemmas = [token.lemma_ for token in doc if token.is_alpha and not token.is_stop]

# 2Ô∏è‚É£ POS-tagging
pos_tags = [(token.text, token.pos_) for token in doc if token.is_alpha and not token.is_stop]

# 3Ô∏è‚É£ Bigramas m√°s frecuentes
bigrams = list(zip(lemmas, lemmas[1:]))  # o usar tokens si prefer√≠s sin lematizar
bigrams_freq = Counter(bigrams).most_common(10)

# Imprimir resultados de POS-tagging y bigramas
print("üî† Tokens limpiados:", tokens[:10])
print("\nüå± Lemmas:", lemmas[:10])
print("\nüßæ POS-tagging:", pos_tags[:10])
print("\nüìõ Bigramas m√°s frecuentes:", bigrams_freq)

# 4Ô∏è‚É£ Resumen por Cap√≠tulos
def separar_capitulos(texto):
    capitulos = re.split(r'\n\d+\n', texto)  # Asume que los cap√≠tulos empiezan con el n√∫mero en una l√≠nea sola
    return capitulos

capitulos = separar_capitulos(texto)

# Resumir cada cap√≠tulo (usando TextBlob o alguna librer√≠a de resumen)
def resumen_capitulo(texto):
    blob = TextBlob(texto)
    return blob.sentences[:3]  # Resumir las primeras 3 oraciones del cap√≠tulo

resumenes = [resumen_capitulo(capitulo) for capitulo in capitulos]

# Imprimir los res√∫menes de los primeros 3 cap√≠tulos
for i, resumen in enumerate(resumenes[:3]):
    print(f"\nüìò Resumen del Cap√≠tulo {i+1}:")
    for oracion in resumen:
        print(f" - {oracion}")

# 5Ô∏è‚É£ An√°lisis de Sentimientos por Cap√≠tulo
def analisis_sentimientos(texto):
    blob = TextBlob(texto)
    return blob.sentiment.polarity  # Retorna el valor de polaridad (positivo/negativo)

sentimientos = [analisis_sentimientos(capitulo) for capitulo in capitulos]

# 6Ô∏è‚É£ Clustering de Cap√≠tulos
# Vectorizar el texto con TF-IDF
vectorizer = TfidfVectorizer(stop_words='spanish')
X = vectorizer.fit_transform(capitulos)

# Aplicar KMeans para hacer clustering de cap√≠tulos
kmeans = KMeans(n_clusters=5)  # Dividir en 5 clusters (ajustar seg√∫n el libro)
kmeans.fit(X)

# Obtener las etiquetas de cada cap√≠tulo
etiquetas = kmeans.labels_

# Visualizaci√≥n de Clustering en 2D (usando PCA)
pca = PCA(n_components=2)
X_reducido = pca.fit_transform(X.toarray())

plt.figure(figsize=(10, 6))
plt.scatter(X_reducido[:, 0], X_reducido[:, 1], c=etiquetas, cmap='viridis')
plt.title('Clustering de Cap√≠tulos del Libro')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.colorbar(label='Cluster')
plt.show()

# Mostrar los cap√≠tulos asignados a cada cluster
for cluster in range(5):
    print(f"\nCap√≠tulos en el Cluster {cluster}:")
    for i, label in enumerate(etiquetas):
        if label == cluster:
            print(f" - Cap√≠tulo {i+1}")
