<a href="https://colab.research.google.com/github/jcmachicao/documentos_LLM/blob/main/curDoc__analisis_linguistico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import spacy
import re
from collections import Counter

In [None]:
texto = """
Poner aqui el texto para analizar
"""

In [None]:
from os import read
with open('texto.txt', 'r', encoding='utf-8') as archivo:
  texto = read(archivo)

In [None]:
nlp = spacy.load("es_core_news_sm")
doc = nlp(texto)

In [None]:
# Análisis de complejidad de oraciones
def analizar_complejidad_oracion(oracion):
    return {
        "longitud": len(oracion),
        "num_palabras": len([token for token in oracion if not token.is_punct]),
        "num_verbos": len([token for token in oracion if token.pos_ == "VERB"]),
        "num_sustantivos": len([token for token in oracion if token.pos_ == "NOUN"]),
        "num_adjetivos": len([token for token in oracion if token.pos_ == "ADJ"])
    }

# Identificar palabras clave (excluyendo stopwords y puntuación)
def identificar_palabras_clave(doc, n=10):
    palabras = [token.lemma_.lower() for token in doc if not token.is_stop and not token.is_punct]
    return Counter(palabras).most_common(n)

# Identificar marcadores discursivos
marcadores_discursivos = {
    "contraste": ["sin embargo", "no obstante", "por otro lado"],
    "causa_efecto": ["por lo tanto", "en consecuencia", "como resultado"],
    "adición": ["además", "asimismo", "también"],
    "conclusión": ["en conclusión", "finalmente", "en resumen"]
}

def identificar_marcadores(oracion):
    texto_oracion = oracion.text.lower()
    marcadores_encontrados = []
    for tipo, marcadores in marcadores_discursivos.items():
        for marcador in marcadores:
            if marcador in texto_oracion:
                marcadores_encontrados.append((tipo, marcador))
    return marcadores_encontrados

# Análisis de oraciones
analisis_oraciones = []
for sent in doc.sents:
    analisis = analizar_complejidad_oracion(sent)
    analisis["marcadores"] = identificar_marcadores(sent)
    analisis_oraciones.append(analisis)

In [None]:
# Imprimir resultados
print("Análisis de complejidad de oraciones:")
for i, analisis in enumerate(analisis_oraciones, 1):
    print(f"Oración {i}:")
    print(f"  Longitud: {analisis['longitud']}")
    print(f"  Número de palabras: {analisis['num_palabras']}")
    print(f"  Número de verbos: {analisis['num_verbos']}")
    print(f"  Número de sustantivos: {analisis['num_sustantivos']}")
    print(f"  Número de adjetivos: {analisis['num_adjetivos']}")
    print(f"  Marcadores discursivos: {analisis['marcadores']}")
    print()

In [None]:
print("Palabras clave más frecuentes:")
for palabra, frecuencia in identificar_palabras_clave(doc):
    print(f"  {palabra}: {frecuencia}")

In [None]:
# Análisis de preguntas retóricas
preguntas_retoricas = [sent for sent in doc.sents if sent.text.strip().endswith("?")]
print(f"\nNúmero de preguntas retóricas: {len(preguntas_retoricas)}")