In [1]:
print(" PASO 1: Instalando librerías...")
!pip install PyPDF2 spacy -q
!python -m spacy download es_core_news_sm -q

print(" Librerías instaladas correctamente\n")

 PASO 1: Instalando librerías...
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m103.7 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
 Librerías instaladas correctamente



In [2]:
print(" PASO 2: Importando librerías...")

import PyPDF2
import spacy
from collections import Counter
import unicodedata

print(" Librerías importadas correctamente\n")

 PASO 2: Importando librerías...
 Librerías importadas correctamente



In [4]:
print("PASO 3: Leyendo el PDF...")

ruta_pdf = '/content/Manual-de-escritura-jurídica-6-17.pdf'

try:
    with open(ruta_pdf, 'rb') as archivo:
        lector_pdf = PyPDF2.PdfReader(archivo)
        num_paginas = len(lector_pdf.pages)

        print(f"   Número de páginas: {num_paginas}")

        # Extraer texto de todas las páginas
        texto_completo = ""
        for i, pagina in enumerate(lector_pdf.pages):
            texto_completo += pagina.extract_text()
            if (i + 1) % 10 == 0:
                print(f"   Procesadas {i + 1} páginas...")

        print(f"PDF leído correctamente\n")
        print(f"Caracteres totales extraídos: {len(texto_completo)}\n")

except FileNotFoundError:
    print(" Error: No se encontró el archivo PDF")
    print("   Asegúrate de que el archivo esté en /content/")
    texto_completo = ""

PASO 3: Leyendo el PDF...
   Número de páginas: 12
   Procesadas 10 páginas...
PDF leído correctamente

Caracteres totales extraídos: 68272



In [5]:
print(" PASO 4: Normalizando Unicode...")

# Normalizar a NFD (descomponer caracteres con acentos)
texto_nfd = unicodedata.normalize('NFD', texto_completo)
print(f"   Forma NFD: {len(texto_nfd)} caracteres")

# Normalizar a NFC (forma canónica compuesta)
texto_nfc = unicodedata.normalize('NFC', texto_completo)
print(f"   Forma NFC: {len(texto_nfc)} caracteres")

# Usar NFC para el procesamiento
texto_procesado = texto_nfc
print("Texto normalizado a Unicode NFC\n")

 PASO 4: Normalizando Unicode...
   Forma NFD: 69499 caracteres
   Forma NFC: 68272 caracteres
Texto normalizado a Unicode NFC



In [6]:
# PASO 5: Tokenización
print(" PASO 5: Tokenizando el texto...")

# Cargar modelo de español
nlp = spacy.load('es_core_news_sm')

# Tokenizar (spaCy hace esto automáticamente)
doc = nlp(texto_procesado)

# Obtener tokens
tokens = [token.text for token in doc]
print(f"   Total de tokens: {len(tokens)}")
print(f"   Primeros 20 tokens: {tokens[:20]}")
print(" Tokenización completada\n")

 PASO 5: Tokenizando el texto...
   Total de tokens: 14830
   Primeros 20 tokens: ['PRIMERA', 'EDICIÓN6', '•Introducción', '\n', 'El', '\t', 'tráfico', '\t', 'jurídico', '\t', 'en', '\t', 'Colombia', '\t', 'es', '\t', 'muy', '\t', 'denso', '.']
 Tokenización completada



In [7]:
print("PASO 6: Contando palabras SIN stop words...")

# Filtrar: solo palabras (sin puntuación ni espacios) y sin stop words
palabras_sin_stop = [
    token.text.lower()
    for token in doc
    if token.is_alpha and not token.is_stop
]

print(f"   Total de palabras (sin stop words): {len(palabras_sin_stop)}")

# Contar frecuencias
contador_sin_stop = Counter(palabras_sin_stop)
mas_comunes_sin_stop = contador_sin_stop.most_common(20)

print("\n   Top 20 palabras más frecuentes (SIN stop words):")
for palabra, frecuencia in mas_comunes_sin_stop:
    print(f"      {palabra}: {frecuencia}")

print(" Conteo sin stop words completado\n")

PASO 6: Contando palabras SIN stop words...
   Total de palabras (sin stop words): 4821

   Top 20 palabras más frecuentes (SIN stop words):
      derecho: 76
      lenguaje: 69
      escritura: 40
      abogados: 38
      jurídico: 37
      legal: 30
      palabras: 28
      estilo: 27
      jurídica: 25
      colombia: 22
      lengua: 20
      redacción: 20
      español: 18
      writing: 18
      escritos: 17
      disponible: 17
      escrito: 17
      judicial: 15
      libro: 15
      general: 15
 Conteo sin stop words completado



In [8]:
print(" PASO 7: Contando palabras CON stop words...")

# Filtrar: solo palabras (sin puntuación ni espacios)
palabras_con_stop = [
    token.text.lower()
    for token in doc
    if token.is_alpha
]

print(f"   Total de palabras (con stop words): {len(palabras_con_stop)}")

# Contar frecuencias
contador_con_stop = Counter(palabras_con_stop)
mas_comunes_con_stop = contador_con_stop.most_common(20)

print("\n    Top 20 palabras más frecuentes (CON stop words):")
for palabra, frecuencia in mas_comunes_con_stop:
    print(f"      {palabra}: {frecuencia}")

print("Conteo con stop words completado\n")

 PASO 7: Contando palabras CON stop words...
   Total de palabras (con stop words): 9921

    Top 20 palabras más frecuentes (CON stop words):
      de: 682
      la: 423
      en: 336
      y: 310
      el: 277
      que: 217
      los: 171
      del: 160
      a: 123
      se: 119
      un: 110
      las: 108
      es: 91
      por: 91
      para: 87
      una: 77
      derecho: 76
      lenguaje: 69
      como: 63
      no: 61
Conteo con stop words completado



In [9]:
# PASO 8: Identificar Entidades Nombradas (NER)
print(" PASO 8: Identificando entidades nombradas (NER)...")

# Extraer entidades
entidades = [(ent.text, ent.label_) for ent in doc.ents]

print(f"   Total de entidades encontradas: {len(entidades)}")

# Contar tipos de entidades
tipos_entidades = Counter([label for _, label in entidades])

print("\n    Tipos de entidades encontradas:")
for tipo, cantidad in tipos_entidades.most_common():
    print(f"      {tipo}: {cantidad}")

# Mostrar ejemplos de cada tipo
print("\n    Ejemplos de entidades por tipo:")
entidades_por_tipo = {}
for texto, label in entidades:
    if label not in entidades_por_tipo:
        entidades_por_tipo[label] = []
    entidades_por_tipo[label].append(texto)

for tipo, ejemplos in entidades_por_tipo.items():
    ejemplos_unicos = list(set(ejemplos))[:5]  # 5 ejemplos únicos
    print(f"\n      {tipo}:")
    for ejemplo in ejemplos_unicos:
        print(f"         - {ejemplo}")

print("\n Identificación de NER completada\n")

 PASO 8: Identificando entidades nombradas (NER)...
   Total de entidades encontradas: 551

    Tipos de entidades encontradas:
      MISC: 217
      LOC: 174
      PER: 107
      ORG: 53

    Ejemplos de entidades por tipo:

      MISC:
         - La evidencia de los lingüistas
         - La enseñanza artesanal de la escritura profesional buscó convertirse
         - Sorprendería
         - Ello ocurre
         - Independencias

      PER:
         - Saussure
         - Thomson
         - tesis	de	Santiago	Muñoz	Machado
         - Wets
         - pública41

      ORG:
         - Agencia Nacional de Defensa Jurídica del Estado
         - “¿Cuántos
         - Unesco
         - UNICEF
         - Senado

      LOC:
         - Jueces
         - Queremos
         - idioma38
         - Estados Unidos
         - Chicago

 Identificación de NER completada

