# Extracción de sección: "Descripción de la asignatura y temario"

## Limpieza de encabezado y pie de página


In [75]:
# Este es un ejemplo sencillo de cómo funciona, abajo está la función completa 'extraer_texto_limpio'
import pdfplumber

ruta = "guia.pdf"
texto_limpio = ""

with pdfplumber.open(ruta) as pdf:
    if len(pdf.pages) >= 3:
        page = pdf.pages[11]
        y0, y1 = 60, page.height - 60
        area_util = (0, y0, page.width, y1)
        recorte = page.within_bbox(area_util)
        texto_limpio += recorte.extract_text() + "\n"

print(texto_limpio)

7.2. Criterios de evaluación
Se plantean las siguientes modalidades de evaluación, denominadas progresiva (EP) y global (EG)
1. Evaluación Progresiva (EP)
La asignatura se evaluará preferentemente de forma progresiva mediante la realización de un proyecto
colaborativo que evoluciona en tres etapas, junto con un hackathon final donde se realizará el análisis y
presentación final de los resultados de acuerdo con lo siguiente:
1. Los proyectos son actividades colaborativas que se realizarán en grupos de hasta 4 alumnos de entre los
matriculados de la asignatura
2. Tanto la monitorización como la retroalimentación de los proyectos se harán preferentemente en la plataforma
Moodle valorándose específicamente la participación de los alumnos
3. Cada etapa del proyecto cubre 4 capítulos del temario de la asignatura y su peso es el 10% de la nota total. El
Hackathon final engloba todo el contenido de la asignatura, haciendo especial énfasis en el análisis crítico de los
datos, y su peso es del 7

In [78]:
import pdfplumber

# Los márgenes de 60 ptos en principio son suficiente para todas las guías
def extraer_texto_limpio(ruta_pdf, margen_superior=60, margen_inferior=60):
    """
    Extrae el texto completo de un PDF eliminando encabezados y pies de página, recortando por posición física en el PDF.
    Devuelve también las páginas recortadas como objetos pdfplumber.Page.

    Parámetros:
        ruta_pdf (str): Ruta del archivo PDF.
        margen_superior (int): Altura en puntos a recortar desde la parte superior.
        margen_inferior (int): Altura en puntos a recortar desde la parte inferior.

    Devuelve:
        tuple[str, list]: Texto limpio y lista de páginas recortadas (pdfplumber.Page)
    """
    texto_limpio = ""
    paginas_recortadas = []

    with pdfplumber.open(ruta_pdf) as pdf:
        for page in pdf.pages:
            y0, y1 = margen_inferior, page.height - margen_superior
            area_util = (0, y0, page.width, y1)
            recorte = page.within_bbox(area_util)
            paginas_recortadas.append(recorte)
            texto = recorte.extract_text()
            if texto:
                texto_limpio += texto + "\n"

    return texto_limpio, paginas_recortadas


# Ejemplo de uso
texto, paginas = extraer_texto_limpio("guia.pdf")

print(texto[:500])  # muestra solo los primeros 500 caracteres
print(f"Se han generado {len(paginas)} páginas recortadas.")


Informáticos
ENSEÑANZAS PR/CL/001
ANX-PR/CL/001-01
GUÍA DE APRENDIZAJE
ASIGNATURA
613000129 - Gestión De Sistemas De Datos Masivos
PLAN DE ESTUDIOS
61AH - Máster Universitario En Aprendizaje Automático Y Datos Masivos
CURSO ACADÉMICO Y SEMESTRE
2025/26 - Primer semestre
Índice
Guía de Aprendizaje
1. Datos descriptivos....................................................................................................................................................1
2. Profesorado.................
Se han generado 15 páginas recortadas.


In [87]:
_, pages = extraer_texto_limpio("guia.pdf")
print(pages[12].extract_text())

por razones debidamente justificadas no se hubiera entregado alguna de los etapas del proyecto
porque no se satisface el criterio mínimo en la evaluación de los mismos
el alumno realizará:
un proyecto individual de recuperación cuyo peso es del 30% en la evaluación sumativa
una prueba global individual cuyo peso es del 70% en la evaluación sumativa
Resumen Ordinaria/Extraordinaria
Para superar la asignatura en la convocatoria ordinaria de junio se establecen dos situaciones posibles:
1. Obtener un mínimo de 50 puntos sobre los 100 disponibles en el cómputo global de la EP
2. Si el alumno no ha superado la EP obtener una nota mínima igual o superior al 50% de la valoración en la EG
Para poder superar la asignatura en la convocatoria extraordinaria de julio, se establecen los siguientes requisitos:
1. No se evaluará mediante proyectos sino que únicamente se realizará un examen individual que cubrirá todos
los aspectos teóricos y prácticos de la asignatura
2. En esta prueba se deberá obte

## Extracción  de descripción de asignatura

In [88]:
import re

def extraer_descripcion_asignatura(ruta_pdf):
    """
    Extrae la sección 'Descripción de la asignatura' del PDF limpio usando las páginas recortadas.
    Busca el bloque entre los subtítulos 'Descripción de la asignatura' y 'Temario de la asignatura'.
    """
    _, paginas_recortadas = extraer_texto_limpio(ruta_pdf)

    texto_a_buscar = ""
    # Saltamos las dos primeras páginas (portada e índice)
    for page in paginas_recortadas[2:]:
        texto = page.extract_text()
        if texto:
            texto_a_buscar += texto + "\n"

    patron_titulo = r"\b\d+\.\s*Descripción\s+de\s+la\s+asignatura\s+y\s+temario\b"
    patron_inicio = r"\b\d+\.\d+\.\s*Descripción\s+de\s+la\s+asignatura\b"
    patron_fin = r"\b\d+\.\d+\.\s*Temario\s+de\s+la\s+asignatura\b"

    match_titulo = re.search(patron_titulo, texto_a_buscar, flags=re.IGNORECASE)
    if not match_titulo:
        return "No se encontró el título principal 'Descripción de la asignatura y temario'."

    texto_desde_titulo = texto_a_buscar[match_titulo.end():]

    match_inicio = re.search(patron_inicio, texto_desde_titulo, flags=re.IGNORECASE)
    match_fin = re.search(patron_fin, texto_desde_titulo, flags=re.IGNORECASE)

    if not match_inicio or not match_fin:
        return "No se encontró correctamente la sección 'Descripción de la asignatura'."

    descripcion = texto_desde_titulo[match_inicio.end():match_fin.start()].strip()

    return descripcion


In [89]:
extraer_descripcion_asignatura("guia.pdf")

'El principal objetivo de la asignatura es presentar los desafíos que supone manejar grandes volúmenes de datos\npara tareas de extracción de conocimiento y mostrar las técnicas y métodos utilizados para resolverlos. Los 5 retos\nbásicos que se asumen con los datos masivos: Volumen, Velocidad, Variedad, Veracidad, y Valor, definen un\nescenario completamente distinto al clásico modelo de gestión de datos transaccional y requieren de una\norganización de datos que no será únicamente relacional. Los alumnos aprenderán a crear, organizar y preparar\ngrandes colecciones de datos para su análisis y evaluación, adaptándose a enfoques ETL y ELT, y explorando\ntanto métodos relacionales como no relacionales, adecuados a las restricciones y compromisos que los sistemas\nde gestión de datos masivos exigen.'

### Función genérica de extracción de texto de secciones (por si la queréis usar)

In [90]:
import re

def extraer_seccion(ruta_pdf, titulo=None, inicio=None, fin=None):
    """
    Extrae una sección genérica de una guía en PDF usando pdfplumber.

    Parámetros:
        ruta_pdf (str): Ruta del archivo PDF.
        titulo (str): Título principal de la sección (ej. 'Descripción de la asignatura y temario').
        inicio (str): Subtítulo o punto de inicio del bloque (ej. 'Descripción de la asignatura').
        fin (str): Subtítulo o punto final del bloque (ej. 'Temario de la asignatura').

    Devuelve:
        str: Texto extraído entre los límites indicados, o el texto más cercano posible si faltan.
    """
    _, paginas_recortadas = extraer_texto_limpio(ruta_pdf) # Importante tener la función de eliminar encabezados y pies de página

    texto_a_buscar = ""
    for page in paginas_recortadas[2:]:  # omitimos portada e índice
        texto = page.extract_text()
        if texto:
            texto_a_buscar += texto + "\n"

    # Si no se pasa nada, devolvemos todo el texto limpio
    if not any([titulo, inicio, fin]):
        return texto_a_buscar.strip()

    def patron_dinamico(texto, es_subtitulo=False):
        """
        Genera un patrón regex flexible con numeración opcional (4., 5.1., etc.)
        """
        if not texto:
            return None
        if es_subtitulo:
            return rf"\b\d+\.\d+\.\s*{re.escape(texto)}\b"
        else:
            return rf"\b\d+\.\s*{re.escape(texto)}\b"

    patron_titulo = patron_dinamico(titulo)
    patron_inicio = patron_dinamico(inicio, es_subtitulo=True)
    patron_fin = patron_dinamico(fin, es_subtitulo=True)

    # Paso 1: localizar el título principal si existe
    texto_post_titulo = texto_a_buscar
    if patron_titulo:
        match_titulo = re.search(patron_titulo, texto_a_buscar, flags=re.IGNORECASE)
        if match_titulo:
            texto_post_titulo = texto_a_buscar[match_titulo.end():]

    # Paso 2: buscar el inicio y fin dentro del texto posterior al título
    match_inicio = re.search(patron_inicio, texto_post_titulo, flags=re.IGNORECASE) if patron_inicio else None
    match_fin = re.search(patron_fin, texto_post_titulo, flags=re.IGNORECASE) if patron_fin else None

    # Casos posibles
    if match_inicio and match_fin:
        texto_extraido = texto_post_titulo[match_inicio.end():match_fin.start()]
    elif match_inicio and not match_fin:
        texto_extraido = texto_post_titulo[match_inicio.end():]
    elif not match_inicio and patron_titulo:
        texto_extraido = texto_post_titulo
    else:
        # Si no encuentra nada, devolvemos algo razonable
        texto_extraido = texto_a_buscar

    return texto_extraido.strip()


In [91]:
descripcion = extraer_seccion(
    "guia.pdf",
    titulo="Descripción de la asignatura y temario",
    inicio="Descripción de la asignatura",
    fin="Temario de la asignatura"
)
print(descripcion)

El principal objetivo de la asignatura es presentar los desafíos que supone manejar grandes volúmenes de datos
para tareas de extracción de conocimiento y mostrar las técnicas y métodos utilizados para resolverlos. Los 5 retos
básicos que se asumen con los datos masivos: Volumen, Velocidad, Variedad, Veracidad, y Valor, definen un
escenario completamente distinto al clásico modelo de gestión de datos transaccional y requieren de una
organización de datos que no será únicamente relacional. Los alumnos aprenderán a crear, organizar y preparar
grandes colecciones de datos para su análisis y evaluación, adaptándose a enfoques ETL y ELT, y explorando
tanto métodos relacionales como no relacionales, adecuados a las restricciones y compromisos que los sistemas
de gestión de datos masivos exigen.


## Extracción de temario

En este caso el temario puede venir en forma de enumeración, por lo que la función de extraer texto puede fallar al confundir un elemento de la lista del temario con un título de sección distinto. Por ello, creamos una función específica.

In [101]:
import re

def extraer_temario_asignatura(ruta_pdf):
    """
    Extrae la sección 'Temario de la asignatura' de un PDF limpio usando páginas recortadas.
    Considera listas enumeradas jerárquicas y corta al detectar la siguiente sección.
    """
    _, paginas_recortadas = extraer_texto_limpio(ruta_pdf)

    texto_a_buscar = ""
    for page in paginas_recortadas[2:]:
        texto = page.extract_text()
        if texto:
            texto_a_buscar += texto + "\n"

    patron_temario = r"\b\d+\.\d+\.\s*Temario\s+de\s+la\s+asignatura\b"
    match_temario = re.search(patron_temario, texto_a_buscar, flags=re.IGNORECASE)
    if not match_temario:
        return "No se encontró el subtítulo 'Temario de la asignatura'."

    texto_post_temario = texto_a_buscar[match_temario.end():]
    lineas = texto_post_temario.splitlines()

    temario = []
    inicio_lista = False
    ultimo_numero_principal = None

    patron_lista = re.compile(r"^(\d+)(\.\d+)*\.\s+.+")  # patrón lista enumerada

    for linea in lineas:
        linea = linea.strip()
        if not linea:
            continue

        match_item = patron_lista.match(linea)
        if match_item:
            numero_principal = int(match_item.group(1))  # primer número
            if ultimo_numero_principal is not None:
                # Detectamos salto en numeración → fin del temario
                if numero_principal > ultimo_numero_principal + 1:
                    break
            ultimo_numero_principal = numero_principal
            inicio_lista = True
            temario.append(linea)
        else:
            if not inicio_lista:
                # Texto preliminar antes de la lista
                temario.append(linea)
            else:
                # Hemos empezado la lista y encontramos línea no numerada -> fin del temario
                break

    return "\n".join(temario).strip()



In [102]:
print(f"{extraer_temario_asignatura("guia.pdf")}")

1. Ecosistema Big Data
1.1. Arquitecturas de Información
1.2. Virtualización de Servicios
1.3. Fuentes de Datos
2. Datos Estructurados
2.1. Características
2.2. Bases de Datos Relacionales
2.3. DataWarehouse
3. Datos No Estructurados
3.1. Características
3.2. Bases de Datos NoSQL
3.3. DataLake
4. Datos Enlazados
4.1. Características
4.2. Grafos de Conocimiento
4.3. DataSpace
