In [2]:
import requests
from bs4 import BeautifulSoup
import io
from PyPDF2 import PdfReader
import re
import unicodedata
import pandas as pd
import os

pd.set_option('display.max_colwidth', None)
os.makedirs("Scraping", exist_ok=True)
pd.set_option('display.max_rows', None)    
pd.set_option('display.max_columns', None)  

# Grados

Obtener ramas y sus urls

In [15]:
def get_urls_de_ramas(url="https://www.comunidad.madrid/servicios/educacion/oferta-grados-oficiales-universidades"):
    data = []

    response = requests.get(url)
    response.raise_for_status()

    soup = BeautifulSoup(response.text, "html.parser")

    contenedor = soup.find("div", id="carousel-links-gallery-parrafo")

    if contenedor:
        for a in contenedor.find_all("a", href=True):
            nombre_rama = a.get_text(strip=True)   
            enlace = a["href"]                     
            data.append({"Nombre rama": nombre_rama, "URL": enlace})

    df = pd.DataFrame(data)

    return df


In [16]:
tabla_ramas=get_urls_de_ramas()
tabla_ramas.to_csv("Scraping/tabla_ramas.csv", index=False)
tabla_ramas

Unnamed: 0,Nombre rama,URL
0,Artes y Humanidades,https://www.comunidad.madrid/servicios/educacion/estudiar-universidad-grados-rama-conocimiento-artes-humanidades
1,Ciencias Sociales y Jurídicas,https://www.comunidad.madrid/servicios/educacion/estudiar-universidad-grados-rama-conocimiento-ciencias-sociales-juridicas
2,Ciencias,https://www.comunidad.madrid/servicios/educacion/estudiar-universidad-grados-rama-conocimiento-ciencias
3,Ciencias de la Salud,https://www.comunidad.madrid/servicios/educacion/estudiar-universidad-grados-rama-conocimiento-ciencias-salud
4,Ingeniería y Arquitectura,https://www.comunidad.madrid/servicios/educacion/estudiar-universidad-grados-rama-conocimiento-ingenieria-arquitectura


Obtener urls de las areas

In [17]:
def get_pdfs(tabla_ramas):
    data = []

    for _, row in tabla_ramas.iterrows():
        nombre_rama = row["Nombre rama"]
        url = row["URL"]

        try:
            response = requests.get(url)
            response.raise_for_status()
            soup = BeautifulSoup(response.text, "html.parser")

            fieldsets = soup.find_all(
                "fieldset",
                class_="collapsible group-paragraph-parent-fieldset field-group-fieldset panel panel-default form-wrapper"
            )

            for fieldset in fieldsets:
                for a in fieldset.find_all("a", href=True):
                    href = a["href"]
                    if href.lower().endswith(".pdf"):
                        if href.startswith("/"):
                            href = "https://www.comunidad.madrid" + href

                        nombre_area = a.get_text(strip=True)
                        nombre_area = nombre_area.replace("\u00a0", " ")

                        nombre_area = re.sub(
                            r"(?i)acc[eé]de a la ficha informativa d[el|e|en]+\s*", "", nombre_area
                        )

                        nombre_area = re.sub(
                            r"(?i)^área\s+(de|en)\s+", "", nombre_area
                        )

                        nombre_area = re.sub(r"\s+", " ", nombre_area).strip()

                        data.append({
                            "Nombre rama": nombre_rama,
                            "Nombre área": nombre_area,
                            "URL": href
                        })

        except Exception as e:
            print(f"Error al procesar {url}: {e}")

    df = pd.DataFrame(data, columns=["Nombre rama", "Nombre área", "URL"])
    return df


In [18]:
tabla_pdfs=get_pdfs(tabla_ramas)
tabla_pdfs.to_csv("Scraping/tabla_pdfs.csv", index=False)
tabla_pdfs

Unnamed: 0,Nombre rama,Nombre área,URL
0,Artes y Humanidades,Antropología Social y Cultural,https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/01_antropologia_2023_24_indiv.pdf
1,Artes y Humanidades,Artes,https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/02_artes_2023_24_indiv.pdf
2,Artes y Humanidades,Diseño,https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/03_diseno_2023_24_indiv.pdf
3,Artes y Humanidades,Estudios Culturales,https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/04_estudios_culturales_2023_24_indiv.pdf
4,Artes y Humanidades,Estudios de Asia y África,https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/05_estudios_de_asia_y_africa_2023_24_indiv.pdf
5,Artes y Humanidades,Estudios Semíticos e Islámicos,https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/06_estudios_semiticos_e_islamicos_2023_24_indiv.pdf
6,Artes y Humanidades,Filosofía,https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/07_filosofia_2023_24_indiv.pdf
7,Artes y Humanidades,Geografía e Historia,https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/08_geografia_e_historia_2023_24_indiv.pdf
8,Artes y Humanidades,Humanidades,https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/09_humanidades_2023_24_indiv.pdf
9,Artes y Humanidades,Lengua y Literatura Española,https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/10_lengua_y_literatura_espanola_2023_24_indiv.pdf


Obtener informacion (texto bruto) de cada grado

In [19]:
pdfs = tabla_pdfs["URL"].tolist()#[:3] 

resultados = []

for idx, url in enumerate(pdfs):
    try:
        rama = tabla_pdfs.loc[idx, "Nombre rama"]
        area = tabla_pdfs.loc[idx, "Nombre área"] if "Nombre área" in tabla_pdfs.columns else "(no definido)"

        response = requests.get(url)
        response.raise_for_status()
        pdf_file = io.BytesIO(response.content)

        reader = PdfReader(pdf_file)
        num_pages = len(reader.pages)

        bloque_activo = False
        texto_bloque = ""

        for i in range(num_pages):
            pagina = reader.pages[i]
            texto_pagina = pagina.extract_text() or ""

            # Limpiar el texto
            texto_pagina = texto_pagina.replace("\n", " ").replace("-", "")
            texto_pagina = re.sub(r"\s+", " ", texto_pagina)
            texto_pagina = texto_pagina.replace("\u00a0", " ")

            # Revisar si contiene el string de inicio
            if "Descripción de la titulación" in texto_pagina:
                if bloque_activo:
                    # Cerrar bloque anterior y guardar fila
                    resultados.append({
                        "rama": rama,
                        "area": area,
                        "url": url,
                        "nombre_grado": "",
                        "descripcion": "",
                        "salidas": "",
                        "centros": "",
                        "texto_bruto": texto_bloque.strip()
                    })
                    # Iniciar nuevo bloque
                    texto_bloque = texto_pagina + " [[[[[[SALTO DE PÁGINA]]]]]]"
                else:
                    # Comenzar primer bloque
                    bloque_activo = True
                    texto_bloque = texto_pagina + " [[[[[[SALTO DE PÁGINA]]]]]]"
            else:
                if bloque_activo:
                    # Agregar página al bloque actual
                    texto_bloque += " " + texto_pagina + " [[[[[[SALTO DE PÁGINA]]]]]]"

        # Al final del documento, si hay bloque activo, guardarlo
        if bloque_activo and texto_bloque.strip():
            resultados.append({
                "rama": rama,
                "area": area,
                "url": url,
                "nombre_grado": "",
                "descripcion": "",
                "salidas": "",
                "centros": "",
                "texto_bruto": texto_bloque.strip()
            })

    except Exception as e:
        print(f"Error procesando {url}: {e}")
        resultados.append({
            "rama": rama,
            "area": area,
            "url": url,
            "nombre_grado": "(error)",
            "descripcion": "(error)",
            "salidas": "(error)",
            "centros": "(error)",
            "texto_bruto": "(error)"
        })

# Crear DataFrame final
df_pdf_info = pd.DataFrame(resultados)
df_pdf_info.to_csv("Scraping/tabla_texto_bruto.csv", index=False)


KeyboardInterrupt: 

Obtener información segmentada de cada grado

In [None]:
for idx, row in df_pdf_info.iterrows():
    texto = row["texto_bruto"]
    
    # Tomar solo el texto hasta el primer [SALTO DE PÁGINA]
    partes = texto.split("[SALTO DE PÁGINA]")
    primer_bloque = partes[0].strip()
    
    # Inicializamos los valores
    nombre_grado, descripcion, salidas, centros = "(caso no contemplado)", "(caso no contemplado)", "(caso no contemplado)", "(caso no contemplado)"
    
# ------------------ NOMBRE GRADO ------------------

    # Descripción y salidas en la primera página
    if "Descripción de la titulación" in primer_bloque and "Salidas profesionales" in primer_bloque:
        
        matches = list(re.finditer(r"Grado en", primer_bloque))

        if matches:
            # Última aparición
            last_match = matches[-1]
            start_pos = last_match.start()
            
            # Desde ahí hasta primer número o corchete
            resto_texto = primer_bloque[start_pos:]
            match_final = re.match(r"(Grado en\s+.*?)(?=\d|\[)", resto_texto, re.DOTALL)
            
            if match_final:
                nombre_grado = match_final.group(1).strip()
            else:
                nombre_grado = "(caso no contemplado)"
        else:
            nombre_grado = "(caso no contemplado)"

    else:
        # Buscar en el texto antes del primer salto de página si hay "Grado en" en los 100 caracteres previos
        pos_salto = texto.find("[SALTO DE PÁGINA]")
        if pos_salto != -1:
            antes_salto = texto[:pos_salto]
            match_grado = re.search(r"Grado en.{0,100}$", antes_salto, re.DOTALL)
            if match_grado:
                # Si se encuentra, tomar desde esa posición hasta el salto de página
                start_pos = match_grado.start()
                nombre_grado = texto[start_pos:pos_salto].strip()
            else:
                nombre_grado = "(caso no contemplado)"
        else:
            nombre_grado = "(caso no contemplado)"


# ------------------ DESCRIPCION ------------------

    if "Descripción de la titulación" in primer_bloque:
        if "Salidas profesionales" in primer_bloque:
            # Caso normal: entre ambos
            match_desc = re.search(
                r"Descripción de la titulación(.*?)Salidas profesionales",
                primer_bloque,
                re.DOTALL
            )
            if match_desc:
                descripcion = match_desc.group(1).strip()
        else:
            # Caso alternativo: no aparece "Salidas profesionales" en el primer bloque
            match_desc = re.search(
                r"Descripción de la titulación(.*?)(?=Salidas profesionales|$)",
                texto,
                re.DOTALL
            )
            if match_desc:
                descripcion = match_desc.group(1).strip()

    if nombre_grado != "(caso no contemplado)" and descripcion != "(caso no contemplado)":
        ultimos_50 = descripcion[-len(nombre_grado)*2:]  
        pos_grado = ultimos_50.find(nombre_grado)
        if pos_grado != -1:
            # Calcular posición en el string completo
            pos_final = len(descripcion) - len(nombre_grado)*2 + pos_grado
            # Cortar salidas antes del nombre_grado
            descripcion = descripcion[:pos_final].rstrip()

        for match in re.finditer(r"\[+SALTO DE PÁGINA\]+", descripcion):
            pos_salto = match.start()  # posición del salto
            inicio_check = max(0, pos_salto - len(nombre_grado)*2)  # mirar 100 caracteres antes
            fragmento_previo = descripcion[inicio_check:pos_salto]

            # Buscar nombre_grado en los últimos 50 caracteres
            pos_grado = fragmento_previo.find(nombre_grado)
            if pos_grado != -1:
                # Calcular posición absoluta del inicio del grado
                pos_abs_grado = inicio_check + pos_grado
                # Eliminar desde nombre_grado hasta el salto (sin incluir el salto)
                descripcion = descripcion[:pos_abs_grado].rstrip() + descripcion[pos_salto:]
            
        patron = rf"Grado en(.{{0,{len(nombre_grado)*4}}})\d+"
        match = re.search(patron, descripcion, re.DOTALL)
        if match:
            start_pos = match.start()  # posición donde empieza "Grado en"
            end_pos = match.end()      # posición después del número
            # Eliminar desde "Grado en" hasta el número (inclusive)
            descripcion = descripcion[:start_pos].rstrip() + descripcion[end_pos:].lstrip()



    # Eliminar saltos de página internos
    descripcion = re.sub(r"\[+SALTO DE PÁGINA\]+", " ", descripcion)


    # ------------------ SALIDAS ------------------

    if "Salidas profesionales" in texto:
        start_pos = texto.find("Salidas profesionales") + len("Salidas profesionales")
        
        # Buscar primer salto de página después de Salidas profesionales
        pos_salto = texto.find("[[[[[[SALTO DE PÁGINA]]]]]]", start_pos)
        
        # Determinar límite final
        if pos_salto != -1:
            post_salto = texto[pos_salto + len("[[[[[[SALTO DE PÁGINA]]]]]]"):
                            pos_salto + len("[[[[[[SALTO DE PÁGINA]]]]]]") + 10]
            
            if "Más info" in post_salto or "Direcciones" in post_salto:
                # Cortar en nombre_grado, sin incluirlo
                if nombre_grado != "(caso no contemplado)":
                    pos_grado = texto.find(nombre_grado, start_pos)
                    end_pos = pos_grado if pos_grado != -1 else len(texto)
                else:
                    # Si no hay nombre_grado definido, cortar en salto de página
                    end_pos = pos_salto
            else:
                # Cortar en "Direcciones de los centros donde se imparte la titulación"
                end_pos = texto.find("Direcciones de los centros", start_pos)
                if end_pos == -1:
                    end_pos = len(texto)
        else:
            # No hay salto de página, cortar en "Direcciones de los centros..."
            end_pos = texto.find("Direcciones de los centros", start_pos)
            if end_pos == -1:
                end_pos = len(texto)
        
        # Extraer salidas
        salidas = texto[start_pos:end_pos].strip()
        

        
        # Limpiar espacios múltiples
        salidas = re.sub(r"\s+", " ", salidas)
    else:
        salidas = "(caso no contemplado)"

    
    if nombre_grado != "(caso no contemplado)" and salidas != "(caso no contemplado)":
        ultimos_50 = salidas[-len(nombre_grado)*2:]  
        pos_grado = ultimos_50.find(nombre_grado)
        if pos_grado != -1:
            # Calcular posición en el string completo
            pos_final = len(salidas) - len(nombre_grado)*2 + pos_grado
            # Cortar salidas antes del nombre_grado
            salidas = salidas[:pos_final].rstrip()

        for match in re.finditer(r"\[+SALTO DE PÁGINA\]+", salidas):
            pos_salto = match.start()  # posición del salto
            inicio_check = max(0, pos_salto - len(nombre_grado)*2)  # mirar 100 caracteres antes
            fragmento_previo = salidas[inicio_check:pos_salto]

            # Buscar nombre_grado en los últimos 50 caracteres
            pos_grado = fragmento_previo.find(nombre_grado)
            if pos_grado != -1:
                # Calcular posición absoluta del inicio del grado
                pos_abs_grado = inicio_check + pos_grado
                # Eliminar desde nombre_grado hasta el salto (sin incluir el salto)
                salidas = salidas[:pos_abs_grado].rstrip() + salidas[pos_salto:]
            
        patron = rf"Grado en(.{{0,{len(nombre_grado)*4}}})\d+"
        match = re.search(patron, salidas, re.DOTALL)
        if match:
            start_pos = match.start()  # posición donde empieza "Grado en"
            end_pos = match.end()      # posición después del número
            # Eliminar desde "Grado en" hasta el número (inclusive)
            salidas = salidas[:start_pos].rstrip() + salidas[end_pos:].lstrip()



    # Eliminar saltos de página internos
    salidas = re.sub(r"\[+SALTO DE PÁGINA\]+", " ", salidas)

# ------------------ NOMBRE GRADO (incrustado en descripcion)------------------

    if nombre_grado== "(caso no contemplado)":
        texto_sacado = ""
        texto = descripcion  

        # Buscar todas las apariciones de "Grado en"
        matches = list(re.finditer(r"\bGrado en\b", texto))

        if len(matches) == 1:
            match = matches[0]
            start_pos = match.start()

            # Obtener carácter anterior (ignorando espacios)
            prev_char_match = re.search(r"\S(?=\s*Grado en)", texto[:start_pos][-10:])
            prev_char = prev_char_match.group(0) if prev_char_match else ""

            # Separar el texto en palabras después de "Grado en"
            palabras = re.findall(r"\b\w+\b", texto[match.start():])
            
            # Caso 1: hay punto antes
            if prev_char == ".":
                # Tomar 20 palabras después de "Grado en"
                segmento = " ".join(palabras[:20])
                # Buscar la última palabra que empieza en mayúscula seguida por dos minúsculas
                patron_final = r"([A-ZÁÉÍÓÚÜÑ][a-záéíóúüñ]+)(?:\s+[a-záéíóúüñ]+){2}"
                match_final = list(re.finditer(patron_final, segmento))
                if match_final:
                    ultima = match_final[-1].group(1)
                    fin_pos = texto.find(ultima, start_pos)
                    texto_sacado = texto[start_pos:fin_pos].strip()
                    texto = texto[:start_pos] + texto[fin_pos:]
            else:
                # Caso 2: no hay punto delante → tomar 15 palabras después de "Grado en"
                segmento = " ".join(palabras[:15])
                # Buscar la última palabra que empieza en mayúscula
                match_final = list(re.finditer(r"[A-ZÁÉÍÓÚÜÑ][a-záéíóúüñ]+", segmento))
                if match_final:
                    ultima = match_final[-1].group(0)
                    fin_pos = texto.find(ultima, start_pos) + len(ultima)
                    texto_sacado = texto[start_pos:fin_pos].strip()
                    texto = texto[:start_pos] + texto[fin_pos:]

        descripcion=texto
        nombre_grado=texto_sacado



# ------------------ CENTROS ------------------

    # Centros: entre "Direcciones de los centros donde se imparte la titulación" y el final del texto
    match_centros = re.search(
        r"Direcciones\s*de\s*los\s*centros\s*donde\s*se\s*imparte\s*la*(.*)$",
        row["texto_bruto"],
        re.DOTALL | re.IGNORECASE
    )

    if not match_centros:
        # Intento alternativo: por si hay texto justo pegado antes (sin espacios)
        match_centros = re.search(
            r".*?Direcciones\s*de\s*los\s*centros\s*donde\s*se\s*imparte\s*la*(.*)$",
            row["texto_bruto"],
            re.DOTALL | re.IGNORECASE
        )
    
        if not match_centros:
            match_centros = re.search(
                r"Direcciones\s*de\s*los\s*centros\s*donde\s*se\s*imparte\s*el*(.*)$",
                row["texto_bruto"],
                re.DOTALL | re.IGNORECASE
            )

            if not match_centros:
                # Intento alternativo: por si hay texto justo pegado antes (sin espacios)
                match_centros = re.search(
                    r".*?Direcciones\s*de\s*los\s*centros\s*donde\s*se\s*imparte\s*el*(.*)$",
                    row["texto_bruto"],
                    re.DOTALL | re.IGNORECASE
                )

            else:
                centros = "(caso no contemplado)"

    if match_centros:
        centros = match_centros.group(1)
        centros = centros.replace("[[[[[[SALTO DE PÁGINA]]]]]]", " ").strip()
    else:
        centros = "(caso no contemplado)"

    
    if centros !="(caso no contemplado)":
        centros = re.sub(r"\btitulación\b", "", centros, flags=re.IGNORECASE).strip()
    
    if nombre_grado !="(caso no contemplado)":
        nombre_grado = nombre_grado.replace("[", " ").strip()
        nombre_grado = nombre_grado.replace("]", " ").strip()
        nombre_grado = nombre_grado.replace("Grado en ", " ").strip()

        if "Descripción de la titulación" in nombre_grado:
            nombre_grado = nombre_grado.split("Descripción de la titulación")[0].strip()

        if "Salidas profesionales" in nombre_grado:
            nombre_grado = nombre_grado.split("Salidas profesionales")[0].strip()




        
# ------------------ ACTUALIZAR FILAS ------------------

    # Actualizar fila
    df_pdf_info.at[idx, "nombre_grado"] = nombre_grado
    df_pdf_info.at[idx, "descripcion"] = descripcion
    df_pdf_info.at[idx, "salidas"] = salidas
    df_pdf_info.at[idx, "centros"] = centros
    for col in ["descripcion", "salidas"]:
        if col in df_pdf_info.columns:
            df_pdf_info[col] = df_pdf_info[col].astype(str).apply(lambda x: re.sub(r"\d+", "", x).strip())

            


df_pdf_info[["rama", "area", "nombre_grado", "descripcion", "salidas", "centros"]].to_csv("Scraping/tabla_grados.csv", index=False)


In [None]:
df_pdf_info[["rama", "area", "nombre_grado", "descripcion", "salidas", "centros"]]

Unnamed: 0,rama,area,nombre_grado,descripcion,salidas,centros
0,Artes y Humanidades,Antropología Social y Cultural,Antropología Social y Cultural,"Esta titulación permite tener un conocimiento y una comprensión de la diversidad de socie dades y culturas humanas, y apreciar la com plejidad y riqueza potenciales, para poder explicar las causas de esta variedad. Conocer y desarrollar el estudio comparado de las so ciedades humanas. Tener un conocimiento detallado de los ámbitos temáticos de la an tropología social y cultural (procesos econó micos y ecológicos; sistemas de parentesco y relaciones de género, estructuras políticas y jurídicas; creencias, religión y rituales, y sis temas simbolicocognitius) en relación con la diversidad cultural y las implicaciones para la comprensión y la resolución de problemas sociales. Conocer la importancia cultural del trabajo de campo empírico como método primario para la recogida de datos para la generación de teorías antropológicas.","Los graduados en esta titulación podrán des empeñar funciones relacionadas con la diver sidad cultural, el patrimonio etnológico, el desarrollo territorial y la cooperación interna cional; Docencia; Investigación básica e in vestigación aplicada a distintos ámbitos; Con tribución al estudio y la intervención en temas sociales candentes de nuestro país, como el multiculturalismo, los nuevos espacios de co municación, los procesos migratorios, o as pectos relacionados con la ciudadanía y la igualdad de género; Mediación intercultural (resolución de conflictos); La participación ciudadana; planificación territorial y diseño de políticas públicas; el desarrollo local, rural y urbano; la gestión de Parques Naturales; la educación secundaria (temática de educación cívica/para la ciudadanía); la coordinación de proyectos en organizaciones no guberna mentales (ONGs); El asesoramiento para la implantación de planes de igualdad de opor tunidades en empresas e instituciones públi cas; la consultoría a medios de comunicación públicos y privados precisan tener en cuenta las leyes de igualdad y violencia de género.","Universidad Nacional de Educación a Distancia UNED (Pública) Facultad de Filosofía Paseo de la Senda del Rey, 7 (Edificio Humanidades del campus sur) 28040 Madrid Tels.: 91 398 69 03 / 05 www.uned.es negociado.alumnos.filosofia@adm.uned.es"
1,Artes y Humanidades,Artes,Bellas Artes,"Los estudios de Bellas Artes tienen entre sus objetivos fundamentales la conservación y expansión del patrimonio artísticocultural, la educación estética y la formación técni cocientífica del alumno en el campo profe sional del arte puro, de la estética aplicada o de la docencia gráficoplástica. El Grado en Bellas Artes supone, para el que la es tudia y la ejerce, un plano de investigación, ensayos y experimentos de las artes plásticas y de las leyes que imperan en el mundo de la creatividad. La carrera de Bellas Artes se orienta a la formación de artistas plásticos en su acepción más amplia. Además, pretende proporcionar una formación teórica, práctica y metodológica en las distintas manifestacio nes que puede adoptar la práctica artística y sus aplicaciones. Las enseñanzas pretenden promover una actitud crítica y creadora a par tir de un amplio conocimiento de las corrien tes del pensamiento estético. En este caso, el objetivo es descubrir nuevas técnicas de pintura, escultura o fotografía. Crear e innovar son los dos grandes valores de esta carrera.","Las profesiones que estos titulados pueden ejercer son muy diversas: pintor, escultor, dibujante, fotógrafo, crítico e historiador de arte, asesor de compras de arte, guía cultural y de museos, gestor de entes relacionados con la cultura y el arte (museos, galerías de arte, fundaciones), restaurador, decorador y docente. También, pueden desempeñar su actividad profesional en el campo editorial, centros de diseño (industrial, textil, mobiliario, editorial, audiovisual, gráfico), agencias de publicidad, centros de enseñanza artística y colegios o academias de dibujo, del mismo modo que pueden optar por el libre ejercicio de su pro fesión.","Centro de Educación Superior TAI Escuela Universitaria de Artes (Adscrito de titularidad privada a la Universidad Rey Juan Carlos) C/ Recoletos, 22 28004 Madrid Tel.: 91 447 20 55 www.escuelatai.com informacion@taiarts.com Universidad Antonio de Nebrija (Privada) Facultad de Comunicación y Artes Campus de MadridPrincesa C/ Santa Cruz de Marcenado, 27 28015 Madrid Tel.: 91 452 11 03 / 900 321 322 www.nebrija.com informa@nebrija.com Universidad Complutense de Madrid (Pública) Facultad de Bellas Artes Campus de Moncloa C/ Pintor el Greco, 2 28040 Madrid Tels.: 91 394 35 60 / 36 52 www.ucm.es safba@ucm.esUniversidad Francisco de Vitoria (Privada) Facultad de Ciencias de la Comunicación Ctra. de Pozuelo a Majadahonda, Km.1,800 28223 Pozuelo de Alarcón (Madrid) Tels.: 91 351 03 03 / 91 709 14 00 www.ufv.es info@ufv.es Universidad Rey Juan Carlos (Pública) Facultad de Artes y Humanidades Campus de Aranjuez Edificio Pavía C/ San Pascual, s/n 28300 Aranjuez (Madrid) Tels.: 91 488 44 21 / 22 www.urjc.es aranjuez.secretariadealumnos@urjc.es"
2,Artes y Humanidades,Artes,Conservación y Restauración del Patrimonio Cultural,"El Grado en Conservación y Restauración del Patrimonio Cultural tiene como objetivo general la capacitación del conservador restaurador, para realizar el cometido fundamental relacionado con la preservación y transmisión del patrimonio cultural a futuras generaciones, que asegura su uso actual y respeta su significado social y espiritual. Por tanto, para garantizar estos cometidos y su efectiva transmisión a generaciones futuras con intervenciones de calidad, la profesión de Conservación y Restauración debe ser regulada y reconocida.","El ámbito de trabajo profesional del ConservadorRestaurador del Patrimonio Cultural es: ConservadorRestaurador en Instituciones públicas responsables de la conservación del Patrimonio Cultural (museos, archivos, bibliotecas). ConservadorRestaurador en Instituciones privadas con competencias o responsabi lidades en la Conservación y Restauración del Patrimonio Cultural (fundaciones, centros culturales). Profesional contratado o empresario en empresas de conservación y restauración (galerías de arte, anticuarios, empresas de seguros, casas de subastas, ferias de arte). Docente en enseñanza secundaria, univer sitaria y formación profesional, continuada y de postgrado. Profesional de información, documentación y divulgación en museos, editoriales, gabinetes de comunicación, empresas, fundaciones científicas, prensa o televisión en el ámbito de la conservación y restauración del Patrimonio. Docente e Investigador en cualquier ámbito relacionado con el patrimonio cultural, tanto nacional como internacional a través de instituciones docentes o de investigación. También es competencia del Conservador Restaurador: Desarrollar los programas y los estudios de conservaciónrestauración. Aportar consejos y asistencia técnica para la conservaciónrestauración de los bienes culturales. Asesorar en diseño y montaje de exposiciones, transporte de obras, planes de prevención ante desastres. Proporcionar los registros técnicos sobre los bienes culturales, excluyendo expresamente toda apreciación sobre su valor mercantil. Elaborar y redactar informes técnicos de conservación y restauración. Gestionar el patrimonio con la participación en museos, archivos, bibliotecas, fundaciones u otras instituciones públicas o privadas. Dirigir y participar en investigaciones relativas a la conservaciónrestauración en cualquier ámbito, tanto nacional como internacional, a través de instituciones docentes o de investigación. Contribuir a los programas de educación y enseñanza. Difundir informaciones relacionadas con los exámenes, los tratamientos y las investigaciones. Promover un mejor conocimiento de la conservaciónrestauración.","Universidad Complutense de Madrid (Pública) Facultad de Bellas Artes Campus de Moncloa C/ Pintor el Greco, 2 28040 Madrid Tels.: 91 394 35 60 / 36 52 www.ucm.es safba@ucm.es"
3,Artes y Humanidades,Artes,Artes Escénicas,"Este grado está adaptado a la realidad profesional del sector y diseñado para capacitar, desde el ámbito universitario, a profesionales de las Artes Escénicas en su faceta de actores, guionistas y directores escénicos. Dirigido a jóvenes con vocación artística interesados en el arte, la literatura, el mundo del espectáculo así como en todos los procesos de creación escénica en el ámbito del teatro, cine y televisión. El Grado en Artes Escénicas es una formación rigurosa y espacio profesional para todos los jóvenes que quieran formarse como actores, guionistas, dramaturgos, directores escénicos, productores y realizadores en un ámbito universitario multidisciplinar y enriquecedor por el intenso contacto con alumnos de otras titulaciones.","Estos profesionales tendrán una amplia proyección multidisciplinar, técnica y creativa y estarán preparados para desarrollar su creatividad e iniciativa en los siguientes ámbitos: dramaturgo o creador escénico, guionista para cine, televisión y diferentes medios audiovisuales, director escénico, productor/gestor, actor de teatro, cine o televisión, actor publicitario, profesor de arte dramático, animador sociocultural, escenógrafo y director de arte. También estarán capacitados para trabajar en todos aquellos ámbitos profesionales, que nada tienen que ver con el teatro y la industria del espectáculo, pero que si demanden un perfil creativo, con gran capacidad de iniciativa, liderazgo y comunicación interpersonal.","Universidad Antonio de Nebrija (Privada) Facultad de Comunicación y Artes Campus MadridPrincesa C/ Santa Cruz de Marcenado, 27 28015 Madrid Tels.: 91 452 11 03 / 900 321 322 www.nebrija.com informa@nebrija.com"
4,Artes y Humanidades,Artes,Artes Escénicas e Interpretación Audiovisual,"Este grado tiene como objetivo garantizar una consistente base dramática que permita dominar desde el verso a la danza y el canto clásico y contemporáneo, pasando por la interpretación gestual y la improvisación; una incorporación de las técnicas de interpretación en cine y televisión, así como una sólida formación académica teórica y cultural que afiance el potencial intelectual de los alumnos como sujetos activos capaces de analizar e interpretar los textos dramáticos y de llevarlos creativamente a escena. Igualmente, se hace hincapié en una perspectiva empresarial y emprendedora que abarca las principales oportunidades de la profesión de actor.","Actor de teatro, de cine, de TV, modelo publicitario, presentador de TV, actor de doblaje, cantante, locutor de radio, bailarín de teatro musical, director de escena, ayudante de dirección teatral, gestión cultural, asesoría y dirección artística, experto cultural teatral y cinematográfico, director, programador o coordinador de salas de teatro y casas de cultura, director de festivales teatrales y cinematográficos, crítico de teatro y cine, coach personal, director de eventos conmemorativos e institucionales, profesor de arte dramático, danza y canto, profesor de actividades artísticas, monitor de talleres de cine, teatro, danza y canto, agente artístico, animador sociocultural para complejos de ocio, televisión y para ofertas sociales y culturales institucionales públicas y privadas.","Centro de Educación Superior TAI Escuela Universitaria de Artes (Adscrito de titularidad privada a la Universidad Rey Juan Carlos) (también en inglés) C/ Recoletos, 22 28004 Madrid Tel.: 91 447 20 55 www.escuelatai.com informacion@taiarts.com"
5,Artes y Humanidades,Artes,Efectos Visuales,"Este grado tiene como objetivo garantizar una consistente base dramática que permita dominar desde el verso a la danza y el canto clásico y contemporáneo, pasando por la interpretación gestual y la improvisación; una incorporación de las técnicas de interpretación en cine y televisión, así como una sólida formación académica teórica y cultural que afiance el potencial intelectual de los alumnos como sujetos activos capaces de analizar e interpretar los textos dramáticos y de llevarlos creativamente a escena. Igualmente, se hace hincapié en una perspectiva empresarial y emprendedora que abarca las principales oportunidades de la profesión de actor.","Actor de teatro, de cine, de TV, modelo publicitario, presentador de TV, actor de doblaje, cantante, locutor de radio, bailarín de teatro musical, director de escena, ayudante de dirección teatral, gestión cultural, asesoría y dirección artística, experto cultural teatral y cinematográfico, director, programador o coordinador de salas de teatro y casas de cultura, director de festivales teatrales y cinematográficos, crítico de teatro y cine, coach personal, director de eventos conmemorativos e institucionales, profesor de arte dramático, danza y canto, profesor de actividades artísticas, monitor de talleres de cine, teatro, danza y canto, agente artístico, animador sociocultural para complejos de ocio, televisión y para ofertas sociales y culturales institucionales públicas y privadas.","Centro de Educación Superior TAI Escuela Universitaria de Artes (Adscrito de titularidad privada a la Universidad Rey Juan Carlos) (también en inglés) C/ Recoletos, 22 28004 Madrid Tel.: 91 447 20 55 www.escuelatai.com informacion@taiarts.com"
6,Artes y Humanidades,Artes,Artes Visuales y Danza,"Estudia la danza dentro del contexto de las artes visuales y no como un fenómeno artístico aislado. Sitúa la danza y su difusión dentro del mercado de las imágenes y para ello parte del desarrollo de las comunicaciones y las nuevas tecnologías. Se abordan dos temas fundamentales: Por una parte, el entrenamiento personal de los profesionales de la danza que tiene en cuenta su preparación física y mental antes de situarlo en el espacio escénico donde se realiza la representación teatral. Aborda todas las manifestaciones, desde la danza clásica hasta la contemporánea y española. También profundiza en aspectos tales como iluminación, sonido, diseño de vestuario y escenografía y todo lo relacionado con las nuevas tecnologías escénicas, efectos multimedia. En segundo lugar, estudia la danza dentro del mercado global y su difusión a través de las artes visuales. Asimismo, enfatiza en los requerimientos comerciales desde el punto de vista de calidad y de ética, valorando el papel del artista en la conservación de las tradiciones y la historia desde una perspectiva contemporánea.","Los titulados en este grado podrán crear y producir espectáculos teatrales y diseñar campañas publicitarias. Conocerán los mecanismos de gestión, producción, creación y distribución referidos a las Artes Escénicas y Visuales. Podrán desarrollar todos los aspectos relacionados con la crítica especializada y la escritura en el campo de las Artes Escénicas y Visuales. Su labor también puede ir dirigida a la creación y gestión de proyectos culturales vinculados a la responsabilidad empresarial y del mercado global. Así mismo, podrán trabajar con las tecnologías escénicas y la producción audiovisual, desarrollar labores tanto de investigación en el campo de las Artes Escénicas y Visuales como proyectos de realización artística.","Universidad Rey Juan Carlos (Pública) Facultad de Artes y Humanidades Campus de Fuenlabrada Camino del Molino, s/n 28943 Fuenlabrada (Madrid) Tel.: 91 488 84 01 www.urjc.es fuenlabrada.secretariadealumnos@urjc.es"
7,Artes y Humanidades,Artes,Cinematografía/Bachelor in Filmmaking,"Los graduados en Cine estarán capacita dos para tomar decisiones, asumir riesgos e impulsar cambios en el desempeño de las labores profesionales en la creación de nue vos espacios y contenidos audiovisuales, fundamentalmente cinematográficos, en las más actuales plataformas. El graduado es tará preparado para trabajar en las diversas áreas profesionales y de conocimiento que conforman un producto audiovisual. Por ello, debe tener interés por la imagen, el sonido, la fotografía, el montaje, la realización, postpro ducción. Además, será capaz de idear nuevas propuestas y captar las oportunidades que puedan surgir en el mercado audiovisual, asig nando recursos y capacidades, organizando la información, coordinando y motivando a las personas, tomando decisiones, planificando y gestionando, con el fin de lograr el óptimo resultado dentro de su entorno, alcanzando la mejor calidad en su trabajo.","Estos titulados estarán capacitados para el desempeño profesional en los cuatro ámbitos fundamentales de la actividad cinematográfi ca: director, productor, guionista y editor y en concreto en: Equipo de producción: director de produc ción, jefe de producción, ayudante de pro ducción, auxiliar de producción, secretaria de producción. Equipo de dirección: director, primer ayu dante de dirección, supervisor de continui dad/script, segundo ayudante de dirección, auxiliar de dirección. Equipo de casting: director de casting, ayu dante de casting, equipo de fotografía: direc tor de fotografía, operador especialista de cá mara (steadycam, submarina...), operador de cámara, primer ayudante de cámara/foquista, auxiliar de cámara, fotofija. Equipo de iluminación: jefe de eléctricos, eléctrico, ayudante de eléctricos.Equipo de maquinistas: jefe de maquinistas, maquinista/gruista, ayudante de maquinista. Equipo de sonido: jefe de sonido, ayudante de sonido, auxiliar de sonido. Equipo de dirección artística: director de arte, decorador, regidor, ayudante de decoración. Equipo de ambientación/atrezzo: ambienta dor, attrezzista, ayudante de ambientación, car pintero/pintor de rodaje, asistencia de rodaje, ayudante de atrezzo, auxiliar de ambientación. Equipo de construcción: jefe de construc ción, jefe de carpintería, jefe de pintura/em papelado, jefe de modelaje, constructor de atrezzo, figurinista, estilista, ayudante de es tilismo/ayudante de figurinista. Equipo de montaje: montador de imagen, ayudante de montaje de imagen, auxiliar de montaje de imagen, montador de sonido, ayudante de montaje de sonido.","de Grado en Cine y Ficción Audiovisual Universidad Camilo José Cela (Privada) Facultad de Comunicación y Humanidades C/ Castillo de Alarcón, 49 Urb. Villafranca del Castillo 28692 Villanueva de la Cañada (Madrid) Tel.: 91 815 31 31 www.ucjc.edu info@ucjc.edu Direcciones de los centros donde se imparte la de Grado en Cinematografía/Bachelor in Filmmaking Centro de Educación Superior TAI Escuela Universitaria de Artes (Adscrito de titularidad privada a la Universidad Rey Juan Carlos) (también en inglés) C/ Recoletos, 22 28001 Madrid Tel.: 91 447 20 55 www.escuelatai.com información @taiarts.com"
8,Artes y Humanidades,Artes,Fotografía y Creación Audiovisual,"Esta titulación proporciona una sólida capacitación técnica, artística y cultural y prepara a los nuevos profesionales para formar parte de la industria multimedia y el ámbito de las Artes Visuales. El alumno adquirirá un profundo dominio de los fundamentos, el lenguaje y la técnica fotográfica, así como una perspectiva empresarial que facilite el acceso de los nuevos profesionales de la imagen al mercado nacional e internacional. El plan de estudios propone una formación integral con un amplio conocimiento de la cultura visual, y sólidas competencias en las principales disciplinas y géneros de la fotografía a través de la práctica continuada en cada una de las fases del proceso creativo y los diversos ámbitos profesionales. El Grado en Fotografía y Creación Audiovisual va más allá de la enseñanza técnica y artística y proporciona conocimiento tecnológico aplicado para que el alumnado conozca el workflow profesional y la iconografía artística e industrial, que abarca todos los discursos y géneros actuales.Un programa único y exclusivo que revisa la cultura de la imagen desde las necesidades de la comunicación contemporánea e incluye formación en realización y edición de vídeo, postproducción digital, producción audiovisual, diseño web, monitorización de campañas o analítica.",El graduado en esta titulación podrá trabajar como fotógrafo artístico; fotógrafo de moda; fotógrafo de publicidad y producto; fotógrafo de arquitectura e interiorismo; fotógrafo de eventos deportivos; fotógrafo documental; fotoperiodista; fotógrafo social; técnico digital; especialista en tratamiento de la imagen; artista multidisciplinar; director artístico; comisario de exposiciones; crítico de arte; programador artístico; agente artístico; galerista; editor; docente; investigador; publicista.,"Centro de Educación Superior TAI Escuela Universitaria de Artes (Adscrito de titularidad privada a la Universidad Rey Juan Carlos) C/ Recoletos, 22 28001 Madrid Tel.: 91 447 20 55 www.escuelatai.com informacion@taiarts.com"
9,Artes y Humanidades,Artes,Composición Musical,"El objetivo de este Grado en Composición Musical es el de formar a compositores/as altamente cualificados/as para la creación musical en todos los géneros y estilos, in tegrando los nuevos medios tecnológicos y audiovisuales. Capacitar a los graduados españoles para poder continuar con unos estudios de postgrado nacionales o europeos, ya sean estos de carácter profesional o investigador. Los estudiantes adquirirán una visión global de las profesiones musicales tomando conciencia de la dimensión artística, cultural, educativa y social de la Música como una de las principales tradiciones europeas y españolas, y siendo capaz de analizar y crear piezas musicales de todos los estilos a través de un lenguaje propio. Adquirirán los conocimientos y experiencia práctica necesarios para afrontar la composición musical en diferentes géneros, en estilos contemporáneos y modernos, dentro de medios tradicionales o tecnológicos, cuidando en todo momento las distintas facetas musicales, artística, creativa y técnica, con especial preocupación por la creación de proyectos musicales de alta calidad que constituyan un enriquecimiento cultural de la sociedad. Conocerán los recursos tecnológicos y empresariales más vanguardistas para potenciar su versatilidad, su competitividad y su capacidad de innovación, de cara a un correcto desarrollo de sus iniciativas profesionales y empresariales, preparándole para conseguir una permanente adaptación a un mercado internacionalizado cambiante en sus formatos y en continua evolución respecto a los canales de distribución y comercialización. Conocerán la Técnica Compositiva, con especial atención a las nuevas herramientas tecnológicas, y la totalidad de sus aplicaciones profesionales y artísticas, siendo capaces de componer piezas musicales de cualquier formato y para cualquier medio y de defender su trabajo a través de un criterio y argumentación consistentes tanto en su vertiente artística como profesional. Adquirirán los recursos suficientes (conocimiento y experiencias) para analizar músicas de todos los estilos, incluidas aquellas que acompañan producciones audiovisuales, que permitan emitir reflexiones críticas fundamentadas de interés social, científico o ético. Serán capaces de transmitir información de tipo artístico, teórico, técnico y económico sobre la música propia o ajena a cualquier receptor, tanto general como especializado.Adquirirán conocimientos sobre la estructura de la industria musical y su relación con otras industrias culturales, así como la ubicación y configuración de los centros de toma de decisiones relativas a la misma.","Estos profesionales desempeñarán sus funciones en la composición de música para concierto; composición de música para ballet y teatro; composición de música para cine, radio y televisión; composición de música para publicidad, web y videojuegos; interpretación musical; creación de arreglos; producción musical; edición musical; crítica y periodismo musicales; gestión de contenidos musicales; gerencia de compañías y productoras discográficas; gerencia de estudios de grabación y sonorización; gerencia de centros, eventos y festivales musicales; investigación musical así como en al ámbito de la docencia y la investigación.","de Grado en Composición Musical Centro de Educación Superior TAI Escuela Universitaria de Artes (Adscrito de titularidad privada a la Universidad Rey Juan Carlos) (también en inglés) C/ Recoletos, 22 28001 Madrid Tel.: 91 447 20 55 www.escuelatai.com informacion@taiarts.com"


# Notas

In [8]:
def get_pdfs_notas(url):
    response = requests.get(url)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, "html.parser")

    bloques = soup.find_all("div", id=re.compile(r"^text-link-parrafo"))

    pdfs_notas = []

    for bloque in bloques:
        texto_bloque = bloque.get_text(separator=" ", strip=True).lower()
        
        if "notas de acceso" in texto_bloque:
            for a in bloque.find_all("a", href=True):
                href = a["href"]
                if href.lower().endswith(".pdf"):
                    pdfs_notas.append(href)

    return pdfs_notas


In [9]:
pdfs_notas=get_pdfs_notas('https://www.comunidad.madrid/servicios/educacion/hemeroteca-universitaria')

In [10]:
pdfs_notas

['https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/notas_de_corte_a4_2023_24_def.pdf',
 'https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/notas_de_corte_2022-23_para_web.pdf',
 'https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/notas_de_corte_2021_22_web.pdf',
 'https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/af_notas_de_corte_a4_2020_21_web.pdf',
 'https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/notas_de_corte_2019_20.pdf',
 'https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/notas_de_corte_a4_2018_19_baja_web.pdf',
 'https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/publicacionnotasdecorte2017-18_0.pdf',
 'https://www.comunidad.madrid/sites/default/files/doc/educacion/univ/notascorte.publicacion16-17.pdf_0.pdf',
 'https://www.comunidad.madrid/sites/default/files/doc/educacion/notascorte.publicacion15-16_1.pdf',
 'https://www.comunidad.madrid/sites/default