In [1]:
from bs4 import BeautifulSoup
import requests
import os
import csv

def parse_carrera_links(url):
    response = requests.get(url)
    
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        
        # Obtener enlaces de las carreras
        div_grado_elements = soup.find_all('div', class_='grado')
        carrera_links = [a['href'] for div in div_grado_elements for a in div.find_all('a')]
        
        return carrera_links
    else:
        print("No se pudo acceder a la página web.")
        return []

def scrape_and_save_data(url):
    # Realiza una solicitud HTTP para obtener el contenido HTML
    response = requests.get(url)

    if response.status_code == 200:
        html = response.content
    else:
        print("No se pudo acceder a la página web.")
        return
    
    # Continúa con el análisis utilizando BeautifulSoup
    soup = BeautifulSoup(html, 'html.parser')

    data = []
    print(url)

    # Encuentra todos los elementos <section> que contienen los detalles de las universidades
    university_sections = soup.find_all('section', class_='wrapper-semestre')

    for section in university_sections:
        # Extrae el ciclo desde el div con la clase 'btn-semestre'
        ciclo = section.find('div', class_='btn-semestre').text.strip()

        career_title_div = soup.find('div', id='career-title')

        if career_title_div:
            # Extrae el nombre de la carrera desde el elemento <h2>
            carrera = career_title_div.find('h2').text.strip()
            facultad = career_title_div.find('p').text.strip()
        else:
            carrera = "Carrera no encontrada"
            facultad = "Facultad no encontrada"

        # Extrae el nombre de la universidad desde el elemento <p>
        universidad_elem = soup.find('p')
        if universidad_elem:
            universidad = universidad_elem.text.strip()
        else:
            universidad = "Universidad no encontrada"

        # Extrae los nombres de las materias desde los elementos <li> dentro del div con la clase 'link1 whitebg'
        materias_div = section.find('div', class_='link1 whitebg')
        materias = [li.text.strip() for li in materias_div.find_all('li')]
        # Transforma las modalidades según tus requisitos
        # Extrae las modalidades de inscripción
        modalidades_elem = soup.find('div', class_='boton-inscripcion').find_all('a')
        modalidades = [modalidad_elem.text.strip() for modalidad_elem in modalidades_elem]
        # Convertir todas las modalidades a minúsculas antes de realizar los reemplazos
        modalidades = [modalidad.lower() for modalidad in modalidades]
        
        # Realizar el reemplazo de la modalidad "presencial"
        modalidades = [modalidad.replace("modalidad presencial - inscríbete a la prueba de admisión", "presencial") for modalidad in modalidades]
        
        # Realizar el reemplazo de la modalidad "distancia"
        modalidades = [modalidad.replace("modalidad a distancia - matricúlate ahora", "distancia") for modalidad in modalidades]


        # Extraer el título que otorga
        titulo = soup.select(".item:nth-child(2) div")[0].get_text(strip=True)
        
            
        # Extraer la duración
        duracion = soup.select(".item:nth-child(3) div")[0].get_text(strip=True)

        # Extraer la descripción de la carrera
        descripcion_div = soup.find('div', class_='section1')
        descripcion_items = descripcion_div.find_all(['li', 'p'], class_='rtejustify')
        print(descripcion_items)
        
        if descripcion_items:
            descripcion = ' '.join(item.text.strip() for item in descripcion_items)
        else:
            descripcion = "Descripción no encontrada"
            
        # Crea una fila por cada materia y ciclo para cada modalidad
        for materia in materias:
            for modalidad in modalidades:
                extracted_data = {
                    'carrera': carrera,
                    'ciclo': ciclo,
                    'materia': materia,
                    'facultad': facultad,
                    'universidad': universidad,
                    'modalidad': modalidad,
                    'descripcion': descripcion,
                    'titulo': titulo.split(":", 1)[1].strip(),  # Extraer el texto después de ":"
                    'duracion': duracion.split(":", 1)[1].strip()  # Extraer el texto después de ":"
                    
                }
                data.append(extracted_data)

    csv_file = 'datos_universidades.csv'
    file_exists = os.path.exists(csv_file)

    with open(csv_file, 'a', newline='', encoding='utf-8') as file:
        fieldnames = ['carrera', 'ciclo', 'facultad', 'materia', 'universidad', 'modalidad', 'descripcion','titulo', 'duracion']
        writer = csv.DictWriter(file, fieldnames=fieldnames, delimiter=';')

        if not file_exists:
            writer.writeheader()

        for extracted_data in data:
            writer.writerow(extracted_data)
    

    print("Datos guardados en el archivo CSV:", csv_file)


# scrape_and_save_data('https://www.utpl.edu.ec/carreras/empresas')
    
# URL de inicio
start_url = 'https://www.utpl.edu.ec'

# Llamar a la función para parsear los enlaces de carreras
carrera_links = parse_carrera_links(start_url)

# Llamar a la función scrape_and_save_data(url) para cada enlace de carrera
for carrera_link in carrera_links:
    full_url = start_url + carrera_link if carrera_link.startswith('/') else carrera_link

    scrape_and_save_data(full_url)


https://www.utpl.edu.ec/carreras/empresas
[]
[]
[]
[]
[]
[]
[]
[]
Datos guardados en el archivo CSV: datos_universidades.csv
