In [54]:
from selenium import webdriver
from selenium.webdriver.common.by import By # Importar By para localizar elementos
import time # Para adicionar pausas, se necessário
from selenium.webdriver.support.ui import Select
from bs4 import BeautifulSoup
import sys
from collections import defaultdict
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

In [55]:
class UnidadeUSP:
    def __init__(self, nome):
        self.nome = nome
        self.cursos = []

    def __str__(self):
        return f"Unidade: {self.nome, self.cursos}"
    
    @staticmethod
    def carregar_unidades(driver, limite=None):
        unidades = []
        combo_unidade = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "comboUnidade"))
        )
        WebDriverWait(driver, 10).until(lambda d: len(Select(combo_unidade).options) > 1)
        select_unidade = Select(combo_unidade)
        #print(select_unidade.options)
        total_opcoes = len(select_unidade.options)
        if total_opcoes < 2:  # Deve ter pelo menos 1 opção além do vazio
            raise ValueError("Nenhuma unidade carregada no comboUnidade.")
    
        # Limitar ao menor valor entre o número de opções e o limite especificado
        limite = min(limite, total_opcoes - 1)  
       
        # Carregar as unidades
        for i in range(1, limite):  # Ignorar a primeira opção vazia
            nome_unidade = select_unidade.options[i].text.strip()
            if nome_unidade:  # Ignorar opções vazias
                unidade = UnidadeUSP(nome_unidade)

                # Selecionar a unidade e carregar os cursos
                select_unidade.select_by_index(i)
                unidade.cursos = CursoUSP.carregar_cursos(driver)

                unidades.append(unidade)
        return unidades

    def carregar_cursos(self, driver):
        combo_unidade = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "comboUnidade"))
        )
        select_unidade = Select(combo_unidade)
        
        # Selecionar a unidade
        for option in select_unidade.options:
            if self.nome in option.text:
                select_unidade.select_by_visible_text(option.text)
                break
        
        # Esperar os cursos serem carregados
        WebDriverWait(driver, 10).until(
            lambda d: len(Select(d.find_element(By.ID, "comboCurso")).options) > 1
        )
        
        # Carregar cursos
        self.cursos = CursoUSP.carregar_cursos(driver)
        

In [56]:
class CursoUSP:
    @staticmethod
    def carregar_cursos(driver):
        combo_curso = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "comboCurso"))
        )
        select_curso = Select(combo_curso)
        
        cursos = []
        for option in select_curso.options:
            nome_curso = option.text.strip()
            if nome_curso:  # Ignorar opções vazias
                cursos.append(nome_curso)
        return cursos

In [57]:
def main():
    driver = webdriver.Chrome()
    driver.get("https://uspdigital.usp.br/jupiterweb/jupCarreira.jsp?codmnu=8275")

    unidades = UnidadeUSP.carregar_unidades(driver, limite=3)
    
    for unidade in unidades:
        print(f"Carregando cursos para a unidade: {unidade.nome}")
        unidade.carregar_cursos(driver)
        print(unidade)  # Exibir os cursos associados à unidade
        
        # Associar cursos à unidade atual

    # Fechar o navegador ao terminar
    driver.quit()

if __name__ == "__main__":
    main()

Carregando cursos para a unidade: Escola de Artes, Ciências e Humanidades - ( EACH )
Unidade: ('Escola de Artes, Ciências e Humanidades - ( EACH )', ['Bacharelado em Biotecnologia (Ciclo Básico) - integral', 'Bacharelado em Educação Física e Saúde (Ciclo Básico) - integral', 'Bacharelado em Gestão Ambiental (Ciclo Básico) - matutino', 'Bacharelado em Gestão Ambiental (Ciclo Básico) - noturno', 'Bacharelado em Lazer e Turismo (Ciclo Básico) - vespertino', 'Bacharelado em Lazer e Turismo (Ciclo Básico) - noturno', 'Bacharelado em Sistemas de Informação (Ciclo Básico) - matutino', 'Bacharelado em Sistemas de Informação (Ciclo Básico) - noturno', 'Bacharelado em Têxtil e Moda (Ciclo Básico) - matutino', 'Gerontologia (Ciclo Básico) - vespertino', 'Gestão de Políticas Públicas (Ciclo Básico) - matutino', 'Gestão de Políticas Públicas (Ciclo Básico) - noturno', 'Licenciatura em Ciências da Natureza (Ciclo Básico) - noturno', 'Marketing (Ciclo Básico) - matutino', 'Marketing (Ciclo Básico) - 

In [60]:
class JupiterWebScraper:
    """
    Classe principal para orquestrar o scraping de dados e fornecer métodos de consulta.
    """

    def __init__(self):
        self.unidades = []
        self.all_courses = []
        self.all_disciplines = {} # Dicionário para armazenar disciplinas por código para busca rápida

    def carregar_dados(self, driver, limite_unidades=None):
        """
        Inicia o processo de carregamento de todas as unidades, cursos e disciplinas.
        """
        print("Iniciando carregamento de dados das unidades, cursos e disciplinas...")
        self.unidades = UnidadeUSP.carregar_unidades(driver, limite=limite_unidades)
        
        # Popula all_courses e all_disciplines para facilitar as consultas
        for unidade in self.unidades:
            for curso in unidade.cursos:
                self.all_courses.append(curso)
                for disciplina in curso.disciplinas:
                    # Adiciona a disciplina se não existir, ou atualiza se já existir
                    if disciplina.codigo not in self.all_disciplines:
                        self.all_disciplines[disciplina.codigo] = disciplina
                    # Garante que o nome do curso seja adicionado apenas uma vez por disciplina
                    if curso.nome not in self.all_disciplines[disciplina.codigo].cursos_associados:
                        self.all_disciplines[disciplina.codigo].cursos_associados.append(curso.nome)
        print("Dados carregados com sucesso!")

    # 1. Lista de cursos por unidades
    def listar_cursos_por_unidade(self):
        """Lista todos os cursos para cada unidade carregada."""
        print("\n--- Lista de Cursos por Unidade ---")
        if not self.unidades:
            print("Nenhuma unidade carregada. Por favor, carregue os dados primeiro.")
            return

        for unidade in self.unidades:
            print(f"\nUnidade: {unidade.nome}")
            if unidade.cursos:
                for curso in unidade.cursos:
                    print(f"  - {curso.nome}")
            else:
                print("  Nenhum curso encontrado para esta unidade.")
 # 2. Dados de um determinado curso
    def dados_curso(self, nome_curso):
        """Exibe os dados detalhados de um curso específico, incluindo suas disciplinas."""
        print(f"\n--- Dados do Curso: '{nome_curso}' ---")
        found = False
        for curso in self.all_courses:
            if curso.nome.lower() == nome_curso.lower():
                print(f"Nome do Curso: {curso.nome}")
                if curso.disciplinas:
                    print("Disciplinas:")
                    for disciplina in curso.disciplinas:
                        print(f"  - {disciplina}")
                else:
                    print("  Nenhuma disciplina encontrada para este curso.")
                found = True
                break
        if not found:
            print(f"Curso '{nome_curso}' não encontrado.")

    # 3. Dados de todos os cursos
    def dados_todos_cursos(self):
        """Exibe os dados de todos os cursos carregados, com suas respectivas disciplinas."""
        print("\n--- Dados de Todos os Cursos ---")
        if not self.all_courses:
            print("Nenhum curso carregado. Por favor, carregue os dados primeiro.")
            return

        for curso in self.all_courses:
            print(f"\nCurso: {curso.nome}")
            if curso.disciplinas:
                print("  Disciplinas:")
                for disciplina in curso.disciplinas:
                    print(f"    - {disciplina.nome} (Créditos: {disciplina.creditos_total})")
            else:
                print("  Nenhuma disciplina encontrada para este curso.")

    # 4. Dados de uma disciplina, inclusive quais cursos ela faz parte
    def dados_disciplina(self, codigo_ou_nome_disciplina):
        """Exibe os dados detalhados de uma disciplina específica e os cursos que a utilizam."""
        print(f"\n--- Dados da Disciplina: '{codigo_ou_nome_disciplina}' ---")
        found_discipline = None
        for disc_code, disciplina in self.all_disciplines.items():
            if disc_code.lower() == codigo_ou_nome_disciplina.lower() or \
               disciplina.nome.lower() == codigo_ou_nome_disciplina.lower():
                found_discipline = disciplina
                break
        
        if found_discipline:
            print(f"Nome: {found_discipline.nome}")
            print(f"Código: {found_discipline.codigo}")
            print(f"Créditos de Aula: {found_discipline.creditos_aula}")
            print(f"Créditos de Trabalho: {found_discipline.creditos_trabalho}")
            print(f"Créditos Totais: {found_discipline.creditos_total}")
            print("Presente nos Cursos:")
            if found_discipline.cursos_associados:
                for curso_nome in sorted(found_discipline.cursos_associados): # Ordena para melhor leitura
                    print(f"  - {curso_nome}")
            else:
                print("  Nenhum curso associado encontrado.")
        else:
            print(f"Disciplina '{codigo_ou_nome_disciplina}' não encontrada.")

    # 5. Disciplinas que são usadas em mais de um curso
    def disciplinas_multiuso(self):
        """Lista as disciplinas que são utilizadas em mais de um curso."""
        print("\n--- Disciplinas Usadas em Mais de Um Curso ---")
        multi_course_disciplines = {}
        for disc_code, disciplina in self.all_disciplines.items():
            # Usa set para contar cursos únicos (evita duplicatas se uma disciplina for carregada múltiplas vezes)
            if len(set(disciplina.cursos_associados)) > 1: 
                multi_course_disciplines[disc_code] = disciplina
        
        if multi_course_disciplines:
            for disc_code, disciplina in multi_course_disciplines.items():
                print(f"\nDisciplina: {disciplina.nome} (Código: {disciplina.codigo})")
                print("  Presente nos Cursos:")
                for curso_nome in sorted(set(disciplina.cursos_associados)): # Ordena para melhor leitura
                    print(f"    - {curso_nome}")
        else:
            print("Nenhuma disciplina encontrada que seja usada em mais de um curso.")

    # 6. Outras consultas relevantes
    def cursos_com_mais_disciplinas(self, top_n=5):
        """Lista os top 'N' cursos com o maior número de disciplinas."""
        print(f"\n--- Top {top_n} Cursos com Mais Disciplinas ---")
        if not self.all_courses:
            print("Nenhum curso carregado. Por favor, carregue os dados primeiro.")
            return

        sorted_courses = sorted(self.all_courses, key=lambda c: len(c.disciplinas), reverse=True)
        
        for i, curso in enumerate(sorted_courses[:top_n]):
            print(f"{i+1}. {curso.nome} - {len(curso.disciplinas)} disciplinas")

    def unidades_com_mais_cursos(self, top_n=5):
        """Lista as top 'N' unidades com o maior número de cursos."""
        print(f"\n--- Top {top_n} Unidades com Mais Cursos ---")
        if not self.unidades:
            print("Nenhuma unidade carregada. Por favor, carregue os dados primeiro.")
            return

        sorted_unidades = sorted(self.unidades, key=lambda u: len(u.cursos), reverse=True)
        
        for i, unidade in enumerate(sorted_unidades[:top_n]):
            print(f"{i+1}. {unidade.nome} - {len(unidade.cursos)} cursos")

    def disciplinas_com_mais_creditos(self, top_n=5):
        """Lista as top 'N' disciplinas com o maior número de créditos totais."""
        print(f"\n--- Top {top_n} Disciplinas com Mais Créditos Totais ---")
        if not self.all_disciplines:
            print("Nenhuma disciplina carregada. Por favor, carregue os dados primeiro.")
            return
        
        sorted_disciplines = sorted(self.all_disciplines.values(), key=lambda d: d.creditos_total, reverse=True)
        
        for i, disciplina in enumerate(sorted_disciplines[:top_n]):
            print(f"{i+1}. {disciplina.nome} (Código: {disciplina.codigo}) - {disciplina.creditos_total} créditos")

NameError: name 'driver' is not defined

In [59]:
from selenium import webdriver

def main():
    print("=== Bem-vindo ao Sistema de Consulta JupiterWeb ===")
    
    # Iniciar o webdriver
    print("Iniciando o WebDriver...")
    driver = webdriver.Chrome()  # Certifique-se de ter o WebDriver configurado corretamente
    driver.get("https://uspdigital.usp.br/jupiterweb/jupCarreira.jsp?codmnu=8275")

    try:
        # Criar instância do scraper
        scraper = JupiterWebScraper()
        
        # Carregar dados iniciais
        limite_unidades = input("Digite o número máximo de unidades a carregar (ou pressione Enter para carregar todas): ")
        limite_unidades = int(limite_unidades) if limite_unidades.strip().isdigit() else None
        scraper.carregar_dados(driver, limite_unidades)
        
        # Menu interativo
        while True:
            print("\n--- Menu Principal ---")
            print("1. Listar cursos por unidade")
            print("2. Dados de um curso específico")
            print("3. Dados de todos os cursos")
            print("4. Dados de uma disciplina específica")
            print("5. Disciplinas usadas em mais de um curso")
            print("6. Top cursos com mais disciplinas")
            print("7. Top unidades com mais cursos")
            print("8. Top disciplinas com mais créditos")
            print("9. Sair")
            
            opcao = input("Escolha uma opção: ")
            
            if opcao == '1':
                scraper.listar_cursos_por_unidade()
            elif opcao == '2':
                nome_curso = input("Digite o nome do curso: ")
                scraper.dados_curso(nome_curso)
            elif opcao == '3':
                scraper.dados_todos_cursos()
            elif opcao == '4':
                nome_ou_codigo_disciplina = input("Digite o nome ou código da disciplina: ")
                scraper.dados_disciplina(nome_ou_codigo_disciplina)
            elif opcao == '5':
                scraper.disciplinas_multiuso()
            elif opcao == '6':
                top_n = input("Quantos cursos listar? (padrão: 5): ")
                top_n = int(top_n) if top_n.strip().isdigit() else 5
                scraper.cursos_com_mais_disciplinas(top_n)
            elif opcao == '7':
                top_n = input("Quantas unidades listar? (padrão: 5): ")
                top_n = int(top_n) if top_n.strip().isdigit() else 5
                scraper.unidades_com_mais_cursos(top_n)
            elif opcao == '8':
                top_n = input("Quantas disciplinas listar? (padrão: 5): ")
                top_n = int(top_n) if top_n.strip().isdigit() else 5
                scraper.disciplinas_com_mais_creditos(top_n)
            elif opcao == '9':
                print("Encerrando o programa. Até logo!")
                break
            else:
                print("Opção inválida. Tente novamente.")
    
    except Exception as e:
        print(f"Ocorreu um erro: {e}")
    finally:
        print("Encerrando o WebDriver...")
        driver.quit()

if __name__ == "__main__":
    main()


=== Bem-vindo ao Sistema de Consulta JupiterWeb ===
Iniciando o WebDriver...


Digite o número máximo de unidades a carregar (ou pressione Enter para carregar todas):  3


Iniciando carregamento de dados das unidades, cursos e disciplinas...
Ocorreu um erro: Message: 
Stacktrace:
#0 0x5a58bd4afb9a <unknown>
#1 0x5a58bd195670 <unknown>
#2 0x5a58bd1e4c48 <unknown>
#3 0x5a58bd1e4ee1 <unknown>
#4 0x5a58bd22b924 <unknown>
#5 0x5a58bd209bad <unknown>
#6 0x5a58bd228dd6 <unknown>
#7 0x5a58bd209923 <unknown>
#8 0x5a58bd1d76e7 <unknown>
#9 0x5a58bd1d86de <unknown>
#10 0x5a58bd47966b <unknown>
#11 0x5a58bd47d611 <unknown>
#12 0x5a58bd4654e5 <unknown>
#13 0x5a58bd47e192 <unknown>
#14 0x5a58bd44a6ef <unknown>
#15 0x5a58bd49e9d8 <unknown>
#16 0x5a58bd49eba7 <unknown>
#17 0x5a58bd4ae9ec <unknown>
#18 0x7cd6f7c9caa4 <unknown>
#19 0x7cd6f7d29c3c <unknown>

Encerrando o WebDriver...
