In [33]:
import requests
from lxml import html
from urllib.parse import urljoin
import pandas as pd

# URL base do site
base_url = "https://projetoagathaedu.com.br/banco-de-questoes/geografia-sociologia-e-filosofia.php"
root_url = "https://projetoagathaedu.com.br"

# Faz a requisição inicial
response = requests.get(base_url)
if response.status_code != 200:
    print("Erro ao acessar o site.")
    exit()

tree = html.fromstring(response.content)

# XPath para capturar os botões e links
button_xpath = '//*[@id="Geografia"]/div/div/div/div/a'
theme_name_xpath = './/div/div[1]'  # Nome do tema dentro do botão
question_xpath = '/html/body/main/article/div[1]/div'  # XPath genérico para perguntas

# Encontra os botões dos temas
buttons = tree.xpath(button_xpath)
if not buttons:
    print("Nenhum botão encontrado! Verifique o XPath ou o conteúdo HTML.")
    exit()

# Lista para armazenar os dados
data = []

# Percorre os botões e extrai as informações
for button in buttons:
    theme_name = button.xpath(theme_name_xpath)[0].text.strip()  # Nome do tema
    theme_url = urljoin(root_url, button.attrib['href'])  # URL do tema

    print(f"Tema: {theme_name}, URL: {theme_url}")  # Debug para verificar temas e links

    # Faz a requisição para a página do tema
    theme_response = requests.get(theme_url)
    if theme_response.status_code != 200:
        print(f"Erro ao acessar a página do tema: {theme_name}")
        continue
    theme_tree = html.fromstring(theme_response.content)

    # Captura todas as perguntas na página
    questions = theme_tree.xpath(question_xpath)

    if not questions:
        print(f"Nenhuma questão encontrada para o tema: {theme_name}. Verifique o XPath.")
        continue

    # Extrai o texto de cada pergunta
    for question in questions:
        question_text = question.text_content().strip()
        data.append({'Tema': theme_name, 'Pergunta': question_text})

# Verifica se dados foram coletados
if not data:
    print("Nenhum dado foi coletado. Verifique os seletores e o comportamento do site.")
else:
    # Salva os dados em um CSV
    df = pd.DataFrame(data)
    df.to_csv('temas_e_perguntas_geografia.csv', index=False, encoding='utf-8-sig')
    print("Base de dados salva com sucesso!")


Tema: Agropecuária, URL: https://projetoagathaedu.com.br/questoes-vestibular/geografia/economica/agropecuaria.php
Tema: China, URL: https://projetoagathaedu.com.br/questoes-vestibular/geografia/economica/china.php
Tema: BRICS, URL: https://projetoagathaedu.com.br/questoes-vestibular/geografia/economica/brics.php
Tema: Guerra Fria, URL: https://projetoagathaedu.com.br/questoes-vestibular/geografia/economica/guerra-fria.php
Tema: Agropecuária, URL: https://projetoagathaedu.com.br/questoes-vestibular/geografia/economica/agropecuaria.php
Tema: Agrotóxicos, URL: https://projetoagathaedu.com.br/questoes-vestibular/geografia/economica/agrotoxicos.php
Tema: Capitalismo e Globalização, URL: https://projetoagathaedu.com.br/questoes-vestibular/geografia/economica/capitalismo-e-globalizacao.php
Tema: Desmatamento da Amazônia, URL: https://projetoagathaedu.com.br/questoes-vestibular/geografia/economica/desmatamento-na-amazonia.php
Tema: Extrativismo, URL: https://projetoagathaedu.com.br/questoes-ve

In [34]:
import pandas as pd

# Carrega o CSV
df = pd.read_csv('temas_e_perguntas_geografia.csv', encoding='utf-8-sig')

# Mostra as primeiras linhas da base
print(df.head())

# Verifica o número total de linhas
print(f"Número total de registros: {len(df)}")

# Verifica se há valores vazios
print(df.isnull().sum())

# Exibe uma amostra aleatória da base
print(df.sample(10))


           Tema                                           Pergunta
0  Agropecuária  Lista de 10 exercícios de Geografia com gabari...
1  Agropecuária  01. (UEL) O Brasil é líder mundial no consumo ...
2  Agropecuária  02. (UEFS) Este tipo de agricultura foi introd...
3  Agropecuária  03. (PUC-RS) Ampliando-se o público, ampliaram...
4  Agropecuária  04. (UERJ)  \r\n\r\n\r\n\t\t\t\t\t\r\n\r\n\r\n...
Número total de registros: 725
Tema        0
Pergunta    0
dtype: int64
                   Tema                                           Pergunta
530       Ilha de Calor  Lista de 10 exercícios de Geografia com gabari...
443             El Niño  05. (FUVEST) \r\n\t\t\t\t\t\r\n\r\n\t\t\t\t\t ...
36                BRICS  07. (UEFS) Os membros do grupo BRICS, embora s...
502            Biosfera  08. (Mackenzie) O solo não é apenas um substra...
488           Atmosfera  06. (Fuvest) Segundo relatório do Painel Inter...
444             El Niño  06. (PUC-RJ) O aumento da temperatura média do...
3

In [35]:
import pandas as pd

# Carrega o CSV
df = pd.read_csv('temas_e_perguntas_geografia.csv', encoding='utf-8-sig')

# Agrupa por tema e conta as perguntas
tema_count = df.groupby('Tema').size().reset_index(name='Quantidade de Perguntas')

# Exibe o resultado
print(tema_count)

# Salva o agrupamento em um novo arquivo CSV
tema_count.to_csv('quantidade_por_tema.csv', index=False, encoding='utf-8-sig')
print("Arquivo 'quantidade_por_tema.csv' criado com sucesso!")


                              Tema  Quantidade de Perguntas
0                     Agropecuária                       24
1                      Agrotóxicos                       14
2                        Atmosfera                       12
3                            BRICS                       17
4                     BioGeografia                       10
5                         Biosfera                       12
6                Blocos Econômicos                       12
7       Capitalismo e Globalização                       12
8                      Cartografia                       17
9                     Centro-Oeste                       12
10                           China                       17
11                     Chuva Ácida                       12
12                    Climatologia                       14
13          Climatologia do Brasil                       12
14            Crise dos Refugiados                       17
15              Crise na Venezuela      

In [36]:
import pandas as pd

# Carrega o arquivo original
df = pd.read_csv('temas_e_perguntas_geografia.csv', encoding='utf-8-sig')

# Remove duplicatas
df_limpo = df.drop_duplicates()

# Remove linhas que contenham "Lista de exercícios" ou "Gabarito"
df_limpo = df_limpo[~df_limpo['Pergunta'].str.contains('Lista de exercícios|Gabarito', case=False, na=False)]

# Salva o arquivo limpo
df_limpo.to_csv('temas_e_perguntas_limpo.csv', index=False, encoding='utf-8-sig')



In [37]:
df_limpo

Unnamed: 0,Tema,Pergunta
1,Agropecuária,01. (UEL) O Brasil é líder mundial no consumo ...
2,Agropecuária,02. (UEFS) Este tipo de agricultura foi introd...
3,Agropecuária,"03. (PUC-RS) Ampliando-se o público, ampliaram..."
4,Agropecuária,04. (UERJ) \r\n\r\n\r\n\t\t\t\t\t\r\n\r\n\r\n...
5,Agropecuária,05. (UFRN) Desde as últimas décadas do século ...
...,...,...
719,Economia Brasileira,16. (UNICAMP) \r\n\r\n \t\t\t\t\t\r\n\r\n \t\t...
720,Economia Brasileira,17. (FUVEST) É preocupante a detecção de resíd...
721,Economia Brasileira,18. (FUVEST) \r\n\r\n \t\t\t\t\t\r\n\r\n \t\t\...
722,Economia Brasileira,"19. (FATEC) Recentemente, diversas empresas es..."
