In [76]:
# !pip install bs4
# !pip install pandas
# !pip install tqdm
import requests
import json
from bs4 import BeautifulSoup
import pandas as pd
from tqdm import tqdm

### Pegando Links dos temas
Pagina: https://educacao.uol.com.br/bancoderedacoes/

In [65]:
html = open('main_page.txt','r').read()
main_page = BeautifulSoup(html)
temas = main_page.find_all('div', attrs={'class':'thumbnails-item'}) # divs
temas_links = [link.find('a').get('href') for link in temas] # hrefs
print(f'Encontrados {len(temas_links)} links de diferentes temas do ENEM:\nExemplo: {temas_links[:2]}')

Encontrados 55 links de diferentes temas do ENEM:
Exemplo: ['https://educacao.uol.com.br/bancoderedacoes/propostas/qualificacao-e-o-futuro-do-emprego.htm', 'https://educacao.uol.com.br/bancoderedacoes/propostas/supremo-tribunal-federal-e-opiniao-publica.htm']


### Seguindo Links

In [66]:
# faz um request para cada link de tema
temas_paginas = []
for link in temas_links:
    pagina_do_tema = requests.get(link).text
    pagina_do_tema = BeautifulSoup(pagina_do_tema)
    temas_paginas.append(pagina_do_tema)

### Capturando Texto Base

In [72]:
banco = {} # banco de redacoes
banco_texto_base = {}

qtd_redacoes = 0
for pagina in temas_paginas:
    redacoes = pagina.find_all('section',attrs={'class':'results-table'})
    # deve retornar um unico objeto HTML
    if len(redacoes) != 1:
        # print(f'Tema {nome_do_tema} não possui redacoes')
        continue
    #
    nome_do_tema = pagina.find_all('i', attrs={'custom-title'})[0].get_text().strip()
    #
    texto_base = pagina.find_all('div',attrs={'class':'text'})[0]
    for tag in texto_base.find_all(['li', 'ul']):
        tag.decompose()  # Remove as tags li e ul
    texto_base = texto_base.get_text(strip=True)
    banco_texto_base[nome_do_tema] = texto_base
    #
    redacoes = redacoes[0].find_all('div', attrs={'class':'rt-line-option'})
    redacoes_links = [red.find_all('a')[0].get('href') for red in redacoes]
    banco[nome_do_tema] = redacoes_links
    qtd_redacoes += len(redacoes_links)
    # print(f'Para o tema "{nome_do_tema}" foram encontradas {len(redacoes_links)} redacoes corrigidas') 
print(f'Total de {len(banco.keys())} temas com {qtd_redacoes} redacoes(links)')

Total de 43 temas com 854 redacoes(links)


In [82]:
# exporta base
json.dump(banco_texto_base,open('../data/banco_texto_base.json','w', encoding='utf-8'))

### Baixando Redacoes

In [5]:
MAPPING_TOPICS = [
    'Demonstrar domínio da norma culta da língua escrita.',
    'Compreender a proposta da redação e aplicar conceito das várias áreas de conhecimento para desenvolver o tema, dentro dos limites estruturais do texto dissertativo-argumentativo.',
    'Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e argumentos em defesa de um ponto de vista.',
    'Demonstrar conhecimento dos mecanismos linguísticos necessários para a construção da argumentação.',
    'Elaborar a proposta de solução para o problema abordado, mostrando respeito aos valores humanos e considerando a diversidade sociocultural.',
    'Nota final']

In [6]:
def processa_paragrafo(soup):
    for span in soup.find_all('span'):
        try:
            if 'color:#00b050' in span['style']:
                span.extract()
            else:
                span.unwrap()
        except:
            pass
        
    # Imprimindo o HTML resultante
    for strong_tag in soup.find_all('strong', ):
        strong_tag.unwrap()

    return str(soup)
#
#
def processa_paragrafo_corrigido(soup):
            for strong_tag in soup.find_all('strong', ):
                strong_tag.unwrap()
            soup = str(soup)\
                .replace('<span style="color:red">','<nota="errado">')\
                .replace('<span style="color:#00b050">','<nota="desejado">')\
                .replace('</span>','</nota>')\
                .replace('<p class="gmail-paragraph" style="text-align:justify">','')\
                .replace('</p>','')
            

            return str(soup)

In [7]:
redacoes_completas = []
for tema, redacoes_url in banco.items():    
    for url in tqdm(redacoes_url):
        try:
            resp = BeautifulSoup(requests.get(url).text)
            # cria objeto
            red = {}
            red['tema'] = tema
            red['titulo'] = resp.find_all('h2')[-1].get_text().strip()
            red['nota_final'] = resp.find_all('span', attrs={'class':'mark'})[0].get_text().strip()
            #
            # tabela com nota para as competencias:
            competencias_table = resp.find_all('section',attrs={'class':'results-table'})[0]
            topics = competencias_table.find_all('span',attrs={'class':'topic'})
            topics = [t.get_text() for t in topics]
            # notas
            points = competencias_table.find_all('span',attrs={'class':'points'})
            points = [t.get_text() for t in points]
            points
            competencias_com_nota = {k[0]:k[1] for k in list(zip(topics, points))}
            
            red['comp_lingua_culta'] = competencias_com_nota[MAPPING_TOPICS[0]]
            red['comp_proposta'] = competencias_com_nota[MAPPING_TOPICS[1]]
            red['comp_argumentacao'] = competencias_com_nota[MAPPING_TOPICS[2]]
            red['comp_conhecimentos'] = competencias_com_nota[MAPPING_TOPICS[3]]
            red['comp_proposta_solucao'] = competencias_com_nota[MAPPING_TOPICS[4]]
            #
            red['url'] = url

            texto = resp.find_all('div',attrs={'class':'text-composition'})[0]
            paragrafos = texto.find_all('p')

            texto_corrigido = '\n\n'.join([processa_paragrafo_corrigido(p) for p in paragrafos])
            texto_corrigido = texto_corrigido
            #

            texto_original = '\n\n'.join([processa_paragrafo(p) for p in paragrafos])
            texto_original = texto_original\
                .replace('<p class="gmail-paragraph" style="text-align:justify">','')\
                .replace('</p>','')
            #
            comentario_geral = resp.find_all('div',attrs={'class':'text'})[0]
            comentario_geral = [tag.get_text() for tag in comentario_geral.find_all(True, recursive=False)]
            comentario_geral = ' '.join(comentario_geral)

            red['texto_original'] = texto_original
            red['texto_corrigido'] = texto_corrigido
            red['comentario_geral'] = comentario_geral
            #
            redacoes_completas.append(red)
        except:
            try:
                print(f'Erro ao processar tema {tema}, redacao',red['titulo'])
            except:
                pass


100%|██████████| 20/20 [00:09<00:00,  2.20it/s]
100%|██████████| 20/20 [00:11<00:00,  1.79it/s]
100%|██████████| 20/20 [00:10<00:00,  1.85it/s]
100%|██████████| 20/20 [00:10<00:00,  1.96it/s]
100%|██████████| 20/20 [00:09<00:00,  2.03it/s]
100%|██████████| 20/20 [00:10<00:00,  1.86it/s]
100%|██████████| 19/19 [00:09<00:00,  1.91it/s]
100%|██████████| 20/20 [00:09<00:00,  2.09it/s]
100%|██████████| 20/20 [00:12<00:00,  1.64it/s]
100%|██████████| 20/20 [00:10<00:00,  1.97it/s]
100%|██████████| 20/20 [00:12<00:00,  1.61it/s]
100%|██████████| 20/20 [00:12<00:00,  1.61it/s]
100%|██████████| 20/20 [00:13<00:00,  1.47it/s]
100%|██████████| 20/20 [00:11<00:00,  1.70it/s]
100%|██████████| 20/20 [00:10<00:00,  1.83it/s]
100%|██████████| 20/20 [00:12<00:00,  1.64it/s]
100%|██████████| 18/18 [00:11<00:00,  1.61it/s]
100%|██████████| 20/20 [00:11<00:00,  1.69it/s]
100%|██████████| 19/19 [00:11<00:00,  1.69it/s]
100%|██████████| 20/20 [00:13<00:00,  1.49it/s]
100%|██████████| 20/20 [00:14<00:00,  1.

Erro ao processar tema Violência e drogas: o papel do usuário, redacao Redações corrigidas


 10%|█         | 2/20 [00:00<00:08,  2.19it/s]

Erro ao processar tema Violência e drogas: o papel do usuário, redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:09,  1.89it/s]

Erro ao processar tema Violência e drogas: o papel do usuário, redacao Redações corrigidas


100%|██████████| 20/20 [00:11<00:00,  1.69it/s]
  5%|▌         | 1/20 [00:00<00:08,  2.21it/s]

Erro ao processar tema A terapia de reversão da orientação sexual, redacao Redações corrigidas


 10%|█         | 2/20 [00:00<00:08,  2.19it/s]

Erro ao processar tema A terapia de reversão da orientação sexual, redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:08,  2.08it/s]

Erro ao processar tema A terapia de reversão da orientação sexual, redacao Redações corrigidas


 20%|██        | 4/20 [00:01<00:07,  2.08it/s]

Erro ao processar tema A terapia de reversão da orientação sexual, redacao Redações corrigidas


100%|██████████| 20/20 [00:11<00:00,  1.73it/s]
  5%|▌         | 1/20 [00:00<00:08,  2.14it/s]

Erro ao processar tema Como melhorar a educação, sem valorizar o professor?, redacao Redações corrigidas


 10%|█         | 2/20 [00:00<00:08,  2.02it/s]

Erro ao processar tema Como melhorar a educação, sem valorizar o professor?, redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:08,  1.99it/s]

Erro ao processar tema Como melhorar a educação, sem valorizar o professor?, redacao Redações corrigidas


 20%|██        | 4/20 [00:02<00:08,  1.83it/s]

Erro ao processar tema Como melhorar a educação, sem valorizar o professor?, redacao Redações corrigidas


100%|██████████| 20/20 [00:12<00:00,  1.64it/s]
 10%|█         | 2/20 [00:00<00:08,  2.04it/s]

Erro ao processar tema Brasileiros têm "péssima educação argumentativa", segundo cientista, redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:09,  1.83it/s]

Erro ao processar tema Brasileiros têm "péssima educação argumentativa", segundo cientista, redacao Redações corrigidas


 20%|██        | 4/20 [00:02<00:08,  1.90it/s]

Erro ao processar tema Brasileiros têm "péssima educação argumentativa", segundo cientista, redacao Redações corrigidas


 25%|██▌       | 5/20 [00:02<00:07,  1.90it/s]

Erro ao processar tema Brasileiros têm "péssima educação argumentativa", segundo cientista, redacao Redações corrigidas


100%|██████████| 20/20 [00:11<00:00,  1.67it/s]
  5%|▌         | 1/20 [00:00<00:09,  1.96it/s]

Erro ao processar tema Por que não há novas manifestações nas ruas?, redacao Redações corrigidas


 10%|█         | 2/20 [00:00<00:08,  2.09it/s]

Erro ao processar tema Por que não há novas manifestações nas ruas?, redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:07,  2.17it/s]

Erro ao processar tema Por que não há novas manifestações nas ruas?, redacao Redações corrigidas


100%|██████████| 20/20 [00:12<00:00,  1.58it/s]


Erro ao processar tema Por que não há novas manifestações nas ruas?, redacao Redações corrigidas


  5%|▌         | 1/20 [00:00<00:09,  2.01it/s]

Erro ao processar tema Internação compulsória de dependentes de crack, redacao Redações corrigidas


100%|██████████| 20/20 [00:12<00:00,  1.57it/s]
  5%|▌         | 1/20 [00:00<00:04,  4.20it/s]

Erro ao processar tema Perigos do universo digital, redacao Redações corrigidas


 10%|█         | 2/20 [00:00<00:07,  2.46it/s]

Erro ao processar tema Perigos do universo digital, redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:07,  2.20it/s]

Erro ao processar tema Perigos do universo digital, redacao Redações corrigidas


 20%|██        | 4/20 [00:01<00:05,  2.78it/s]

Erro ao processar tema Perigos do universo digital, redacao Redações corrigidas


100%|██████████| 20/20 [00:12<00:00,  1.63it/s]
  5%|▌         | 1/20 [00:00<00:08,  2.15it/s]

Erro ao processar tema Terceirização: avanço ou retrocesso?, redacao Redações corrigidas


 10%|█         | 2/20 [00:00<00:08,  2.03it/s]

Erro ao processar tema Terceirização: avanço ou retrocesso?, redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:09,  1.82it/s]

Erro ao processar tema Terceirização: avanço ou retrocesso?, redacao Redações corrigidas


 20%|██        | 4/20 [00:02<00:08,  1.87it/s]

Erro ao processar tema Terceirização: avanço ou retrocesso?, redacao Redações corrigidas


100%|██████████| 20/20 [00:12<00:00,  1.56it/s]
  5%|▌         | 1/20 [00:00<00:10,  1.81it/s]

Erro ao processar tema Direitos em conflito: liberdade de expressão e intimidade, redacao Redações corrigidas


 10%|█         | 2/20 [00:00<00:06,  2.59it/s]

Erro ao processar tema Direitos em conflito: liberdade de expressão e intimidade, redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:08,  1.97it/s]

Erro ao processar tema Direitos em conflito: liberdade de expressão e intimidade, redacao Redações corrigidas


 20%|██        | 4/20 [00:01<00:07,  2.11it/s]

Erro ao processar tema Direitos em conflito: liberdade de expressão e intimidade, redacao Redações corrigidas


100%|██████████| 20/20 [00:11<00:00,  1.71it/s]
  5%|▌         | 1/20 [00:00<00:10,  1.85it/s]

Erro ao processar tema Artes e educação física: opcionais ou obrigatórias?, redacao Redações corrigidas


 10%|█         | 2/20 [00:01<00:09,  1.92it/s]

Erro ao processar tema Artes e educação física: opcionais ou obrigatórias?, redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:08,  1.93it/s]

Erro ao processar tema Artes e educação física: opcionais ou obrigatórias?, redacao Redações corrigidas


 20%|██        | 4/20 [00:02<00:08,  1.82it/s]

Erro ao processar tema Artes e educação física: opcionais ou obrigatórias?, redacao Redações corrigidas


100%|██████████| 20/20 [00:12<00:00,  1.65it/s]
  5%|▌         | 1/20 [00:00<00:08,  2.12it/s]

Erro ao processar tema Você faz parte da turma do "eu me acho?", redacao Redações corrigidas


 10%|█         | 2/20 [00:00<00:08,  2.00it/s]

Erro ao processar tema Você faz parte da turma do "eu me acho?", redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:08,  2.00it/s]

Erro ao processar tema Você faz parte da turma do "eu me acho?", redacao Redações corrigidas


 20%|██        | 4/20 [00:02<00:08,  1.97it/s]

Erro ao processar tema Você faz parte da turma do "eu me acho?", redacao Redações corrigidas


100%|██████████| 20/20 [00:12<00:00,  1.64it/s]
  5%|▌         | 1/20 [00:00<00:10,  1.84it/s]

Erro ao processar tema Escola no Brasil: com partido ou sem partido?, redacao Redações corrigidas


 10%|█         | 2/20 [00:01<00:09,  1.91it/s]

Erro ao processar tema Escola no Brasil: com partido ou sem partido?, redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:08,  1.93it/s]

Erro ao processar tema Escola no Brasil: com partido ou sem partido?, redacao Redações corrigidas


 20%|██        | 4/20 [00:02<00:08,  1.99it/s]

Erro ao processar tema Escola no Brasil: com partido ou sem partido?, redacao Redações corrigidas


100%|██████████| 20/20 [00:12<00:00,  1.55it/s]
  5%|▌         | 1/20 [00:00<00:11,  1.68it/s]

Erro ao processar tema Escravizar é humano?, redacao Redações corrigidas


 10%|█         | 2/20 [00:01<00:09,  1.88it/s]

Erro ao processar tema Escravizar é humano?, redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:08,  2.06it/s]

Erro ao processar tema Escravizar é humano?, redacao Redações corrigidas


 20%|██        | 4/20 [00:02<00:07,  2.05it/s]

Erro ao processar tema Escravizar é humano?, redacao Redações corrigidas


100%|██████████| 20/20 [00:13<00:00,  1.53it/s]
  5%|▌         | 1/20 [00:00<00:10,  1.90it/s]

Erro ao processar tema Estupro: como prevenir esse crime?, redacao Redações corrigidas


 10%|█         | 2/20 [00:01<00:09,  1.93it/s]

Erro ao processar tema Estupro: como prevenir esse crime?, redacao Redações corrigidas


 15%|█▌        | 3/20 [00:01<00:08,  1.94it/s]

Erro ao processar tema Estupro: como prevenir esse crime?, redacao Redações corrigidas


 20%|██        | 4/20 [00:01<00:07,  2.26it/s]

Erro ao processar tema Estupro: como prevenir esse crime?, redacao Redações corrigidas


100%|██████████| 20/20 [00:13<00:00,  1.52it/s]
100%|██████████| 19/19 [00:13<00:00,  1.39it/s]
  5%|▌         | 1/20 [00:00<00:14,  1.30it/s]

Erro ao processar tema Impeachment: a presidente deve perder o mandato?, redacao Redações corrigidas


100%|██████████| 20/20 [00:13<00:00,  1.48it/s]
100%|██████████| 20/20 [00:12<00:00,  1.55it/s]
100%|██████████| 20/20 [00:12<00:00,  1.56it/s]
100%|██████████| 20/20 [00:14<00:00,  1.40it/s]
100%|██████████| 19/19 [00:12<00:00,  1.49it/s]


In [9]:
len(redacoes_completas)

801

In [10]:
redacoes_completas_df = pd.DataFrame(redacoes_completas)

In [13]:
redacoes_completas_df.to_csv('redacoes_completas_df.csv',index=False)

### Removendo TAGS

In [56]:
redacoes_processadas = pd.read_csv('redacoes_completas_df.csv')
print(len(redacoes_processadas))
redacoes_processadas = redacoes_processadas.dropna()
print(len(redacoes_processadas))

801
800


In [57]:

#
import re

def remove_html_tags(input_string):
    clean = re.compile('<.*?>')
    input_string = re.sub(r'\n+', '\n', input_string)
    return re.sub(clean, '', input_string)

def remove_html_tags_exceto_nota(input_string):
    # Remover todas as tags HTML, exceto <nota>
    input_string = re.sub(r'\n+', '\n', input_string)
    input_string = re.sub(r'<(?!nota\s*\/?)[^>]*>', '', input_string)
    return input_string


#
redacoes_processadas.texto_original = redacoes_processadas.texto_original.apply(remove_html_tags)
redacoes_processadas.comentario_geral = redacoes_processadas.comentario_geral.apply(remove_html_tags)
redacoes_processadas.texto_corrigido = redacoes_processadas.texto_corrigido.apply(remove_html_tags_exceto_nota)

In [62]:
redacoes_processadas.to_csv('base_redacoes_final.csv',index=False)

In [None]:
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