# Raspador da Folha de São Paulo

Este notebook demonstra o uso do raspador para buscar notícias no site da Folha de São Paulo.

**Fonte:** [search.folha.uol.com.br](https://search.folha.uol.com.br/search)

**Tipo de dados:** Notícias e artigos jornalísticos

## Importação

In [1]:
import raspe

## Uso Básico

O raspador da Folha utiliza o parâmetro `pesquisa` para buscas.

In [2]:
# Busca simples por um termo
scraper = raspe.folha()
dados = scraper.raspar(pesquisa="reforma tributária", paginas=range(1, 6))

print(f"Total de notícias encontradas: {len(dados)}")
dados.head()

2025-12-19 11:40:24,668 - FOLHA - INFO - Iniciando raspagem com parâmetros {'pesquisa': 'reforma tributária', 'paginas': range(1, 6)}
2025-12-19 11:40:24,668 - FOLHA - DEBUG - Definindo consulta
2025-12-19 11:40:24,669 - FOLHA - DEBUG - {'q': 'reforma tributária', 'site': 'todos', 'periodo': 'todos', 'sr': 1}
2025-12-19 11:40:24,669 - FOLHA - DEBUG - Definindo n_pags
2025-12-19 11:40:24,669 - FOLHA - DEBUG - Enviando requisição inicial com retry automático
2025-12-19 11:40:25,180 - FOLHA - DEBUG - Encontrando n_pags (status: 200)
2025-12-19 11:40:25,219 - FOLHA - DEBUG - Encontrados 10000 resultados, 400 páginas
2025-12-19 11:40:25,219 - FOLHA - DEBUG - Encontradas 400 páginas
2025-12-19 11:40:25,220 - FOLHA - DEBUG - Definindo paginas
2025-12-19 11:40:25,220 - FOLHA - DEBUG - Criando diretório de download em /tmp/tmpmef_janh/FOLHA/20251219114025
Baixando documentos:   0%|          | 0/5 [00:00<?, ?it/s]2025-12-19 11:40:27,222 - FOLHA - DEBUG - Baixando página 1
2025-12-19 11:40:27,223

Total de notícias encontradas: 125


Unnamed: 0,link,titulo,resumo,data,termo_busca
0,https://www1.folha.uol.com.br/blogs/que-impost...,O planejamento patrimonial e o perigo da fake ...,A reforma tributária pede atenção e serenidade...,28.out.2025 às 7h00,reforma tributária
1,https://www1.folha.uol.com.br/mercado/2025/10/...,Avaliação de desempenho de servidor precisa te...,"assunto difícil para ser colocado em lei, porq...",28.out.2025 às 6h00,reforma tributária
2,https://www1.folha.uol.com.br/mercado/2025/10/...,"Taxa das blusinhas não gera emprego, onera pob...","Diante desses dados, a LCA defende que seria m...",28.out.2025 às 5h00,reforma tributária
3,https://www1.folha.uol.com.br/colunas/joel-pin...,Milei é bem diferente de outros líderes da nov...,da reforma tributária brasileira feita por Lul...,27.out.2025 às 20h51,reforma tributária
4,https://www1.folha.uol.com.br/opiniao/2025/10/...,Solução contra metanol na bebida está longe de...,tributária. ...,27.out.2025 às 19h30,reforma tributária


## Parâmetros Disponíveis

| Parâmetro | Tipo | Descrição |
|-----------|------|------------|
| `pesquisa` | str | Termo de busca (obrigatório) |
| `site` | str | Filtrar por origem: 'todos', 'online' ou 'jornal' |
| `data_inicio` | str | Data inicial (aceita YYYY-MM-DD, DD/MM/YYYY ou YYYYMMDD) |
| `data_fim` | str | Data final (aceita YYYY-MM-DD, DD/MM/YYYY ou YYYYMMDD) |
| `paginas` | range | Intervalo de páginas a raspar |

## Colunas Retornadas

| Coluna | Descrição |
|--------|------------|
| `link` | Link para a notícia |
| `titulo` | Título da notícia |
| `resumo` | Resumo/lead da notícia |
| `data` | Data de publicação |

## Uso Avançado

In [3]:
# Filtrar por origem (online ou jornal impresso)
dados_online = scraper.raspar(pesquisa="eleições", site="online", paginas=range(1, 6))

print(f"Notícias online: {len(dados_online)} registros")
dados_online.head()

2025-12-19 11:40:38,485 - FOLHA - INFO - Iniciando raspagem com parâmetros {'pesquisa': 'eleições', 'site': 'online', 'paginas': range(1, 6)}
2025-12-19 11:40:38,486 - FOLHA - DEBUG - Definindo consulta
2025-12-19 11:40:38,486 - FOLHA - DEBUG - {'q': 'eleições', 'site': 'online', 'periodo': 'todos', 'sr': 1}
2025-12-19 11:40:38,486 - FOLHA - DEBUG - Definindo n_pags
2025-12-19 11:40:38,486 - FOLHA - DEBUG - Enviando requisição inicial com retry automático
2025-12-19 11:40:38,943 - FOLHA - DEBUG - Encontrando n_pags (status: 200)
2025-12-19 11:40:38,979 - FOLHA - DEBUG - Encontrados 10000 resultados, 400 páginas
2025-12-19 11:40:38,980 - FOLHA - DEBUG - Encontradas 400 páginas
2025-12-19 11:40:38,980 - FOLHA - DEBUG - Definindo paginas
2025-12-19 11:40:38,980 - FOLHA - DEBUG - Criando diretório de download em /tmp/tmpmef_janh/FOLHA/20251219114038
Baixando documentos:   0%|          | 0/5 [00:00<?, ?it/s]2025-12-19 11:40:40,981 - FOLHA - DEBUG - Baixando página 1
2025-12-19 11:40:40,982 

Notícias online: 125 registros


Unnamed: 0,link,titulo,resumo,data,termo_busca
0,https://www1.folha.uol.com.br/opiniao/2025/12/...,"Enxugando gelo nos Correios, com aval do contr...",Empréstimo à estatal cai de R$ 20 bi para R$ 1...,14.dez.2025 às 22h00,eleições
1,https://www1.folha.uol.com.br/opiniao/2025/12/...,Obstáculos econômicos e políticos à queda dos ...,"Após as eleições presidenciais, o vencedor, qu...",14.dez.2025 às 22h00,eleições
2,https://www1.folha.uol.com.br/colunas/painel/2...,Paulinho ironiza ato na Paulista e diz que seu...,Relator do projeto afirma que baixo comparecim...,14.dez.2025 às 21h40,eleições
3,https://www1.folha.uol.com.br/poder/2025/12/es...,Esquerda vê renúncia de Zambelli como tentativ...,"Em agosto, ela foi condenada a cinco anos e tr...",14.dez.2025 às 20h21,eleições
4,https://www1.folha.uol.com.br/poder/2025/12/su...,Suplente de Zambelli elogia renúncia e promete...,À época ele tentava filiar o então presidente ...,14.dez.2025 às 19h46,eleições


In [4]:
# Filtrar por intervalo de datas
# Formatos aceitos: YYYY-MM-DD, DD/MM/YYYY, YYYYMMDD
dados_periodo = scraper.raspar(
    pesquisa="economia",
    data_inicio="2024-01-01",
    data_fim="2024-06-30",
    paginas=range(1, 6)
)

print(f"Notícias no período: {len(dados_periodo)} registros")
dados_periodo.head()

2025-12-19 11:40:52,179 - FOLHA - INFO - Iniciando raspagem com parâmetros {'pesquisa': 'economia', 'data_inicio': '2024-01-01', 'data_fim': '2024-06-30', 'paginas': range(1, 6)}
2025-12-19 11:40:52,180 - FOLHA - DEBUG - Definindo consulta
2025-12-19 11:40:52,180 - FOLHA - DEBUG - {'q': 'economia', 'site': 'todos', 'periodo': 'personalizado', 'sr': 1, 'sd': '01/01/2024', 'ed': '30/06/2024'}
2025-12-19 11:40:52,180 - FOLHA - DEBUG - Definindo n_pags
2025-12-19 11:40:52,181 - FOLHA - DEBUG - Enviando requisição inicial com retry automático
2025-12-19 11:40:52,800 - FOLHA - DEBUG - Encontrando n_pags (status: 200)
2025-12-19 11:40:52,844 - FOLHA - DEBUG - Encontrados 4068 resultados, 163 páginas
2025-12-19 11:40:52,845 - FOLHA - DEBUG - Encontradas 163 páginas
2025-12-19 11:40:52,845 - FOLHA - DEBUG - Definindo paginas
2025-12-19 11:40:52,846 - FOLHA - DEBUG - Criando diretório de download em /tmp/tmpmef_janh/FOLHA/20251219114052
Baixando documentos:   0%|          | 0/5 [00:00<?, ?it/s]2

Notícias no período: 125 registros


Unnamed: 0,link,titulo,resumo,data,termo_busca
0,https://www1.folha.uol.com.br/opiniao/2024/06/...,O negacionismo no debate econômico precisa acabar,"Com a proposta de ""rompimento da lua de mel"", ...",26.jun.2024 às 22h00,economia
1,https://www1.folha.uol.com.br/colunas/painelsa...,Conselhão vai propor a Lula uma tabela Fipe pa...,Ideia do grupo de trabalho é unificar base de ...,26.jun.2024 às 21h35,economia
2,https://www1.folha.uol.com.br/colunas/jose-man...,Brasil tem um dos maiores potenciais turístico...,Empregamos pessoas das comunidades locais— o q...,26.jun.2024 às 21h22,economia
3,https://www1.folha.uol.com.br/paineldoleitor/2...,'Agora falta o governo criar laboratórios para...,"Rodrigo Castro (Belo Horizonte, MG)\n \nOs...",26.jun.2024 às 20h45,economia
4,https://www1.folha.uol.com.br/mundo/2024/06/ni...,"Ninguém pode nos tirar a democracia, diz presi...",Embora o atual presidente tenha sido ministro ...,26.jun.2024 às 20h39,economia


In [5]:
# Combinando múltiplos filtros
dados_filtrado = scraper.raspar(
    pesquisa="inteligência artificial",
    site="online",
    data_inicio="2024-01-01",
    data_fim="2024-12-31",
    paginas=range(1, 5)  # Apenas as 4 primeiras páginas
)

print(f"Resultados filtrados: {len(dados_filtrado)} registros")
dados_filtrado.head()

2025-12-19 11:41:05,408 - FOLHA - INFO - Iniciando raspagem com parâmetros {'pesquisa': 'inteligência artificial', 'site': 'online', 'data_inicio': '2024-01-01', 'data_fim': '2024-12-31', 'paginas': range(1, 5)}
2025-12-19 11:41:05,408 - FOLHA - DEBUG - Definindo consulta
2025-12-19 11:41:05,408 - FOLHA - DEBUG - {'q': 'inteligência artificial', 'site': 'online', 'periodo': 'personalizado', 'sr': 1, 'sd': '01/01/2024', 'ed': '31/12/2024'}
2025-12-19 11:41:05,408 - FOLHA - DEBUG - Definindo n_pags
2025-12-19 11:41:05,409 - FOLHA - DEBUG - Enviando requisição inicial com retry automático
2025-12-19 11:41:05,826 - FOLHA - DEBUG - Encontrando n_pags (status: 200)
2025-12-19 11:41:05,863 - FOLHA - DEBUG - Encontrados 2235 resultados, 90 páginas
2025-12-19 11:41:05,863 - FOLHA - DEBUG - Encontradas 90 páginas
2025-12-19 11:41:05,863 - FOLHA - DEBUG - Definindo paginas
2025-12-19 11:41:05,864 - FOLHA - DEBUG - Criando diretório de download em /tmp/tmpmef_janh/FOLHA/20251219114105
Baixando doc

Resultados filtrados: 100 registros


Unnamed: 0,link,titulo,resumo,data,termo_busca
0,https://www1.folha.uol.com.br/colunas/alvaro-m...,Excesso de opções produz angústia e estimula o...,"Pois bem, muito se discute se a inteligência a...",15.dez.2024 às 8h00,inteligência artificial
1,https://www1.folha.uol.com.br/ilustrada/2024/1...,Masp fecha o ano com histórias e contradições ...,"Na sala dedicada ao amor, aparecem os retratos...",15.dez.2024 às 7h00,inteligência artificial
2,https://www1.folha.uol.com.br/poder/2024/12/ca...,CasaFolha terá cursos da triatleta Fernanda Ke...,Entre seus focos está a inteligência artificia...,15.dez.2024 às 4h00,inteligência artificial
3,https://www1.folha.uol.com.br/paineldoleitor/2...,Leitores opinam se humanidade está confiando d...,As pessoas não entendem que os modelos estatís...,14.dez.2024 às 21h30,inteligência artificial
4,https://www1.folha.uol.com.br/tec/2024/12/o-qu...,O que se sabe sobre morte de ex-funcionário qu...,"artificial OpenAI, dona do ChatGPT, que vem lu...",14.dez.2024 às 21h04,inteligência artificial


In [6]:
# Buscar múltiplos termos
termos = ["política", "esportes", "cultura"]
dados_multiplos = scraper.raspar(pesquisa=termos, paginas=range(1, 3))

# A coluna 'termo_busca' indica qual termo gerou cada resultado
print(f"Total de notícias: {len(dados_multiplos)}")
dados_multiplos.groupby('termo_busca').size()

2025-12-19 11:41:15,952 - FOLHA - INFO - Iniciando raspagem com parâmetros {'pesquisa': ['política', 'esportes', 'cultura'], 'paginas': range(1, 3)}
2025-12-19 11:41:15,953 - FOLHA - INFO - Iniciando raspagem para pesquisa=política
2025-12-19 11:41:15,953 - FOLHA - DEBUG - Definindo consulta
2025-12-19 11:41:15,953 - FOLHA - DEBUG - {'q': 'política', 'site': 'todos', 'periodo': 'todos', 'sr': 1}
2025-12-19 11:41:15,953 - FOLHA - DEBUG - Definindo n_pags
2025-12-19 11:41:15,953 - FOLHA - DEBUG - Enviando requisição inicial com retry automático
2025-12-19 11:41:16,380 - FOLHA - DEBUG - Encontrando n_pags (status: 200)
2025-12-19 11:41:16,416 - FOLHA - DEBUG - Encontrados 10000 resultados, 400 páginas
2025-12-19 11:41:16,416 - FOLHA - DEBUG - Encontradas 400 páginas
2025-12-19 11:41:16,416 - FOLHA - DEBUG - Definindo paginas
2025-12-19 11:41:16,417 - FOLHA - DEBUG - Criando diretório de download em /tmp/tmpmef_janh/FOLHA/20251219114116
Baixando documentos:   0%|          | 0/2 [00:00<?, ?

Total de notícias: 150


termo_busca
cultura     50
esportes    50
política    50
dtype: int64

In [7]:
# Usar formato de data brasileiro
dados_br = scraper.raspar(
    pesquisa="Copa do Mundo",
    data_inicio="01/01/2022",
    data_fim="31/12/2022",
    paginas=range(1, 6)
)

print(f"Notícias sobre a Copa em 2022: {len(dados_br)} registros")
dados_br.head()

2025-12-19 11:41:33,245 - FOLHA - INFO - Iniciando raspagem com parâmetros {'pesquisa': 'Copa do Mundo', 'data_inicio': '2022-01-01', 'data_fim': '2022-12-31', 'paginas': range(1, 6)}
2025-12-19 11:41:33,246 - FOLHA - DEBUG - Definindo consulta
2025-12-19 11:41:33,246 - FOLHA - DEBUG - {'q': 'Copa do Mundo', 'site': 'todos', 'periodo': 'personalizado', 'sr': 1, 'sd': '01/01/2022', 'ed': '31/12/2022'}
2025-12-19 11:41:33,246 - FOLHA - DEBUG - Definindo n_pags
2025-12-19 11:41:33,246 - FOLHA - DEBUG - Enviando requisição inicial com retry automático
2025-12-19 11:41:33,868 - FOLHA - DEBUG - Encontrando n_pags (status: 200)
2025-12-19 11:41:33,904 - FOLHA - DEBUG - Encontrados 3420 resultados, 137 páginas
2025-12-19 11:41:33,904 - FOLHA - DEBUG - Encontradas 137 páginas
2025-12-19 11:41:33,905 - FOLHA - DEBUG - Definindo paginas
2025-12-19 11:41:33,905 - FOLHA - DEBUG - Criando diretório de download em /tmp/tmpmef_janh/FOLHA/20251219114133
Baixando documentos:   0%|          | 0/5 [00:00<

Notícias sobre a Copa em 2022: 125 registros


Unnamed: 0,link,titulo,resumo,data,termo_busca
0,https://www1.folha.uol.com.br/ilustrada/2022/1...,Filmes pré-selecionados do Oscar já estão em c...,"Netflix, 14 anos\n\nSeleção Argentina - A Séri...",26.dez.2022 às 17h00,Copa do Mundo
1,https://f5.folha.uol.com.br/voceviu/2022/12/9-...,9 coisas que aconteceram pela primeira vez em ...,Uma Copa do Mundo de estreias\nA Copa do Mundo...,26.dez.2022 às 16h20,Copa do Mundo
2,https://www1.folha.uol.com.br/mercado/2022/12/...,Copa e festas de fim de ano impulsionam bares ...,"O ano de 2022 para bares, restaurantes e padar...",26.dez.2022 às 15h00,Copa do Mundo
3,https://f5.folha.uol.com.br/colunistas/tonygoe...,"Melhores do Ano é legal, mas um Emmy brasileir...","Será que o canal Cazé TV no YouTube, centrado ...",26.dez.2022 às 13h00,Copa do Mundo
4,https://f5.folha.uol.com.br/televisao/2022/12/...,Ernesto Paglia anuncia saída da Globo após 44 ...,"Destacando-se nos bastidores das produções, el...",26.dez.2022 às 12h52,Copa do Mundo


## Exportação dos Dados

In [8]:
# Exportar para Excel
# dados.to_excel("folha_resultados.xlsx", index=False)

# Exportar para CSV
# dados.to_csv("folha_resultados.csv", index=False)