# Raspador do New York Times

Este notebook demonstra o uso do raspador para buscar artigos no New York Times via API oficial.

**Fonte:** [developer.nytimes.com](https://developer.nytimes.com/)

**Tipo de dados:** Artigos jornalísticos do NYT

## Requisito: API Key

Este raspador requer uma **API key gratuita** do NYT Developer Portal.

### Como obter sua API key:
1. Acesse: https://developer.nytimes.com/get-started
2. Crie uma conta gratuita
3. Crie um novo "App" e ative a "Article Search API"
4. Copie sua API key

### Limites da API:
- 5 requisições por minuto
- 500 requisições por dia
- Máximo de 1000 resultados por busca (100 páginas × 10 resultados)

## Importação

In [None]:
import raspe
import os

## Configuração da API Key

Você pode fornecer a API key de duas formas:
1. Diretamente no código: `raspe.nyt(api_key="sua-chave")`
2. Via variável de ambiente: `export NYT_API_KEY="sua-chave"`

In [None]:
# Opção 1: Definir API key diretamente (substitua pela sua chave)
API_KEY = "sua-api-key-aqui"

# Opção 2: Usar variável de ambiente
# os.environ['NYT_API_KEY'] = 'sua-api-key-aqui'
# Ou defina no terminal antes de executar: export NYT_API_KEY='sua-api-key-aqui'

## Uso Básico

In [None]:
# Busca simples por um termo
scraper = raspe.nyt(api_key=API_KEY)
dados = scraper.raspar(texto="climate change", paginas=range(1, 6))

print(f"Total de artigos encontrados: {len(dados)}")
dados.head()

## Parâmetros Disponíveis

| Parâmetro | Tipo | Descrição |
|-----------|------|------------|
| `texto` | str | Termo de busca (obrigatório) |
| `ano` | int | Filtrar por ano específico |
| `data_inicio` | str | Data inicial (aceita YYYY-MM-DD, DD/MM/YYYY ou YYYYMMDD) |
| `data_fim` | str | Data final (aceita YYYY-MM-DD, DD/MM/YYYY ou YYYYMMDD) |
| `sort` | str | Ordenação: 'newest', 'oldest', 'best', 'relevance' |
| `filtro` | str | Filtro avançado em sintaxe Lucene |
| `paginas` | range | Intervalo de páginas a raspar |

## Colunas Retornadas

| Coluna | Descrição |
|--------|------------|
| `titulo` | Título do artigo |
| `url` | Link para o artigo |
| `data_publicacao` | Data de publicação |
| `secao` | Seção do jornal |
| `desk` | Mesa editorial |
| `tipo` | Tipo de material (artigo, opinião, etc.) |
| `resumo` | Resumo/snippet do artigo |
| `autor` | Autor(es) do artigo |
| `palavras` | Contagem de palavras |
| `imagem_url` | URL da imagem principal |

## Uso Avançado

In [None]:
# Filtrar por ano
dados_2024 = scraper.raspar(texto="artificial intelligence", ano=2024, paginas=range(1, 5))

print(f"Artigos de 2024: {len(dados_2024)} registros")
dados_2024.head()

In [None]:
# Filtrar por intervalo de datas
dados_periodo = scraper.raspar(
    texto="elections",
    data_inicio="2024-01-01",
    data_fim="2024-06-30",
    sort="newest",
    paginas=range(1, 6)
)

print(f"Artigos no período: {len(dados_periodo)} registros")
dados_periodo.head()

In [None]:
# Usar filtros avançados (sintaxe Lucene)
# Filtrar por seção específica
dados_politica = scraper.raspar(
    texto="biden",
    ano=2024,
    filtro='section_name:"Politics"',
    paginas=range(1, 3)
)

print(f"Artigos de política: {len(dados_politica)} registros")
dados_politica.head()

In [None]:
# Buscar múltiplos termos
termos = ["technology", "science", "health"]
dados_multiplos = scraper.raspar(texto=termos, ano=2024, paginas=range(1, 2))

# A coluna 'termo_busca' indica qual termo gerou cada resultado
print(f"Total de artigos: {len(dados_multiplos)}")
dados_multiplos.groupby('termo_busca').size()

In [None]:
# Analisar distribuição por seção
if 'secao' in dados.columns:
    print("Artigos por seção:")
    print(dados['secao'].value_counts().head(10))

## Exemplos de Filtros Lucene

A API do NYT suporta filtros avançados usando sintaxe Lucene:

```python
# Por seção
filtro='section_name:"Politics"'

# Por tipo de material
filtro='type_of_material:"News"'

# Por autor
filtro='byline:"John Smith"'

# Combinando filtros (AND)
filtro='section_name:"Business" AND type_of_material:"News"'

# Múltiplos valores (OR)
filtro='section_name:("Politics" OR "Business")'
```

## Exportação dos Dados

In [None]:
# Exportar para Excel
# dados.to_excel("nyt_resultados.xlsx", index=False)

# Exportar para CSV
# dados.to_csv("nyt_resultados.csv", index=False)

## Dica: Usando Variável de Ambiente

Para evitar expor sua API key no código, use uma variável de ambiente:

```bash
# No terminal, antes de executar o notebook:
export NYT_API_KEY='sua-api-key-aqui'

# Ou adicione ao seu ~/.bashrc ou ~/.zshrc para persistir
echo 'export NYT_API_KEY="sua-api-key-aqui"' >> ~/.bashrc
```

```python
# No código Python, a API key será detectada automaticamente:
scraper = raspe.nyt()  # Usa NYT_API_KEY do ambiente
```