# Utiliser une API du New York Times pour collecter des données

> Exemple d'interaction avec une API du New York Times (`Archive API`) accessibles via leur [Portail API](https://developer.nytimes.com/apis) ouvert aux développeurs


## Pré-requis

> Voici les étapes à suivre, si vous voulez utiliser ce notebook en-dehors de l'environnement du projet. 

### Authentification  

#### Identifiants: compte Dev pour le New York Times

Les requêtes à ces API doivent être authentifier pour être accepté par le New York Times. 

1.  Créez un compte développeur sur le Portail API du New York Times.
2.  Dans votre compte développeur, créez une web app.
3.  Spécifier les API qque vous souhaitez utiliser (dont `Archive API`).
4.  Récupérer la clé API de votre web app.

Vous pouvez retrouver la procédure détaillée en suivant ce [lien](https://developer.nytimes.com/get-started).

#### Accès: variables d'environnements

Afin d'utiliser notre clé API sans l'écrire dans le notebook, nous allons l'enregistrer dans une variable d'environnement.

1.  Créez un fichier `.env` (dans le même environnement que ce notebook).
2.  Dans votre fichier `.env`, créez une variable d'environnement (`KEY_API_NYT`) associée à votre clé:  

                `KEY_API_NYT=ma-cle-api-super-secrete`


### Dépendances Python

> Pour installer les packages requis pour ce Notebook, décommentez et lancez la cellule qui suit:

In [7]:
# %pip install python-dotenv requests

## Workflow du notebook

In [8]:
import os
import json
from urllib.parse import urljoin
import requests

In [9]:
# Récupére les identifiants dans les variables d'environnement
from dotenv import load_dotenv

load_dotenv()

# Définit les constantes
API_KEY = os.environ["KEY_API_NYT"]
BASE_URI = "https://api.nytimes.com/"

In [10]:
# Requêtage de l'API `Archive`

def get_archive(year, month):
    """GET request to the Archive API of the NY Times

    Args:
        year (int): Year of publication of articles
        month (int): Month of publication of articles

    Returns:
        dict[str, str]: Response as a JSON
    """
    
    url_path = f"/svc/archive/v1/{year}/{month}.json"
    url = urljoin(BASE_URI, url_path)
    params = {"api-key": API_KEY}

    response = requests.get(url, params=params)
    print(f"- statut de la requête API: {response.status_code}")
    
    return response.json()

In [11]:
# Utilitaire pour sauvegarder les résultats (au format JSON) 

def write_json(data, year, month):
    """Save response in a JSON file

    Args:
        data (dict[str, str]): Response as a JSON
        year (int): Year of publication of articles
        month (int): Month of publication of articles
    """
    
    filepath = f"archive_api-{year}_{month}.json"
    with open(filepath, "w") as file:
        json.dump(data, file)

### Example d'éxécution du workflow

In [12]:
# Requête à  l'API
year = 2010
month = 10
query = get_archive(year, month)

# Sauvegarde le résultat dans un fichier JSON
write_json(query, year, month)

# Affiche la quantité d'articles collectés
hits = query["response"]["meta"]["hits"]  # chemin identifié sur une réponse dans Postman
print(f"- {hits} articles récupérés pour {month}-{year}")


- statut de la requête API: 200
- 9691 articles récupérés pour 10-2010
