# Séance 5 - Collecte de données et API

L'objectif de la séance est de voir comment utiliser certaines API pour passer de données sur internet à une base de données exploitables, mais aussi de récupérer du contenu de page internet.

## Moment 1 - Ce qu'est une API (Matthias, 30 min)

- Rechercher, regarder la documentation, mettre en oeuvre et récupérer les données
- Vérifier l'actualité de l'API (ex. de GetOldTweets)
- Trois cas rapide : Wikipédia & Google Scholar

## C'est quoi une API, les données sur internet, etc.

API : approche très computer science

Par exemple, sur la récupération de données météo : https://pypi.org/project/python-weather/

Passer par des morceaux de codes déjà écrits

Sensibilisation aux limites légales etc.

Lien avec les bibliothèques

API et wrappers

-> S3

### Wikipédia

https://pypi.org/project/wikipedia/

Les différents éléments autour de Python

Exemple du fait qu'elle a changé entre notre code et la publi du bouquin.

### Géolocalisation avec OSM

https://pypi.org/project/geocoder/0.5.7/

In [6]:
!pip install geocoder



In [10]:
import geocoder
g = geocoder.osm('Lausanne, Suisse')
g.latlng

[46.5218269, 6.6327025]

### Google Scholar

Par exemple pour faire de la scientométrie

https://scholarly.readthedocs.io/en/latest/quickstart.html

In [None]:
!pip install scholarly

In [2]:
from scholarly import scholarly

In [5]:
# Retrieve the author's data, fill-in, and print
search_query = scholarly.search_author('Émilien Schultz')
author = scholarly.fill(next(search_query))
print(author['name'])

# Print the titles of the author's publications
#print([pub['bib']['title'] for pub in author['publications']])

# Take a closer look at the first publication
#pub = scholarly.fill(author['publications'][0])
#print(pub)

# Which papers cited that publication?
#print([citation['bib']['title'] for citation in scholarly.citedby(pub)])

Emilien Schultz


## Moment 2 - Utiliser une API plus complexe : Twitter (Emilien, 30 min)

- Tweepy : https://github.com/tweepy/tweepy
- l'API Twitter, créer un compte et demander des crédentiels
- Mettre ses crédentials
- Collecter les tweets récents sur pyshs ?
- Collecter les tweets autour d'islamogauchiste sur une période
- Regarder les données et les mettre en forme
- Créer un collecteur qui s'inscrit dans le temps...

Emilien ?

Faire un test avec le tutorial de tweepy : les deux étapes de configuration de l'API puis son utilisation

In [29]:
import tweepy

consumer_key = "mHqUaZkujRDAAn20gJJAHu3ly"
consumer_secret = "Iz237BNqXCSStFetp196GwNBXWNTHmmJFit6ZcdxAwwHP17rf0"
access_token = "1388816341516365825-uQKcLImidWmUhCpNoeVXtftbvDA6tO"
access_token_secret = "m9ug3cTZIdMAY14ktwd0WXB8ms8HKdijmUMyFnOxWxtKJ"


auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)

api = tweepy.API(auth)

public_tweets = api.home_timeline()
for tweet in public_tweets:
    print(tweet.text)

RT @afs_socio: Annonce importante : notre congrès, prévu du 6 au 9 juillet 2021 à Lille, se tiendra entièrement en distanciel. Plus de déta…
Bon @UPS_FR il faudrait former vos livreurs au code de la route car à ma question s'il voyait le problème d'être st… https://t.co/IunTBaWwE9
RT @ADRIPS_comm: #Doctorat
#Financement

Thèse (LaPEA, Versailles) : "Modélisation de l'acceptabilité de mesures publiques et d'initiatives…
RT @Gometmedia: [Urgent] 🔴 🚴👏 Le 1er dimanche sans voitures à #Marseille aura lieu le 23 mai sur la #Corniche Un bon début... Roulez, march…
RT @102bis: Ces deux mois de silence sur Twitter, c’était le temps d’imaginer avec toute l’équipe démissionnaire de #scienceetvie le magazi…
À voir : 2e cours de Didier Fassin au Collège de France, sur "la" vérité des chiffes en santé publique. Contre un p… https://t.co/9c17uSLTYL
Et fanfare de pause sur la plaine ouverte https://t.co/tO5iZcJgxM
https://t.co/hQ1xBd0DBB
https://t.co/MaEqmHpNyP
Velorution de Marseille sur le départ #c

Poster un tweet

In [None]:
t = api.update_status("Préparation de la prochaine séance du cours #pyshs à Lausanne - les API. Test de l'API :)")

Mettre le statut à jour

In [32]:
t = api.update_profile(description="Réflexion collective autour de Python pour les Sciences Humaines et Sociales")

Etudier un utilisateur

In [25]:
user = api.get_user("pyshs")
user.id

Récupérer tous les tweets mentionnant pyshs

In [46]:
corpus = api.search(q="Pyshs",count=100,lang="fr")

for tweet in corpus:
    print(tweet.text)

Préparation de la prochaine séance du cours #pyshs à Lausanne - les API. Test de l'API :)


Attention limite de 7 jours

Petite réflexion sur le chargement des codes ? Rendre public ?

In [None]:
import json

consumer_key = "mHqUaZkujRDAAn20gJJAHu3ly"
consumer_secret = "Iz237BNqXCSStFetp196GwNBXWNTHmmJFit6ZcdxAwwHP17rf0"
access_token = "1388816341516365825-pQddB13qZxsz3DSHqeKMW8vmHAq2OY"
access_token_secret = "mSIM8JQwJi3IU1F5MF9bLWRVQIlPzD3d1LHPjCfYu74L3"

codes = {"consumer_key":consumer_key,"consumer_secret":consumer_secret,
         "access_token":access_token,"access_token_secret":access_token_secret}

with open("twitter.keys","w") as f:
    json.dump(codes,f)
    
with open("twitter.keys","r") as f:
    codes = json.load(f)

Créer une collecte en continue de tweets :
- les stratégies ?
- aller plus loin dans la compréhension de Python

## Moment 3 - Pas d'API : collecter directement des données sur internet (Emilien, 30 min)

- Utiliser requests et BeautifulSoup
- Importance de la rétro-ingénieurie : comprendre l'architecture d'une page web
- Différentes stratégies : regex ou bibliothèques plus avancées
- Récupérer des notices de livres Python sur Wordcat https://www.worldcat.org/ puis mettre en forme dans un fichier
- Récupérer des images ?

Matthias ?

## Moment 4 - Plus d'API, du point de vue humain à celui de l'ordinateur (Matthias, 15-30 min)

Différents types d'API / Généralisation

Différentes version d'API

Normalisation

REST/ GraphQL

usages plus compliqués : async

Créer sa propre API ? Garder la signature des fonctions

API non web

Poster

- Livres Gallica : https://api.bnf.fr/fr/wrapper-python-pour-les-api-gallica / https://github.com/ian-nai/PyGallica
- Vidéos : https://pypi.org/project/python-youtube/
- Scrapper plus complexes (scrapy, etc.)
