# Séance 5 - Collecte de données et API

L'objectif de la séance est de voir un peu de la collecte de données sur internet, et pour cela de commencer à se familiariser avec la notion d'API.

Quatre moments :
- Ce qu'est une API
- Une API avec clé d'accès : le cas de Twitter
- Traiter des données du web sans API
- Quelques notions plus avancées sur les API

## Moment 1 - Ce qu'est une API (Matthias, 30 min)

C'est quoi une API web, les données sur internet, etc.

API : approche très computer science

API, notion générale, et notion orientée web sur laquelle nous allons d'abord commencer dans ce cours.

API et wrappers; Lien avec les bibliothèques

-> S3

Petit point sur plus généralement la manipulation de données : Sensibilisation aux limites légales etc.

Quelques éléments à savoir faire :

- Rechercher, regarder la documentation, mettre en oeuvre et récupérer les données
- Vérifier l'actualité de l'API (ex. de GetOldTweets)
- Trois cas rapide : Wikipédia & Google Scholar

Quelques exemples possibles

### Wikipédia

https://pypi.org/project/wikipedia/

Les différents éléments autour de Python

Exemple du fait qu'elle a changé entre notre code et la publi du bouquin.

### Géolocalisation avec OSM

https://pypi.org/project/geocoder/0.5.7/

In [10]:
import geocoder
g = geocoder.osm('Lausanne, Suisse')
g.latlng

[46.5218269, 6.6327025]

### Google Scholar

Par exemple pour faire de la scientométrie

https://scholarly.readthedocs.io/en/latest/quickstart.html

In [2]:
from scholarly import scholarly

In [5]:
# Retrieve the author's data, fill-in, and print
search_query = scholarly.search_author('Émilien Schultz')
author = scholarly.fill(next(search_query))
print(author['name'])

# Print the titles of the author's publications
#print([pub['bib']['title'] for pub in author['publications']])

# Take a closer look at the first publication
#pub = scholarly.fill(author['publications'][0])
#print(pub)

# Which papers cited that publication?
#print([citation['bib']['title'] for citation in scholarly.citedby(pub)])

Emilien Schultz


## Moment 2 - Utiliser une API plus complexe : Twitter (Emilien, 30 min)

- Tweepy : https://github.com/tweepy/tweepy
- Regarder la documentation
- l'API Twitter, créer un compte et demander des crédentiels
- Mettre ses crédentials
- Collecter les tweets récents sur pyshs ?
- Collecter les tweets autour d'islamogauchiste sur une période
- Regarder les données et les mettre en forme
- Créer un collecteur qui s'inscrit dans le temps...

Faire un test avec le tutorial de tweepy : les deux étapes de configuration de l'API puis son utilisation

In [1]:
import tweepy

consumer_key = "mHqUaZkujRDAAn20gJJAHu3ly"
consumer_secret = "Iz237BNqXCSStFetp196GwNBXWNTHmmJFit6ZcdxAwwHP17rf0"
access_token = "1388816341516365825-uQKcLImidWmUhCpNoeVXtftbvDA6tO"
access_token_secret = "m9ug3cTZIdMAY14ktwd0WXB8ms8HKdijmUMyFnOxWxtKJ"


auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)

api = tweepy.API(auth)

public_tweets = api.home_timeline()
for tweet in public_tweets:
    print(tweet.text)

RT @isabelapf2: The next Jupyter community call is coming up on Tuesday, May 25th at 8am Pacific. Whether you've been in the community a lo…
Préparation de la prochaine séance du cours #pyshs à Lausanne - les API. Test de l'API :)
RT @neuro_rish: @Mbussonn @jeremyphoward @Zoom Jitsi has that feature, love it!
ok, @Zoom idea: A pie chart of cumulative  speaker time to _gently_ remind some people that  they monopolize the co… https://t.co/jc2uktWpIo
RT @afs_socio: Annonce importante : notre congrès, prévu du 6 au 9 juillet 2021 à Lille, se tiendra entièrement en distanciel. Plus de déta…
Bon @UPS_FR il faudrait former vos livreurs au code de la route car à ma question s'il voyait le problème d'être st… https://t.co/IunTBaWwE9
RT @ADRIPS_comm: #Doctorat
#Financement

Thèse (LaPEA, Versailles) : "Modélisation de l'acceptabilité de mesures publiques et d'initiatives…
RT @OndrejCertik: My thoughts on the fact that the next version of LAPACK is planned to be implemented in C++ instead of Fort

Poster un tweet

In [None]:
t = api.update_status("Préparation de la prochaine séance du cours #pyshs à Lausanne - les API. Test de l'API :)")

Mettre le statut à jour

In [32]:
t = api.update_profile(description="Réflexion collective autour de Python pour les Sciences Humaines et Sociales")

Etudier un utilisateur

In [25]:
user = api.get_user("pyshs")
user.id

Récupérer tous les tweets mentionnant pyshs

Récupérer tous les tweets mentionnant islamogauchisme

In [41]:
corpus = api.search(q="islamogauchisme",count=100,lang="fr")
len(corpus)
#for tweet in corpus:
#    print(tweet.text)

100

In [51]:
type(corpus)

tweepy.models.SearchResults

In [8]:
corpus = [i for i in corpus]

In [13]:
t = corpus[1]
t.user.screen_name

'EstelleNasty'

In [64]:
t.created_at

datetime.datetime(2021, 5, 15, 12, 28, 20)

Intégrer ensuite ces données dans un traitement : par exemple en faire un tableau

In [18]:
import pandas as pd
tableau = pd.DataFrame([[t.id_str,t.created_at,i.user.id,i.user.screen_name, i.text,i.user.location] for i in corpus])

In [21]:
tableau[3].value_counts()

Orfeo_Giorgi      3
_Attano_          3
CestinEric        2
divineFrance21    2
CarminaRosa19     2
                 ..
RDD271999019      1
lohoudominique    1
DelatourRegis     1
tonioaa1          1
Adlost5           1
Name: 3, Length: 91, dtype: int64

Attention limite de 7 jours

Différents niveaux d'accès : API premium
- https://developer.twitter.com/en/account/environments

In [None]:
corpus = api.search_full_archive(environment_name="training",query="islamogauchisme")

Pas si facile de se constituer un corpus ...

Petite réflexion sur la sécurité des données avec des codes ? Rendre public ?

In [None]:
import json

consumer_key = "mHqUaZkujRDAAn20gJJAHu3ly"
consumer_secret = "Iz237BNqXCSStFetp196GwNBXWNTHmmJFit6ZcdxAwwHP17rf0"
access_token = "1388816341516365825-pQddB13qZxsz3DSHqeKMW8vmHAq2OY"
access_token_secret = "mSIM8JQwJi3IU1F5MF9bLWRVQIlPzD3d1LHPjCfYu74L3"

codes = {"consumer_key":consumer_key,"consumer_secret":consumer_secret,
         "access_token":access_token,"access_token_secret":access_token_secret}

with open("twitter.keys","w") as f:
    json.dump(codes,f)
    
with open("twitter.keys","r") as f:
    codes = json.load(f)

Créer une collecte en continue de tweets :
- les stratégies ?
- aller plus loin dans la compréhension de Python

On a donc plusieurs briques qui permettent de créer notre traitement de données

Des usages plus avancés de l'API : collecter un flux de tweets

- un scrit qui fait une veille permanente
- doit être exécuté sur un ordinateur dans la durée (serveur ?)
- des éléments des bibliothèques permettant de coder ce type

In [4]:
import tweepy
import json

# StreamListener class inherits from tweepy.StreamListener and overrides on_status/on_error methods.
class StreamListener(tweepy.StreamListener):
    def on_status(self, status):
        print(status.id_str)
        # if "retweeted_status" attribute exists, flag this tweet as a retweet.
        is_retweet = hasattr(status, "retweeted_status")

        # check if text has been truncated
        if hasattr(status,"extended_tweet"):
            text = status.extended_tweet["full_text"]
        else:
            text = status.text

        # check if this is a quote tweet.
        is_quote = hasattr(status, "quoted_status")
        quoted_text = ""
        if is_quote:
            # check if quoted tweet's text has been truncated before recording it
            if hasattr(status.quoted_status,"extended_tweet"):
                quoted_text = status.quoted_status.extended_tweet["full_text"]
            else:
                quoted_text = status.quoted_status.text

        # remove characters that might cause problems with csv encoding
        remove_characters = [",","\n"]
        for c in remove_characters:
            text.replace(c," ")
            quoted_text.replace(c, " ")
            
        with open("tweets/"+status.id_str,"w") as f:
            json.dump(status._json,f)

    def on_error(self, status_code):
        print("Encountered streaming error (", status_code, ")")


def launch():
    try:
        auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
        auth.set_access_token(access_token, access_token_secret)
        api = tweepy.API(auth)
        print("API initialisée")
        streamListener = StreamListener()
        stream = tweepy.Stream(auth=api.auth, listener=streamListener,tweet_mode='extended')
        tags = ["islamogauchisme"]
        stream.filter(track=tags)
    except:
        print("Erreur rencontrée")
        #launch()
    
launch()

API initialisée
1393549207861071875
Erreur rencontrée


Les limites de Tweepy, et la nécessité de passer par l'API Twitter
- https://developer.twitter.com/en/docs/twitter-api/tweets/search/introduction
- https://github.com/twitterdev/search-tweets-python

## Moment 3 - Pas d'API : collecter directement des données sur internet (Emilien, 30 min)

- Dans certains cas il n'y a pas d'API disponible, récupérer directement les données par les interfaces "standard"
- Utiliser requests et BeautifulSoup
- Importance de la rétro-ingénieurie : comprendre l'architecture d'une page web
- Différentes stratégies : regex ou bibliothèques plus avancées
- Récupérer des images ?

Récupérer des notices de livres Python sur Wordcat https://www.worldcat.org/ puis mettre en forme dans un fichier
- chercher islamo-gauchisme
- voir la forme de l'URL https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=21&qt=page_number_link

Démarche : 
- récupérer les pages de résultat
- construire un tableau des liens vers les résultats
- récupérer chaque notice

### Première étape regarder un peu les éléments

### Récupérer une page avec requests

Une page

In [4]:
import requests

url = "https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=1&qt=page_number_link"

page = requests.get(url)

Toutes les pages

In [18]:
pages = []
for i in range(0,7):
    url = "https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start={}&qt=page_number_link".format(1+10*i)
    print(url)
    page = requests.get(url)
    pages.append(page)

https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=1&qt=page_number_link
https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=11&qt=page_number_link
https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=21&qt=page_number_link
https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=31&qt=page_number_link
https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=41&qt=page_number_link
https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=51&qt=page_number_link
https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=61&qt=page_number_link


Extraire les liens : un peu de rétroingénierie

Plusieurs stratégies :
- tous les liens et filtrer
- respecter la structure du document

### Se balader dans la structure html : BeautifoulSoup

In [26]:
import bs4

In [30]:
page = bs4.BeautifulSoup(pages[0].content)

In [32]:
liens = page.find_all("a")

In [50]:
liens = [i.attrs["href"] for i in liens if "href" in i.attrs and "/oclc/" in i.attrs["href"]]

In [53]:
set([i.replace("&referer=brief_results","").replace("/editions?editionsView=true&referer=br","") for i in liens])

{'/title/allons-nous-sortir-de-lhistoire/oclc/1100451295',
 '/title/emirats-de-la-republique-comment-les-islamistes-prennent-possession-de-la-banlieue/oclc/1140404936',
 '/title/empoisonneurs-antisemitisme-islamophobie-xenophobie/oclc/1198222296',
 '/title/islamo-gauchisme/oclc/8760612072',
 '/title/islamo-gauchisme/oclc/8932537540',
 '/title/liaisons-dangereuses-islamo-nazisme-islamo-gauchisme/oclc/1248694509',
 '/title/livre-des-indesires-une-histoire-des-arabes-en-france/oclc/1084514701',
 '/title/negationnisme-de-gauche/oclc/1099928429',
 '/title/racines-de-lislamo-gauchisme-dossier/oclc/1057453730',
 '/title/racisme-imaginaire-islamophobie-et-culpabilite/oclc/974816801'}

In [41]:
a = liens[1]

In [45]:
a.attrs["href"]

'/'

### Ecrire une fonction pour récupérer les éléments dont on a besoin sur chacune des pages ...

In [66]:
url = "https://www.worldcat.org/title/islamo-gauchisme-du-pseudo-debat-a-la-realite-du-terrain/oclc/8999871764"

In [67]:
page = bs4.BeautifulSoup(requests.get(url).content)

In [73]:
details = page.find_all("div",{"id":"details"})[0]

In [79]:
resume = details.find_all("div",{"class":"abstracttxt"})[0].text
doctype =  details.find_all("tr",{"id":"details-doctype"})[0].text

In [87]:
def get_info(url):
    page = bs4.BeautifulSoup(requests.get(url).content)
    details = page.find_all("div",{"id":"details"})[0]
    resume = details.find_all("div",{"class":"abstracttxt"})[0].text
    doctype =  details.find_all("tr",{"id":"details-doctype"})[0].text
    return [url,resume,doctype]

In [89]:
url = "https://www.worldcat.org/title/islamo-gauchisme-du-pseudo-debat-a-la-realite-du-terrain/oclc/8999871764"
get_info(url)

['https://www.worldcat.org/title/islamo-gauchisme-du-pseudo-debat-a-la-realite-du-terrain/oclc/8999871764',
 "\n           Au cœur de ce débat qui prend des tournures toujours plus inattendues, j'ai eu la chance d'avoir une conversation exigeante et mesurée, afin de prendre un peu de recul. Merci à CTRL Z pour sa confiance et, au passage, pour ses articles d'une trop rare finesse sur le mondes numériques et les débats de notre temps ! La conversation menée avec la mirifique Elodie Safaris est accessible sur Youtube ou Spotify ; je vous incruste ici la version Youtube. https://www.youtube.com/embed/ausj14hU-e...",
 '\nDocument Type:\nArticle\n']

### Tout intégrer dans un script

In [None]:
corpus = []
for i in range(0,7):
    url = "https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start={}&qt=page_number_link".format(1+10*i)
    page = requests.get(url)
    page = bs4.BeautifulSoup(page.content)
    liens = page.find_all("a")
    liens = [i.attrs["href"] for i in liens if "href" in i.attrs and "/oclc/" in i.attrs["href"]]
    liens = set([i.replace("&referer=brief_results","").replace("/editions?editionsView=true&referer=br","") for i in liens])
    corpus+=list(liens)

data = []
for url in corpus:
    data.append(get_info(url))

## Moment 4 - Plus d'API, du point de vue humain à celui de l'ordinateur (Matthias, 15-30 min)

Différents types d'API / Généralisation

Différentes version d'API

Normalisation

REST/ GraphQL

usages plus compliqués : async

Créer sa propre API ? Garder la signature des fonctions

API non web

Poster

- Livres Gallica : https://api.bnf.fr/fr/wrapper-python-pour-les-api-gallica / https://github.com/ian-nai/PyGallica
- Vidéos : https://pypi.org/project/python-youtube/
- Scrapper plus complexes (scrapy, etc.)