# S√©ance 5 - Collecte de donn√©es et API

L'objectif de la s√©ance est de voir un peu de la collecte de donn√©es sur internet, et pour cela de commencer √† se familiariser avec la notion d'API.

L'id√©e √©tant que beaucoup de donn√©es existantes doivent √™tre acquises en s'interfa√ßant avec diff√©rents syst√®mes : serveurs, bases de donn√©es, etc. Tout cela conduit √† devoir ma√Ætriser diff√©rentes formes d'API

Quatre moments :
- Ce qu'est une API
- Une API avec cl√© d'acc√®s : le cas de Twitter
- Traiter des donn√©es du web sans API
- Quelques notions plus avanc√©es sur les API

https://medium.com/@perrysetgo/what-exactly-is-an-api-69f36968a41f

## Moment 1 - Ce qu'est une API

C'est quoi une API web, les donn√©es sur internet, etc.

Une API (interface de programmation d‚Äôapplication) est un ensemble de conventions explicite ou implicite permettant a un ou des ordinateurs/programmes de communiquer. 

Ces conventions sont importantes afin de developper en isolation relative, et/ou de r√©utilser/changer des biblioth√®ques. Ce qui fait (ou ne fait pas partie) d'une API peut parfois sembler subjectif.

Example "d'API" dans la vie de tous les jours.
 - Boulons/√âcroux : Le filetage est standard
 - Container
 - Code Barre.
 - 220V 
 - On conduit a droite (du moins en europe)
 - Hocher la t√™te pour dire "oui"
 - Vert gen√©ralement Positif, Rouge g√©n√©ralement N√©gatif
 - Les pi√®ces de monaies.
 - ...
 
 
Bien qu'aucune des conventions si-dessus soit n√©c√©ssaire pour une soci√©t√© bien huil√©e, il est g√©n√©ralement pr√©f√©rable de suivre ces conventions. Quelles conventions sont suivies peut parvois d√©pendre du context, et des personnes avec qui on interagis.

Une API en programation est similaire dans le sens ou :
  - La d√©finition exacte de API va d√©pendre du context ou l'on se place avec qui o√π quoi on communique
      - Aux US la notion de se "faire la bise" est une notion boolean
      - En Europe, √ßa fait √™tre combien, par quel cot√© en commence.
  - Tant que possible change peu
  
Cependant un API en programation was souvent avoir beaucoup plus de details dans ses valeurs, et va √™tre plus stricte; √©tant pr√©vu majoritairement pour communication machine <-> machine, (avec parfois le programmeur), la verbosit√© n'est pas un probl√®me.

Une API va souvent aussi contenir les donn√©s brutes, par example "2020-05-09T13:49:54+00:00" au lieu de "9 May 2020".

Les documentations D'API sont pratiquement toujours tr√®s abstraites, et la documentation va √™tre assez g√©n√©rique.

Par example l'API web de wikipedia est une instance de l'API wikimedia (le logiciel).

 - https://www.mediawiki.org/wiki/API:Main_page

Les API ne sont pas limitez au web ‚Äì nous en discuterons vers la fin du cours plus en details. 
Les ensembles de fonctions d'une librariries, leurs signatures et le types de donn√©es definisse un API. 

## API web

Lorsque vous cherchez a acceder √† des donn√©s sur le web, une des premi√®res √©tapes est de chercher si le service a une API; Le code que vous allez √©crire pour parler avec une API sera souvent plus simple, que de parser les donn√©s venant d'une page web.

Utiliser une API permet souvent de faire plus de choses que d'interagir directement avec le site web.

Contrairement aux site web o√π l'on va souvent parler de "pages", les API seront structur√©s en requetes et r√©ponses, dont les param√®tres sont strictes. 

Les r√©ponse sont rarement pr√©vues pour √™tre directement lues par l'humain.

Nous verrons aussi que les API sont souvent class√©s en categories, avec des acronymes ou non de technologies, (SOAP, RPC, RST, graphql)


Tout comme pour les pages web, nous allons faire des requ√™tes http(s), cepandant les r√©ponses seront pr√©vu pour √™tre lu par une machine. Un grand nombre de details que l'on ne vois pas quand on navigue le web peuvent devenir apparent. 

In [5]:
# examples de requ√™tes et r√©ponses

import requests
from requests import Request


response = requests.get('https://en.wikipedia.org/w/api.php?action=opensearch&search=social&limit=10', )
# https://en.wikipedia.org/w/api.php
#   ?    (standard)
#   action=opensearch
#   &    
#   search=social
#   &
#   limit=10
print(response.status_code) # 200 all is fine
print(response.content) # note it's bytes (actually json)

200
b'["social",["Social","Socialism","Social media","Socialist Federal Republic of Yugoslavia","Social democracy","Societal collapse","Sociology","Social networking service","Social issue","Social science"],["","","","","","","","","",""],["https://en.wikipedia.org/wiki/Social","https://en.wikipedia.org/wiki/Socialism","https://en.wikipedia.org/wiki/Social_media","https://en.wikipedia.org/wiki/Socialist_Federal_Republic_of_Yugoslavia","https://en.wikipedia.org/wiki/Social_democracy","https://en.wikipedia.org/wiki/Societal_collapse","https://en.wikipedia.org/wiki/Sociology","https://en.wikipedia.org/wiki/Social_networking_service","https://en.wikipedia.org/wiki/Social_issue","https://en.wikipedia.org/wiki/Social_science"]]'


Note:

>  Les param√®tres dans l'URL sont visible par votre fournisseur d'access, et toute personnes entre vous et le serveur. Contrairement au header et body.
    

In [8]:
# Request?
# Request.<tab>

On est content, wikipedia retourne du json, c'est "facile" a parsr

In [9]:
response.json()

['social',
 ['Social',
  'Socialism',
  'Social media',
  'Socialist Federal Republic of Yugoslavia',
  'Social democracy',
  'Societal collapse',
  'Sociology',
  'Social networking service',
  'Social issue',
  'Social science'],
 ['', '', '', '', '', '', '', '', '', ''],
 ['https://en.wikipedia.org/wiki/Social',
  'https://en.wikipedia.org/wiki/Socialism',
  'https://en.wikipedia.org/wiki/Social_media',
  'https://en.wikipedia.org/wiki/Socialist_Federal_Republic_of_Yugoslavia',
  'https://en.wikipedia.org/wiki/Social_democracy',
  'https://en.wikipedia.org/wiki/Societal_collapse',
  'https://en.wikipedia.org/wiki/Sociology',
  'https://en.wikipedia.org/wiki/Social_networking_service',
  'https://en.wikipedia.org/wiki/Social_issue',
  'https://en.wikipedia.org/wiki/Social_science']]

In [11]:
res = requests.get("https://en.wikipedia.org/w/api.php?"
    "action=query"
    "&prop=revisions"
    "&titles=Sociology"
    "&rvprop=content"
    "&rvslots=main&formatversion=2"
    "&format=json")
#res.json()

En pratique, on on va chercher des biblioth√®ques qui font √ßa pour Nous. De la m√™me mani√®re qu'on preferera `pd.read_csv(...)` au lieu de `with open(...) as f:...`. 



In [14]:
pip install wikipedia

Collecting wikipedia
  Using cached wikipedia-1.4.0-py3-none-any.whl
Collecting beautifulsoup4
  Downloading beautifulsoup4-4.9.3-py3-none-any.whl (115 kB)
[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 115 kB 2.0 MB/s eta 0:00:01
Collecting soupsieve>1.2
  Downloading soupsieve-2.2.1-py3-none-any.whl (33 kB)
Installing collected packages: soupsieve, beautifulsoup4, wikipedia
Successfully installed beautifulsoup4-4.9.3 soupsieve-2.2.1 wikipedia-1.4.0
You should consider upgrading via the '/Users/bussonniermatthias/miniconda3/bin/python -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [12]:
import wikipedia

In [13]:
res = wikipedia.search('Sociology')
res

['Sociology',
 'Lifestyle (sociology)',
 'Dramaturgy (sociology)',
 'Economic sociology',
 'Positivism',
 'Sociology of religion',
 'Dyad (sociology)',
 'Deviance (sociology)',
 'Sociology of education',
 'Sociology (disambiguation)']

Avant de comencer sur l'utilisation de la biblioth√®ques wikipedia, notons que l'utilisation d'une API peut souvent √™tre contraint √† des limites l√©gales. Il se peut que vous ayez a cr√©er un compte developpeur; et indiquez la raison pour laquelle vous ustilisez un API. 

Certaines API sont "officielles" (wikipedia, github), d'autre pas (instagram, une partie de twitter).

Les API sont aussi souvent limiter en nombre de requ√®tes par heure; il est souvent facile de faire une boucle "for" et de d√©passer la limite.

Les API ne sont pas limit√© √† r√©cup√©rer des donn√©es, il est aussi possible de modifier/ajouter.

<!--
API : approche tr√®s computer science

API, notion g√©n√©rale, et notion orient√©e web sur laquelle nous allons d'abord commencer dans ce cours.

API et wrappers; Lien avec les biblioth√®ques

-> S3

Petit point sur plus g√©n√©ralement la manipulation de donn√©es : Sensibilisation aux limites l√©gales etc.

-->

## Quelques √©l√©ments √† savoir faire :

- Rechercher, regarder la documentation, mettre en oeuvre et r√©cup√©rer les donn√©es
- V√©rifier l'actualit√© de l'API (ex. de GetOldTweets)
- Trois cas rapide : Wikip√©dia & Google Scholar

Quelques exemples possibles

### Wikip√©dia

https://pypi.org/project/wikipedia/

Les diff√©rents √©l√©ments autour de Python

Exemple du fait qu'elle a chang√© entre notre code et la publi du bouquin.

Notons que la bilioth√®que pythno `wikipedia` √† elle m√™me une "API" dans le sens g√©n√©ral:

```
wikipedia.wikipedia.page(
    title=None,
    pageid=None,
    auto_suggest=True,
    redirect=True,
    preload=False,
)
```

Si on renomais "pageid" en "id", l'API changerai.

L'API de wikipedia a aussi chang√© en Automne 2020. "search" ne revoyais pas les pages de d√©ambiguataion auparavent et le fait maintenant. Les pages de desambiguations n'ont pas de contenu.

In [14]:
page = wikipedia.page(res[0])
page.content[:100]+'...'

'Sociology is the study of society, human social behaviour, patterns of social relationships, social ...'

Remarquez que nous obtenons ici les donn√©es brutes sans l'expansion des templates.

In [16]:
wikipedia.set_lang("fr")

In [17]:
wikipedia.search('Sociology')

['Sociologie',
 'Sociology',
 'Interactionnisme structural',
 'Sociologie des sciences',
 'Histoire de la sociologie',
 'Th√©orie sociologique',
 'Cisgenre',
 'Georg Simmel',
 'La Construction sociale de la r√©alit√©',
 'Contemporary Sociology']

In [27]:
page = wikipedia.page('Lausanne')

In [25]:
page.coordinates

(Decimal('48.60249999999999914734871708787977695465087890625'),
 Decimal('-2.824166669999999879081542530911974608898162841796875'))

En particulier en remarquera que les API nous retournes des donn√©s qui sont pr√©vu pour ne pas √™tre au format text.

### G√©olocalisation avec OSM

https://pypi.org/project/geocoder/0.5.7/

In [2]:
import geocoder
g = geocoder.osm('Lausanne, Suisse')
g.latlng

[48.6007887, -2.8248754]

### Google Scholar

Par exemple pour faire de la scientom√©trie

https://scholarly.readthedocs.io/en/latest/quickstart.html

In [29]:
from scholarly import scholarly

In [31]:
# Retrieve the author's data, fill-in, and print
search_query = scholarly.search_author('√âmilien Schultz')
author = scholarly.fill(next(search_query))
print(author['name'])

# Print the titles of the author's publications
#print([pub['bib']['title'] for pub in author['publications']])

# Take a closer look at the first publication
#pub = scholarly.fill(author['publications'][0])
#print(pub)

# Which papers cited that publication?
#print([citation['bib']['title'] for citation in scholarly.citedby(pub)])

Emilien Schultz


## Moment 2 - Utiliser une API plus complexe : Twitter (Emilien, 30 min)

- Tweepy : https://github.com/tweepy/tweepy
- Regarder la documentation
- l'API Twitter, cr√©er un compte et demander des cr√©dentiels
- Mettre ses cr√©dentials
- Collecter les tweets r√©cents sur pyshs ?
- Collecter les tweets autour d'islamogauchiste sur une p√©riode
- Regarder les donn√©es et les mettre en forme
- Cr√©er un collecteur qui s'inscrit dans le temps...

Faire un test avec le tutorial de tweepy : les deux √©tapes de configuration de l'API puis son utilisation

In [28]:
import tweepy

consumer_key = "mHqUaZkujRDAAn20gJJAHu3ly"
consumer_secret = "Iz237BNqXCSStFetp196GwNBXWNTHmmJFit6ZcdxAwwHP17rf0"
access_token = "1388816341516365825-uQKcLImidWmUhCpNoeVXtftbvDA6tO"
access_token_secret = "m9ug3cTZIdMAY14ktwd0WXB8ms8HKdijmUMyFnOxWxtKJ"


auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)

api = tweepy.API(auth)

public_tweets = api.home_timeline()
for tweet in public_tweets:
    print(tweet.text)

Open source maintainers be like "Hey we'd like money to develop faster CPUs" and businesses be line, "no thank you‚Ä¶ https://t.co/tZfdeleGS7
RT @_msw_: We are hiring for the AWS SageMaker #OpenSource JupyterLab contribution team.

This role will be focused on upstream development‚Ä¶
RT @david_latouche: Basthon, est une interface en ligne, d√©velopp√©e par Romain CASATI @BasthonPython, respectueuse de votre vie priv√©e. Ell‚Ä¶
RT @_rlg: Cette vid√©o, fou rire du matin (envoy√©e par un doctorant du labo, du coup je me demande √† quel couplet j'en suis...).  https://t.‚Ä¶
RT @Nature: Switzerland‚Äôs largest government research-funding agency, @snsf_ch, has started using a random-selection process as a tiebreake‚Ä¶
RT @JohnBlaxland1: Wow! A designer made a 'map of the internet' depicting 3,000 websites as countries in an online world https://t.co/dXyCH‚Ä¶
Saturday night, can't connect to bank account. Open JS console. Refresh. ... seeing the logs I guess someone is deb‚Ä¶ https://t.co/Sby

Poster un tweet

In [None]:
t = api.update_status("Pr√©paration de la prochaine s√©ance du cours #pyshs √† Lausanne - les API. Test de l'API :)")

Mettre le statut √† jour

In [32]:
t = api.update_profile(description="R√©flexion collective autour de Python pour les Sciences Humaines et Sociales")

Etudier un utilisateur

In [37]:
user = api.get_user("pyshs1")
user.id

1388816341516365825

R√©cup√©rer tous les tweets mentionnant pyshs

R√©cup√©rer tous les tweets mentionnant islamogauchisme

In [41]:
corpus = api.search(q="islamogauchisme",count=100,lang="fr")
len(corpus)
#for tweet in corpus:
#    print(tweet.text)

100

In [51]:
type(corpus)

tweepy.models.SearchResults

In [8]:
corpus = [i for i in corpus]

In [13]:
t = corpus[1]
t.user.screen_name

'EstelleNasty'

In [64]:
t.created_at

datetime.datetime(2021, 5, 15, 12, 28, 20)

Int√©grer ensuite ces donn√©es dans un traitement : par exemple en faire un tableau

In [18]:
import pandas as pd
tableau = pd.DataFrame([[t.id_str,t.created_at,i.user.id,i.user.screen_name, i.text,i.user.location] for i in corpus])

In [21]:
tableau[3].value_counts()

Orfeo_Giorgi      3
_Attano_          3
CestinEric        2
divineFrance21    2
CarminaRosa19     2
                 ..
RDD271999019      1
lohoudominique    1
DelatourRegis     1
tonioaa1          1
Adlost5           1
Name: 3, Length: 91, dtype: int64

Attention limite de 7 jours

Diff√©rents niveaux d'acc√®s : API premium
- https://developer.twitter.com/en/account/environments

In [None]:
corpus = api.search_full_archive(environment_name="training",query="islamogauchisme")

Pas si facile de se constituer un corpus ...

Petite r√©flexion sur la s√©curit√© des donn√©es avec des codes ? Rendre public ?

In [None]:
import json

consumer_key = "mHqUaZkujRDAAn20gJJAHu3ly"
consumer_secret = "Iz237BNqXCSStFetp196GwNBXWNTHmmJFit6ZcdxAwwHP17rf0"
access_token = "1388816341516365825-pQddB13qZxsz3DSHqeKMW8vmHAq2OY"
access_token_secret = "mSIM8JQwJi3IU1F5MF9bLWRVQIlPzD3d1LHPjCfYu74L3"

codes = {"consumer_key":consumer_key,"consumer_secret":consumer_secret,
         "access_token":access_token,"access_token_secret":access_token_secret}

with open("twitter.keys","w") as f:
    json.dump(codes,f)
    
with open("twitter.keys","r") as f:
    codes = json.load(f)

Cr√©er une collecte en continue de tweets :
- les strat√©gies ?
- aller plus loin dans la compr√©hension de Python

On a donc plusieurs briques qui permettent de cr√©er notre traitement de donn√©es

Des usages plus avanc√©s de l'API : collecter un flux de tweets

- un scrit qui fait une veille permanente
- doit √™tre ex√©cut√© sur un ordinateur dans la dur√©e (serveur ?)
- des √©l√©ments des biblioth√®ques permettant de coder ce type

In [4]:
import tweepy
import json

# StreamListener class inherits from tweepy.StreamListener and overrides on_status/on_error methods.
class StreamListener(tweepy.StreamListener):
    def on_status(self, status):
        print(status.id_str)
        # if "retweeted_status" attribute exists, flag this tweet as a retweet.
        is_retweet = hasattr(status, "retweeted_status")

        # check if text has been truncated
        if hasattr(status,"extended_tweet"):
            text = status.extended_tweet["full_text"]
        else:
            text = status.text

        # check if this is a quote tweet.
        is_quote = hasattr(status, "quoted_status")
        quoted_text = ""
        if is_quote:
            # check if quoted tweet's text has been truncated before recording it
            if hasattr(status.quoted_status,"extended_tweet"):
                quoted_text = status.quoted_status.extended_tweet["full_text"]
            else:
                quoted_text = status.quoted_status.text

        # remove characters that might cause problems with csv encoding
        remove_characters = [",","\n"]
        for c in remove_characters:
            text.replace(c," ")
            quoted_text.replace(c, " ")
            
        with open("tweets/"+status.id_str,"w") as f:
            json.dump(status._json,f)

    def on_error(self, status_code):
        print("Encountered streaming error (", status_code, ")")


def launch():
    try:
        auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
        auth.set_access_token(access_token, access_token_secret)
        api = tweepy.API(auth)
        print("API initialis√©e")
        streamListener = StreamListener()
        stream = tweepy.Stream(auth=api.auth, listener=streamListener,tweet_mode='extended')
        tags = ["islamogauchisme"]
        stream.filter(track=tags)
    except:
        print("Erreur rencontr√©e")
        #launch()
    
launch()

API initialis√©e
1393549207861071875
Erreur rencontr√©e


Les limites de Tweepy, et la n√©cessit√© de passer par l'API Twitter
- https://developer.twitter.com/en/docs/twitter-api/tweets/search/introduction
- https://github.com/twitterdev/search-tweets-python

## Moment 3 - Pas d'API : collecter directement des donn√©es sur internet (Emilien, 30 min)

- Dans certains cas il n'y a pas d'API disponible, r√©cup√©rer directement les donn√©es par les interfaces "standard"
- Utiliser requests et BeautifulSoup
- Importance de la r√©tro-ing√©nieurie : comprendre l'architecture d'une page web
- Diff√©rentes strat√©gies : regex ou biblioth√®ques plus avanc√©es
- R√©cup√©rer des images ?

R√©cup√©rer des notices de livres Python sur Wordcat https://www.worldcat.org/ puis mettre en forme dans un fichier
- chercher islamo-gauchisme
- voir la forme de l'URL https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=21&qt=page_number_link

D√©marche : 
- r√©cup√©rer les pages de r√©sultat
- construire un tableau des liens vers les r√©sultats
- r√©cup√©rer chaque notice

### Premi√®re √©tape regarder un peu les √©l√©ments

### R√©cup√©rer une page avec requests

Une page

In [4]:
import requests

url = "https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=1&qt=page_number_link"

page = requests.get(url)

Toutes les pages

In [18]:
pages = []
for i in range(0,7):
    url = "https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start={}&qt=page_number_link".format(1+10*i)
    print(url)
    page = requests.get(url)
    pages.append(page)

https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=1&qt=page_number_link
https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=11&qt=page_number_link
https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=21&qt=page_number_link
https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=31&qt=page_number_link
https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=41&qt=page_number_link
https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=51&qt=page_number_link
https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start=61&qt=page_number_link


Extraire les liens : un peu de r√©troing√©nierie

Plusieurs strat√©gies :
- tous les liens et filtrer
- respecter la structure du document

### Se balader dans la structure html : BeautifoulSoup

In [26]:
import bs4

In [30]:
page = bs4.BeautifulSoup(pages[0].content)

In [32]:
liens = page.find_all("a")

In [50]:
liens = [i.attrs["href"] for i in liens if "href" in i.attrs and "/oclc/" in i.attrs["href"]]

In [53]:
set([i.replace("&referer=brief_results","").replace("/editions?editionsView=true&referer=br","") for i in liens])

{'/title/allons-nous-sortir-de-lhistoire/oclc/1100451295',
 '/title/emirats-de-la-republique-comment-les-islamistes-prennent-possession-de-la-banlieue/oclc/1140404936',
 '/title/empoisonneurs-antisemitisme-islamophobie-xenophobie/oclc/1198222296',
 '/title/islamo-gauchisme/oclc/8760612072',
 '/title/islamo-gauchisme/oclc/8932537540',
 '/title/liaisons-dangereuses-islamo-nazisme-islamo-gauchisme/oclc/1248694509',
 '/title/livre-des-indesires-une-histoire-des-arabes-en-france/oclc/1084514701',
 '/title/negationnisme-de-gauche/oclc/1099928429',
 '/title/racines-de-lislamo-gauchisme-dossier/oclc/1057453730',
 '/title/racisme-imaginaire-islamophobie-et-culpabilite/oclc/974816801'}

In [41]:
a = liens[1]

In [45]:
a.attrs["href"]

'/'

### Ecrire une fonction pour r√©cup√©rer les √©l√©ments dont on a besoin sur chacune des pages ...

In [66]:
url = "https://www.worldcat.org/title/islamo-gauchisme-du-pseudo-debat-a-la-realite-du-terrain/oclc/8999871764"

In [67]:
page = bs4.BeautifulSoup(requests.get(url).content)

In [73]:
details = page.find_all("div",{"id":"details"})[0]

In [79]:
resume = details.find_all("div",{"class":"abstracttxt"})[0].text
doctype =  details.find_all("tr",{"id":"details-doctype"})[0].text

In [87]:
def get_info(url):
    page = bs4.BeautifulSoup(requests.get(url).content)
    details = page.find_all("div",{"id":"details"})[0]
    resume = details.find_all("div",{"class":"abstracttxt"})[0].text
    doctype =  details.find_all("tr",{"id":"details-doctype"})[0].text
    return [url,resume,doctype]

In [89]:
url = "https://www.worldcat.org/title/islamo-gauchisme-du-pseudo-debat-a-la-realite-du-terrain/oclc/8999871764"
get_info(url)

['https://www.worldcat.org/title/islamo-gauchisme-du-pseudo-debat-a-la-realite-du-terrain/oclc/8999871764',
 "\n           Au c≈ìur de ce deÃÅbat qui prend des tournures toujours plus inattendues, j'ai eu la chance d'avoir une conversation exigeante et mesureÃÅe, afin de prendre un peu de recul. Merci aÃÄ CTRL Z pour sa confiance et, au passage, pour ses articles d'une trop rare finesse sur le mondes numeÃÅriques et les deÃÅbats de notre temps ! La conversation meneÃÅe avec la mirifique Elodie Safaris est accessible sur Youtube ou Spotify ; je vous incruste ici la version Youtube. https://www.youtube.com/embed/ausj14hU-e...",
 '\nDocument Type:\nArticle\n']

### Tout int√©grer dans un script

In [None]:
corpus = []
for i in range(0,7):
    url = "https://www.worldcat.org/search?q=islamo-gauchisme&fq=&dblist=638&start={}&qt=page_number_link".format(1+10*i)
    page = requests.get(url)
    page = bs4.BeautifulSoup(page.content)
    liens = page.find_all("a")
    liens = [i.attrs["href"] for i in liens if "href" in i.attrs and "/oclc/" in i.attrs["href"]]
    liens = set([i.replace("&referer=brief_results","").replace("/editions?editionsView=true&referer=br","") for i in liens])
    corpus+=list(liens)

data = []
for url in corpus:
    data.append(get_info(url))

## Moment 4 - Plus d'API, du point de vue humain √† celui de l'ordinateur (Matthias, 15-30 min)

Diff√©rents types d'API / G√©n√©ralisation


Les bilioth√®ques peuvent avoir un notion d'API.

 - Par exemple Vaex, et Dask-dataframe sont deux biblioth√®ques qui expose une API similaire a Pandas, inndiquant 

Diff√©rentes version d'API

 - les biblioth√®ques vont souvent essayer de garder un API similaire pour des version proche. En g√©n√©ral une biblioth√®que version X.y.z and X.a.b vont avoir des API "compatible".

 - Les API web parfois on la possibilit√© de choisir la version de l'API avec laquelle on interagit.

usages plus compliqu√©s : async/await

 - Pour la collection massive de donn√©es, cherchez async/await qui permet de r√©cuperer des r√©sultats de mani√®re concourante. 
 - Rate limits
Cr√©er sa propre API ? Garder la signature des fonctions / https://fastapi.tiangolo.com/



S3 / Lien avec les bases de donn√©es ? Exemple de sqlite ? https://docs.python.org/3/library/sqlite3.html 

Quelques liens

- Livres Gallica : https://api.bnf.fr/fr/wrapper-python-pour-les-api-gallica / https://github.com/ian-nai/PyGallica
- Vid√©os : https://pypi.org/project/python-youtube/


## Quelques Termes  quand on parle d'API.

(Pas besoin de retenir, mais au cas o√π). 

REST est un type d'API assez courant, utilis√© pour modifier des "documents" ‚Äì¬†par example, tweets, page wikipedia.
  - GET (requests.get) pour obtenir un document 
  - POST (request.post) g√©n√©rique en parculier si il y a des informations qui ne sont pas dans l'URL √† envoyer au serveur.
  - PUT (request.put) pour t√©l√©verser un document
  - PATCH (request.patch) pour modifier un document
  - HEAD (request.head) recevoir  uniquement les metadonn√©es
  - DELETE (request.delete)
  
Dans la documentation on Anglais il peut √™tre difficile de rep√©rer que ces termes sont des termes techniques.


Status Code:
  - 2xx : Tout vas bien
  - 3xx (souvent 304) : Probl√®me d'autentification
  - 4xx : √ßa existe pas.
  - 5xx : donn√©es incorrect ou le serveur a plant√©.
  
HTTP(s):

  - body and header. (encryted) 
     - header = Metadata
     - body = content

In [38]:
for k,v in response.headers.items():
    print(f"{k:<30}", v)

Date                           Thu, 20 May 2021 05:23:36 GMT
Server                         mw1406.eqiad.wmnet
X-Content-Type-Options         nosniff
P3p                            CP="See https://en.wikipedia.org/wiki/Special:CentralAutoLogin/P3P for more info."
X-Search-Id                    39vc56oobudouvqoqe48u5tyt
X-Opensearch-Type              comp_suggest
X-Frame-Options                SAMEORIGIN
Content-Disposition            inline; filename=api-result.json
Vary                           Accept-Encoding,Treat-as-Untrusted,X-Forwarded-Proto,Cookie,Authorization
Expires                        Thu, 20 May 2021 08:23:36 GMT
Cache-Control                  max-age=10800, s-maxage=10800, public
X-Request-Id                   d6b4e1be-2c60-4568-bb2d-07d9b429400f
Content-Type                   application/json; charset=utf-8
Content-Encoding               gzip
Age                            19
X-Cache                        cp4030 miss, cp4029 hit/1
X-Cache-Status                 hit-f

      
 

Reseaux-Sociaux:

  - GraphQL: Renvoie uniquement les elements demand√©s + r√©cursif. Tout ce qui est difficile en tabulaire.
    "@pyshs1 -> Tweet avec le plus de like -> utilisateur qui on lik√© ce tweet -> nom d'utilisateur".
      
 