# TP 1

## Objectifs

- Analyser et travailler avec des fichiers CSV, TSV et JSON
- Interroger des sources de données externes
- Analyses de données

### Exercices

1.  Installation et mise en place de pip, scikit-learn et jupyter
2.  Analyse et lecture de fichiers CSV/TSV
3.  Analyse et lecture des fichiers JSON
4.  Interrogation de sources de données externes (API)
5.  Effectuer des analyses de données classiques


## Captures d'écran 

Des captures d'écran ont été fournies afin que vous puissiez vérifier et comparer si le résultat que vous obtenez correspond à ce que nous attendons de l'étape (ou de l'exercice) en question.

## Exercice 1



##### Installation

Exécutez les commandes suivantes sur vos **machines virtuelles**



**pip**

Pour installer `pip`, vous devez exécuter les commandes suivantes sur votre terminal :

Veuillez remarquer que toutes les lignes commençant par "$" doivent être exécutées sur le terminal.

`$ sudo apt update`

`$ sudo apt install python3-dev`

`$ sudo apt install python3-pip`

Installation de virtualenv

`$ sudo apt install virtualenv`

Installation dans virtualenv



`$ virtualenv --system-site-packages -p python3 env`

`$ source env/bin/activate`

Installation de Jupyter

`$ python3 -m pip install --upgrade --force-reinstall  --no-cache jupyter`

Installation de scikit-learn

`$ python3 -m pip install scikit-learn`

Installation de  numpy

`$ python3 -m pip install numpy`

Installation de  pandas

`$ python3 -m pip install pandas`

Installation de matplotlib

`$ python3 -m pip install matplotlib`

#### Hello World!

Si votre installation est réussie, vous pouvez exécuter la commande suivante pour cloner le répertoire:

`$ git clone https://github.com/johnsamuelwrites/DataMining`

`$ cd DataMining`

Lancez Jupyter Notebook (ou Lab)

`$ jupyter notebook`

ou

`$ jupyter lab`

Une nouvelle page apparaîtra sur votre navigateur et vous verrez l'image suivante ![](../../images/jupyter.png)

Cliquez sur l'onglet "Running". Vous ne voyez aucun notebook en cours d'exécution (si c'est la première fois que vous utilisez jupyter).
![](../../images/jupyterrunning.png)

Retournez à l'onglet "Files", cliquez sur "New" et choisissez Python3 sous
Notebook. 

![](../../images/jupyternotebooks.png)

Un nouvel onglet s'ouvrira comme indiqué ci-dessous. Inscrivez le code suivant dans la cellule.



In [None]:
print("Hello World!")

![](../../images/jupyterprogram.png)

Vous pouvez vous déplacer dans n'importe quelle cellule et appuyer sur "Run".

Par défaut, votre notebook est nommé "Untitled". Vous pouvez le renommer comme indiqué ci-dessous, en cliquant sur le nom "Untitled" et en lui donnant un nouveau nom.

![](../../images/jupyterrenamenotebook.png)

Retournez maintenant à l'onglet "Files" et vous pouvez voir le Notebook renommé.
Vous pouvez cliquer sur votre Notebook à tout moment pour continuer à travailler.

![](../../images/jupyternotebooks.png)

Maintenant, continuons à travailler sur votre Notebook actuel. Ecrivez le code suivant pour vérifier si scikit est correctement installé.

Le code ci-dessous indique les ensembles de données disponibles de scikit.


In [None]:
from sklearn import datasets

print(datasets.__all__)

![](../../images/jupyterscikit.png)

Maintenant, vous êtes prêt à exécuter le code !

**Remarque:**, Vous pouvez arrêter le Notebook Jupyter à tout moment en tapant "Ctrl+c" sur le terminal et en appuyant sur "y" pour confirmer l'arrêt.

Effectuez les exercices (facultatifs) donnés dans le [TP 0](../TP0/tp0.ipynb)

## Exercice 2


La plupart du temps, nous travaillons avec des fichiers CSV (comma-separated values) pour l'analyse des données. Un fichier CSV est constitué d'une ou plusieurs lignes et chaque ligne comporte une ou plusieurs valeurs séparées par des virgules. On peut considérer chaque ligne comme une rangée et chaque valeur d'une ligne comme une valeur de colonne. La première ligne est parfois utilisée pour décrire les noms des colonnes.


Copier le fichier
[pl.csv](../../data/pl.csv) dans votre répertoire de travail actuel (où vous exécutez Jupyter : TP1) et utilisez le code suivant pour analyser le fichier csv. Remarquez les noms de colonnes et les types de données (U100, i4), où U100 correspond à une chaîne unicode de 100 caractères et i4 correspond à un entier signé de 32 bits.

Veuillez consulter la liste complète des dtypes [ici](https://numpy.org/doc/stable/reference/arrays.dtypes.html).


In [None]:
import numpy as np

dataset = np.loadtxt(
    "../../data/pl.csv",  # Remplacez cette valeur par le chemin d'accès de votre fichier CSV.
    dtype={"names": ("name", "year"), "formats": ("U100", "i4")},
    skiprows=1,  # passez la première ligne, puisque c'est l'en-tête
    delimiter=",",  # le séparateur est une virgule puisqu'il s'agit d'un fichier CSV.
    encoding="UTF-8",  # encodage UTF-8
)
print(dataset)

![](../../images/numpycsv.png)

[Soutien du CSV en numpy](https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html)
(**Ref:**
(https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html))
est différent du défaut de Python [CSV
reader](https://docs.python.org/3.9/library/csv.html) (**Ref:**
(https://docs.python.org/3.9/library/csv.html))
en raison de sa capacité à prendre en charge les [types de données](https://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html)
(**Ref:**
(https://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html)).
Avant de continuer, examinez en profondeur
[numpy.loadtxt](https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html)
(**Ref:**
(https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html)).

  

Copier le fichier
[pl.tsv](../../data/pl.tsv) dans votre répertoire de travail actuel et utilisez le code suivant pour analyser le fichier TSV.



In [None]:
import numpy as np

dataset = np.loadtxt(
    "../../data/pl.tsv",  # Remplacez cette valeur par le chemin d'accès de votre fichier TSV.
    dtype={"names": ("name", "year"), "formats": ("U100", "i4")},
    skiprows=1,
    delimiter="\t",  # le séparateur est '\t' puisqu'il s'agit d'un fichier TSV.
    encoding="UTF-8",
)
print(dataset)

Les changements dans le code ci-dessus par rapport au précédent. Un fichier TSV est un fichier séparé par des tabulations, c'est-à-dire que les valeurs des colonnes sont séparées par un
tabulation ((\t)).


In [None]:
print(len(dataset))

Vous pouvez également afficher la sortie des variables et méthodes dans un Notebook sans `print()`

In [None]:
len(dataset)

## Exercice 3

La plupart des sources de données externes peuvent fournir leurs données au format JSON.
Notre prochain exercice consiste à analyser les fichiers JSON. Copiez le fichier
[pl.json](../../data/pl.json) à votre répertoire de travail actuel et utilisez le code suivant pour analyser le fichier JSON. Dans cet exercice, nous utilisons [Pandas python
package](https://pandas.pydata.org/pandas-docs/stable/) (**Ref:**
(https://pandas.pydata.org/pandas-docs/stable/)) d'analyser le fichier JSON pour obtenir un [Pandas DataFrame](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)
(**Ref:**
(https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)).
Essayez d'utiliser des méthodes comme
[transpose](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.transpose.html#pandas.DataFrame.transpose)
(**Ref:**
(https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.transpose.html#pandas.DataFrame.transpose)),
[count](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.count.html#pandas.DataFrame.count)
(**Ref:**
(https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.count.html#pandas.DataFrame.count))
etc.

Avant de continuer cet exercice, veuillez vous entraîner à travailler avec des pandas.
Consultez [10 minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html)
(**Ref:** (https://pandas.pydata.org/pandas-docs/stable/10min.html)).



In [1]:
from pandas import json_normalize
import pandas as pd
import json

data = json.load(open("../../data/pl.json"))
dataframe = json_normalize(data)
print(dataframe)

                                languageLabel  year
0                         ENIAC coding system  1943
1                            ENIAC Short Code  1946
2   Von Neumann and Goldstine graphing system  1946
3                                ARC Assembly  1947
4                                  Plankalkül  1948
..                                        ...   ...
95                                       BCPL  1967
96                                  Interlisp  1967
97                                     Simula  1967
98                                        XPL  1967
99                                      PILOT  1968

[100 rows x 2 columns]


Et l'affichage sans `print()`

In [2]:
dataframe

Unnamed: 0,languageLabel,year
0,ENIAC coding system,1943
1,ENIAC Short Code,1946
2,Von Neumann and Goldstine graphing system,1946
3,ARC Assembly,1947
4,Plankalkül,1948
...,...,...
95,BCPL,1967
96,Interlisp,1967
97,Simula,1967
98,XPL,1967


Pour afficher les valeurs de la colonne **year**:

In [3]:
dataframe["year"]

0     1943
1     1946
2     1946
3     1947
4     1948
      ... 
95    1967
96    1967
97    1967
98    1967
99    1968
Name: year, Length: 100, dtype: object

Pour afficher les valeurs de la colonne **languageLabel**:

In [None]:
dataframe["languageLabel"]

Obtenir des informations importantes comme le nombre, le minimum, le maximum en utilisant `describe()`

In [None]:
dataframe.describe()

Pour obtenir les valeurs uniques de la colonne **year** :

In [None]:
dataframe["year"].unique()

Pour obtenir les valeurs uniques de la colonne **languageLabel** :

In [None]:
dataframe["languageLabel"].unique()

Pour trier les valeurs par une ou plusieurs colonnes

In [None]:
dataframe.sort_values(["year"])

In [None]:
dataframe.sort_values(["year", "languageLabel"])

In [None]:
dataframe.sort_values(["languageLabel"])

Pour obtenir les types de données des colonnes

In [None]:
dataframe.dtypes

## Exercice 4

Dans cet exercice, nous examinerons comment télécharger des données à partir
des sources de données externes utilisant des interfaces d'interrogation spéciales. Par exemple, les données ci-dessus ont été obtenues à partir de [Wikidata query](https://query.wikidata.org/) 

![](../../images/wikidataquery.png)

Vous trouverez ci-dessous le code permettant de lire les données provenant d'une source externe. Utilisez ce
[url](https://query.wikidata.org/sparql?query=SELECT%20%3FlanguageLabel%20(YEAR(%3Finception)%20as%20%3Fyear)%0AWHERE%0A%7B%0A%20%20%23instances%20of%20programming%20language%0A%20%20%3Flanguage%20wdt%3AP31%20wd%3AQ9143%3B%0A%20%20%20%20%20%20%20%20%20%20%20%20wdt%3AP571%20%3Finception%3B%0A%20%20%20%20%20%20%20%20%20%20%20%20rdfs%3Alabel%20%3FlanguageLabel.%0A%20%20FILTER(lang(%3FlanguageLabel)%20%3D%20%22en%22)%0A%7D%0AORDER%20BY%20%3Fyear%0ALIMIT%20100&format=json):
(https://query.wikidata.org/sparql?query=SELECT%20%3FlanguageLabel%20(YEAR(%3Finception)%20as%20%3Fyear)%0AWHERE%0A%7B%0A%20%20%23instances%20of%20programming%20language%0A%20%20%3Flanguage%20wdt%3AP31%20wd%3AQ9143%3B%0A%20%20%20%20%20%20%20%20%20%20%20%20wdt%3AP571%20%3Finception%3B%0A%20%20%20%20%20%20%20%20%20%20%20%20rdfs%3Alabel%20%3FlanguageLabel.%0A%20%20FILTER(lang(%3FlanguageLabel)%20%3D%20%22en%22)%0A%7D%0AORDER%20BY%20%3Fyear%0ALIMIT%20100&format=json).



In [4]:
import urllib.request
import json
import pandas as pd

url = "https://query.wikidata.org/sparql?query=SELECT%20%3FlanguageLabel%20(YEAR(%3Finception)%20as%20%3Fyear)%0AWHERE%0A%7B%0A%20%20%23instances%20of%20programming%20language%0A%20%20%3Flanguage%20wdt%3AP31%20wd%3AQ9143%3B%0A%20%20%20%20%20%20%20%20%20%20%20%20wdt%3AP571%20%3Finception%3B%0A%20%20%20%20%20%20%20%20%20%20%20%20rdfs%3Alabel%20%3FlanguageLabel.%0A%20%20FILTER(lang(%3FlanguageLabel)%20%3D%20%22en%22)%0A%7D%0AORDER%20BY%20%3Fyear%0ALIMIT%20100&format=json"
response = urllib.request.urlopen(url)
responsedata = json.loads(response.read().decode("utf-8"))

array = []

for data in responsedata["results"]["bindings"]:
    array.append([data["year"]["value"], data["languageLabel"]["value"]])

dataframe = pd.DataFrame(array, columns=["year", "languageLabel"])
dataframe = dataframe.astype(dtype={"year": "<i4", "languageLabel": "<U200"})
print(dataframe)

    year                              languageLabel
0   1942                                 Plankalkül
1   1943                        ENIAC coding system
2   1946                           ENIAC Short Code
3   1946  Von Neumann and Goldstine graphing system
4   1947                               ARC Assembly
..   ...                                        ...
95  1967                                        XPL
96  1967                 Space Programming Language
97  1968                                      Refal
98  1968                                       CICS
99  1968                                      FOCAL

[100 rows x 2 columns]


In [6]:
dataframe

Unnamed: 0,year,languageLabel
0,1942,Plankalkül
1,1943,ENIAC coding system
2,1946,ENIAC Short Code
3,1946,Von Neumann and Goldstine graphing system
4,1947,ARC Assembly
...,...,...
95,1967,XPL
96,1967,Space Programming Language
97,1968,Refal
98,1968,CICS


In [5]:
dataframe["year"].describe()

count     100.000000
mean     1958.280000
std         6.532096
min      1942.000000
25%      1952.750000
50%      1959.000000
75%      1964.000000
max      1968.000000
Name: year, dtype: float64

In [None]:
dataframe["languageLabel"].describe()

In [7]:
dataframe.dtypes

year              int32
languageLabel    object
dtype: object

## Exercice 5

Cet exercice utilisera quelques analyses de données de base. Poursuivant avec le code de l'exercice 1.4, comptons le nombre de langages de programmation sortis en un an.

In [8]:
grouped = dataframe.groupby("year").count()
grouped

Unnamed: 0_level_0,languageLabel
year,Unnamed: 1_level_1
1942,1
1943,1
1946,2
1947,1
1948,2
1950,3
1951,11
1952,4
1953,2
1954,4


Vous pouvez également utiliser plusieurs fonctions d'agrégation en utilisant agg()

In [None]:
grouped = dataframe.groupby("year").agg(["count"])
grouped

Jusqu'à présent, nous avons travaillé avec des tableaux à deux colonnes. Maintenant, nous nous concentrons sur des tableaux à trois colonnes (langage de programmation, année, paradigme). Copiez le fichier [plparadigm.json](../../data/plparadigm.json) dans votre répertoire de travail. Et testez le programme suivant.

In [None]:
from pandas.io.json import json_normalize
import pandas as pd
import json

jsondata = json.load(open("../../data/plparadigm.json"))
array = []

for data in jsondata:
    array.append([data["year"], data["languageLabel"], data["paradigmLabel"]])

dataframe = pd.DataFrame(array, columns=["year", "languageLabel", "paradigmLabel"])
dataframe = dataframe.astype(
    dtype={"year": "int64", "languageLabel": "<U200", "paradigmLabel": "<U200"}
)

grouped = dataframe.groupby(["year", "paradigmLabel"]).agg(["count"])
grouped

Testez maintenant le programme suivant. Comparez la différence de rendement.

In [None]:
grouped = dataframe.groupby(["paradigmLabel", "year"]).agg(["count"])
grouped

Votre prochain objectif est de lancer la requête suivante pour obtenir la population
des informations sur les différents pays (limitées à 10000 lignes). Exécutez le
suite à la requête sur [Wikidata query service](https://query.wikidata.org)
et téléchargez le fichier JSON.


```
SELECT DISTINCT ?countryLabel (YEAR(?date) as ?year) ?population
WHERE {
 ?country wdt:P31 wd:Q6256; #Country 
   p:P1082 ?populationStatement;
  rdfs:label ?countryLabel. #Label
 ?populationStatement ps:P1082 ?population; #population
  pq:P585 ?date. #period in time
 FILTER(lang(?countryLabel)="en") #Label in English
}
ORDER by ?countryLabel ?year
LIMIT 1000
```

Maintenant, calculez et affichez les informations suivantes (en utilisant différentes
[opérations disponibles dans la bibliothèque des pandas] (https://pandas.pydata.org/pandas-docs/stable/10min.html)
(**Ref:**
(https://pandas.pydata.org/pandas-docs/stable/10min.html))):

In [63]:
# Préparation des fonctions/constantes pour lancer les requêtes sparql à wikidata

import sys
from SPARQLWrapper import SPARQLWrapper, JSON

endpoint_url = "https://query.wikidata.org/sparql"

user_agent = "WDQS-example Python/%s.%s" % (
    sys.version_info[0],
    sys.version_info[1],
)

def get_results(endpoint_url, query):
    sparql = SPARQLWrapper(endpoint_url, agent=user_agent)
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    return sparql.query().convert()

querry = """
SELECT DISTINCT ?countryLabel (YEAR(?date) as ?year) ?population
WHERE {
  ?country wdt:P31 wd:Q6256; #Country
    p:P1082 ?populationStatement;
    rdfs:label ?countryLabel. #Label
  ?populationStatement ps:P1082 ?population; #population
    pq:P585 ?date. #period in time
  FILTER(lang(?countryLabel)="en") #Label in English
}
ORDER by ?countryLabel ?year
LIMIT 1000
"""

raw_response = get_results(endpoint_url,querry)

In [33]:
dtype ={"nom": "<U200","année": "int64", "population": "int64"}

dataframe = pd.DataFrame([[prop["value"] for prop in row.values()] for row in raw_response["results"]["bindings"]], columns=dtype.keys())
dataframe = dataframe.astype(dtype=dtype)

dataframe

Unnamed: 0,nom,année,population
0,Afghanistan,1960,8774440
1,Afghanistan,1961,8953544
2,Afghanistan,1962,9141783
3,Afghanistan,1963,9339507
4,Afghanistan,1964,9547131
...,...,...,...
995,Brazil,2008,191765567
996,Brazil,2009,193490922
997,Brazil,2010,195210154
998,Brazil,2011,196935134


1.  La population des pays dans l'ordre alphabétique de leur nom et
    par ordre croissant d'année.

In [25]:
dataframe.sort_values(["nom","année"])

Unnamed: 0,nom,année,population
0,Afghanistan,1960,8774440
1,Afghanistan,1961,8953544
2,Afghanistan,1962,9141783
3,Afghanistan,1963,9339507
4,Afghanistan,1964,9547131
...,...,...,...
995,Brazil,2008,191765567
996,Brazil,2009,193490922
997,Brazil,2010,195210154
998,Brazil,2011,196935134


2.  La dernière population disponible de chaque pays

In [56]:
last_pop_dataframe = dataframe.groupby("nom").last(["nom","année"])
last_pop_dataframe

Unnamed: 0_level_0,année,population
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,2021,37466414
Albania,2022,2793592
Algeria,2020,43900000
Andorra,2021,78151
Angola,2020,32866270
Antigua and Barbuda,2021,99337
Argentina,2022,47327407
Armenia,2017,2930450
Aruba,2019,112309
Australia,2020,25671900


3.  Le pays ayant la population la plus faible et la plus élevée (compte tenu de la
    population la plus récente)

In [57]:
last_pop_dataframe.reset_index().agg(['min', 'max'])

Unnamed: 0,nom,année,population
min,Afghanistan,2012,78151
max,Brazil,2022,198656019



Votre prochain objectif est de lancer la requête suivante pour obtenir des informations relatives
aux articles scientifiques publiés après 2010 (limité à 10 000 lignes). Lancer
la requête suivante sur [Wikidata query service](https://query.wikidata.org) et téléchargez le fichier JSON.
Il vous donne les informations suivantes relatives à la recherche scientifique
article : titre, sujet principal et année de publication.


```
SELECT ?title ?subjectLabel ?year
{
    ?article wdt:P31 wd:Q13442814; #scientific article
             wdt:P1476 ?title; #title of the article
             wdt:P921 ?subject; #main subject
             wdt:P577 ?date. #publication date
    ?subject rdfs:label ?subjectLabel.
    BIND(YEAR(?date) as ?year).
    #published after 2010
    FILTER(lang(?title)="en" &&
     lang(?subjectLabel)="en" && ?year>2010)
}
LIMIT 10000
```



Maintenant, calculez et affichez les informations suivantes (en utilisant diverses [opérations disponibles dans la bibliothèque des pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html)
(**Ref:**
(https://pandas.pydata.org/pandas-docs/stable/10min.html))):

In [69]:
raw_response = get_results(endpoint_url,"""
SELECT ?title ?subjectLabel ?year
{
    ?article wdt:P31 wd:Q13442814; #scientific article
             wdt:P1476 ?title; #title of the article
             wdt:P921 ?subject; #main subject
             wdt:P577 ?date. #publication date
    ?subject rdfs:label ?subjectLabel.
    BIND(YEAR(?date) as ?year).
    #published after 2010
    FILTER(lang(?title)="en" &&
     lang(?subjectLabel)="en" && ?year>2010)
}
LIMIT 5000"""
)

In [73]:
dtype ={"titre": "<U200","sujet": "<U200", "année": "int64"}

dataframe = pd.DataFrame([[prop["value"] for prop in row.values()] for row in raw_response["results"]["bindings"]], columns=dtype.keys())
dataframe = dataframe.astype(dtype=dtype)

dataframe

Unnamed: 0,titre,sujet,année
0,"The Universe, the Light, the Earth, the Life: ...",universe,2020
1,Entropy export as the driving force of evolution,life,2021
2,"The Universe, the Light, the Earth, the Life: ...",life,2020
3,Thermodynamics of Life,life,2021
4,"The Universe, the Light, the Earth, the Life: ...",Earth,2020
...,...,...,...
4995,Negotiating Violence in the Context of Transph...,Canada,2015
4996,"Mercury, selenium and neurochemical biomarkers...",Canada,2011
4997,A Powerful New Partnership to Build Leadership...,Canada,2016
4998,Cost-benefit analysis for invasive species con...,Canada,2018



1.  Le nombre d'articles publiés sur différents sujets chaque année.

In [93]:
dataframe.groupby("année").sujet.nunique()

année
2011    4
2012    5
2013    5
2014    5
2015    5
2016    5
2017    4
2018    5
2019    3
2020    7
2021    5
2022    1
Name: sujet, dtype: int64

2.  Principal sujet d'intérêt pour la communauté scientifique chaque année (sur la base
    sur les résultats de l'interrogation ci-dessus).

In [None]:
from numpy import size

res = dataframe.groupby(["année","sujet"]).count()
res

3.  Les 10 principaux sujets d'intérêt pour la communauté scientifique (sur la base
    les résultats de l'interrogation ci-dessus) depuis 2010.


**Indice**: Regardez les fonctions groupby, reset_index, head, tail, sort_values, count de Pandas



**Remarque**: Si vous obtenez des erreurs de dépassement de temps (time-out), veuillez modifier la LIMITE à des valeurs inférieures (1000, 2000, 5000).

## Exercice 6

Dans notre dernier exercice, nous allons interroger Wikidata et obtenir les URL des images. Ensuite, nous téléchargerons ces images.

In [None]:
!pip install sparqlwrapper

In [3]:
import sys
from SPARQLWrapper import SPARQLWrapper, JSON
import pandas as pd

endpoint_url = "https://query.wikidata.org/sparql"

# Get cities
query = """SELECT DISTINCT ?grandeville ?grandevilleLabel ?pays ?paysLabel ?image {
  ?grandeville wdt:P31 wd:Q1549591;
               wdt:P17 ?pays;
               wdt:P18 ?image.
 SERVICE wikibase:label { bd:serviceParam wikibase:language "fr". }
}
LIMIT 10"""


def get_results(endpoint_url, query):
    user_agent = "WDQS-example Python/%s.%s" % (
        sys.version_info[0],
        sys.version_info[1],
    )
    sparql = SPARQLWrapper(endpoint_url, agent=user_agent)
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    return sparql.query().convert()


array = []
results = get_results(endpoint_url, query)

for result in results["results"]["bindings"]:
    array.append(
        (
            result["grandevilleLabel"]["value"],
            result["paysLabel"]["value"],
            result["image"]["value"],
        )
    )

In [4]:
dataframe = pd.DataFrame(array, columns=["ville", "pays", "image"])
dataframe = dataframe.astype(
    dtype={"ville": "<U200", "pays": "<U200", "image": "<U200"}
)
dataframe

Unnamed: 0,ville,pays,image
0,Saratov,Russie,http://commons.wikimedia.org/wiki/Special:File...
1,Manama,Bahreïn,http://commons.wikimedia.org/wiki/Special:File...
2,Thimphou,Bhoutan,http://commons.wikimedia.org/wiki/Special:File...
3,Bichkek,Kirghizistan,http://commons.wikimedia.org/wiki/Special:File...
4,Glasgow,Royaume-Uni,http://commons.wikimedia.org/wiki/Special:File...
5,Astrakhan,Russie,http://commons.wikimedia.org/wiki/Special:File...
6,Samarcande,Ouzbékistan,http://commons.wikimedia.org/wiki/Special:File...
7,Orléans,France,http://commons.wikimedia.org/wiki/Special:File...
8,Séoul,Corée du Sud,http://commons.wikimedia.org/wiki/Special:File...
9,Oulan-Oudé,Russie,http://commons.wikimedia.org/wiki/Special:File...


Nous allons maintenant télécharger les images

In [6]:
import requests
import shutil
import os


def download_image(url:str):

    headers = {"User-Agent": "Mozilla/5.0"}
    request = requests.get(url, allow_redirects=True, headers=headers, stream=True)
    if request.status_code == 200:
        with open(os.path.basename(url), "wb") as image:
            request.raw.decode_content = True
            shutil.copyfileobj(request.raw, image)
    else:
        print("erreur")
    return request.status_code

In [10]:
dataframe.image.apply(download_image)

0    200
1    200
2    200
3    200
4    200
5    200
6    200
7    200
8    200
9    200
Name: image, dtype: int64

Modifiez le code ci-dessus et téléchargez des images liées au sujet de votre choix (villes, monuments historiques, fleurs, bâtiments, etc.).