## <center style="color: #66d">Projet B - Sites classés de l'Unesco</center>

### 1. Origine des données - DBPedia

Cette année, le principe de chacun des projets consiste à récupérer des données sur DBPedia. 

<img src="DBPedia.png" width="120">

DBpedia est un projet universitaire et communautaire d'exploration et extraction automatique de données dérivées de Wikipédia. Son principe est de proposer une version structurée et sous forme de données normalisées au format RDF des contenus encyclopédiques de chaque page de Wikipédia. Il existe plusieurs versions de DBpedia et dans plusieurs langues. Les trois versions principales sont la version anglaise (http://dbpedia.org/sparql), la versions française (http://fr.dbpedia.org) et la version allemande (http://de.dbpedia.org/).

La version qui a été utilisée pour récupérer les données qui vous sont fournies est la version anglaise c’est à dire http://dbpedia.org/ car c’est la plus complète. Cependant il est tout à fait possible d’adapter les différentes requêtes aux autres chapitres multilingues de DBpedia (ex: la version française) en tenant compte des différences entre les chapitres.



### 2. Format des données - RDF

Sur DBPedia, les données sont représentées au format
<a href="https://fr.wikipedia.org/wiki/Resource_Description_Framework">RDF</a>
(Resource Description Framework). RDF est un modèle de graphe destiné à décrire de façon formelle des ressources et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions. Développé par le <a href="https://www.w3.org/">World Wide Web Consortium</a> (W3C en abrégé), RDF est un des langages de base du Web sémantique.

<img src="Rdf_logo.svg" width="100">

Un document RDF est constitué d'un ensemble de triplets. Un triplet RDF est une association (sujet, prédicat, objet).

* Le sujet représente la ressource à décrire.
* Le prédicat est une propriété de la ressource.
* L’objet donne la valeur de la propriété, et peut correspondre à une donnée numérique ou textuelle, ou à autre ressource.

Les ressources et les prédicats sont représentés à l'aide d'une URL.

Exemple : pour observer l'ensemble des propriétés de la ressource <code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Carthage_amphitheatre&gt;</code> avec leur valeur il suffit d'actionner le lien : http://dbpedia.org/resource/Carthage_amphitheatre

On y apprend ainsi que :<br>
<code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Carthage_amphitheatre&gt;</code> <code>dbp:location dbr:Tunisia</code>

Ce qui peut s'exprimer en français par : L'amphitéâtre de Carthage est situé (dbpedia property : location) en Tunisie (dbpedia resource : Tunisia).

Note: pour représenter les URLs des ressources et des propriétés, DBPedia utilise un certain nombre de préfixes prédéfinis. Ainsi l'URL <code>&lt;dbr:Tunisia&gt;</code> correspond à <code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Tunisia&gt;</code> obtenue en remplaçant le préfixe par sa valeur.


### 3. Récupération de données sur DBPedia - SPARQL

<a href="https://fr.wikipedia.org/wiki/SPARQL">SPARQL</a> est un langage de requête et un protocole qui permet de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet. Son nom est un acronyme récursif qui signifie : "SPARQL Protocol And RDF Query Language".

Voici un exemple simple de requête SPARQL, qui s'interprète comme "Quelle est la ressource dont le sujet principal est l'amphitéâtre de Carthage ?", et va nous retourner l'adresse de la page wikipédia consacrée à l'amphitéâtre de Carthage :

<code>SELECT ?wiki  WHERE { </code><code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Carthage_amphitheatre&gt;</code><code>  foaf:isPrimaryTopicOf  ?wiki  }</code>

Il est possible de soumettre de telles requêtes sur le point d'accès dédié de DBPedia : http://dbpedia.org/sparql.

<div style="background-color:#eef;padding:10px;border-radius:3px; margin-top: 1.33em">
Soumettez la requête précédente via le point d'accès SPARQL de DBPedia pour observer
la réponse obtenue, et vérifier que l'information retournée correspond bien à l'adresse de la page wikipédia demandée : <code>http://en.wikipedia.org/wiki/Carthage_amphitheatre</code>.
</div>

SPARQL est un langage puissant, qui permet d'émettre des requêtes complexes. Pour plus d'informations sur SPARQL et la façon d'utiliser DBPedia, il ne sera pas inutile de consulter le <a href="http://fr.dbpedia.org/sparqlTuto/tutoSparql.html">tutoriel en ligne</a>.

### 4. Données sur les sites

Les ressources concernant les sites Unesco disponibles sur DBPedia sont du type <a href="https://dbpedia.org/ontology/WorldHeritageSite"><code>dbo:WorldHeritageSite</code></a>. La requête suivante en demande la liste, avec leur nom, l'adresse de la page Wikipédia qui les décrit, leur latitude, longitude, le texte et l'URL de l'image qui les décrivent sur Wikipédia :

__Remarque importante__

<p>Cela n'est pas nécessaire dans l'immédiat, mais si vous désirez réinitialiser le contenu de votre base de données, il faudra exécuter dans l'ordre, l'ensemble des cellules présentes dans la suite de ce notebook. Si les données sources ont été modifiées, il faudra peut-être intervenir à la marge sur certaines parties du code de nettoyage des données.</p>

<p>De même, pour compléter et/ou modifier vos données, vous devrez modifier la requête SPARQL présente dans la cellule ci-dessus, et éventuellement nettoyer les nouvelles données obtenues en complétant le notebook avec le code python nécessaire.
</p>

<p>Toutefois, avant de vous aventurer à modifier la requête SPARQL, il sera pertinent de tester votre nouvelle requête via le point d'entrée interactif de DBPedia, en ajoutant une clause LIMIT(10) par exemple, pour éviter de surcharger le serveur, et d'être obligé d'attendre les résultats trop longtemps.</p> 

__4.1 Enregistrement du notebook et récupération de son nom dans la variable notebook_name__

In [1]:
%%javascript

// Enregistrement des éventuelles modifications de la requête SPARQL
IPython.notebook.save_notebook()

// Enregistrement du nom du présent notebook dans la variable python notebook_name
var kernel = IPython.notebook.kernel;
var thename = window.document.getElementById("notebook_name").innerHTML;
var command = "notebook_name = " + "\""+thename+"\"";
kernel.execute(command);
element.text(command)

<IPython.core.display.Javascript object>

__4.2 Définition des fonctions utilisées par la suite__

In [2]:
#
# Emission d'un requête SPARQL vers le point d'entrée DBPedia
# et récupération du résultat dans un fichier csv
#
# id : metadata.id de la cellule avec la requête SPARQL, et nom du fichier csv
#
def dbpedia_sparql_to_csv(cell_id):

    query = get_cell_by_id(cell_id)['source']
    url = display_dbpedia_links(query)['csv']
    http_request_to_file(url,'{}.csv'.format(cell_id))

#
# Récupère une cellule du présent notebook
#
def get_cell_by_id(cell_id):

    # https://discourse.jupyter.org/t/extract-specific-cells-from-students-notebooks/7951/4
    import os
    import nbformat as nbf
    filename = "{}.ipynb".format(notebook_name)
    notebook = nbf.read(filename, nbf.NO_CONVERT)
    return [c for c in notebook.cells if 'id' in c['metadata'] and c['metadata']['id'] == cell_id][0]

#
# Renvoie l'url d'une requête vers le point d'entré SPARQL de DBPedia
#
def dbpedia_sparql_url(query,fmt):

    # https://stackoverflow.com/questions/40557606/how-to-url-encode-in-python-3
    from urllib.parse import urlencode, quote_plus
    url = "https://dbpedia.org/sparql"
    params = {
        "default-graph-uri" : "http://dbpedia.org",
        "query" : query,
        "format" : fmt,
        "timeout" : 30000,
        "signal_void" : "on",
        "signal_unconnected" : "on"
    }
    return "{}?{}".format(url,urlencode(params,quote_via=quote_plus))

#
# Affiche et renvoie les liens pour une requête SPARQL sur le point d'entrée DBPedia
# avec un résultat au format html, json, ou csv
#
def display_dbpedia_links(query):
    
    html_url = dbpedia_sparql_url(query,'text/html')
    json_url = dbpedia_sparql_url(query,'application/sparql-results+json')
    csv_url = dbpedia_sparql_url(query,'text/csv')
    
    # https://stackoverflow.com/questions/48248987/inject-execute-js-code-to-ipython-notebook-and-forbid-its-further-execution-on-p
    from IPython.display import display, HTML

    html_link = '<a href="{}">HTML</a>'.format(html_url)
    json_link = '<a href="{}">JSON</a>'.format(json_url)
    csv_link = '<a href="{}">CSV</a>'.format(csv_url)

    display(HTML('Requêtes : {}&nbsp;&nbsp;{}&nbsp;&nbsp;{}'.format(html_link,json_link,csv_link)))

    return { "html": html_url, "json": json_url, "csv": csv_url}

#
# Emet une requête http et enregistre le résultat dans un fichier
#
def http_request_to_file(url,filename):
    
    # https://stackoverflow.com/questions/645312/what-is-the-quickest-way-to-http-get-in-python
    import urllib.request
    contents = urllib.request.urlopen(url).read()

    with open(filename,'wb') as f:
        f.write(contents)

#
# Vérifie si une chaîne peut être convertie en float
#
def isfloat(value):
  try:
    float(value)
    return True
  except ValueError:
    return False


__4.3 Récupération des données brutes provenant de DBPedia__

Cette cellule envoie la requête SPARQL au serveur DBPedia, et enregistre le résultat dans le fichier sparql.csv.

In [3]:
raw_filename = 'sparql'
dbpedia_sparql_to_csv(raw_filename)

__4.4 Nettoyage des données__

La cellule suivante relit le fichier des données brutes dans le dictionnaire nommé <code>sites</code>, puis les cellules consécutives modifient ces données en mémoire pour les nettoyer.

In [4]:
#
# Lecture du fichier d'origine, avec suppression des doublons
#
import csv

sites = {}
skip = [
    'Aapravasi Ghat',
    'Angkor Vat',
    'Bahla',
    'Bauhaus',
    'Boğazkale',
    'Béguinage',
    'Cappadoce',
    'Durmitor',
    'Eridu',
    'Goiás',
    'Goiás (ville)',
    'Lavaux (Léglise)',
    'Morne Brabant',
    'Forêt atlantique',
    'Pantanal',
    'Microrégion de la Chapada dos Veadeiros',
    'Parc national de Durmitor',
    'Pergame',
    'Salzkammergut',
    'Suse (Iran)',
    'Villa Adriana (frazione)',
    "Fès el-Bali",
    'Grand-Place de Bruxelles',
    'Mont Kōya',
    'Nécropole de Gizeh',
]
replace = [
    'Angkor',
    'Bergama',
    'Bâtiment du Bauhaus (Dessau)',
    'Béguinages flamands',
    'Cappadoce (thème)',
    'Douro (DOC)',
    'Fort de Bahla',
    'Hattusa',
    'Jeju',
    'Lavaux',
    'Mont Lu',
    'Pantanais du Mato Grosso do Sul',
    'Parc national de la Chapada dos Veadeiros',
    'Rynek Starego Miasta (Varsovie)',
    'Różan (ville)',
    'Ur (Mésopotamie)',
    'Île volcanique et tunnels de lave de Jeju',

]
delete = [
    'Suse (Italie)',
    'Ur (Pyrénées-Orientales)',
    'Vieille ville de Varsovie',
    'Vignoble de la vallée du Haut Douro',
    "Villa d'Hadrien",
    'Kōya',
    'Médina de Fès',
    'Parc de Bruxelles',
    'Pyramide (architecture)',
    "Pyramides d'Égypte",
    "Pyramides de Gizeh"
    
]

with open('{}.csv'.format(raw_filename),encoding="utf-8") as csvfile:
    reader = csv.DictReader(csvfile,delimiter=',')
    for row in reader:
        if not row['name'] in sites:
            sites[row['name']] = row
        elif row['name'] == 'Aapravasi Ghat' and row['name'] in row['abstract']:
            sites[row['name']] = row
        elif row['name'] in skip:
            pass
        elif row['name'] in replace:
            sites[row['name']] = row
        elif row['name'] in delete:
            del sites[row['name']]
        else:
            print(row['name'], '\n',sites[row['name']]['abstract'], '\n',row['abstract'],'\n')
            break
                
        

In [5]:
# suppression des doublons sur l'id
sites_by_id = {}
for s in sites:
    id = sites[s]['site']
    if not id in sites_by_id:
        sites_by_id[id] = sites[s]
    else:
        print(sites_by_id[id]['site'],sites_by_id[id]['name'])
        print(sites[s]['site'],sites[s]['name'])

http://dbpedia.org/resource/Angkor Angkor
http://dbpedia.org/resource/Angkor Angkor Vat
http://dbpedia.org/resource/Beguinage Béguinage
http://dbpedia.org/resource/Beguinage Béguinages flamands
http://dbpedia.org/resource/Cappadocia Cappadoce
http://dbpedia.org/resource/Cappadocia Cappadoce (thème)
http://dbpedia.org/resource/Bahla_Fort Bahla
http://dbpedia.org/resource/Bahla_Fort Fort de Bahla
http://dbpedia.org/resource/Goiás,_Goiás Goiás
http://dbpedia.org/resource/Goiás,_Goiás Goiás (ville)
http://dbpedia.org/resource/Hattusa Boğazkale
http://dbpedia.org/resource/Hattusa Hattusa
http://dbpedia.org/resource/Lavaux Lavaux
http://dbpedia.org/resource/Lavaux Lavaux (Léglise)
http://dbpedia.org/resource/Pantanal Pantanais du Mato Grosso do Sul
http://dbpedia.org/resource/Pantanal Pantanal
http://dbpedia.org/resource/Durmitor Durmitor
http://dbpedia.org/resource/Durmitor Parc national de Durmitor
http://dbpedia.org/resource/Chapada_dos_Veadeiros_National_Park Microrégion de la Chapada do

__4.5 Ecriture du fichier des données nettoyées__

In [6]:
#           
# Ecriture du fichier csv à importer dans la base de données
#
fieldnames = list(sites['Aapravasi Ghat'].keys())

print(fieldnames)

with open('sites.csv', 'w', encoding='utf-8', newline='\n') as f:
    writer = csv.DictWriter(f, fieldnames=fieldnames, delimiter=';')
    writer.writeheader()
    for v in sites_by_id:
        writer.writerow({f: sites_by_id[v][f] for f in fieldnames})

['site', 'name', 'wiki', 'lat', 'lon', 'abstract', 'photo']


__4.6 Création / mise à jour de la base de données__

In [7]:
# relecture du fichier de données
sites = {}

with open('sites.csv',encoding="utf-8") as csvfile:
    reader = csv.DictReader(csvfile,delimiter=';')
    for row in reader:
        sites[row['name']] = row

fieldnames = list(sites['Aapravasi Ghat'].keys())

In [8]:
#
# Mise à jour de la base de données
#
import sqlite3

unesco_dbname = 'sites.db'
conn = sqlite3.connect(unesco_dbname)
c = conn.cursor()

c.execute("DROP TABLE IF EXISTS sites")
conn.commit()

c.execute('''CREATE TABLE "sites" (
    `site` TEXT PRIMARY KEY,
    `name` TEXT,
    `wiki` TEXT,
    `lat` REAL,
    `lon` REAL,
    `abstract` TEXT,
    `photo` TEXT
)''')
conn.commit()

request = 'INSERT INTO sites ({}) VALUES ({})'.format(','.join(fieldnames),','.join(['?']*len(fieldnames)))
for s in sites:
    c.execute(request,[sites[s][k] for k in fieldnames])
conn.commit()