## <center style="color: #66d">Projet D - Ponts autour du monde</center>

### 1. Origine des données - DBPedia

Cette année, le principe de chacun des projets consiste à récupérer des données sur DBPedia. 

<img src="DBPedia.png" width="120">

DBpedia est un projet universitaire et communautaire d'exploration et extraction automatique de données dérivées de Wikipédia. Son principe est de proposer une version structurée et sous forme de données normalisées au format RDF des contenus encyclopédiques de chaque page de Wikipédia. Il existe plusieurs versions de DBpedia et dans plusieurs langues. Les trois versions principales sont la version anglaise (http://dbpedia.org/sparql), la versions française (http://fr.dbpedia.org) et la version allemande (http://de.dbpedia.org/).

La version qui a été utilisée pour récupérer les données qui vous sont fournies est la version anglaise c’est à dire http://dbpedia.org/ car c’est la plus complète. Cependant il est tout à fait possible d’adapter les différentes requêtes aux autres chapitres multilingues de DBpedia (ex: la version française) en tenant compte des différences entre les chapitres.



### 2. Format des données - RDF

Sur DBPedia, les données sont représentées au format
<a href="https://fr.wikipedia.org/wiki/Resource_Description_Framework">RDF</a>
(Resource Description Framework). RDF est un modèle de graphe destiné à décrire de façon formelle des ressources et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions. Développé par le <a href="https://www.w3.org/">World Wide Web Consortium</a> (W3C en abrégé), RDF est un des langages de base du Web sémantique.

<img src="Rdf_logo.svg" width="100">

Un document RDF est constitué d'un ensemble de triplets. Un triplet RDF est une association (sujet, prédicat, objet).

* Le sujet représente la ressource à décrire.
* Le prédicat est une propriété de la ressource.
* L’objet donne la valeur de la propriété, et peut correspondre à une donnée numérique ou textuelle, ou à autre ressource.

Les ressources et les prédicats sont représentés à l'aide d'une URL.

Exemple : pour observer l'ensemble des propriétés de la ressource <code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Akashi_Kaikyō_Bridge&gt;</code> avec leur valeur il suffit d'actionner le lien : http://dbpedia.org/resource/Akashi_Kaikyō_Bridge

On y apprend ainsi que :<br>
<code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Akashi_Kaikyō_Bridge&gt;</code> <code>dbo:mainspan 1991</code>

Ce qui peut s'exprimer en français par : Le pont du détroit d'Akashi possède une portée centrale (dbpedia ontolgy mainspan) de 1991 m.

Note: pour représenter les URLs des ressources et des propriétés, DBPedia utilise un certain nombre de préfixes prédéfinis. Ainsi l'URL <code>&lt;dbo:mainspan&gt;</code> correspond à <code>&lt;http://</code><code>dbpedia.org</code><code>/ontology/mainspan&gt;</code> obtenue en remplaçant le préfixe par sa valeur.


### 3. Récupération de données sur DBPedia - SPARQL

<a href="https://fr.wikipedia.org/wiki/SPARQL">SPARQL</a> est un langage de requête et un protocole qui permet de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet. Son nom est un acronyme récursif qui signifie : "SPARQL Protocol And RDF Query Language".

Voici un exemple simple de requête SPARQL, qui s'interprète comme "Quelle est la ressource dont le sujet principal est le pont du détroit d'Akashi ?", et va nous retourner l'adresse de la page wikipédia consacrée à ce pont :

<code>SELECT ?wiki  WHERE { </code><code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Akashi_Kaikyō_Bridge&gt;</code><code>  foaf:isPrimaryTopicOf  ?wiki  }</code>

Il est possible de soumettre de telles requêtes sur le point d'accès dédié de DBPedia : http://dbpedia.org/sparql.

<div style="background-color:#eef;padding:10px;border-radius:3px; margin-top: 1.33em">
Soumettez la requête précédente via le point d'accès SPARQL de DBPedia pour observer
la réponse obtenue, et vérifier que l'information retournée correspond bien à l'adresse de la page wikipédia demandée : <code>http://en.wikipedia.org/wiki/Akashi_Kaikyō_Bridge</code>.
</div>

SPARQL est un langage puissant, qui permet d'émettre des requêtes complexes. Pour plus d'informations sur SPARQL et la façon d'utiliser DBPedia, il ne sera pas inutile de consulter le <a href="http://fr.dbpedia.org/sparqlTuto/tutoSparql.html">tutoriel en ligne</a>.

### 4. Données sur les ponts

Les ressources concernant les ponts disponibles sur DBPedia sont du type <a href="http://dbpedia.org/ontology/Bridge"><code>dbo:Bridge</code></a>. La requête suivante demande la liste des ponts, avec leur nom, leur longueur, date d'achèvement, l'adresse de la page Wikipédia qui les décrit, leur latitude, longitude, et le texte et l'URL de l'image qui les décrivent sur Wikipédia.

Les données ainsi obtenues sont filtrées pour éliminer les rivières, canaux et digues qui se glissent sinon dans la liste obtenue :

__Remarque importante__

<p>Cela n'est pas nécessaire dans l'immédiat, mais si vous désirez réinitialiser le contenu de votre base de données, il faudra exécuter dans l'ordre, l'ensemble des cellules présentes dans la suite de ce notebook. Si les données sources ont été modifiées, il faudra peut-être intervenir à la marge sur certaines parties du code de nettoyage des données.</p>

<p>De même, pour compléter et/ou modifier vos données, vous devrez modifier la requête SPARQL présente dans la cellule ci-dessus, et éventuellement nettoyer les nouvelles données obtenues en complétant le notebook avec le code python nécessaire.
</p>

<p>Toutefois, avant de vous aventurer à modifier la requête SPARQL, il sera pertinent de tester votre nouvelle requête via le point d'entrée interactif de DBPedia, en ajoutant une clause LIMIT(10) par exemple, pour éviter de surcharger le serveur, et d'être obligé d'attendre les résultats trop longtemps.</p> 

__4.1 Enregistrement du notebook et récupération de son nom dans la variable notebook_name__

In [1]:
%%javascript

// Enregistrement des éventuelles modifications de la requête SPARQL
IPython.notebook.save_notebook()

// Enregistrement du nom du présent notebook dans la variable python notebook_name
var kernel = IPython.notebook.kernel;
var thename = window.document.getElementById("notebook_name").innerHTML;
var command = "notebook_name = " + "\""+thename+"\"";
kernel.execute(command);
element.text(command)

<IPython.core.display.Javascript object>

__4.2 Définition des fonctions utilisées par la suite__

In [2]:
#
# Emission d'un requête SPARQL vers le point d'entrée DBPedia
# et récupération du résultat dans un fichier csv
#
# id : metadata.id de la cellule avec la requête SPARQL, et nom du fichier csv
#
def dbpedia_sparql_to_csv(cell_id):

    query = get_cell_by_id(cell_id)['source']
    url = display_dbpedia_links(query)['csv']
    http_request_to_file(url,'{}.csv'.format(cell_id))

#
# Récupère une cellule du présent notebook
#
def get_cell_by_id(cell_id):

    # https://discourse.jupyter.org/t/extract-specific-cells-from-students-notebooks/7951/4
    import os
    import nbformat as nbf
    filename = "{}.ipynb".format(notebook_name)
    notebook = nbf.read(filename, nbf.NO_CONVERT)
    return [c for c in notebook.cells if 'id' in c['metadata'] and c['metadata']['id'] == cell_id][0]

#
# Renvoie l'url d'une requête vers le point d'entré SPARQL de DBPedia
#
def dbpedia_sparql_url(query,fmt):

    # https://stackoverflow.com/questions/40557606/how-to-url-encode-in-python-3
    from urllib.parse import urlencode, quote_plus
    url = "https://dbpedia.org/sparql"
    params = {
        "default-graph-uri" : "http://dbpedia.org",
        "query" : query,
        "format" : fmt,
        "timeout" : 30000,
        "signal_void" : "on",
        "signal_unconnected" : "on"
    }
    return "{}?{}".format(url,urlencode(params,quote_via=quote_plus))

#
# Affiche et renvoie les liens pour une requête SPARQL sur le point d'entrée DBPedia
# avec un résultat au format html, json, ou csv
#
def display_dbpedia_links(query):
    
    html_url = dbpedia_sparql_url(query,'text/html')
    json_url = dbpedia_sparql_url(query,'application/sparql-results+json')
    csv_url = dbpedia_sparql_url(query,'text/csv')
    
    # https://stackoverflow.com/questions/48248987/inject-execute-js-code-to-ipython-notebook-and-forbid-its-further-execution-on-p
    from IPython.display import display, HTML

    html_link = '<a href="{}">HTML</a>'.format(html_url)
    json_link = '<a href="{}">JSON</a>'.format(json_url)
    csv_link = '<a href="{}">CSV</a>'.format(csv_url)

    display(HTML('Requêtes : {}&nbsp;&nbsp;{}&nbsp;&nbsp;{}'.format(html_link,json_link,csv_link)))

    return { "html": html_url, "json": json_url, "csv": csv_url}

#
# Emet une requête http et enregistre le résultat dans un fichier
#
def http_request_to_file(url,filename):
    
    # https://stackoverflow.com/questions/645312/what-is-the-quickest-way-to-http-get-in-python
    import urllib.request
    contents = urllib.request.urlopen(url).read()

    with open(filename,'wb') as f:
        f.write(contents)

#
# Vérifie si une chaîne peut être convertie en float
#
def isfloat(value):
  try:
    float(value)
    return True
  except ValueError:
    return False


__4.3 Récupération des données brutes provenant de DBPedia__

Cette cellule envoie la requête SPARQL au serveur DBPedia, et enregistre le résultat dans le fichier sparql.csv.

In [3]:
raw_filename = 'sparql'
dbpedia_sparql_to_csv(raw_filename)

__4.4 Nettoyage des données__

La cellule suivante relit le fichier des données brutes dans le dictionnaire nommé <code>sites</code>, puis les cellules consécutives modifient ces données en mémoire pour les nettoyer.

In [4]:
#
# Lecture du fichier d'origine, avec suppression des doublons
#
import csv
bridges_raw_filename = 'sparql'

bridges = {}
with open('{}.csv'.format(bridges_raw_filename),encoding="utf-8") as csvfile:
    reader = csv.DictReader(csvfile,delimiter=',')
    for row in reader:
        if not row['name'] in bridges:
            bridges[row['name']] = row

print(len(bridges))

481


In [5]:
#
# Traitement des dates
#
antique_bridges = [
    'Pont Salario',
    "Pont sur l'Eurymédon",
    'Pont de Constantin le Grand'
]
fix_bridge_dates = {
    'Pont de Shibanpo' : 1980,
    'Pont des Tailleurs' : 1490,
    "Pont suspendu d'Ozimek" : 1827,
}

for b in [b for b in bridges]:   
    if bridges[b]['name'] in antique_bridges:
        del bridges[b]
        
    elif bridges[b]['name'] in fix_bridge_dates :
        bridges[b]['year'] = fix_bridge_dates[bridges[b]['name']] 
        
    else:
        bridges[b]['year'] = int(bridges[b]['date'].split('-')[0])
        

In [6]:
#
# Traitement des longueurs
#
for b in bridges:
    bridges[b]['length'] = float(bridges[b]['length'])
    
    #if not bridges[b]['span']:
    #    print(bridges[b]['length'],bridges[b]['name'],bridges[b]['wiki'])

In [7]:
#
# Certains enregistrement font référence à des photos non disponibles (404 Not Found)
#
# Cette cellule met manuellement à jour ces enregistrements avec des photos accessibles
#
photos = {
	"Pont de Normandie": "https://upload.wikimedia.org/wikipedia/commons/c/c8/Pont_de_Normandie_%281%29.jpg",
    "Pont de Karnali": "https://upload.wikimedia.org/wikipedia/commons/thumb/1/13/I_captured_this_photo_in_Nepal_to_describes_Karnali_Bridge.jpg/320px-I_captured_this_photo_in_Nepal_to_describes_Karnali_Bridge.jpg",
    "Pont Rio-Niterói": "https://upload.wikimedia.org/wikipedia/commons/thumb/c/c7/Ilha_de_Mocangu%C3%AA_by_Diego_Baravelli_%28cropped%29.jpg/320px-Ilha_de_Mocangu%C3%AA_by_Diego_Baravelli_%28cropped%29.jpg",
    "Pont de Bloukrans" : "https://files.structurae.net/files/photos/2094/1570_bloukrans_js_20625.jpg",
    "Pont suspendu de Magapit": "https://upload.wikimedia.org/wikipedia/commons/thumb/b/b6/Magapit_Bridge%2C_Lal-lo%2C_Cagayan.jpg/360px-Magapit_Bridge%2C_Lal-lo%2C_Cagayan.jpg",
    "Pont de Chandani Dodhara": "https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/Chadani-Dodhara_Bridge.JPG/320px-Chadani-Dodhara_Bridge.JPG",
    "Pont Hong Kong-Zhuhai-Macao": "https://upload.wikimedia.org/wikipedia/commons/thumb/0/06/West_section_of_Hong_Kong-Zhuhai-Macau_Bridge_%2820180902174105%29.jpg/320px-West_section_of_Hong_Kong-Zhuhai-Macau_Bridge_%2820180902174105%29.jpg",
    "Pont de l'île de Ré": "https://upload.wikimedia.org/wikipedia/fr/c/c7/Pontre01.jpg",
}
for b in photos:
    bridges[b]['photo'] = photos[b]

In [8]:
#
# Fonctions pour la recherche des images aux liens erronés
#
import urllib.parse
import http.client
import time

#
# envoi d'une requête hhtp
#
def http_request(url):
    # print('hello from http_request',url)
    
    (baseurl,querystring) = url.split('?',1) if '?' in url else (url,'')
    (protocol,netpath) = baseurl.split(':',1)
    (_,__,server,path) = netpath.split('/',3)
    path = '/'.join([urllib.parse.quote(chunk) for chunk in path.split('/')])

    conn = http.client.HTTPSConnection(server)
    conn.request('HEAD','/'+path+'?'+querystring)
    r = conn.getresponse()
    
    if ( r.status == 200 ):
        return 200
    elif ( r.status == 404 ):
        return 404
    elif ( r.status == 302 ):
        # print ('302', 'redirecting to ',r.headers['Location'])
        return http_request(r.headers['Location'])
    elif ( r.status == 301 ):
        # print ('301', 'redirecting to ',r.headers['Location'])
        return http_request(r.headers['Location'])
    else:
        return r.status

#
# liste des photos aux liens erronés
#
failed = []

In [9]:
#
# Mise à jour de la liste des photos aux liens erronnés
#
# Pour parcourir l'ensemble des ponts, modifier les variables start et end.
#
# ATTENTION : cette procédure est potentiellement très lente puisqu'elle effectue une requête
# pour vérifier chacune des images, et il y a plusieurs centaines de ponts...
#
start = 0
end = 10

#
# test photos
#
for b in [b for b in bridges][start:end]:
    status = http_request(bridges[b]['photo'])
    if ( status == 404 ):
        print (status,bridges[b]['name'],'\n',bridges[b]['wiki'],'\n')
        if not b in failed :
            failed.append(b)

In [10]:
# suppression des doublons sur l'id
bridges_by_id = {}
for b in bridges:
    id = bridges[b]['bridge']
    if not id in bridges_by_id:
        bridges_by_id[id] = bridges[b]
    else:
        print(bridges_by_id[id]['bridge'],bridges_by_id[id]['name'])
        print(bridges[b]['bridge'],bridges[b]['name'])
        bridges_by_id[id] = bridges[b]

http://dbpedia.org/resource/Broadway_Bridge_(Manhattan) Broadway Bridge
http://dbpedia.org/resource/Broadway_Bridge_(Manhattan) Broadway


__4.5 Ecriture du fichier des données nettoyées__

In [11]:
fieldnames = list(bridges["Pont de l'île de Ré"].keys())
print(fieldnames)

fieldnames.remove('year')
fieldnames = fieldnames[:4] + ['year'] + fieldnames[5:]
print(fieldnames)


#           
# Ecriture du fichier csv à importer dans la base de données
#
with open('ponts.csv', 'w', encoding='utf-8', newline='\n') as f:
    writer = csv.DictWriter(f, fieldnames=fieldnames, delimiter=';')
    writer.writeheader()
    for id in bridges_by_id:
        writer.writerow({f: bridges_by_id[id][f] for f in fieldnames})

['bridge', 'name', 'length', 'span', 'date', 'wiki', 'lat', 'lon', 'abstract', 'photo', 'year']
['bridge', 'name', 'length', 'span', 'year', 'wiki', 'lat', 'lon', 'abstract', 'photo']


__4.6 Création / mise à jour de la base de données__

In [12]:
# relecture du fichier de données
bridges = {}

with open('ponts.csv',encoding="utf-8") as csvfile:
    reader = csv.DictReader(csvfile,delimiter=';')
    for row in reader:
        bridges[row['name']] = row

fieldnames = list(bridges["Pont de l'île de Ré"].keys())
#
# Mise à jour de la base de données
#
import sqlite3

bridges_dbname = 'ponts.db'
conn = sqlite3.connect(bridges_dbname)
c = conn.cursor()

c.execute("DROP TABLE IF EXISTS ponts")
conn.commit()

c.execute('''CREATE TABLE "ponts" (
    `bridge` TEXT PRIMARY KEY,
    `name` TEXT,
    `length` REAL,
    `span` REAL,
    `year` INTEGER,
    `wiki` TEXT,
    `lat` REAL,
    `lon` REAL,
    `abstract` TEXT,
    `photo` TEXT
)''')
conn.commit()

request = 'INSERT INTO ponts ({}) VALUES ({})'.format(','.join(fieldnames),','.join(['?']*len(fieldnames)))
for b in bridges:
    c.execute(request,[bridges[b][k] for k in fieldnames])
    
conn.commit()