## <center style="color: #66d">Projet E - Lieux historiques</center>

### 1. Origine des données - DBPedia

Cette année, le principe de chacun des projets consiste à récupérer des données sur DBPedia. 

<img src="DBPedia.png" width="120">

DBpedia est un projet universitaire et communautaire d'exploration et extraction automatique de données dérivées de Wikipédia. Son principe est de proposer une version structurée et sous forme de données normalisées au format RDF des contenus encyclopédiques de chaque page de Wikipédia. Il existe plusieurs versions de DBpedia et dans plusieurs langues. Les trois versions principales sont la version anglaise (http://dbpedia.org/sparql), la versions française (http://fr.dbpedia.org) et la version allemande (http://de.dbpedia.org/).

La version qui a été utilisée pour récupérer les données qui vous sont fournies est la version anglaise c’est à dire http://dbpedia.org/ car c’est la plus complète. Cependant il est tout à fait possible d’adapter les différentes requêtes aux autres chapitres multilingues de DBpedia (ex: la version française) en tenant compte des différences entre les chapitres.



### 2. Format des données - RDF

Sur DBPedia, les données sont représentées au format
<a href="https://fr.wikipedia.org/wiki/Resource_Description_Framework">RDF</a>
(Resource Description Framework). RDF est un modèle de graphe destiné à décrire de façon formelle des ressources et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions. Développé par le <a href="https://www.w3.org/">World Wide Web Consortium</a> (W3C en abrégé), RDF est un des langages de base du Web sémantique.

<img src="Rdf_logo.svg" width="100">

Un document RDF est constitué d'un ensemble de triplets. Un triplet RDF est une association (sujet, prédicat, objet).

* Le sujet représente la ressource à décrire.
* Le prédicat est une propriété de la ressource.
* L’objet donne la valeur de la propriété, et peut correspondre à une donnée numérique ou textuelle, ou à autre ressource.

Les ressources et les prédicats sont représentés à l'aide d'une URL.

Exemple : pour observer l'ensemble des propriétés de la ressource <code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Ambrussum&gt;</code> avec leur valeur il suffit d'actionner le lien : http://dbpedia.org/resource/Ambrussum

Où on apprend par exemple :<br>
<code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Ambrussum&gt;</code> <code>dbp:built 4</code>

Ce qui peut s'exprimer en français par : "Le site d'Ambrussum date (dbpedia property : built) d'il y a 4 siècles, soit du 2ème siècle avant J.C.". Et oui, il y a ambiguïté sur la façon d'interpréter cette propriété, d'où la nécessité de nettoyer les données (cf. suite du notebook).

Note: pour représenter les URLs des ressources et des propriétés, DBPedia utilise un certain nombre de préfixes prédéfinis. Ainsi l'URL <code>&lt;dbp:built&gt;</code> correspond à <code>&lt;http://</code><code>dbpedia.org</code><code>/property/built&gt;</code> obtenue en remplaçant le préfixe par sa valeur.


### 3. Récupération de données sur DBPedia - SPARQL

<a href="https://fr.wikipedia.org/wiki/SPARQL">SPARQL</a> est un langage de requête et un protocole qui permet de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet. Son nom est un acronyme récursif qui signifie : "SPARQL Protocol And RDF Query Language".

Voici un exemple simple de requête SPARQL, qui s'interprète comme "Quelle est la ressource dont le sujet principal est le site d'Ambrussum ?", et va nous retourner l'adresse de la page wikipédia consacrée à ce site :

<code>SELECT ?wiki  WHERE { </code><code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Ambrussum&gt;</code><code>  foaf:isPrimaryTopicOf  ?wiki  }</code>

Il est possible de soumettre de telles requêtes sur le point d'accès dédié de DBPedia : http://dbpedia.org/sparql.

<div style="background-color:#eef;padding:10px;border-radius:3px; margin-top: 1.33em">
Soumettez la requête précédente via le point d'accès SPARQL de DBPedia pour observer
la réponse obtenue, et vérifier que l'information retournée correspond bien à l'adresse de la page wikipédia demandée : <code>http://en.wikipedia.org/wiki/Ambrussum</code>.
</div>

SPARQL est un langage puissant, qui permet d'émettre des requêtes complexes. Pour plus d'informations sur SPARQL et la façon d'utiliser DBPedia, il ne sera pas inutile de consulter le <a href="http://fr.dbpedia.org/sparqlTuto/tutoSparql.html">tutoriel en ligne</a>.

### 4. Données sur les lieux historiques

Les ressources concernant les lieux historiques disponibles sur DBPedia sont du type <a href="http://dbpedia.org/ontology/Bridge"><code>dbo:HistoricPlace</code></a>. La requête suivante demande la liste des lieux historiques, avec leur nom, leur situation, date de construction, l'adresse de la page Wikipédia qui les décrit, leur latitude, longitude, et le texte et l'URL de l'image qui les décrivent sur Wikipédia :

__Remarque importante__

<p>Cela n'est pas nécessaire dans l'immédiat, mais si vous désirez réinitialiser le contenu de votre base de données, il faudra exécuter dans l'ordre, l'ensemble des cellules présentes dans la suite de ce notebook. Si les données sources ont été modifiées, il faudra peut-être intervenir à la marge sur certaines parties du code de nettoyage des données.</p>

<p>De même, pour compléter et/ou modifier vos données, vous devrez modifier la requête SPARQL présente dans la cellule ci-dessus, et éventuellement nettoyer les nouvelles données obtenues en complétant le notebook avec le code python nécessaire.
</p>

<p>Toutefois, avant de vous aventurer à modifier la requête SPARQL, il sera pertinent de tester votre nouvelle requête via le point d'entrée interactif de DBPedia, en ajoutant une clause LIMIT(10) par exemple, pour éviter de surcharger le serveur, et d'être obligé d'attendre les résultats trop longtemps.</p> 

__4.1 Enregistrement du notebook et récupération de son nom dans la variable notebook_name__

In [1]:
%%javascript

// Enregistrement des éventuelles modifications de la requête SPARQL
IPython.notebook.save_notebook()

// Enregistrement du nom du présent notebook dans la variable python notebook_name
var kernel = IPython.notebook.kernel;
var thename = window.document.getElementById("notebook_name").innerHTML;
var command = "notebook_name = " + "\""+thename+"\"";
kernel.execute(command);
element.text(command)

<IPython.core.display.Javascript object>

__4.2 Définition des fonctions utilisées par la suite__

In [2]:
#
# Emission d'un requête SPARQL vers le point d'entrée DBPedia
# et récupération du résultat dans un fichier csv
#
# id : metadata.id de la cellule avec la requête SPARQL, et nom du fichier csv
#
def dbpedia_sparql_to_csv(cell_id):

    query = get_cell_by_id(cell_id)['source']
    url = display_dbpedia_links(query)['csv']
    http_request_to_file(url,'{}.csv'.format(cell_id))

#
# Récupère une cellule du présent notebook
#
def get_cell_by_id(cell_id):

    # https://discourse.jupyter.org/t/extract-specific-cells-from-students-notebooks/7951/4
    import os
    import nbformat as nbf
    filename = "{}.ipynb".format(notebook_name)
    notebook = nbf.read(filename, nbf.NO_CONVERT)
    return [c for c in notebook.cells if 'id' in c['metadata'] and c['metadata']['id'] == cell_id][0]

#
# Renvoie l'url d'une requête vers le point d'entré SPARQL de DBPedia
#
def dbpedia_sparql_url(query,fmt):

    # https://stackoverflow.com/questions/40557606/how-to-url-encode-in-python-3
    from urllib.parse import urlencode, quote_plus
    url = "https://dbpedia.org/sparql"
    params = {
        "default-graph-uri" : "http://dbpedia.org",
        "query" : query,
        "format" : fmt,
        "timeout" : 30000,
        "signal_void" : "on",
        "signal_unconnected" : "on"
    }
    return "{}?{}".format(url,urlencode(params,quote_via=quote_plus))

#
# Affiche et renvoie les liens pour une requête SPARQL sur le point d'entrée DBPedia
# avec un résultat au format html, json, ou csv
#
def display_dbpedia_links(query):
    
    html_url = dbpedia_sparql_url(query,'text/html')
    json_url = dbpedia_sparql_url(query,'application/sparql-results+json')
    csv_url = dbpedia_sparql_url(query,'text/csv')
    
    # https://stackoverflow.com/questions/48248987/inject-execute-js-code-to-ipython-notebook-and-forbid-its-further-execution-on-p
    from IPython.display import display, HTML

    html_link = '<a href="{}">HTML</a>'.format(html_url)
    json_link = '<a href="{}">JSON</a>'.format(json_url)
    csv_link = '<a href="{}">CSV</a>'.format(csv_url)

    display(HTML('Requêtes : {}&nbsp;&nbsp;{}&nbsp;&nbsp;{}'.format(html_link,json_link,csv_link)))

    return { "html": html_url, "json": json_url, "csv": csv_url}

#
# Emet une requête http et enregistre le résultat dans un fichier
#
def http_request_to_file(url,filename):
    
    # https://stackoverflow.com/questions/645312/what-is-the-quickest-way-to-http-get-in-python
    import urllib.request
    contents = urllib.request.urlopen(url).read()

    with open(filename,'wb') as f:
        f.write(contents)

#
# Vérifie si une chaîne peut être convertie en float
#
def isfloat(value):
  try:
    float(value)
    return True
  except ValueError:
    return False


__4.3 Récupération des données brutes provenant de DBPedia__

Cette cellule envoie la requête SPARQL au serveur DBPedia, et enregistre le résultat dans le fichier sparql.csv.

In [3]:
raw_filename = 'sparql'
dbpedia_sparql_to_csv(raw_filename)

__4.4 Nettoyage des données__

La cellule suivante relit le fichier des données brutes dans le dictionnaire nommé <code>sites</code>, puis les cellules consécutives modifient ces données en mémoire pour les nettoyer.

In [4]:
#
# Lecture du fichier d'origine, avec suppression des doublons
#
import csv

places = {}
with open('{}.csv'.format(raw_filename),encoding="utf-8") as csvfile:
    reader = csv.DictReader(csvfile,delimiter=',')
    for row in reader:
        if not row['name'] in places:
            places[row['name']] = row

print(len(places))

404


In [5]:
#
# Elimination des doublons
#
special_wikinames = [
    "Kayak Island",
    "Massachusetts Museum of Contemporary Art",
    "National Flag Memorial (Argentina)"
]
check_wiki = {}
for p in [p for p in places]:
    wikiname = places[p]['wiki'].split('/')[-1].replace('_',' ')

    # renommage
    if wikiname in special_wikinames :
        places[p]['name'] = wikiname
        places[wikiname] = places[p]
        del places[p]
        p = wikiname
        
    if places[p]['name'] == '':
        del places[p]  
    elif not places[p]['wiki'] in check_wiki:
        check_wiki[places[p]['wiki']] = p
    else :
        if wikiname == places[check_wiki[places[p]['wiki']]]['name']:
            #print('keeping',wikiname,'vs.',places[p]['name'])
            del places[p]
        elif wikiname == places[p]['name']:
            #print('replacing',places[check_wiki[places[p]['wiki']]]['name'],'by',places[p]['name'])
            del places[check_wiki[places[p]['wiki']]]
        else:
            print(check_wiki[places[p]['wiki']],'/',places[p]['name'], places[p]['wiki'])
            print(p)
            

In [6]:
### # Traitement des dates
#
fix_dates = {
    # > 2021
    "Pike Place Public Market Historic District": "1907",
    "Sweet Track": "3807 avant J.C.",
    "Victoria Memorial": "1901-1924",
    # < 1000
    "Chetro Ketl": "990-1075",
    "Obelisk of Theodosius": "de 1479 à 1425 avant J.C.",
    "Temple of Debod": "200 avant J.C.",
    "The Miami Circle at Brickell Point Site": "500 avant J.C. ?",
    # Exception
    "Borobudur": "9ème siècle",
	"Chattanooga National Cemetery": "1863",
	"Chinese Pavilion at Drottningholm": "1753",
	"Church of San Dionisio": "fin du 15ème siècle",
	"Château d'Agnou": "fin du 16ème siècle",
	"Château de Lichtenberg": "aux environs de 1200",
	"Châteaux of the Loire Valley": "lors de la Renaissance",
	"Ducal Palace of Gandia": "à partir du 14ème siècle",
	"Fort Charlesbourg Royal": "été 1541",
	"Fort Lyon": "1867",
	"Fredericton City Hall": "1875",
	"Freedom Square – Liberty Square": "début 19ème",
	"Garegin Nzhdeh Square": "1959",
	"Green Gables Heritage Place": "1830",
	"Hjaltadans": "au Néolithique",
	"Jew's House, Lincoln": "fin du 12ème siècle",
	"King-Walker Place": "1870",
	"Law Uk Hakka House": "1750",
	"Lyme Park": "1720",
	"Maynooth Castle": "fin du 12ème siècle",
	"Medina of Sousse": "7ème siècle",
	"Mendut": "9ème siècle",
	"Mississippi State Capitol": "1901",
	"Monument to the Divine Savior of the World": "1942",
	"Monument to the Independence of Brazil": "1884",
	"Mseilha Fort": "13ème siècle",
	"Mélusine tower": "fin 12ème / début 13ème",
	"Norwich Castle": "1067",
	"Obelisco de Buenos Aires": "1936",
	"Old Louisville Residential District": "1850",
	"Palais Leuchtenberg": "Original 1817",
	"Pawon": "9ème siècle",
	"Petra": "vers le 5ème siècle avant J.C.",
	"Prambanan": "850",
	"Pullman National Monument": "1880",
	"Red Fort": "1639",
	"Roddenbury Hillfort": "durant l'âge du Fer",
	"Royal Tombs of the Joseon Dynasty": "entre 1392 et 1897",
	"Scord of Brouster": "au Neolithique",
	"Selamat Datang Monument": "1961",
	"Solsbury Hill": "durant l'âge du Fer",
	"Stourhead": "1721",
	"Taq Kasra": "3ème siècle",
	"The Monument of Independence": "1910",
	"The Westin Palace Madrid": "1912",
	"Torre Monumental": "1916",
	"Tower of London": "1078",
	"Tung Chung Fort": "1174",
	"Tyson McCarter Place": "vers 1876",
	"Vénus de Quinipily": "vers 49 avant J.C.",
	"White Elephant": "1938",
    "Al-Jdayde (Aleppo)": "fin du 14ème siècle",
    "Archiepiscopal Palace of Rouen" : "13ème siècle",
    "Church of St Martin": "avant 597",
    "Riverdale–Spuyten Duyvil–Kingsbridge Memorial Bell Tower": "1930",
    "Vivekananda Rock Memorial": "1970"
}
bc_dates = [
    "Ambrussum",
    "Royal Mausoleum of Mauretania (Caesariensis)",
    "Temple of Eshmun",
    "Tomb of Cyrus the Great",
]
for p in [p for p in places]:
    date = places[p]['date']
    if date.startswith('c. ') :
        date = 'environ ' + date[3:]
    elif date.startswith('c.') :
        date = 'environ ' + date[2:]
    elif date.startswith('*') :
        date = date[1:5]
    elif places[p]['name'] in fix_dates and fix_dates[places[p]['name']]:
        date = fix_dates[places[p]['name']]
    elif places[p]['name'] in fix_dates:
        print(date, '|', places[p]['name'], places[p]['wiki'])
    else :
        try:
            y = int(places[p]['date'])
            if places[p]['name'] in bc_dates:
                date = '{}ème siècle avant J.C.'.format(y)    
            elif y < 250:
                date = '{}ème siècle'.format(y)
            else:
                date = '{}'.format(y)
        except:
            print(date, '|', places[p]['name'], places[p]['wiki'])
            pass
    places[p]['date'] = date

In [7]:
#
# Mise à jour des lieux
#
fix_locations = {
    "Alcázar of the Christian Kings": "Córdoba (Espagne)",
    "Arles Obelisk": "Arles (France)",
    "Ballymoon Castle": "Muine Bheag (Irlande)",
    "Borobudur": "Magelang (Java)",
    "Camden Town Hall": "Londres",
    "Chicago Avenue Water Tower andPumping Station": "Chicago",
    "Château de la Guignardière": "Avrillé (France)",
    "Congress Column": "Bruxelles",
    "Coral Castle": "Floride",
    "De Soto National Memorial": "Bradenton (Floride)",
    "Fort Saint-André": "département du Gard (France)",
    "Gedong Songo": "Bandungan (Java)",
    "George Rogers Clark National Historical Park": " Vincennes (Indiana)",
    "Gołuchów Castle": "Gołuchów (Pologne)",
    "Mont des Arts": "Bruxelles",
    "Obelisco de Buenos Aires": "Argentine",
    "Prambanan": "Indonésie",
    "President's Park": "Washington, D.C",
    "Royal Victoria Patriotic Building": "Londres",
    "Sweet Track": "Angleterre",
    "Taliesin": " Spring Green, Wisconsin",
    "The Charterhouse, London": "Islington (Londres)",
    "Tower of London": "Tower Hamlets (Londres)",
    "Victoria Memorial": "The Mall (Londres)",
    "White Lodge": "Richmond upon Thames (Londres)"
}
for p in fix_locations:
    if p in places:
        places[p]['locname'] = fix_locations[p]

In [8]:
#
# Certains enregistrement font référence à des photos non disponibles (404 Not Found)
#
# Cette cellule met manuellement à jour ces enregistrements avec des photos accessibles
#
photos = {
	"Studenica Monastery": "https://upload.wikimedia.org/wikipedia/commons/thumb/6/60/Studenica_monastery_%28Manastir_Studenica%29_-_by_Pudelek.jpg/320px-Studenica_monastery_%28Manastir_Studenica%29_-_by_Pudelek.jpg",

}
for p in photos:
    places[p]['photo'] = photos[p]

In [9]:
#
# Fonctions pour la recherche des images aux liens erronés
#
import urllib.parse
import http.client
import time

#
# envoi d'une requête hhtp
#
def http_request(url):
    # print('hello from http_request',url)
    
    (baseurl,querystring) = url.split('?',1) if '?' in url else (url,'')
    (protocol,netpath) = baseurl.split(':',1)
    (_,__,server,path) = netpath.split('/',3)
    path = '/'.join([urllib.parse.quote(chunk) for chunk in path.split('/')])

    conn = http.client.HTTPSConnection(server)
    conn.request('HEAD','/'+path+'?'+querystring)
    r = conn.getresponse()
    
    if ( r.status == 200 ):
        return 200
    elif ( r.status == 404 ):
        return 404
    elif ( r.status == 302 ):
        # print ('302', 'redirecting to ',r.headers['Location'])
        return http_request(r.headers['Location'])
    elif ( r.status == 301 ):
        # print ('301', 'redirecting to ',r.headers['Location'])
        return http_request(r.headers['Location'])
    else:
        return r.status

#
# liste des photos aux liens erronés
#
failed = []

In [10]:
#
# Mise à jour de la liste des photos aux liens erronnés
#
# Pour parcourir l'ensemble des ponts, modifier les variables start et end.
#
# ATTENTION : cette procédure est potentiellement très lente puisqu'elle effectue une requête
# pour vérifier chacune des images, et il y a plusieurs centaines de ponts...
#
start = 0
end = 10

#
# test photos
#
for p in [p for p in places][start:end]:
    status = http_request(places[p]['photo'])
    if ( status == 404 ):
        print (status,places[p]['name'],'\n',places[p]['wiki'],'\n')
        if not p in failed :
            failed.append(p)

__4.5 Ecriture du fichier des données nettoyées__

In [11]:
#           
# Ecriture du fichier csv à importer dans la base de données
#
fieldnames = list(places["Ambrussum"].keys())
print(fieldnames)

for p in places:
    places[p]['location'] = places[p]['locname']

fieldnames.remove('locname')

print(fieldnames)

with open('lieux.csv', 'w', encoding='utf-8', newline='\n') as f:
    writer = csv.DictWriter(f, fieldnames=fieldnames, delimiter=';')
    writer.writeheader()
    for p in places:
        writer.writerow({f: places[p][f] for f in fieldnames})

['place', 'name', 'location', 'locname', 'date', 'wiki', 'lat', 'lon', 'abstract', 'photo']
['place', 'name', 'location', 'date', 'wiki', 'lat', 'lon', 'abstract', 'photo']


__4.6 Création / mise à jour de la base de données__

In [12]:
#
# Mise à jour de la base de données
#
import sqlite3

places_dbname = 'lieux.db'
conn = sqlite3.connect(places_dbname)
c = conn.cursor()

c.execute("DROP TABLE IF EXISTS lieux")
conn.commit()

c.execute('''CREATE TABLE "lieux" (
    `place` TEXT PRIMARY KEY,
    `name` TEXT,
    `location` TEXT,
    `date` TEXT,
    `wiki` TEXT,
    `lat` REAL,
    `lon` REAL,
    `abstract` TEXT,
    `photo` TEXT
)''')
conn.commit()

request = 'INSERT INTO lieux ({}) VALUES ({})'.format(','.join(fieldnames),','.join(['?']*len(fieldnames)))
for p in places:
    c.execute(request,[places[p][k] for k in fieldnames])
    
conn.commit()