## <center style="color: #66d">Projet C - Tours les plus hautes</center>

### 1. Origine des données - DBPedia

Cette année, le principe de chacun des projets consiste à récupérer des données sur DBPedia. 

<img src="DBPedia.png" width="120">

DBpedia est un projet universitaire et communautaire d'exploration et extraction automatique de données dérivées de Wikipédia. Son principe est de proposer une version structurée et sous forme de données normalisées au format RDF des contenus encyclopédiques de chaque page de Wikipédia. Il existe plusieurs versions de DBpedia et dans plusieurs langues. Les trois versions principales sont la version anglaise (http://dbpedia.org/sparql), la versions française (http://fr.dbpedia.org) et la version allemande (http://de.dbpedia.org/).

La version qui a été utilisée pour récupérer les données qui vous sont fournies est la version anglaise c’est à dire http://dbpedia.org/ car c’est la plus complète. Cependant il est tout à fait possible d’adapter les différentes requêtes aux autres chapitres multilingues de DBpedia (ex: la version française) en tenant compte des différences entre les chapitres.



### 2. Format des données - RDF

Sur DBPedia, les données sont représentées au format
<a href="https://fr.wikipedia.org/wiki/Resource_Description_Framework">RDF</a>
(Resource Description Framework). RDF est un modèle de graphe destiné à décrire de façon formelle des ressources et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions. Développé par le <a href="https://www.w3.org/">World Wide Web Consortium</a> (W3C en abrégé), RDF est un des langages de base du Web sémantique.

<img src="Rdf_logo.svg" width="100">

Un document RDF est constitué d'un ensemble de triplets. Un triplet RDF est une association (sujet, prédicat, objet).

* Le sujet représente la ressource à décrire.
* Le prédicat est une propriété de la ressource.
* L’objet donne la valeur de la propriété, et peut correspondre à une donnée numérique ou textuelle, ou à autre ressource.

Les ressources et les prédicats sont représentés à l'aide d'une URL.

Exemple : pour observer l'ensemble des propriétés de la ressource <code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Burj_Khalifa&gt;</code> avec leur valeur il suffit d'actionner le lien : http://dbpedia.org/resource/Burj_Khalifa

On y apprend ainsi que :<br>
<code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Burj_Khalifa&gt;</code> <code>dbo:elevatorCount 57</code>

Ce qui peut s'exprimer en français par : La tour Burj Khalifa possède 57 ascenseurs (dbpedia ontology : elevatorCount).

Note: pour représenter les URLs des ressources et des propriétés, DBPedia utilise un certain nombre de préfixes prédéfinis. Ainsi l'URL <code>&lt;dbo:elevatorCount&gt;</code> correspond à <code>&lt;http://</code><code>dbpedia.org</code><code>/ontology/elevatorCount&gt;</code> obtenue en remplaçant le préfixe par sa valeur.


### 3. Récupération de données sur DBPedia - SPARQL

<a href="https://fr.wikipedia.org/wiki/SPARQL">SPARQL</a> est un langage de requête et un protocole qui permet de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet. Son nom est un acronyme récursif qui signifie : "SPARQL Protocol And RDF Query Language".

Voici un exemple simple de requête SPARQL, qui s'interprète comme "Quelle est la ressource dont le sujet principal est la tour Burj Khalifa ?", et va nous retourner l'adresse de la page wikipédia consacrée à cette tour :

<code>SELECT ?wiki  WHERE { </code><code>&lt;http://</code><code>dbpedia.org</code><code>/resource/Burj_Khalifa&gt;</code><code>  foaf:isPrimaryTopicOf  ?wiki  }</code>

Il est possible de soumettre de telles requêtes sur le point d'accès dédié de DBPedia : http://dbpedia.org/sparql.

<div style="background-color:#eef;padding:10px;border-radius:3px; margin-top: 1.33em">
Soumettez la requête précédente via le point d'accès SPARQL de DBPedia pour observer
la réponse obtenue, et vérifier que l'information retournée correspond bien à l'adresse de la page wikipédia demandée : <code>http://en.wikipedia.org/wiki/Burj_Khalifa</code>.
</div>

SPARQL est un langage puissant, qui permet d'émettre des requêtes complexes. Pour plus d'informations sur SPARQL et la façon d'utiliser DBPedia, il ne sera pas inutile de consulter le <a href="http://fr.dbpedia.org/sparqlTuto/tutoSparql.html">tutoriel en ligne</a>.

### 4. Données sur les tours

Les ressources concernant les tours disponibles sur DBPedia sont du type <a href="http://dbpedia.org/class/yago/Skyscraper104233124"><code>yago:Skyscraper104233124</code></a>. La requête suivante demande la liste de celles dont la hauteur est supérieure à 150m, avec leur nom, l'adresse de la page Wikipédia qui les décrit, leur latitude, longitude, hauteur, date d'achèvement, et le texte et l'URL de l'image qui les décrivent sur Wikipédia :

__Remarque importante__

<p>Cela n'est pas nécessaire dans l'immédiat, mais si vous désirez réinitialiser le contenu de votre base de données, il faudra exécuter dans l'ordre, l'ensemble des cellules présentes dans la suite de ce notebook. Si les données sources ont été modifiées, il faudra peut-être intervenir à la marge sur certaines parties du code de nettoyage des données.</p>

<p>De même, pour compléter et/ou modifier vos données, vous devrez modifier la requête SPARQL présente dans la cellule ci-dessus, et éventuellement nettoyer les nouvelles données obtenues en complétant le notebook avec le code python nécessaire.
</p>

<p>Toutefois, avant de vous aventurer à modifier la requête SPARQL, il sera pertinent de tester votre nouvelle requête via le point d'entrée interactif de DBPedia, en ajoutant une clause LIMIT(10) par exemple, pour éviter de surcharger le serveur, et d'être obligé d'attendre les résultats trop longtemps.</p> 

__4.1 Enregistrement du notebook et récupération de son nom dans la variable notebook_name__

In [1]:
%%javascript

// Enregistrement des éventuelles modifications de la requête SPARQL
IPython.notebook.save_notebook()

// Enregistrement du nom du présent notebook dans la variable python notebook_name
var kernel = IPython.notebook.kernel;
var thename = window.document.getElementById("notebook_name").innerHTML;
var command = "notebook_name = " + "\""+thename+"\"";
kernel.execute(command);
element.text(command)

<IPython.core.display.Javascript object>

__4.2 Définition des fonctions utilisées par la suite__

In [2]:
#
# Emission d'un requête SPARQL vers le point d'entrée DBPedia
# et récupération du résultat dans un fichier csv
#
# id : metadata.id de la cellule avec la requête SPARQL, et nom du fichier csv
#
def dbpedia_sparql_to_csv(cell_id):

    query = get_cell_by_id(cell_id)['source']
    url = display_dbpedia_links(query)['csv']
    http_request_to_file(url,'{}.csv'.format(cell_id))

#
# Récupère une cellule du présent notebook
#
def get_cell_by_id(cell_id):

    # https://discourse.jupyter.org/t/extract-specific-cells-from-students-notebooks/7951/4
    import os
    import nbformat as nbf
    filename = "{}.ipynb".format(notebook_name)
    notebook = nbf.read(filename, nbf.NO_CONVERT)
    return [c for c in notebook.cells if 'id' in c['metadata'] and c['metadata']['id'] == cell_id][0]

#
# Renvoie l'url d'une requête vers le point d'entré SPARQL de DBPedia
#
def dbpedia_sparql_url(query,fmt):

    # https://stackoverflow.com/questions/40557606/how-to-url-encode-in-python-3
    from urllib.parse import urlencode, quote_plus
    url = "https://dbpedia.org/sparql"
    params = {
        "default-graph-uri" : "http://dbpedia.org",
        "query" : query,
        "format" : fmt,
        "timeout" : 30000,
        "signal_void" : "on",
        "signal_unconnected" : "on"
    }
    return "{}?{}".format(url,urlencode(params,quote_via=quote_plus))

#
# Affiche et renvoie les liens pour une requête SPARQL sur le point d'entrée DBPedia
# avec un résultat au format html, json, ou csv
#
def display_dbpedia_links(query):
    
    html_url = dbpedia_sparql_url(query,'text/html')
    json_url = dbpedia_sparql_url(query,'application/sparql-results+json')
    csv_url = dbpedia_sparql_url(query,'text/csv')
    
    # https://stackoverflow.com/questions/48248987/inject-execute-js-code-to-ipython-notebook-and-forbid-its-further-execution-on-p
    from IPython.display import display, HTML

    html_link = '<a href="{}">HTML</a>'.format(html_url)
    json_link = '<a href="{}">JSON</a>'.format(json_url)
    csv_link = '<a href="{}">CSV</a>'.format(csv_url)

    display(HTML('Requêtes : {}&nbsp;&nbsp;{}&nbsp;&nbsp;{}'.format(html_link,json_link,csv_link)))

    return { "html": html_url, "json": json_url, "csv": csv_url}

#
# Emet une requête http et enregistre le résultat dans un fichier
#
def http_request_to_file(url,filename):
    
    # https://stackoverflow.com/questions/645312/what-is-the-quickest-way-to-http-get-in-python
    import urllib.request
    contents = urllib.request.urlopen(url).read()

    with open(filename,'wb') as f:
        f.write(contents)

#
# Vérifie si une chaîne peut être convertie en float
#
def isfloat(value):
  try:
    float(value)
    return True
  except ValueError:
    return False


__4.3 Récupération des données brutes provenant de DBPedia__

Cette cellule envoie la requête SPARQL au serveur DBPedia, et enregistre le résultat dans le fichier sparql.csv.

In [3]:
raw_filename = 'sparql'
dbpedia_sparql_to_csv(raw_filename)

__4.4 Nettoyage des données__

La cellule suivante relit le fichier des données brutes dans le dictionnaire nommé <code>sites</code>, puis les cellules consécutives modifient ces données en mémoire pour les nettoyer.

In [4]:
#
# Lecture du fichier d'origine, avec suppression des doublons
#
import csv

towers = {}
with open('{}.csv'.format(raw_filename),encoding="utf-8") as csvfile:
    reader = csv.DictReader(csvfile,delimiter=',')
    for row in reader:
        if not row['name'] in towers:
            towers[row['name']] = row

print(len(towers))

494


In [5]:
#
# Traitement des dates
#
month_names = {
    'january': 'janvier',
    'feb': 'février',
    'february': 'février',
    'march': 'mars',
    'april': 'avril',
    'may': 'mai',
    'june': 'juin',
    'july': 'juillet',
    'august': 'août',
    'september': 'septembre',
    'october': 'octobre',
    'november': 'novembre',
    'december': 'décembre'
}
months = [
    'janvier',
    'février',
    'mars',
    'avril',
    'mai',
    'juin',
    'juillet',
    'août',
    'septembre',
    'octobre',
    'novembre',
    'décembre'
]
junk = [
    "Between December 1982 and ",
    'early ',
    'Summer ',
    'The Residence ',
    'Tower 1 - '
]

for t in [t for t in towers]:
    date = towers[t]['date']
    
    jk = [j for j in junk if date.startswith(j)]
    if ':' in date:
        date = date.split(': ')[1]
    elif len(jk):
        date = date[len(jk[0]):]

    chunks = date.split('-')
    words = date.strip().split(' ')

    if date == 'Abandoned' or date == "N/A":
        del towers[t]
        
    # --05-27
    elif towers[t]['name'] == 'Chrysler Building':
        towers[t]['date'] = '27 mai 1930'
        towers[t]['year'] = 1930
        
    # --04-11
    elif towers[t]['name'] == 'Eighth Avenue Place':
        towers[t]['date'] = '2014'
        towers[t]['year'] = 2014
        
    # Topped out
    elif towers[t]['name'] == 'Tianjin Tower':
        towers[t]['date'] = '14 janvier 2010'
        towers[t]['year'] = 2010

    # Renovated in 2013
    elif towers[t]['name'] == 'Commerce Square':
        towers[t]['date'] = '1987'
        towers[t]['year'] = 1987

    # 20032005
    elif towers[t]['name'] == 'Torres El Faro':
        towers[t]['date'] = '2003'
        towers[t]['year'] = 2003
        
    # 2009-10-01
    elif len(chunks) == 3:
        (y,m,d) = date.split('-')
        towers[t]['date'] = "{} {} {}".format(d,months[int(m.lower())-1],y)
        towers[t]['year'] = int(y)
    
    # January 2010
    elif len(words) == 2:      
        (m,y) = date.split(' ')
        if m.lower() in month_names:
            towers[t]['date'] = "{} {}".format(month_names[m.lower()],y)
        else :
            towers[t]['date'] = date
        towers[t]['year'] = int(towers[t]['date'].split(' ')[1])

    # 07 décembre 2017
    elif len(words) == 3:
        towers[t]['date'] = date
        towers[t]['year'] = int(towers[t]['date'].split(' ')[2])
    
    # 1992
    else:
        towers[t]['date'] = date
        towers[t]['year'] = int(date)
        

In [6]:
#
# Certains enregistrement font référence à des photos non disponibles (404 Not Found)
#
# Cette cellule met manuellement à jour ces enregistrements avec des photos accessibles
#
photos = {
	"Marina 101": "https://upload.wikimedia.org/wikipedia/en/thumb/6/60/Marina_101.jpg/360px-Marina_101.jpg",
	"Al Hamra Tower": "https://upload.wikimedia.org/wikipedia/en/thumb/4/42/Al_Hamra_Tower.jpg/360px-Al_Hamra_Tower.jpg",
	"23 Marina": "https://upload.wikimedia.org/wikipedia/en/thumb/5/59/23_Marina.jpg/360px-23_Marina.jpg",
	"ADNOC Headquarters": "https://s3.amazonaws.com/images.skyscrapercenter.com/thumbs/77043_500x650.jpg",
	"Al Yaqoub Tower": "https://upload.wikimedia.org/wikipedia/en/thumb/d/d5/Al_Yaqoub_Tower.jpg/360px-Al_Yaqoub_Tower.jpg",
	"The Index": "https://upload.wikimedia.org/wikipedia/en/thumb/f/fb/The_Index_Dubai.jpg/360px-The_Index_Dubai.jpg",
	"53W53": "https://upload.wikimedia.org/wikipedia/commons/thumb/c/ca/53w53Aug9.jpg/360px-53w53Aug9.jpg",
	"Borj-e Milad": "https://upload.wikimedia.org/wikipedia/commons/thumb/0/0d/Tehran_Milad_Tower%2C_2019.jpg/360px-Tehran_Milad_Tower%2C_2019.jpg",
	"Almas Tower": "https://upload.wikimedia.org/wikipedia/en/thumb/4/4f/Almas_Tower.jpg/360px-Almas_Tower.jpg",
	"Kingdom Centre": "https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/%EC%82%AC%EC%9A%B0%EB%94%94_%EB%A6%AC%EC%95%BC%EB%93%9C%EC%9D%98_%ED%82%B9%EB%8D%A4%EC%84%BC%ED%84%B0_%28Riyard_Kondom_Tower%29_-_panoramio.jpg/360px-%EC%82%AC%EC%9A%B0%EB%94%94_%EB%A6%AC%EC%95%BC%EB%93%9C%EC%9D%98_%ED%82%B9%EB%8D%A4%EC%84%BC%ED%84%B0_%28Riyard_Kondom_Tower%29_-_panoramio.jpg",
	"Arraya 2": "https://archello.com/thumbs/images/2018/01/30/Overall-frm-Al-Hamra-Tower-DuskNM.1517302476.2633.jpg?fit=crop&w=300&h=518",
	"Aspire Tower": "https://s3.amazonaws.com/images.skyscrapercenter.com/thumbs/42715_500x650.jpg",
	"Bahria Town ICON": "https://upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Bahria_Icon_Karachi_3.jpg/360px-Bahria_Icon_Karachi_3.jpg",
	"Khalid Al Attar Tower 2": "https://upload.wikimedia.org/wikipedia/en/thumb/e/e7/Millennium_Hotel_Dubai.jpg/375px-Millennium_Hotel_Dubai.jpg",
	"Brisbane Skytower": "https://upload.wikimedia.org/wikipedia/commons/thumb/6/6b/Skylines_of_Brisbane_from_Kangaroo_Point_Cliffs_Park%2C_2020%2C_03.jpg/360px-Skylines_of_Brisbane_from_Kangaroo_Point_Cliffs_Park%2C_2020%2C_03.jpg",
	"Tour Al Faisaliah": "https://upload.wikimedia.org/wikipedia/commons/thumb/9/9c/El_Faysaliah.jpg/375px-El_Faysaliah.jpg",
	"Bahrain Financial Harbour": "https://upload.wikimedia.org/wikipedia/en/thumb/5/53/Bahrain_Financial_Harbour_2020.jpg/360px-Bahrain_Financial_Harbour_2020.jpg",
	"Dubai Marriott Harbour Hotel & Suites": "https://cache.marriott.com/marriottassets/marriott/DXBHR/dxbhr-exterior-0050-ver-clsc.jpg?downsize=1440px:*",
	"Gramercy Residences": "https://upload.wikimedia.org/wikipedia/en/thumb/2/21/Gramercy_Residences_%28Century_City%2C_Makati_Ave._Cor._Kalayaan_Ave.%2C_Poblacion%2C_Makati%3B_2015-06-07%29.jpg/360px-Gramercy_Residences_%28Century_City%2C_Makati_Ave._Cor._Kalayaan_Ave.%2C_Poblacion%2C_Makati%3B_2015-06-07%29.jpg",
	"Menara Komtar Complex": "https://upload.wikimedia.org/wikipedia/commons/thumb/2/2f/2018_New_Year_Fireworks_in_George_Town%2C_Penang.jpg/375px-2018_New_Year_Fireworks_in_George_Town%2C_Penang.jpg",
	"Chelsea Tower": "https://upload.wikimedia.org/wikipedia/en/thumb/1/14/Chelsea_Tower.jpg/360px-Chelsea_Tower.jpg",
	"1717 Broadway": "https://upload.wikimedia.org/wikipedia/commons/thumb/6/6d/1717_Broadway_Feb_2017.png/360px-1717_Broadway_Feb_2017.png",
	"St-Francis Square": "https://upload.wikimedia.org/wikipedia/en/b/ba/BSA_Twin_Towers2012.jpg",
	"155 North Wacker": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/df/155NWacker.jpg/300px-155NWacker.jpg",
    "The Clare": "https://upload.wikimedia.org/wikipedia/commons/thumb/a/a9/20080116_The_Clare_%40_The_Water_Tower.jpg/398px-20080116_The_Clare_%40_The_Water_Tower.jpg",
    "Tour D2": "https://upload.wikimedia.org/wikipedia/fr/thumb/e/e4/Tour_D2_Juillet_2020.jpeg/390px-Tour_D2_Juillet_2020.jpeg",
    "Tour Carpe Diem": "https://upload.wikimedia.org/wikipedia/fr/thumb/8/8d/Tour_Carpe_Diem_Janvier_2020.jpeg/390px-Tour_Carpe_Diem_Janvier_2020.jpeg",
	"Tour internationale de Téhéran": "https://upload.wikimedia.org/wikipedia/commons/thumb/e/e5/Tehran_Tower_-_panoramio.jpg/360px-Tehran_Tower_-_panoramio.jpg",
	"Palazzo Lombardia": "https://upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Piazza_Gae_Aulenti_with_Palazzo_Lombardia_cropped.jpg/360px-Piazza_Gae_Aulenti_with_Palazzo_Lombardia_cropped.jpg",
    "Zifeng Tower": "https://upload.wikimedia.org/wikipedia/commons/thumb/9/92/Zifeng_Tower_2017.jpg/311px-Zifeng_Tower_2017.jpg",
}

for t in photos:
    if t in towers:
        towers[t]['photo'] = photos[t]

In [7]:
#
# Fonctions pour la recherche des images aux liens erronés
#
import urllib.parse
import http.client
import time

#
# envoi d'une requête hhtp
#
def http_request(url):
    # print('hello from http_request',url)
    
    (baseurl,querystring) = url.split('?',1) if '?' in url else (url,'')
    (protocol,netpath) = baseurl.split(':',1)
    (_,__,server,path) = netpath.split('/',3)
    path = '/'.join([urllib.parse.quote(chunk) for chunk in path.split('/')])

    conn = http.client.HTTPSConnection(server)
    conn.request('HEAD','/'+path+'?'+querystring)
    r = conn.getresponse()
    
    if ( r.status == 200 ):
        return 200
    elif ( r.status == 404 ):
        return 404
    elif ( r.status == 302 ):
        # print ('302', 'redirecting to ',r.headers['Location'])
        return http_request(r.headers['Location'])
    elif ( r.status == 301 ):
        # print ('301', 'redirecting to ',r.headers['Location'])
        return http_request(r.headers['Location'])
    else:
        return r.status

#
# liste des photos aux liens erronés
#
failed = []

In [8]:
#
# Mise à jour de la liste des photos aux liens erronnés
#
# Pour parcourir l'ensemble des tours, modifier les variables start et end.
#
# ATTENTION : cette procédure est potentiellement très lente puisqu'elle effectue une requête
# pour vérifier chacune des images, et il y a plusieurs centaines de tours...
#
start = 0
end = 10

for t in [t for t in towers][start:end]:
    status = http_request(towers[t]['photo'])
    if ( status == 404 ):
        print (status,towers[t]['name'],'\n',towers[t]['wiki'],'\n')
        if not t in failed :
            failed.append(t)

In [9]:
# suppression des doublons sur l'id
towers_by_id = {}
for t in towers:
    id = towers[t]['building']
    if not id in towers_by_id:
        towers_by_id[id] = towers[t]
    else:
        print(towers_by_id[id]['building'],towers_by_id[id]['name'])
        print(towers[t]['building'],towers[t]['name'])

http://dbpedia.org/resource/The_New_York_Times_Building New York Times Building
http://dbpedia.org/resource/The_New_York_Times_Building One Times Square
http://dbpedia.org/resource/Aqua_(skyscraper) Aqua (groupe)
http://dbpedia.org/resource/Aqua_(skyscraper) Aqua (Chicago)
http://dbpedia.org/resource/Hearst_Tower_(Manhattan) Hearst Tower (Charlotte)
http://dbpedia.org/resource/Hearst_Tower_(Manhattan) Hearst Tower (New York)


__4.5 Ecriture du fichier des données nettoyées__

In [10]:
#           
# Ecriture du fichier csv à importer dans la base de données
#
fieldnames = list(towers['Burj Khalifa'].keys())

print(fieldnames)

with open('tours.csv', 'w', encoding='utf-8', newline='\n') as f:
    writer = csv.DictWriter(f, fieldnames=fieldnames, delimiter=';')
    writer.writeheader()
    for id in towers_by_id:
        writer.writerow({f: towers_by_id[id][f] for f in fieldnames})

['building', 'name', 'wiki', 'lat', 'lon', 'height', 'date', 'abstract', 'photo', 'year']


__4.6 Création / mise à jour de la base de données__

In [11]:
# relecture du fichier de données
towers = {}

with open('tours.csv',encoding="utf-8") as csvfile:
    reader = csv.DictReader(csvfile,delimiter=';')
    for row in reader:
        towers[row['name']] = row

fieldnames = list(towers['Burj Khalifa'].keys())

#
# Mise à jour de la base de données
#
import sqlite3

towers_dbname = 'tours.db'
conn = sqlite3.connect(towers_dbname)
c = conn.cursor()

c.execute("DROP TABLE IF EXISTS tours")
conn.commit()

c.execute('''CREATE TABLE "tours" (
    `building` TEXT PRIMARY KEY,
    `name` TEXT,
    `wiki` TEXT,
    `lat` REAL,
    `lon` REAL,
    `height` REAL,
    `date` TEXT,
    `year` INTEGER,
    `abstract` TEXT,
    `photo` TEXT
)''')
conn.commit()

request = 'INSERT INTO tours ({}) VALUES ({})'.format(','.join(fieldnames),','.join(['?']*len(fieldnames)))
for t in towers:
    c.execute(request,[towers[t][k] for k in fieldnames])
    
conn.commit()