<a href="https://colab.research.google.com/github/Slimanee/cours-insa/blob/master/datascientest_itineraire.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#ETAPE 1 

## 1- Récupération des données : 

**Source :** https://diffuseur.datatourisme.fr/fr/

> Nous avons tester la récupération d'un fichier unique JSON structuré généré via le site de Data Tourisme et d'un fichier CSV déjà créé sur data.gouv. <br>
A priori le JSON est de meilleur qualité. 

Pour ce projet nous choisissons la **région Auvergne-Rhones-Alpes**.
<br>

> Nous avons testé plusieurs moyens de récupération de fichiers.

> Le site https://diffuseur.datatourisme.fr/fr/ permet d'automatiser les flux, de choisir le format de sortie ainsi que le périmètre que nous voulons analyser

> Tests effectués avec les formats suivants :
- Fichiers json structurés
- Fichiers csv (liens http sur lesquels il faudrait faire du webscrapping pour récupérer les data des POI et un travail sur les longitudes/latitudes)
- Archive zip / fichier json (contient un ensemble de sous dossiers avec un json "entete" permettant d'obtenir le chemin et les data POI.)

> Les données datatourism sont aussi déposées de manière régulière sur le site https://www.data.gouv.fr/ . 
- fichier csv mis à jour quotidiennement

Pour ce projet nous avons fait le choix d'automatiser un flux sur le site https://diffuseur.datatourisme.fr/fr/ au format json qui contient les données nécessaires et nous avons choisi la **région Auvergne-Rhones-Alpes**. 
<br> 

## 2- Trie et nettoyage des données

> Nous avons effectué un premier nettoyage rapide, simple tout en gardant un maximum d'informations pour cette étape. <br>
Nous allons ensuite travailler sur la colonnne "type" des POI, qui nous permettra de relier les POI entre eux et de créer un filtre sur l'application. 

In [None]:
import os
import pandas as pd
import requests
import seaborn as sns
from sqlalchemy import create_engine

In [None]:
key = '380d2fe9-2c9c-4190-a79e-8301b37d03fb'
url = 'https://diffuseur.datatourisme.fr/webservice/bfadcf44012b7156ca3e297b468c4f75/' + key
data = requests.get(url).json()

In [None]:
df = pd.json_normalize(data['@graph'])
columns = {
    'dc:identifier': 'id',
    '@id': 'url',
    '@type': 'type',
    'rdfs:label.@value': 'nom',
    'rdfs:comment.@value': 'commentaire',
    'hasContact.schema:email': 'contact_email',
    'hasContact.schema:telephone': 'contact_telephone',
    'hasContact.foaf:homepage': 'contact_homepage',
    'isLocatedAt.schema:address.schema:streetAddress': 'adresse',
    'isLocatedAt.schema:address.schema:addressLocality': 'ville',
    'isLocatedAt.schema:address.schema:postalCode': 'code_postal',
    'isLocatedAt.schema:geo.schema:latitude.@value': 'latitude',
    'isLocatedAt.schema:geo.schema:longitude.@value': 'longitude',
    'isLocatedAt.schema:geo.latlon.@value': 'latlon',
    'isLocatedAt.schema:geo.schema:elevation.@value': 'altitude',
    'isLocatedAt.schema:openingHoursSpecification.schema:validFrom.@value': 'ouvert_date_de',
    'isLocatedAt.schema:openingHoursSpecification.schema:validThrough.@value': 'ouvert_date_a',
    'isLocatedAt.schema:openingHoursSpecification.schema:opens.@value': 'ouvert_heure_de',
    'isLocatedAt.schema:openingHoursSpecification.schema:closes.@value': 'ouvert_heure_a',
    'isLocatedAt.schema:openingHoursSpecification.additionalInformation.@value': 'horaire',
    'schema:offers.schema:priceSpecification.schema:minPrice': 'prix_min',
    'schema:offers.schema:priceSpecification.schema:maxPrice': 'prix_max',
    'schema:offers.schema:priceSpecification.schema:priceCurrency': 'currency',
    'schema:offers.schema:priceSpecification.appliesOnPeriod.startDate.@value': 'prix_de',
    'schema:offers.schema:priceSpecification.appliesOnPeriod.endDate.@value': 'prix_a',
}
df = df[columns.keys()]  # Keep only useful columns
df = df.rename(columns=columns)
df = df.dropna(subset=['id', 'nom', 'longitude', 'latitude', 'latlon'])  # Suppress row without mandatory data
df = df.set_index('id', verify_integrity=True)  # Ensure column id contains only unique values
df.insert(len(df.columns), 'updated_at', pd.Timestamp.utcnow())  # Add datetime column to know when data were refreshed

# Filter/cleanup useful types
df['type'] = df['type'].apply(lambda x: list({i.replace('schema:', '') for i in x} - {'urn:resource', 'olo:OrderedList', 'PlaceOfInterest', 'PointOfInterest'}))
df_types = df.explode(column='type')[['type', 'updated_at']]  # Create type dataframe for types mapping
df_types.index.names = ['poi_id']  # Change id to poi_id in type dataframe
df = df.drop(columns=['type'])  # Remove type column from poi dataframe

# Extract price min/max info from list/dictionary if exists
df['prix_min'] = df['prix_min'].apply(lambda x: [e['@value'] for e in x] if isinstance(x, list) else x)
df['prix_max'] = df['prix_max'].apply(lambda x: [e['@value'] for e in x] if isinstance(x, list) else x)

df = df.applymap(lambda x: ', '.join(x) if isinstance(x, list) else x)  # Transform lists into comma-separated strings

In [None]:
print(df_types.head())
pd.set_option('display.max_columns', 30)
df.head()

In [None]:
# Visualisation rapide de notre dataframe POI. Le noir correspond au données remplies, le beige représente les NaN.
# Les principales informations des POI nécessaires au projet sont présentes : "nom", "longitude", "latitude", "latlon".
sns.heatmap(df.isnull(), cbar=False)

# ETAPE 2

## 1- Création d'une database relationnelle (SQL)
(en cours)


In [None]:
%%capture
!sudo apt-get -y -qq update
!sudo apt-get -y -qq install postgresql
!sudo service postgresql start
!sudo -u postgres psql -U postgres -c "ALTER USER postgres PASSWORD 'postgres';"
%env DATABASE_URL=postgresql://postgres:postgres@localhost:5432/postgres
%load_ext sql

In [None]:
# Creation de deux tables postgres pour les POI et les types
engine = create_engine(os.environ['DATABASE_URL'])
with engine.begin() as connection:
    df.to_sql('itineraire_poi', connection, if_exists='replace')
    df_types.to_sql('itineraire_types', connection, if_exists='replace')

In [None]:
%%sql
select * from itineraire_poi limit 5;

In [None]:
%%sql
select * from itineraire_types limit 5;

# Idées

* Creation de catégories: https://towardsdatascience.com/fuzzy-string-matching-in-python-68f240d910fe
* idée 2

