# ITINERAIRE DE VACANCE - EXPLORATION DES DONNÉES

## 0. Import des modules

In [1]:
import pandas as pd
import json
from pprint import pprint
import operator as op

## 1. Import des données
### 1.1 JSON
#### 1.1.1 Index

In [2]:
objects_path = '../Data/JSON/objects/'

In [3]:
index_path = '../Data/JSON/index.json'

In [4]:
with open(index_path) as json_data:
    index = json.load(json_data)

L'index contient plusieurs informations:
* `file`: chemin d'accès vers les objets json
* `label`: nom du Point Of Interrest
* `lastUpdateDatatourisme`: dernière mise à jour du POI sur Datatourisme

In [5]:
pprint(index[:2])

[{'file': '0/00/13-000fac17-cff9-3918-a3d6-8edc919c8533.json',
  'label': 'Calvi Jet Locations',
  'lastUpdateDatatourisme': '2023-02-22T06:42:37.696Z'},
 {'file': '0/01/13-016f3145-67f8-33c3-9293-109b420a9104.json',
  'label': 'Promenades du Golfe',
  'lastUpdateDatatourisme': '2023-04-02T05:48:09.233Z'}]


#### 1.1.2 Exploration d'un objet json

In [6]:
jsonObject_path = objects_path + index[0]['file']

In [7]:
with open(jsonObject_path) as json_data:
    jsonObject = json.load(json_data)

Nous avons 15 clés dans notre objet json:
* **`@id`: Lien vers le POI.**
* `dc:identifier`: Identifiant unique
* **`@type`: La classification de POI. Par exemple : festival, musée, chambre d’hôtes...**
* `rdfs:comment`: Commentaire du POI
* **`rdfs:label`: Nom du Point Of Interrest**
* `hasBeenCreatedBy`: L'agent qui a créé ce POI dans le système d'information :
    * `@id`: Lien vers l'agent sur DATAtourisme
    * `dc:identifier`: Identifiant unique
    * `schema:email`: E-mail de l'agent
    * `schema:legalName`: Nom officiel de l'agent
    * `@type`: Type de l'agent
    * `foaf:homepage`: Lien vers le site de l'agent
* `hasBeenPublishedBy`: L'agent qui a publié ce POI dans le système d'information:
    * `@id`: Lien vers l'agent sur DATAtourisme
    * `schema:legalName`: Nom officiel de l'agent
    * `@type`: Type de l'agent
    * `foaf:homepage`: Lien vers le site de l'agent
* **`hasContact`: L'agent à contacter pour affaires générales relatives à ce POI:**
    * `@id`: Lien vers l'agent sur DATAtourisme
    * `schema:email`: E-mail de l'agent
    * **`schema:telephone`: Telephone de l'agent**
    * `@type`: Type de l'agent
    * **`foaf:homepage`: Lien vers le site de l'agent**
* **`hasDescription`: Description textuelle courte ou longue du POI pouvant être associée à une audience. Par exemple, un POI peut avoir une description dédiée aux écoles et une autre dédiée au grand public. Si une description n'a aucune audience renseignée, on suppose qu'elle est dédiée à tous les publics:**
    * `@id`: Lien vers la description
    * `@type`: Type(s) de la descripton
    * `hasTranslatedProperty`: Informations de traductions:
        * `@id`: Lien vers les informations de la traduction de la description
        * `dc:contributor`: Traducteur (api.deepl.com/v2/translate)
        * `rdf:language`: Langue de la traduction
        * `rdf:predicate`: Type de la description
    * **`shortDescription`: Dictionnaire des descriptions traduit en plusieurs langues:**
        * `fr`: En fr
        * `de`: ...
* **`hasTheme`: Liste des thèmes:**
    * `@id`: Identifiant du thème au format kb:[theme en anglais sans espace]
    * `@type`: Type du thème
    * `rdfs:label`: Thème en différente langue:
        * `fr`: fr
        * `de`: ...
* `hasTranslatedProperty`: liste d'informations de traductions sur le commentaire:
    * `@id`: Lien vers les informations de la traduction du commentaire
    * `dc:contributor`: Traducteur (api.deepl.com/v2/translate)
    * `rdf:language`: Langue de la traduction
    * `rdf:predicate`: Table de jointure entre @id et comment
* `isLocatedAt`: Informations sur l'emplacement géographique du POI:
    * `@id`: Lien vers les informations sur l'emplacement
    * `schema:address`: Informations sur l'adresse postale
        * `@id`: Lien vers les informations de l'adresse postale
        * **`schema:addressLocality`: Ville**
        * **`schema:postalCode`: Code postale**
        * **`schema:streetAddress`: Adresse postale (certaines données ne sont pas propres)**
        * `@type`: Type de l'adresse
        * `hasAddressCity`: Informations complémentaires sur l'adresse postale
            * `@id`: Identifiant
            * `@type`: Type de localisation (ex: City)
            * **`rdfs:label`: Liste de la ville traduite ['fr']**
            * `insee`: Code Insee
            * `isPartOfDepartment`: Informations du département
                * `@id`: Identifiant
                * `@type`: Type de localisation (ex: Department)
                * **`rdfs:label`: Liste de la ville traduite ['fr']**
                * `insee`: Code Insee
                * `isPartOfRegion`: Informations du département:
                    * `@id`: Identifiant
                    * `@type`: Type de localisation (ex: Region)
                    * **`rdfs:label`: Liste de la ville traduite ['fr']**
                    * `insee`: Code Insee
                    * `isPartOfCountry`: Informations du Pays:
                        * `@id`: Identifiant
                        * `@type`: Type de localisation (ex: Country)
                        * **`rdfs:label`: Liste de la ville traduite ['fr']**
    * `schema:geo`:
        * `@id`: Lien vers les informations coordonnées gépgraphiques
        * **`schema:latitude`: Latitude**
        * **`schema:longitude`: Longitude**
        * `@type`: Type
    * `schema:openingHoursSpecification`: Informations des horraires d'ouverture et fermeture 
        * `@id`: Lien vers les informations des horraires
        * **`schema:closes`: Heure de fermeture**
        * **`schema:opens`: Heure d'ouverture**
        * **`schema:validFrom`: Date de début de période d'ouverture**
        * **`schema:validThrough`: Date de fin de période d'ouverture**
        * `@type`: Type
        * `additionalInformation`: Liste d'inforamtions supplémentaires traduit en plusieurs langues
        * `hasTranslatedProperty`: Liste des informations de traduction des infos supplémentaires
            * `@id`: Lien vers les infos de trad
            * `dc:contributor`: Traducteur (api.deepl.com/v2/translate)
            * `rdf:language`: Langue de la traduction
            * `rdf:predicate`: Table de jointure entre @id et additionalInformation
    * `@type`: Type de place
* `isOwnedBy`: Informations de l'agent propriétaire
    * `@id`: Lien vers l'agent sur DATAtourisme
    * `schema:email`: E-mail de l'agent
    * `schema:legalName`: Nom de l'agent
    * `@type`: Type de l'agent
    * `foaf:homepage`: Lien vers le site de l'agent    
* **`lastUpdate`: Dernière mise à jour du POI**
* `lastUpdateDatatourisme`: Dernière mise à jour du POI sur DATAtourisme

Ce json peut être transformé en JSON-LD grâce au @

In [8]:
# pprint(jsonObject)

### 1.2 CSV

In [9]:
csv_path = '../Data/datatourisme-reg-cor-20230406.csv'

In [10]:
df_csv = pd.read_csv(csv_path)

In [11]:
df_csv.head(2)

Unnamed: 0,Nom_du_POI,Categories_de_POI,Latitude,Longitude,Adresse_postale,Code_postal_et_commune,Periodes_regroupees,Covid19_mesures_specifiques,Covid19_est_en_activite,Covid19_periodes_d_ouvertures_confirmees,Createur_de_la_donnee,SIT_diffuseur,Date_de_mise_a_jour,Contacts_du_POI,Classements_du_POI,Description,URI_ID_du_POI
0,Cala Rossa Bay Resort,https://www.datatourisme.fr/ontology/core#Plac...,41.628354,9.334957,Route de Cala Rossa,20137#Lecci,,,,,Porto Vecchio Tourisme,Apidae Tourisme Scic SA - source : Apidae Tour...,2022-11-07,#+33 7 87 19 07 56#calabayresort@gmail.com#htt...,,Cala Rossa Bay Resort est la promesse d'une ex...,https://data.datatourisme.fr/13/c45810c5-8c12-...
1,U Mulinacciu,https://www.datatourisme.fr/ontology/core#Plac...,41.673547,9.299361,Camping Mulinacciu,20137#Lecci,,,,,Porto Vecchio Tourisme,Apidae Tourisme Scic SA - source : Apidae Tour...,2023-02-21,#+33 4 95 71 47 48#infos@mulinacciu.com#https:...,,Camping entre mer et montagne à 7 kms de Porto...,https://data.datatourisme.fr/13/b26b3595-d776-...


In [12]:
df_csv['SIT_diffuseur'][0]

'Apidae Tourisme Scic SA - source : Apidae Tourisme'

## 2. Préparation des données

In [13]:
listOfPathJson = []
for obj in index:
    listOfPathJson.append(objects_path + obj['file'])

In [14]:
listOfJson = []
for json_path in listOfPathJson:
    with open(json_path) as json_data:
        jsonObject = json.load(json_data)
        listOfJson.append(jsonObject)

len(listOfJson)

623

In [15]:
data_dict = {
    "id": [x['@id'] for x in listOfJson],
    "liste_types": [x['@type'] for x in listOfJson], # A reprocesser car c'est une liste, et qui contient des valeurs inutiles
    "nom": [x['rdfs:label']['fr'][0] for x in listOfJson], # Peut potentiellement être traduit
    "telephone": 
}

SyntaxError: invalid syntax (473027124.py, line 6)

In [16]:
jsonObject['hasContact'][0]

{'@id': 'https://data.datatourisme.fr/cd74fc03-c0e8-31d9-90c3-f5a1e1bdf423',
 'schema:email': ['infos@colombo-line.com'],
 'schema:telephone': ['+33 6 22 96 88 70', '+33 6 78 24 63 20'],
 '@type': ['foaf:Agent', 'Agent'],
 'foaf:homepage': ['https://colomboline.resamare.com/',
  'https://www.colombo-line.com/']}

In [17]:
[x['hasContact'] for x in listOfJson]

KeyError: 'hasContact'

In [23]:
d = {'hasContact': []}
for obj in listOfJson:
    try:
        d['hasContact'].append(obj['hasContact'])
    except:
        d['hasContact'].append(None)

In [24]:
d['hasContact'].countof(None)

AttributeError: 'list' object has no attribute 'countof'

In [25]:
d['hasContact'][49]

In [26]:
import operator as op

op.countOf(d['hasContact'], None)

9

In [27]:
l = []
for obj in listOfJson:
    l.append(list(obj.keys()))

In [28]:
len(l[0])

15

In [29]:
max([len(x) for x in l])

18

In [30]:
[len(x) for x in l].index(18)

280

In [31]:
set(listOfJson[280].keys()).difference(set(listOfJson[0].keys()))

{'offers', 'schema:endDate', 'schema:startDate', 'takesPlaceAt'}

In [32]:
listOfJson[280]['takesPlaceAt']

[{'@id': 'https://data.datatourisme.fr/5f07a677-4e25-3165-ab8d-9454874d76b5',
  '@type': ['Period'],
  'endDate': '2023-09-16',
  'startDate': '2023-09-12'}]

In [51]:
pd.json_normalize(listOfJson, errors={'ignore'}).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 623 entries, 0 to 622
Data columns (total 39 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   @id                                623 non-null    object
 1   dc:identifier                      623 non-null    object
 2   @type                              623 non-null    object
 3   hasBeenPublishedBy                 623 non-null    object
 4   hasContact                         614 non-null    object
 5   hasDescription                     604 non-null    object
 6   hasTheme                           277 non-null    object
 7   hasTranslatedProperty              604 non-null    object
 8   isLocatedAt                        623 non-null    object
 9   isOwnedBy                          623 non-null    object
 10  lastUpdate                         623 non-null    object
 11  lastUpdateDatatourisme             623 non-null    object
 12  rdfs:com

In [47]:
pd.json_normalize(listOfJson, errors={'ignore'})

Unnamed: 0,@id,dc:identifier,@type,hasBeenPublishedBy,hasContact,hasDescription,hasTheme,hasTranslatedProperty,isLocatedAt,isOwnedBy,...,schema:startDate,takesPlaceAt,owl:sameAs,hasRepresentation,providesCuisineOfType,rdfs:label.de,rdfs:label.ru,rdfs:label.zh,rdfs:label.nl,rdfs:label.es
0,https://data.datatourisme.fr/13/000fac17-cff9-...,5005925,"[schema:LocalBusiness, ActivityProvider, Place...",[{'@id': 'https://data.datatourisme.fr/8a9feb4...,[{'@id': 'https://data.datatourisme.fr/d7f7f12...,[{'@id': 'https://data.datatourisme.fr/1759cd3...,"[{'@id': 'kb:SeaKayaking', '@type': ['SportsTh...",[{'@id': 'https://data.datatourisme.fr/0b6fbe7...,[{'@id': 'https://data.datatourisme.fr/f4ee540...,[{'@id': 'https://data.datatourisme.fr/194c52e...,...,,,,,,,,,,
1,https://data.datatourisme.fr/13/016f3145-67f8-...,5663371,"[schema:LocalBusiness, PlaceOfInterest, PointO...",[{'@id': 'https://data.datatourisme.fr/8a9feb4...,[{'@id': 'https://data.datatourisme.fr/ffcc278...,[{'@id': 'https://data.datatourisme.fr/b120860...,"[{'@id': 'kb:Fishing', '@type': ['SportsTheme'...",[{'@id': 'https://data.datatourisme.fr/074eba6...,[{'@id': 'https://data.datatourisme.fr/91088f9...,[{'@id': 'https://data.datatourisme.fr/f5f950f...,...,,,,,,,,,,
2,https://data.datatourisme.fr/13/018c05e0-d6c7-...,5271003,"[schema:LocalBusiness, schema:TouristInformati...",[{'@id': 'https://data.datatourisme.fr/8a9feb4...,[{'@id': 'https://data.datatourisme.fr/8943b35...,[{'@id': 'https://data.datatourisme.fr/a240758...,,[{'@id': 'https://data.datatourisme.fr/06be4ba...,[{'@id': 'https://data.datatourisme.fr/a768f98...,[{'@id': 'https://data.datatourisme.fr/194c52e...,...,,,,,,,,,,
3,https://data.datatourisme.fr/13/019b2930-944c-...,6082389,"[ArcheologicalSite, CulturalSite, PlaceOfInter...",[{'@id': 'https://data.datatourisme.fr/8a9feb4...,[{'@id': 'https://data.datatourisme.fr/4c72876...,[{'@id': 'https://data.datatourisme.fr/9164409...,"[{'@id': 'kb:Culture', '@type': ['CulturalThem...",[{'@id': 'https://data.datatourisme.fr/7b8d6b7...,[{'@id': 'https://data.datatourisme.fr/a409144...,[{'@id': 'https://data.datatourisme.fr/f5f950f...,...,,,,,,,,,,
4,https://data.datatourisme.fr/13/0278689c-4ed8-...,5162838,"[schema:Accommodation, schema:LodgingBusiness,...",[{'@id': 'https://data.datatourisme.fr/8a9feb4...,[{'@id': 'https://data.datatourisme.fr/6d5b858...,[{'@id': 'https://data.datatourisme.fr/6a7692f...,,[{'@id': 'https://data.datatourisme.fr/239cdc0...,[{'@id': 'https://data.datatourisme.fr/e64583b...,[{'@id': 'https://data.datatourisme.fr/f5f950f...,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
618,https://data.datatourisme.fr/13/fe353538-c261-...,4999802,"[PlaceOfInterest, PointOfInterest, SportsAndLe...",[{'@id': 'https://data.datatourisme.fr/8a9feb4...,[{'@id': 'https://data.datatourisme.fr/8bdc849...,[{'@id': 'https://data.datatourisme.fr/27f49b9...,,[{'@id': 'https://data.datatourisme.fr/6f7a6a7...,[{'@id': 'https://data.datatourisme.fr/4f0e0d0...,[{'@id': 'https://data.datatourisme.fr/252af22...,...,,,,,,,,,,
619,https://data.datatourisme.fr/13/fee026aa-0aa1-...,5324812,"[schema:Landform, Beach, NaturalHeritage, Plac...",[{'@id': 'https://data.datatourisme.fr/8a9feb4...,,[{'@id': 'https://data.datatourisme.fr/0d3456f...,"[{'@id': 'kb:Bathing', '@type': ['Accommodatio...",[{'@id': 'https://data.datatourisme.fr/2e882b8...,[{'@id': 'https://data.datatourisme.fr/6955778...,[{'@id': 'https://data.datatourisme.fr/252af22...,...,,,,,,,,,,
620,https://data.datatourisme.fr/13/ff22bb83-6515-...,4989394,"[schema:FoodEstablishment, FoodEstablishment, ...",[{'@id': 'https://data.datatourisme.fr/8a9feb4...,[{'@id': 'https://data.datatourisme.fr/be58956...,[{'@id': 'https://data.datatourisme.fr/a1be489...,"[{'@id': 'kb:MediterraneanCuisine', '@type': [...",[{'@id': 'https://data.datatourisme.fr/43504f9...,[{'@id': 'https://data.datatourisme.fr/e837a79...,[{'@id': 'https://data.datatourisme.fr/194c52e...,...,,,,,"[{'@id': 'kb:MediterraneanCuisine', '@type': [...",,,,,
621,https://data.datatourisme.fr/13/ffc6590c-e617-...,5271918,"[schema:FoodEstablishment, FoodEstablishment, ...",[{'@id': 'https://data.datatourisme.fr/8a9feb4...,[{'@id': 'https://data.datatourisme.fr/6fccd2d...,[{'@id': 'https://data.datatourisme.fr/50f30f9...,"[{'@id': 'kb:MediterraneanCuisine', '@type': [...",[{'@id': 'https://data.datatourisme.fr/05b75b5...,[{'@id': 'https://data.datatourisme.fr/00b8312...,[{'@id': 'https://data.datatourisme.fr/194c52e...,...,,,,,"[{'@id': 'kb:MediterraneanCuisine', '@type': [...",,,,,


In [52]:
pd.json_normalize(listOfJson, errors='ignore', record_path=['hasDescription'])

KeyError: "Key 'hasDescription' not found. If specifying a record_path, all elements of data should have the path."