# Dashboard - Musées de France

**Datasets considérés dans ce projet:**
- [Fréquentation des musées de France](https://data.culture.gouv.fr/explore/dataset/frequentation-des-musees-de-france/)

- [Base Muséofile](https://data.culture.gouv.fr/explore/dataset/musees-de-france-base-museofile/information/)

- [Base Joconde](https://data.culture.gouv.fr/explore/dataset/base-joconde-extrait/)


**Interface déjà développée par le ministère de la culture:**
[Lien](https://www.culture.gouv.fr/Aides-demarches/Protections-labels-et-appellations/Composants-Labels/MF/Carte-des-musees-de-France#/pinpoints/17150474)

In [5]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import re
import unidecode

## Base sur la fréquentation :

In [6]:
df_freq = pd.read_csv('data_clean/df_freq_clean.csv')

In [7]:
df_freq.shape

(59876, 7)

In [8]:
df_freq.head()

Unnamed: 0,REF DU MUSEE,REGION,NOM DU MUSEE,VILLE,Type de fréquentation,Année,Entrées
0,7511701,ÎLE-DE-France,Musée National Jean-Jacques Henner,PARIS,Payante,2008,0.0
1,7511701,ÎLE-DE-France,Musée National Jean-Jacques Henner,PARIS,Payante,2002,803.0
2,7511701,ÎLE-DE-France,Musée National Jean-Jacques Henner,PARIS,Payante,2004,0.0
3,7511701,ÎLE-DE-France,Musée National Jean-Jacques Henner,PARIS,Payante,2010,8729.0
4,7511801,ÎLE-DE-France,Musée de Montmartre,PARIS,Payante,2009,50541.0


Pour plus d'informations sur ce dataset, vous pouvez trouver une analyse dans ce repo en suivant [ce lien]

## Base Joconde : 

In [9]:
df_joconde=pd.read_csv('data_clean/df_joconde_reduced.csv')

In [10]:
df_joconde.head()

Unnamed: 0,Numéro de l'objet,Domaine,Dénomination,Appellation,Titre,Auteur,Précisions sur l'auteur,Lieu de création,Période de création,Millésime,...,ID-notice,Lieu de conservation,Identifiant Museofile,Date d'import,Date de mise à jour,Label Musée de France,Ecole,Dépôt,ville,geolocalisation_ville
0,03 2 3,dessin,,,VUE PRISE A CHARBONNIERE ; BOIS DE L'ETOILE,ALLEMAND Hector,"Lyon, 1809 ; Lyon, 1886",,4e quart 19e siècle,1880,...,000DE021526,Montpellier;musée Fabre,M0476,,,Musée de France#au sens de la loi n°2002-5 du ...,France,,Montpellier,"43.611024,3.875521"
1,876 3 105,dessin,,,LA CHASSE AUX LOUPS ET AUX RENARDS,DELACROIX Eugène ; RUBENS Peter Paul (d'après),"Delacroix : Charenton-Saint-Maurice, 1798 ; Pa...",,2e quart 19e siècle;3e quart 19e siècle,1863 avant,...,000DE021580,Montpellier;musée Fabre,M0476,,1995-06-19,Musée de France#au sens de la loi n°2002-5 du ...,France ; Flandres (d'après),,Montpellier,"43.611024,3.875521"
2,D 5808_5809 ; D 5810,dessin,double face,,ABSIDE DE L'EGLISE SAINT JACQUES ET SAINT CHRI...,RODIN Auguste,"Paris, 1840 ; Meudon, 1917",,4e quart 19e siècle,1890 entre ; 1897 et ; ?,...,000DE018069,Paris;musée Rodin,M5044,,2009-02-16,Musée de France#au sens de la loi n°2002-5 du ...,France,,Paris,"48.8589,2.3469"
3,D 5886,dessin,,,MOULURES A AZAY ?,RODIN Auguste,"Paris, 1840 ; Meudon, 1917",,4e quart 19e siècle,1890 vers ; ?,...,000DE018125,Paris;musée Rodin,M5044,,2009-02-16,Musée de France#au sens de la loi n°2002-5 du ...,France,,Paris,"48.8589,2.3469"
4,D 5930,dessin,,,DEUX PERSONNAGES LUTTANT DOS A DOS,RODIN Auguste,"Paris, 1840 ; Meudon, 1917",,1er quart 19e siècle,1883 ; ?,...,000DE018160,Paris;musée Rodin,M5044,,2009-02-16,Musée de France#au sens de la loi n°2002-5 du ...,France,,Paris,"48.8589,2.3469"


In [11]:
df_joconde.shape

(3269, 36)

In [12]:
df_joconde.isna().sum()

Numéro de l'objet                 1
Domaine                           0
Dénomination                    993
Appellation                    3188
Titre                             0
Auteur                            0
Précisions sur l'auteur         945
Lieu de création               2210
Période de création             144
Millésime                      1284
Période de l'original copié    3215
Epoque                         3114
Utilisation                    2745
Période d'utilisation          3191
Millésime d'utilisation        3210
Dimensions                      119
Matériaux-techniques            222
Géographie historique          3248
Découverte                     3118
Sujet                           596
Source de la représentation    3148
Onomastique                    3254
Statut juridique                 12
Date d'acquisition              527
Date de dépôt                  2864
Ancien dépôt                   3211
ID-notice                         0
Lieu de conservation        

## Base Muséofile :

In [13]:
df_museofile = pd.read_csv('data_clean/df_geo_museofile.csv')

In [14]:
df_museofile.shape

(1114, 28)

In [15]:
df_museofile.head()

Unnamed: 0.1,Unnamed: 0,Identifiant,Adresse,Artiste,Atout,Catégorie,Code_Postal,Domaine_thématique,Département,Date_de_saisie,...,Région,Téléphone,Thèmes,URL,Ville,geolocalisation,coord_x,coord_y,merc_x,merc_y
0,0,M0410,"Parc de Bécon, 178 Boulevard Saint Denis","Ary Scheffer, René Ménard, Fernand Roybet, Car...",Situé dans le parc de Bécon dont l’origine rem...,Maison d'artiste,92400,Arts décoratifs;Art moderne et contemporain;Be...,Hauts-de-Seine,2019-01-21,...,Ile-de-France,01 71 05 77 92,"Beaux-Arts : Dessin, Estampe et Affiche, Peint...",http://www.museeroybetfould.fr,Courbevoie,"48.900998,2.271279",48.900998,2.271279,252837.621729,6258079.0
1,2,M5076,Place Monsenergue,"Joseph Vernet, Pascal de La Rose, Morel-Fatio,...",Conservatoire de l'histoire de l'arsenal et du...,,83000,Histoire,Var,2019-01-21,...,Provence-Alpes-Côte d'Azur,04 94 02 02 01,"Archéologie nationale : Gallo-romain, Moderne;...",http://www.musee-marine.fr,Toulon,"43.122018,5.929368",43.122018,5.929368,660054.226486,5330563.0
2,3,M5071,129 rue de Grenelle,,Objets d'art et supports pédagogiques. Collect...,,75007,Histoire;Technique et industrie,Paris,2019-01-21,...,Ile-de-France,01 45 51 95 05,Architecture et urbanisme;Collections militair...,http://www.museedesplansreliefs.culture.fr/,Paris,"48.858219,2.312885",48.858219,2.312885,257469.180463,6250838.0
3,4,M0387,Place Gévelot,,"Maquettes anciennes de bateaux fluviaux, archi...",,78700,Beaux-arts;Histoire;Technique et industrie,Yvelines,2019-01-21,...,Ile-de-France,01 34 90 39 50,Ethnologie : Métiers et Outils;Histoire : Musé...,http://www.conflans-sainte-honorine.fr/decouvr...,Conflans-Sainte-Honorine,"48.992445,2.095621",48.992445,2.095621,233283.462616,6273580.0
4,5,M0449,rue Jean Mayodon,"Jean Bellegambe, Brueghel de Velours, Dietrich...",Deux pôles d'intérêt majeurs ressortent des co...,,30100,Archéologie;Arts décoratifs;Beaux-arts,Gard,2019-01-21,...,Occitanie,04 66 86 30 40,"Archéologie nationale : Protohistoire, Gallo-r...",http://www.ales.fr/sortir-bouger/musees/musee-...,Alès,"44.129352,4.080982",44.129352,4.080982,454292.838177,5485482.0


In [16]:
df_museofile.isna().sum()

Unnamed: 0               0
Identifiant              0
Adresse                 62
Artiste                707
Atout                   72
Catégorie              882
Code_Postal              0
Domaine_thématique      30
Département              0
Date_de_saisie          32
Histoire                93
Intérêt                322
Lieu                   652
Nom_officiel             1
Nom_usage              442
Personnage_phare       595
Protection_bâtiment    711
Protection_espace      606
Région                   0
Téléphone               20
Thèmes                 112
URL                      0
Ville                    0
geolocalisation          0
coord_x                  0
coord_y                  0
merc_x                   0
merc_y                   0
dtype: int64

### Valeurs des colonnes NANs pour un affichage Dashboard plus adequat:

In [18]:
values = {'Adresse': 'Adresse non renseignée', 
          'Thèmes' : 'Thèmes non renseignés', 
          'Catégorie': 'Catégorie non renseignée', 
          'Atout': 'Atout non renseigné'}
df_museofile.fillna(value=values, inplace=True)

### Liste des différents thèmes des musées : 

On pourrait essayer, dans Bokeh, d'établir une selection par le thème du  musée. 

On pourrait alors imaginer chercher des musées sur la carte par leur thème.

In [19]:
list_themes=[]
import re
for row in df_museofile['Thèmes']:
    list_themes.extend([theme for theme in re.split('\.|;|,', row)])

In [20]:
len(list_themes)

9944

In [21]:
np.unique(list_themes).shape

(1455,)

In [22]:
for i in range(len(list_themes)):
    while list_themes[i].startswith(' '):
        list_themes[i]=list_themes[i][1:]
    while list_themes[i].endswith(' '):
        list_themes[i]=list_themes[i][:-1]

In [23]:
np.unique(list_themes).shape

(1364,)

In [24]:
print(np.unique(list_themes).tolist())

['', '(Animaux naturalisés et trophées de chasse)', '(Collection de céréales rustiques anciennes', '(Diorama de 4 000 figurines en étain peintes à la main (bataille de Reichsoffen)', '(Emaux du XIVe siècle au XVIIIe siècle)', '(Etrusques)', '(Europe', "(Grès d'art populaire)", '(Grès régionaux de La Borne)', '(Histoire des techniques)', '(Histoire technique)', '(Ivoires', '(Jeux et jouets', '(Les Valois (François Ier)', '(Miniatures sur ivoire)', '(Moyen-Orient)', '(Objets confectionnés dans les camps de concentration)', '(Parfumerie', '(Porcelaines', '(Presse', '(Puniques et Ibères)', '(Sapeurs-pompiers)', '(Vitraux)', '(agriculture)', '(modèles de vaisseaux', '(objets de la vie quotidienne du XXème siècle', '(train-jouet', '(émail XIXe siècle', '(émaux)', ')', '-C', '1 récepteur MCRI pour transmission radio)', '1820)', '2 autels de Viollet-le-Duc', '49 appareils photographiques', '60 affiches)', 'ANTIQUITES NATIONALES', 'ARCHEOLOGIE NATIONALE', 'ART MODERNE ET CONTEMPORAIN', 'ART REL

## Joining the frequentation DataFrame and the Museofile DataBase:

- Conditionnement avec TFIDF

In [89]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel
from sklearn.metrics.pairwise import cosine_similarity

In [90]:
#Initialization TF-IDF : 
tfidf = TfidfVectorizer(sublinear_tf=True, min_df=0, norm='l2', encoding='latin-1', ngram_range=(1,1))
#Defining the features needed :
tfidf_matrix_freq = tfidf.fit_transform(df_freq_travail['NOM DU MUSEE']).toarray()

In [91]:
#Function to transform each 'Nom_officiel' in the df_geo_museofile:
def transform_query(tfidf, query):
    """
    Function transform_query, which takes the tfidf model and a query, to preprocess it and transform it in a usable form
    @Inputs: 
    tfidf, the tfidf model, fit on the entire corpus
    array_embedding_vocab_vector
    query, the given str query 
    
    @Outputs: 
    embedding_tfidf_query, the transformed query, after cleaning, preprocessing, lemmatization and tfidf transformation    
    """
    tfidf_query = tfidf.transform([query]).toarray()
    return tfidf_query

In [92]:
#Function to find the most similar from the tfidf_matrix:
def find_similar_from_query(tfidf_matrix, tfidf_query, top_n=1):
    """
    Function find_documents_from_query, which computes the top_n most relevent articles given the tfidf representation
    of the query
    
    @Inputs:
    - tfidf_matrix, the tfidf matrix representation of the entire set of articles
    - tfidf_query, the tfidf vector representation of the query
    - top_n = 5, the number of documents to find
    @Outputs: 
    indexes_scores, the index of each top_n article in the DataFrame, and the associated cosine_similarity score
    """
    #We calculate the cosine similarity between the query and each document:
    #cosine_similarities = linear_kernel(embedding_tfidf_query, embedding_tfidf_matrix).flatten()
    
    cosine_similarities = cosine_similarity(tfidf_query,tfidf_matrix).flatten()
    #We sort the documents from the similarit to the query :
    related_docs_indices = [i for i in cosine_similarities.argsort()[::-1]]
    #We retrieve the top n documents most similar to the given query :
    indexes_scores = [(index, cosine_similarities[index]) for index in related_docs_indices][0:top_n]
    return indexes_scores

Final function:

In [93]:
def final_find(tfidf, query, tfidf_matrix_freq, df,top_n=1):
    tfidf_query=transform_query(tfidf, query)
    indexes_scores=find_similar_from_query(tfidf_matrix_freq, tfidf_query, top_n=top_n)
    for index, score in indexes_scores:
        print(index)
        print(df.iloc[index], ' score : ', score)
    return None

#### TESTING WITH TFIDF:

### Puting the model in production:

#### Conclusion:

Au départ : 450 sur les 1114
Inlusion: 289

Seulement le nom : 92
TFIDF avec nom + ville : 26

**Vérifier la bonne correspondance**


**Vérifier s'il y a vraiment des réponses pour les 26 manquants.**

## Visualisation :

Tile Providers : https://docs.bokeh.org/en/latest/docs/reference/tile_providers.html

Doc : https://towardsdatascience.com/exploring-and-visualizing-chicago-transit-data-using-pandas-and-bokeh-part-ii-intro-to-bokeh-5dca6c5ced10

In [123]:
#Necessary imports:
from bokeh.plotting import figure, show, output_notebook, output_file, save
from bokeh.tile_providers import get_provider, Vendors
from bokeh.models import ColumnDataSource, HoverTool, TapTool, OpenURL, Row, Panel, Tabs, Div, Select, Column
#Defining the background of the map:
WIKIMEDIA=get_provider(Vendors.WIKIMEDIA)

Defining the Bokeh app: 

In [133]:
def musees_de_france_dashboard(doc):
    #Defining the source : 
    source = ColumnDataSource(data=df_geo_museofile)
    source_joconde=ColumnDataSource(data=df_joconde_reduced)

    #Defining the figure:
    #Well defined x and y range to plot the entire France first
    p = figure(tools=["tap", "pan","wheel_zoom","box_zoom","reset"],x_range=(-2367503.9683695645,5681514.597630888), y_range=(-8775845.636028906,7449981.363790932),
              x_axis_type="mercator", y_axis_type="mercator",
              title='Musées de France - Base Museofile')

    #Defining the mapping background:
    p.add_tile(WIKIMEDIA)

    #Adding circles for each museum : 
    Circles=p.circle('merc_x','merc_y',source=source,size=10,line_color="#3288bd", fill_color="white", line_width=3)

    
    
    #Selecting the musuems to show : 
    #By the region : 
    region_selection=Select(title="Trier par région", 
                            options = list(np.unique(source.data['Région'])))
    #By the departement:
    departement_selection=Select(title="Filtrer par département", 
                                options = list(np.unique(source.data['Département'])))
    #By the theme of the musuem:
    theme_selection=Select(title="Trier par thème", 
                          options = list(['Sculpture', 'Peinture']))
    
    
    
    
    #Defining the information div about the museum selected
    div_info_museum=Div(text="""<h5>Informations sur les musées selectionnés</h5><br/>Veuillez cliquer sur un point 
    représentant un musées pour obtenir des informations sur celui-ci.""", 
        style={'overflow-y':'scroll', 'height':'300px', 'width':'500px','max-height':'600px', 'max-width':'400px'})
    
    
    
    #Defining the works of art div about the museum selected
    div_woa=Div(text="""<h5>Oeuvres d'art présentes dans ce musée: </h5>""", 
        style={'overflow-y':'scroll', 'height':'300px', 'width':'500px','max-height':'600px', 'max-width':'400px'})
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    #Defining the update of the div:
    def update_div_info_museum():
        indexes=source.selected.indices
        #We only take the first one : 
        index=indexes[0]
        name=source.data['Nom_officiel'][index]
        lien=source.data['URL'][index]
        ville=source.data['Ville'][index]
        Département=source.data['Département'][index]
        Région=source.data['Région'][index]
        phone=source.data['Téléphone'][index]
        adresse=source.data['Adresse'][index]
        code_postal=source.data['Code Postal'][index]
        themes=source.data['Thèmes'][index]
        adresse_complete=adresse+" "+str(code_postal)+" "+ville
        #Use .format ????
        h="""<h5>Informations sur les musées selectionnés</h5> <br/><h6>Nom du musée : </h6>
        
        <a href='"""+lien+"""' target="_blank">"""+name+"""</a> <br/>
        
        <h6>Thèmes:</h6>"""+themes+"""
        
        <h6> Ville du musée : </h6> """+ville+""" (""" + Département + """ - """+Région+""")<br/>
        
        <h6>Téléphone : </h6>"""+phone+"""<h6>Adresse du musée : </h6>"""+adresse_complete
        div_info_museum.text=h

        
        
    def update_div_woa():
        indexes=source.selected.indices
        #We only take the first one : 
        index=indexes[0]
        #We look for the Museofile Id: 
        museofile_id=source.data['Identifiant'][index]
        #We define the basic print : 
        h="""<h5>Oeuvres d'art présentes dans ce musée: </h5>"""
        #We make separate answers wether or not the Museofile Id is present in the Joconde Database:
    
        if museofile_id in source_joconde.data['Identifiant Museofile']:
            h+=source_joconde.data['Titre'][source_joconde.data['Identifiant Museofile']==museofile_id][0]
        else:
            h+="""Aucune oeuvre trouvée dans la base Joconde"""
        div_woa.text=h
            
        
        
        
    def callback_info_woa(attr,old,new):
        update_div_info_museum()
        update_div_woa()
        
        
        
        
        
        
        
        
        
    #Defining Hover tools :
    tooltips_museofile = [("Nom officiel", "@Nom_officiel"),("url", "@URL"),("id", "@index")]
    #Defining the two hovers, with the corresponding names and tooltips:
    hover_museofile=HoverTool(tooltips=tooltips_museofile)
    p.add_tools(hover_museofile)


    #Defining the way the taptool should be executed:
    source.selected.on_change('indices', callback_info_woa)
    
    
    
    #Defining the layout of the first tab:
    """
    layout_left=Column(task_selection,query_selection,number_articles, number_sentences,div_html_response)
    
    #We have the right part with the PCA representation and the clustering.
    year_layout=Row(Column(checkbox_year,slider_year),validate_button_year)
    layout_right=Column(year_layout, p)
    #We define the entire layout:
    """
    selection_layout=Column(region_selection, departement_selection, theme_selection)
    info_layout=Column(div_info_museum,div_woa)
    entire_layout1=Row(selection_layout,p,info_layout)    
    
    
    
    
    
    
    
    
    
    
    ########################TAB 2 #######################
    div_a_propos=Div(text="""<h1>Section à propos de cette application</h1> 
    <br/><h3>Source des données : </h3> 
    Toutes les données utilisées ici sont disponible en opendata et mises à disposition 
    par le ministère de la culture. 
    <br/> Voici les liens: 
    <li> <a href="https://data.culture.gouv.fr/explore/dataset/musees-de-france-base-museofile/information/" target="_blank"> Base Museofile</a> </li>
    <li> <a href="https://data.culture.gouv.fr/explore/dataset/base-joconde-extrait/information/" target="_blank"> Base Joconde </a></li>
    Date de mise à jour des données: 19/05/2020 
    <br/><br/> Adrien Hans
    <li><a href="https://www.linkedin.com/in/adrien-hans/" target="_blank">LinkedIn</a></li>
    <li><a href="https://github.com/adrihans" target="_blank">Github</a></li>
    <br/> Le code de ce projet peut être trouvé sur ce <a href="https://github.com/adrihans/musees_de_france_app" target="_blank">repo.</a>
    """)
    entire_layout2=Row(div_a_propos)
    
    
    ########################  Defining the tabs ##############
    tab1 = Panel(child=entire_layout1, title="Cartographie des musées de France")
    tab2 = Panel(child=entire_layout2, title="A propos")
    
    #Defining all the tabs:
    tabs = Tabs(tabs=[tab1, tab2])
    doc.add_root(tabs)
    
    
    return doc

In [44]:
output_file("test2.html", mode='inline')

In [52]:
output_notebook()

Showing the Dashboard:

In [134]:
show(musees_de_france_dashboard)

ERROR:bokeh.server.protocol_handler:error handling message
 message: Message 'PATCH-DOC' content: {'events': [{'kind': 'ModelChanged', 'model': {'id': '5362'}, 'attr': 'indices', 'new': []}], 'references': []} 
 error: IndexError('list index out of range')
Traceback (most recent call last):
  File "C:\Users\adrie\Anaconda3\lib\site-packages\bokeh\server\protocol_handler.py", line 90, in handle
    work = await handler(message, connection)
  File "C:\Users\adrie\Anaconda3\lib\site-packages\bokeh\server\session.py", line 67, in _needs_document_lock_wrapper
    result = func(self, *args, **kwargs)
  File "C:\Users\adrie\Anaconda3\lib\site-packages\bokeh\server\session.py", line 261, in _handle_patch
    message.apply_to_document(self.document, self)
  File "C:\Users\adrie\Anaconda3\lib\site-packages\bokeh\protocol\messages\patch_doc.py", line 100, in apply_to_document
    doc._with_self_as_curdoc(lambda: doc.apply_json_patch(self.content, setter))
  File "C:\Users\adrie\Anaconda3\lib\site

To help saving in a html file:

In [None]:
    #Output in the notebook :
    output_notebook()
    show(p)

In [74]:
#Saving in a HTML File:
output_file("test2.html", mode='inline')

In [75]:
show(p)

NameError: name 'p' is not defined

In [90]:
from bokeh.resources import CDN
from bokeh.embed import file_html

In [92]:
myplot_html = file_html(tabs, CDN)
# this HTML code is very long (~30 K), the cell below doesn't show all the code in NBviewer

You are generating standalone HTML/JS output, but trying to use real Python
callbacks (i.e. with on_change or on_event). This combination cannot work.

Only JavaScript callbacks may be used with standalone output. For more
information on JavaScript callbacks with Bokeh, see:

    https://docs.bokeh.org/en/latest/docs/user_guide/interaction/callbacks.html

Alternatively, to use real Python callbacks, a Bokeh server application may
be used. For more information on building and running Bokeh applications, see:

    https://docs.bokeh.org/en/latest/docs/user_guide/server.html

