# Répondre aux questions posées par ton manager

Ton manager t'a donné une liste de questions pour te rendre la tâche plus concrète. Il t'a demandé de répondre à ces questions dans un premier temps en laissant apparentes tes requêtes sur le Notebook.

- Combien y-a-t-il de musées en France métropolitaine ?
- Dans quelle(s) ville(s) y-a-t-il de plus de musées ?
- Quel est le nombre moyen de musées par ville ?
- Quel est le nombre médian de musées par ville ?
- Comment sont répartis les musées par type (en pourcentage) ?
- Combien y-a-t-il de musées dont le nom commence par "Château" ?
- Pour combien de musées dispose-t-on de l'adresse du site web ?
- Quel département français possède le plus de musées sur son territoire ?
- Quel département français possède le moins de musées sur son territoire ?
- Combien de musées ont "Napoléon" dans leur nom ?


https://www.askpython.com/python/examples/how-to-clean-data-in-python

In [1]:
import seaborn as sns
import numpy as np
import pandas as pd

import csv
df = pd.read_csv(r'liste-des-musees-de-france-2021-point-virgules.csv', sep=";")

columns_to_drop = ['osm_id', 'country_code', 'country', 'lat','lon', 'wikidata', 'fax', 'description', 'date_added' ]
data_dropcol = df.drop(columns_to_drop,axis=1)

print(data_dropcol.head(10))




                              name number                      street  \
0                          3 bis f    109  Avenue du Petit Barth�l�my   
1                 A casa di Losari    NaN                        T 30   
2                 � l'homme volant     35                  Grande Rue   
3      Abbadiale - Maison des arts    NaN              Rue du Gabizos   
4                           Abbaye    NaN             Rue de l'Abbaye   
5  Abbaye cistercienne de Fontenay    NaN                       D 32C   
6                 Abbaye d'Arthous    NaN           Route de l'Abbaye   
7               Abbaye de Charlieu    NaN            All�e Sunderland   
8   Abbaye de Clairvaux (ancienne)    NaN             Rue de l'Abbaye   
9                  Abbaye de Cluny    NaN       Place du 11 Ao�t 1944   

   postal_code              city  \
0      13617.0   Aix-en-Provence   
1      20226.0         Belgod�re   
2      72300.0  Sabl�-sur-Sarthe   
3      65400.0  Arras-en-Lavedan   
4      39210.0  

- Combien y-a-t-il de musées en France métropolitaine ?

In [2]:
index = data_dropcol.index
number_of_rows = len(index)
total_museum = number_of_rows

museum_number_template = """Il y a au total {} musées en France."""

museum_number_message = museum_number_template.format(total_museum)
print(museum_number_message)


Il y a au total 3784 musées en France.


- Dans quelle(s) ville(s) y-a-t-il de plus de musées ?

In [3]:
data_cities_all_col = pd.DataFrame(data_dropcol, columns= ['name','city'])

city_museum_number_template = """Il y a au total {} musées en France."""


museum_number_each_city = data_cities_all_col.pivot_table( columns=['city'], aggfunc='size').sort_values
number = data_cities_all_col['city'].str.split(' ').str[0:3].value_counts()

number_top_10_text = """Le top 10 'villes avec le plus de musées en France: 
{} """

number_top_10_message = number_top_10_text.format(number[0:11])


print (number_top_10_message)



Le top 10 'villes avec le plus de musées en France: 
[Paris]         175
[Lyon]           33
[Marseille]      28
[Grenoble]       22
[Bordeaux]       20
[Toulouse]       20
[Nice]           16
[Strasbourg]     16
[Rouen]          15
[Lille]          15
[Reims]          13
Name: city, dtype: int64 


- Quel est le nombre moyen de musées par ville ?

In [15]:
per_city_number_museum_mean = """Il y a en moyenne {} musées par ville."""
museum_number_each_city_mean = data_cities_all_col.pivot_table( columns=['city'], aggfunc='size').mean(axis=0)
museum_mean_message = per_city_number_museum_mean.format(museum_number_each_city_mean)

print(museum_mean_message)

Il y a en moyenne 1.647930283224401 musées par ville.


- Quel est le nombre médian de musées par ville ?

In [16]:
per_city_number_museum_median = """Nombre médian de musées par ville: {}"""
museum_number_each_city_median = data_cities_all_col.pivot_table( columns=['city'], aggfunc='size').median(axis=0)
museum_median_message = per_city_number_museum_median.format(museum_number_each_city_median)

print(museum_median_message)

Nombre médian de musées par ville: 1.0


- Comment sont répartis les musées par type (en pourcentage) ? 

In [25]:
data_tags = pd.DataFrame(data_dropcol, columns = ['name','tags'])

museum_number_each_tag = data_tags.pivot_table(columns=['tags'], aggfunc='size')

museum_number_each_tag_percent = pd.DataFrame(museum_number_each_tag, columns=['size'])

museum_number_each_tag_percent['percent'] = (museum_number_each_tag_percent['size'] / museum_number_each_tag_percent['size'].sum()) * 100

sample = museum_number_each_tag_percent.loc[museum_number_each_tag_percent["percent"]>5]

museum_tag_message_string = """Voici la répartition (> 5%) des types de musée: 
{}"""
museum_tag_message = museum_tag_message_string.format(sample)

print(museum_tag_message)

Voici la répartition (> 5%) des types de musée: 
                                               size    percent
tags                                                          
osm:museum                                     2175  57.509254
osm:museum;type:ecomusee                        387  10.232681
osm:museum;type:musee technique et industriel   194   5.129561


- Combien y-a-t-il de musées dont le nom commence par "Château" ?

In [27]:
name_castle_sentence = """Il y a un nombre de 'Château' musée de {} ."""
sample
name_castle = pd.DataFrame(data_dropcol, columns= ['name']).add_prefix('name_')
name_castle['name'] = data_dropcol['name'].str.replace('�', "â")
new = name_castle['name'].str.split(' ').str[0].value_counts()

print(name_castle_sentence.format(new['Château']))
#new.str.startswith('Château')[298:300]

Il y a un nombre de 'Château' musée de 48 .


- Pour combien de musées dispose-t-on de l'adresse du site web ?

In [28]:
with_website_template = """Il y a {} musées possédant un site internet."""

frame_internet = data_dropcol.pivot_table(index="website", values="name", aggfunc=np.count_nonzero)


with_website = with_website_template.format(frame_internet.sum(axis=0)['name'])

print(with_website)


Il y a 1636 musées possédant un site internet.


- Quel département français possède le plus de musées sur son territoire ?

In [80]:
city_zipcode_text = """Le département français ayant le plus de musées est le {} avec {} musées."""

city_zipcode = pd.DataFrame(data_dropcol, columns= ['name', 'postal_code']) 
city_zipcode['department'] = city_zipcode['postal_code'].astype(str).str[:2]
museum_each_dep = city_zipcode.pivot_table(columns=['department'], aggfunc='size').add_prefix('zip_')

city_zipcode_message_zip = city_zipcode_text.format(museum_each_dep.loc[museum_each_dep == museum_each_dep.max()].to_string()[15:18], museum_each_dep.loc[museum_each_dep == museum_each_dep.max()][0])
#city_zipcode_message_value = city_zipcode_text.format(museum_each_dep.loc[museum_each_dep == museum_each_dep.max()])
                                                
print(city_zipcode_message_zip)

Le département français ayant le plus de musées est le 75  avec 180 musées.


- Quel département français possède le moins de musées sur son territoire ?

In [79]:
city_zipcode_text_lower = """Le département français ayant le moins de musées est le {} avec {} musées."""
dep_zip_less = museum_each_dep.loc[museum_each_dep == museum_each_dep.min()].to_string()
dep_zip_total_min = museum_each_dep.loc[museum_each_dep == museum_each_dep.min()][0]

city_zipcode_full_message = city_zipcode_text_lower.format(dep_zip_less[15:18], dep_zip_total_min)


print(city_zipcode_full_message)

Le département français ayant le moins de musées est le 98  avec 8 musées.


- Combien de musées ont "Napoléon" dans leur nom ?

In [35]:
number_museum_emperor_template = """Il y a {} musées 'Napoléon'."""

search_name = pd.DataFrame(data_dropcol, columns= ['name']) 
search_name['name'] = data_dropcol['name'].str.replace('�', "é")
contain_values = search_name[search_name['name'].str.contains('Napoléon')].count()

number_museum_emperor_text = number_museum_emperor_template.format(contain_values.to_string())

print(number_museum_emperor_text)

Il y a name    4 musées 'Napoléon'.


### Enrichir le projet

Sur le site https://www.data.gouv.fr/, la fréquentation des musées pour les années 2013, 2014 ... 2018 est disponible à l'adresse suivante: https://www.data.gouv.fr/fr/datasets/frequentation-des-musees-de-france/#resources

En croisant ces fichiers, la fréquentation des musées sera alors connue. Alors on peut imaginer créer des Top ou Flop des grands musées de France, des départements ou encore des régions.

Il est possible de croiser localisation musée / bar sur le site https://data.opendatasoft.com, à cette adresse: https://data.opendatasoft.com/explore/embed/dataset/osm-fr-bars@babel/table/. 

Après le musée, terminer sa journée en beautée dans son choix de bar en ville.