# Frequentation des hébergements hotel

Objectif: observation conjoncturelle de la fréquentation dans l'hôtellerie de tourisme et 
    l'étude de la structure de la clientèle, notamment de son origine géographique.
Evolution du PIB par année

In [1]:
#importation des librairies
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import rc
import seaborn as sns
%matplotlib inline

import datetime
import time
from time import strftime, gmtime


import os


In [2]:
#téléchargement du csv d'origine pour le mettre dans un dataframe pandas. Nous l'appelons df_mensuel
df_mensuel=pd.read_csv('data/data_avec_pays_origine/valeurs_mensuelles.csv', sep=',')
df_mensuel.sample(50)

Unnamed: 0,Libellé,idBank,Dernière mise à jour,Période,2010-01,2010-02,2010-03,2010-04,2010-05,2010-06,...,2020-03,2020-04,2020-05,2020-06,2020-07,2020-08,2020-09,2020-10,2020-11,2020-12
375,Codes,,,,O,O,O,A,A,A,...,,,,,,,,,,
1069,Codes,,,,,,,,,,...,O,O,O,O,A,A,A,A,O,O
1428,Arrivées dans l'hôtellerie - Résidents - Occit...,10598651.0,14/04/2021 18:00,,,,,,,,...,234,,,,728,975,629,443,,
1202,Arrivées dans l'hôtellerie - Résidents - Aveyron,10598936.0,14/04/2021 18:00,,,,,,,,...,,,,,52.6,70.8,47.8,28.9,,
748,Arrivées dans l'hôtellerie - Total - Landes,10599176.0,14/04/2021 18:00,,,,,,,,...,,,,,58.97,81.21,48.28,38.42,,
930,Arrivées dans l'hôtellerie - Non-résidents - A...,10598814.0,14/04/2021 18:00,,,,,,,,...,,,,,10.17,7.33,3.4,0.69,,
503,Codes,,,,O,O,O,A,A,A,...,,,,,,,,,,
673,Codes,,,,,,,,,,...,O,O,O,O,A,A,A,A,O,O
2050,Nuitées dans l'hôtellerie - Résidents - Marne,10599247.0,14/04/2021 18:00,,,,,,,,...,,,,,70.52,86.49,76.29,72.49,,
2375,Codes,,,,,,,,,,...,O,O,O,O,A,A,A,A,O,O


In [3]:
#les données dans notre csv apparaissent plusieurs fois,donc il nous faut supprimer les redondances. 
#Ici j'affiche tous ceux qui sont regroupés par "Total". 
#Ces données sont dans la colonne "Libellé"
drp = df_mensuel[df_mensuel['Libellé'].str.contains("Total")]['Libellé']
drp

0       Arrivées dans l'hôtellerie - Total - Départeme...
2       Arrivées dans l'hôtellerie - Total - France mé...
4       Arrivées dans l'hôtellerie - Total - France mé...
6       Arrivées dans l'hôtellerie - Total - Guadeloup...
8       Arrivées dans l'hôtellerie - Total - Martiniqu...
                              ...                        
2620    Nombre de chambres offertes dans l'hôtellerie ...
2622    Nombre de chambres offertes dans l'hôtellerie ...
2624    Nombre de chambres offertes dans l'hôtellerie ...
2626    Nombre de chambres offertes dans l'hôtellerie ...
2628    Nombre de chambres offertes dans l'hôtellerie ...
Name: Libellé, Length: 412, dtype: object

In [4]:
#suppression des données calculées par "total" affichées plus haut
df_mensuel= df_mensuel[~df_mensuel['Libellé'].str.contains("Total")]
df_mensuel['Libellé'].unique()

array(['Codes',
       "Arrivées dans l'hôtellerie - Non-résidents - Départements d'outre-mer - Série arrêtée",
       "Arrivées dans l'hôtellerie - Non-résidents - France métropolitaine et Départements d'outre-mer - Série arrêtée",
       "Arrivées dans l'hôtellerie - Non-résidents - France métropolitaine - Série arrêtée",
       "Arrivées dans l'hôtellerie - Non-résidents - Île-de-France - Série arrêtée",
       "Arrivées dans l'hôtellerie - Non-résidents - Centre-Val de Loire - Série arrêtée",
       "Arrivées dans l'hôtellerie - Non-résidents - Bourgogne-Franche-Comté - Série arrêtée",
       "Arrivées dans l'hôtellerie - Non-résidents - Normandie - Série arrêtée",
       "Arrivées dans l'hôtellerie - Non-résidents - Hauts-de-France - Série arrêtée",
       "Arrivées dans l'hôtellerie - Non-résidents - Grand Est - Série arrêtée",
       "Arrivées dans l'hôtellerie - Non-résidents - Pays de la Loire - Série arrêtée",
       "Arrivées dans l'hôtellerie - Non-résidents - Bretagne - Sé

In [5]:
#Comme pour total ci-dessus, nos données sont disponibles à la fois par Région et par départements. 
#Nous allons supprimer le regroupement par régions et garder la plus petite granularité,c'est à dire le département. 
#Dans la BDD, il sera possible de retrouver le niveau supérieur. 
#Nous allons créer une liste d'élements que nous souhaitons supprimer. 

liste =["Départements d'outre-mer",
"France métropolitaine et Départements d'outre-mer",
"France métropolitaine",
"Île-de-France",
"Centre-Val de Loire",
"Bourgogne-Franche-Comté",
"Normandie",
"Hauts-de-France", 
"Grand Est",
"Pays de la Loire",
"Bretagne",
"Nouvelle-Aquitaine",
"Occitanie",
"Auvergne-Rhône-Alpes",
"Provence-Alpes-Côte d'Azur",
"Codes","France"]


In [6]:
#Suppression des élements contenus dans notre liste. 
for element in liste:
     df_mensuel=df_mensuel[~df_mensuel['Libellé'].str.contains(element)]

In [7]:
#dans notre liste de régions à supprimer, nous avons exclu la Corse 
#parce que cela aurait supprimé Haute Corse et Corse du Sud avec la méthode str contains
df_mensuel["Libellé"].unique()

array(["Arrivées dans l'hôtellerie - Non-résidents - Corse - Série arrêtée",
       "Arrivées dans l'hôtellerie - Résidents - Corse - Série arrêtée",
       "Nuitées dans l'hôtellerie - Non-résidents - Corse - Série arrêtée",
       "Nuitées dans l'hôtellerie - Résidents - Corse - Série arrêtée",
       "Arrivées dans l'hôtellerie de plein air - Non-résidents - Corse",
       "Arrivées dans l'hôtellerie de plein air - Résidents - Corse",
       "Nuitées dans l'hôtellerie de plein air - Non-résidents - Corse",
       "Nuitées dans l'hôtellerie de plein air - Résidents - Corse",
       "Arrivées dans l'hôtellerie - Non-résidents - Ain",
       "Arrivées dans l'hôtellerie - Non-résidents - Aisne",
       "Arrivées dans l'hôtellerie - Non-résidents - Allier",
       "Arrivées dans l'hôtellerie - Non-résidents - Alpes-de-Haute-Provence",
       "Arrivées dans l'hôtellerie - Non-résidents - Hautes-Alpes",
       "Arrivées dans l'hôtellerie - Non-résidents - Alpes-Maritimes",
       "Arrivées

In [8]:
#Suppression de la Corse en gardant les départements
df_mensuel=df_mensuel[(df_mensuel['Libellé'].str.contains("Corse-du-Sud")|df_mensuel['Libellé'].
                       str.contains("Haute-Corse"))|(~df_mensuel['Libellé'].str.contains("Corse"))]

In [9]:
df_mensuel["Libellé"].unique()

array(["Arrivées dans l'hôtellerie - Non-résidents - Ain",
       "Arrivées dans l'hôtellerie - Non-résidents - Aisne",
       "Arrivées dans l'hôtellerie - Non-résidents - Allier",
       "Arrivées dans l'hôtellerie - Non-résidents - Alpes-de-Haute-Provence",
       "Arrivées dans l'hôtellerie - Non-résidents - Hautes-Alpes",
       "Arrivées dans l'hôtellerie - Non-résidents - Alpes-Maritimes",
       "Arrivées dans l'hôtellerie - Non-résidents - Ardèche",
       "Arrivées dans l'hôtellerie - Non-résidents - Ardennes",
       "Arrivées dans l'hôtellerie - Non-résidents - Ariège",
       "Arrivées dans l'hôtellerie - Non-résidents - Aube",
       "Arrivées dans l'hôtellerie - Non-résidents - Aude",
       "Arrivées dans l'hôtellerie - Non-résidents - Aveyron",
       "Arrivées dans l'hôtellerie - Non-résidents - Bouches-du-Rhône",
       "Arrivées dans l'hôtellerie - Non-résidents - Calvados",
       "Arrivées dans l'hôtellerie - Non-résidents - Cantal",
       "Arrivées dans l'hôtell

In [10]:
df_mensuel.sample(50)

Unnamed: 0,Libellé,idBank,Dernière mise à jour,Période,2010-01,2010-02,2010-03,2010-04,2010-05,2010-06,...,2020-03,2020-04,2020-05,2020-06,2020-07,2020-08,2020-09,2020-10,2020-11,2020-12
2342,Taux d'occupation dans l'hôtellerie - Rhône,10598999.0,14/04/2021 18:00,,,,,,,,...,,,,,47.4,48.0,46.9,37.7,,
1058,Arrivées dans l'hôtellerie - Non-résidents - B...,10599339.0,14/04/2021 18:00,,,,,,,,...,,,,,48.46,53.12,28.18,17.03,,
2046,Nuitées dans l'hôtellerie - Résidents - Maine-...,10599235.0,14/04/2021 18:00,,,,,,,,...,,,,,104.82,127.73,98.02,86.96,,
2040,Nuitées dans l'hôtellerie - Résidents - Lot,10599217.0,14/04/2021 18:00,,,,,,,,...,,,,,70.35,99.41,57.76,33.45,,
1016,Arrivées dans l'hôtellerie - Non-résidents - Lot,10599213.0,14/04/2021 18:00,,,,,,,,...,,,,,4.78,4.49,2.35,0.68,,
1966,Nuitées dans l'hôtellerie - Résidents - Aube,10598888.0,14/04/2021 18:00,,,,,,,,...,,,,,55.29,70.34,42.94,42.0,,
2082,Nuitées dans l'hôtellerie - Résidents - Bas-Rhin,10598659.0,14/04/2021 18:00,,,,,,,,...,,,,,145.0,176.0,167.0,150.0,,
1992,Nuitées dans l'hôtellerie - Résidents - Dordogne,10599067.0,14/04/2021 18:00,,,,,,,,...,,,,,114.76,172.11,87.93,58.53,,
2254,Taux d'occupation dans l'hôtellerie - Eure,10598923.0,14/04/2021 18:00,,,,,,,,...,,,,,42.1,46.8,47.0,42.6,,
988,Arrivées dans l'hôtellerie - Non-résidents - Gers,10599129.0,14/04/2021 18:00,,,,,,,,...,,,,,0.49,0.43,0.62,0.42,,


## A présent, pour rendre notre dataframe plus facile à manipuler, nous allons:

- Dans le libellé, éclater le nom du département dans une autre colonne
- Créer une colonne catégorie pour distinguer les Résidents et les non résidents
- 

In [11]:
#affichage des élements après celui d'indice 4 jusqu'au dernier - sur la colonne
df_mensuel.columns[4:]

Index(['2010-01', '2010-02', '2010-03', '2010-04', '2010-05', '2010-06',
       '2010-07', '2010-08', '2010-09', '2010-10',
       ...
       '2020-03', '2020-04', '2020-05', '2020-06', '2020-07', '2020-08',
       '2020-09', '2020-10', '2020-11', '2020-12'],
      dtype='object', length=132)

In [12]:
#Pour créer la colonne variable qui contient toutes les années et mois, nous allons utiliser la méthode melt. 
#Nous allons prendre toutes les colonnes qui se trouvent après le 4ème élement jusqu'au dernier.

df_mensuel=pd.melt(df_mensuel, id_vars ='Libellé', value_vars =df_mensuel.columns[4:])

In [13]:
#De la colonne Libellé, nous allons extraire les informations de département pour les mettre dans une colonne
df_mensuel['Libellé'] = df_mensuel['Libellé'].str.replace("- Série arrêtée","")
df_mensuel['Departement'] = df_mensuel['Libellé'].apply(lambda x: x.split(' - ')[-1])
df_mensuel['Departement']

0                            Ain
1                          Aisne
2                         Allier
3        Alpes-de-Haute-Provence
4                   Hautes-Alpes
                  ...           
66655                 Guadeloupe
66656                 Martinique
66657                     Guyane
66658                 La Réunion
66659                    Mayotte
Name: Departement, Length: 66660, dtype: object

In [14]:
df_mensuel['Departement'].unique()

array(['Ain', 'Aisne', 'Allier', 'Alpes-de-Haute-Provence',
       'Hautes-Alpes', 'Alpes-Maritimes', 'Ardèche', 'Ardennes', 'Ariège',
       'Aube', 'Aude', 'Aveyron', 'Bouches-du-Rhône', 'Calvados',
       'Cantal', 'Charente', 'Charente-Maritime', 'Cher', 'Corrèze',
       "Côte-d'Or", "Côtes-d'Armor", 'Creuse', 'Dordogne', 'Doubs',
       'Drôme', 'Eure', 'Eure-et-Loir', 'Finistère', 'Corse-du-Sud',
       'Haute-Corse', 'Gard', 'Haute-Garonne', 'Gers', 'Gironde',
       'Hérault', 'Ille-et-Vilaine', 'Indre', 'Indre-et-Loire', 'Isère',
       'Jura', 'Landes', 'Loir-et-Cher', 'Loire', 'Haute-Loire',
       'Loire-Atlantique', 'Loiret', 'Lot', 'Lot-et-Garonne', 'Lozère',
       'Maine-et-Loire', 'Manche', 'Marne', 'Haute-Marne', 'Mayenne',
       'Meurthe-et-Moselle', 'Meuse', 'Morbihan', 'Moselle', 'Nièvre',
       'Nord', 'Oise', 'Orne', 'Pas-de-Calais', 'Puy-de-Dôme',
       'Pyrénées-Atlantiques', 'Hautes-Pyrénées', 'Pyrénées-Orientales',
       'Bas-Rhin', 'Haut-Rhin', 'Rhône',

In [15]:
#création d'une colonne type qui contiendra les indicateurs
df_mensuel['Type'] = df_mensuel['Libellé'].apply(lambda x: x.split('-')[0])
df_mensuel['Type']

0                 Arrivées dans l'hôtellerie 
1                 Arrivées dans l'hôtellerie 
2                 Arrivées dans l'hôtellerie 
3                 Arrivées dans l'hôtellerie 
4                 Arrivées dans l'hôtellerie 
                         ...                 
66655    Taux d'occupation dans l'hôtellerie 
66656    Taux d'occupation dans l'hôtellerie 
66657    Taux d'occupation dans l'hôtellerie 
66658    Taux d'occupation dans l'hôtellerie 
66659    Taux d'occupation dans l'hôtellerie 
Name: Type, Length: 66660, dtype: object

In [16]:
df_mensuel['Libellé'].unique()

array(["Arrivées dans l'hôtellerie - Non-résidents - Ain",
       "Arrivées dans l'hôtellerie - Non-résidents - Aisne",
       "Arrivées dans l'hôtellerie - Non-résidents - Allier",
       "Arrivées dans l'hôtellerie - Non-résidents - Alpes-de-Haute-Provence",
       "Arrivées dans l'hôtellerie - Non-résidents - Hautes-Alpes",
       "Arrivées dans l'hôtellerie - Non-résidents - Alpes-Maritimes",
       "Arrivées dans l'hôtellerie - Non-résidents - Ardèche",
       "Arrivées dans l'hôtellerie - Non-résidents - Ardennes",
       "Arrivées dans l'hôtellerie - Non-résidents - Ariège",
       "Arrivées dans l'hôtellerie - Non-résidents - Aube",
       "Arrivées dans l'hôtellerie - Non-résidents - Aude",
       "Arrivées dans l'hôtellerie - Non-résidents - Aveyron",
       "Arrivées dans l'hôtellerie - Non-résidents - Bouches-du-Rhône",
       "Arrivées dans l'hôtellerie - Non-résidents - Calvados",
       "Arrivées dans l'hôtellerie - Non-résidents - Cantal",
       "Arrivées dans l'hôtell

In [17]:
#dans une colonne catégorie,je vais recupérer l'info Résidents ou non résidents. Pour taux d'occupation qui est juste regroupé
#par année, je vais mettre "Non applicable"
df_mensuel['Catégorie'] = df_mensuel['Libellé'].apply(lambda x: x.split(' - ')[1] if (len(x.split(' - '))>2) else "Non applicable")
df_mensuel['Catégorie']

0         Non-résidents
1         Non-résidents
2         Non-résidents
3         Non-résidents
4         Non-résidents
              ...      
66655    Non applicable
66656    Non applicable
66657    Non applicable
66658    Non applicable
66659    Non applicable
Name: Catégorie, Length: 66660, dtype: object

In [18]:
#pour vérifier les élements uniques de cette colonne
df_mensuel['Catégorie'].unique()

array(['Non-résidents', 'Résidents', 'Non applicable'], dtype=object)

## pour la suite : supprimer libellé 
    renommer variable en année, spliter mois
    group by par année

In [19]:
#supprimer la colonne Libellé puisque nous n'en avons plus besoin
df_mensuel.drop(columns=["Libellé"],inplace=True)

In [20]:
#nous allons renommer les colonnes suivantes pour ce que ce soit plus clair. Méthode rename

df_mensuel.rename(columns={'variable': 'annee', 
                           'value': 'valeur'}, inplace=True)
df_mensuel.head(10)

Unnamed: 0,annee,valeur,Departement,Type,Catégorie
0,2010-01,,Ain,Arrivées dans l'hôtellerie,Non-résidents
1,2010-01,,Aisne,Arrivées dans l'hôtellerie,Non-résidents
2,2010-01,,Allier,Arrivées dans l'hôtellerie,Non-résidents
3,2010-01,,Alpes-de-Haute-Provence,Arrivées dans l'hôtellerie,Non-résidents
4,2010-01,,Hautes-Alpes,Arrivées dans l'hôtellerie,Non-résidents
5,2010-01,,Alpes-Maritimes,Arrivées dans l'hôtellerie,Non-résidents
6,2010-01,,Ardèche,Arrivées dans l'hôtellerie,Non-résidents
7,2010-01,,Ardennes,Arrivées dans l'hôtellerie,Non-résidents
8,2010-01,,Ariège,Arrivées dans l'hôtellerie,Non-résidents
9,2010-01,,Aube,Arrivées dans l'hôtellerie,Non-résidents


In [21]:
#Nous allons diviser en 2 la colonne annee afin d'avoir l'année et le mois. 
#Pour cela nous allons convertir la colonne en datetime. 
df_mensuel['annee']= pd.to_datetime(df_mensuel['annee']) 
df_mensuel['Annee'] = df_mensuel['annee'].dt.year 
df_mensuel['Mois'] = df_mensuel['annee'].dt.month 
df_mensuel.drop(columns=["annee"],inplace=True) #suppression de la colonne annee d'origine puisque nous n'avons plus besoin. 
df_mensuel.sample(50)

Unnamed: 0,valeur,Departement,Type,Catégorie,Annee,Mois
9307,8.88,Charente,Nuitées dans l'hôtellerie,Non-résidents,2011,7
32183,148.51,Hautes-Pyrénées,Nuitées dans l'hôtellerie,Résidents,2015,4
34271,51.2,Gers,Taux d'occupation dans l'hôtellerie,Non applicable,2015,8
40336,67.0,Indre-et-Loire,Taux d'occupation dans l'hôtellerie,Non applicable,2016,8
36122,6.88,Hautes-Pyrénées,Nuitées dans l'hôtellerie,Non-résidents,2015,12
8227,29.29,Lot,Arrivées dans l'hôtellerie,Résidents,2011,5
46242,14.4,Vendée,Nuitées dans l'hôtellerie,Non-résidents,2017,8
65103,47.2,Nord,Taux d'occupation dans l'hôtellerie,Non applicable,2020,9
43663,54.54,Haute-Garonne,Nuitées dans l'hôtellerie,Non-résidents,2017,3
59947,68.89,Meurthe-et-Moselle,Nuitées dans l'hôtellerie,Résidents,2019,11


In [22]:
#reogarnisation de l'ordre des colonnes
df_mensuel = df_mensuel[['Annee','Mois','valeur','Departement','Type','Catégorie']]
df_mensuel

Unnamed: 0,Annee,Mois,valeur,Departement,Type,Catégorie
0,2010,1,,Ain,Arrivées dans l'hôtellerie,Non-résidents
1,2010,1,,Aisne,Arrivées dans l'hôtellerie,Non-résidents
2,2010,1,,Allier,Arrivées dans l'hôtellerie,Non-résidents
3,2010,1,,Alpes-de-Haute-Provence,Arrivées dans l'hôtellerie,Non-résidents
4,2010,1,,Hautes-Alpes,Arrivées dans l'hôtellerie,Non-résidents
...,...,...,...,...,...,...
66655,2020,12,44.1,Guadeloupe,Taux d'occupation dans l'hôtellerie,Non applicable
66656,2020,12,38.2,Martinique,Taux d'occupation dans l'hôtellerie,Non applicable
66657,2020,12,53.8,Guyane,Taux d'occupation dans l'hôtellerie,Non applicable
66658,2020,12,57.4,La Réunion,Taux d'occupation dans l'hôtellerie,Non applicable


In [23]:
df_mensuel["Type"].unique()

array(["Arrivées dans l'hôtellerie ", "Nuitées dans l'hôtellerie ",
       "Taux d'occupation dans l'hôtellerie "], dtype=object)

In [24]:
df_mensuel["Catégorie"]

0         Non-résidents
1         Non-résidents
2         Non-résidents
3         Non-résidents
4         Non-résidents
              ...      
66655    Non applicable
66656    Non applicable
66657    Non applicable
66658    Non applicable
66659    Non applicable
Name: Catégorie, Length: 66660, dtype: object

In [25]:
#suppression des années 2010  car il y a beaucoup d'élements vides

df_mensuel= df_mensuel.drop(df_mensuel[df_mensuel['Annee'].isin([2010])].index)

In [26]:
df_mensuel['Annee'].unique()

array([2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020],
      dtype=int64)

In [27]:
#remplacement des non residents par etrangers et residents par français

def set_values(row, value):
    return value[row]

map_dictionary ={"Non-résidents": "etrangers", "Résidents":"français","Non applicable":"Non applicable"}

In [28]:
#remplacement de non résidents et résidents par origine touristes
df_mensuel["typologie_touristes"] = df_mensuel["Catégorie"].apply(set_values, args =(map_dictionary, )) 
df_mensuel.drop(columns=["Catégorie"],inplace=True) #suppression de la colonne  catégorie puisque nous n'avons plus besoin. 
df_mensuel.sample(30)

Unnamed: 0,Annee,Mois,valeur,Departement,Type,typologie_touristes
21907,2013,8,62.4,Essonne,Arrivées dans l'hôtellerie,français
11954,2011,12,20.77,Indre,Nuitées dans l'hôtellerie,français
39846,2016,7,57.6,Haute-Marne,Taux d'occupation dans l'hôtellerie,Non applicable
24507,2014,1,6.05,Hautes-Pyrénées,Nuitées dans l'hôtellerie,etrangers
33014,2015,6,35.34,Vosges,Arrivées dans l'hôtellerie,français
15471,2012,7,62.25,Corrèze,Nuitées dans l'hôtellerie,français
42909,2017,1,35.6,Vendée,Taux d'occupation dans l'hôtellerie,Non applicable
10966,2011,10,35.86,Nièvre,Nuitées dans l'hôtellerie,français
56981,2019,5,56.1,Cher,Taux d'occupation dans l'hôtellerie,Non applicable
12856,2012,2,1.47,Haute-Corse,Nuitées dans l'hôtellerie,etrangers


In [29]:
#utilisation de la méthode get dummies pour les elements de la colonne Type en colonne
dummies=pd.get_dummies(df_mensuel['Type'])
dummies.head()

Unnamed: 0,Arrivées dans l'hôtellerie,Nuitées dans l'hôtellerie,Taux d'occupation dans l'hôtellerie
6060,1,0,0
6061,1,0,0
6062,1,0,0
6063,1,0,0
6064,1,0,0


In [30]:
#reaffectation des valeurs
for col in dummies.columns:
    df_mensuel[col]=dummies[col]*df_mensuel['valeur']
df_mensuel.sample(50)

Unnamed: 0,Annee,Mois,valeur,Departement,Type,typologie_touristes,Arrivées dans l'hôtellerie,Nuitées dans l'hôtellerie,Taux d'occupation dans l'hôtellerie
63278,2020,6,,Haute-Marne,Arrivées dans l'hôtellerie,français,,,
66616,2020,12,,Moselle,Taux d'occupation dans l'hôtellerie,Non applicable,,,
64971,2020,9,227.8,Corse-du-Sud,Nuitées dans l'hôtellerie,français,,227.8,
16812,2012,10,24.05,Lot,Arrivées dans l'hôtellerie,français,24.05,,
31909,2015,4,47.17,Val-de-Marne,Arrivées dans l'hôtellerie,etrangers,47.17,,
50828,2018,5,50.46,Eure,Nuitées dans l'hôtellerie,français,,50.46,
27397,2014,7,36.09,Eure-et-Loir,Arrivées dans l'hôtellerie,français,36.09,,
11259,2011,11,8.28,Lozère,Arrivées dans l'hôtellerie,français,8.28,,
8043,2011,4,49.7,Pyrénées-Atlantiques,Taux d'occupation dans l'hôtellerie,Non applicable,,,49.7
48184,2017,12,3.34,Ardennes,Nuitées dans l'hôtellerie,etrangers,,3.34,


In [31]:
# On vérifie le pourcentage de valeurs manquantes par colonnne et on indique vouloir garder toutes les lignes pd.set_option('display.max_rows',None) round(application.isnull().sum() / application.shape[0] * 100,2)
# On vérifie le pourcentage de valeurs manquantes par colonnne et on indique vouloir garder toutes les lignes
pd.set_option('display.max_rows',None)
round(df_mensuel.isnull().sum() / df_mensuel.shape[0] * 100,2)

Annee                                   0.00
Mois                                    0.00
valeur                                  7.06
Departement                             0.00
Type                                    0.00
typologie_touristes                     0.00
Arrivées dans l'hôtellerie              7.06
Nuitées dans l'hôtellerie               7.06
Taux d'occupation dans l'hôtellerie     7.06
dtype: float64

In [32]:
#la méthode df.isna() retourne DataFrame dont les entrées contiennent des valeurs booléennes dénotant la présence 
#df.isna().sum().sum() retourner 

total_nan_values = df_mensuel.isna().sum().sum()

#print ("Le nombre total de Nan est de :"+str(total_nan_values))

In [33]:
#Je vais remplacer toutesles nan par la valeur -300 afin de les distinguer. 
df_mensuel.fillna(-300, inplace=True)

In [34]:
#Revérification de la présence des Nan. Maintenant nous remarquons qu'il n'en y a pas plus. 
total_nan_values = df_mensuel.isna().sum().sum()

print ("Le nombre total de Nan est de :"+str(total_nan_values))

Le nombre total de Nan est de :0


In [35]:
df_mensuel.sample(10)

Unnamed: 0,Annee,Mois,valeur,Departement,Type,typologie_touristes,Arrivées dans l'hôtellerie,Nuitées dans l'hôtellerie,Taux d'occupation dans l'hôtellerie
24333,2014,1,37.95,Seine-Saint-Denis,Arrivées dans l'hôtellerie,etrangers,37.95,,
10509,2011,9,76.6,Alpes-Maritimes,Taux d'occupation dans l'hôtellerie,Non applicable,,,76.6
42899,2017,1,68.5,Paris,Taux d'occupation dans l'hôtellerie,Non applicable,,,68.5
60918,2020,1,-300.0,Charente,Nuitées dans l'hôtellerie,français,-300.0,-300.0,-300.0
56882,2019,5,127.6,Côte-d'Or,Nuitées dans l'hôtellerie,français,,127.6,
42021,2016,12,113.14,Alpes-Maritimes,Arrivées dans l'hôtellerie,français,113.14,,
33796,2015,7,68.0,Pas-de-Calais,Taux d'occupation dans l'hôtellerie,Non applicable,,,68.0
10788,2011,10,19.72,Tarn-et-Garonne,Arrivées dans l'hôtellerie,français,19.72,,
18077,2012,12,76.76,La Réunion,Nuitées dans l'hôtellerie,français,,76.76,
20121,2013,4,36.1,Dordogne,Taux d'occupation dans l'hôtellerie,Non applicable,,,36.1


In [36]:
#afin de pouvoir renommer mes colonnes , je vais supprimer l'apostrophe pour ne pas rencontrer de problèmes
df_mensuel.rename(columns=lambda x: x.replace("'",""), inplace=True)
df_mensuel.head()

Unnamed: 0,Annee,Mois,valeur,Departement,Type,typologie_touristes,Arrivées dans lhôtellerie,Nuitées dans lhôtellerie,Taux doccupation dans lhôtellerie
6060,2011,1,7.41,Ain,Arrivées dans l'hôtellerie,etrangers,7.41,,
6061,2011,1,2.4,Aisne,Arrivées dans l'hôtellerie,etrangers,2.4,,
6062,2011,1,0.94,Allier,Arrivées dans l'hôtellerie,etrangers,0.94,,
6063,2011,1,0.65,Alpes-de-Haute-Provence,Arrivées dans l'hôtellerie,etrangers,0.65,,
6064,2011,1,3.01,Hautes-Alpes,Arrivées dans l'hôtellerie,etrangers,3.01,,


In [37]:
#Df.columns est essentiel pour connaitre comment est écrit exactement la colonne : présence d'espace, signes irréguliers..
#Dans notre cas, on se rend compte les 3 dernières ont un espace à la fin
df_mensuel.columns

Index(['Annee', 'Mois', 'valeur', 'Departement', 'Type', 'typologie_touristes',
       'Arrivées dans lhôtellerie ', 'Nuitées dans lhôtellerie ',
       'Taux doccupation dans lhôtellerie '],
      dtype='object')

In [38]:
#renommage de colonnes
df_mensuel.rename(columns={'Arrivées dans lhôtellerie ': 'arrivees', 
                           'Nuitées dans lhôtellerie ': 'nuitees','Taux doccupation dans lhôtellerie ': 'taux_occupation',
                           'Mois': 'mois','Annee': 'annee','Departement':'nom_departement','typologie_touristes':'categorie'}, inplace=True)
df_mensuel.head()

Unnamed: 0,annee,mois,valeur,nom_departement,Type,categorie,arrivees,nuitees,taux_occupation
6060,2011,1,7.41,Ain,Arrivées dans l'hôtellerie,etrangers,7.41,,
6061,2011,1,2.4,Aisne,Arrivées dans l'hôtellerie,etrangers,2.4,,
6062,2011,1,0.94,Allier,Arrivées dans l'hôtellerie,etrangers,0.94,,
6063,2011,1,0.65,Alpes-de-Haute-Provence,Arrivées dans l'hôtellerie,etrangers,0.65,,
6064,2011,1,3.01,Hautes-Alpes,Arrivées dans l'hôtellerie,etrangers,3.01,,


In [39]:
#Suppression des colonnes valeur et Type car leurs données sont disponibles dans les colonnes arrivees, nuitees,taux occupation
supp = ['valeur', 'Type']
df_mensuel.drop(supp, inplace=True, axis=1)
df_mensuel.head()

Unnamed: 0,annee,mois,nom_departement,categorie,arrivees,nuitees,taux_occupation
6060,2011,1,Ain,etrangers,7.41,,
6061,2011,1,Aisne,etrangers,2.4,,
6062,2011,1,Allier,etrangers,0.94,,
6063,2011,1,Alpes-de-Haute-Provence,etrangers,0.65,,
6064,2011,1,Hautes-Alpes,etrangers,3.01,,


In [40]:
#ajout d'une nouvelle colonne id_categorie basée sur la catégorie
df_mensuel['categorie'].unique()

array(['etrangers', 'français', 'Non applicable'], dtype=object)

In [41]:
#ajout d'une nouvelle colonne id_categorie basée sur la catégorie

def set_values(row, value):
    return value[row]
   
dic_categorie ={"etrangers":2, "français":1, "Non applicable":3} 

df_mensuel['id_categorie'] = df_mensuel['categorie'].apply(set_values, args =(dic_categorie, )) 

df_mensuel.head()
   

Unnamed: 0,annee,mois,nom_departement,categorie,arrivees,nuitees,taux_occupation,id_categorie
6060,2011,1,Ain,etrangers,7.41,,,2
6061,2011,1,Aisne,etrangers,2.4,,,2
6062,2011,1,Allier,etrangers,0.94,,,2
6063,2011,1,Alpes-de-Haute-Provence,etrangers,0.65,,,2
6064,2011,1,Hautes-Alpes,etrangers,3.01,,,2


In [42]:
#ajout d'une nouvelle colonne code_departement basée sur le nom departement


dic_departement ={'Ain':1, 'Aisne':2, 'Allier':3, 'Alpes-de-Haute-Provence':4,
       'Hautes-Alpes':5, 'Alpes-Maritimes':6, 'Ardèche':7, 'Ardennes':8, 'Ariège':9,
       'Aube':10, 'Aude':11, 'Aveyron':12, 'Bouches-du-Rhône':13, 'Calvados':14,
       'Cantal':15, 'Charente':16, 'Charente-Maritime':17, 'Cher':18, 'Corrèze':19,
       "Côte-d'Or":21, "Côtes-d'Armor":22, 'Creuse':23, 'Dordogne':24, 'Doubs':25,
       'Drôme':26, 'Eure':27, 'Eure-et-Loir':28, 'Finistère':29, 'Corse-du-Sud':'2A',
       'Haute-Corse':'2B', 'Gard':30, 'Haute-Garonne':31, 'Gers':32, 'Gironde':33,
       'Hérault':34, 'Ille-et-Vilaine':35, 'Indre':36, 'Indre-et-Loire':37, 'Isère':38,
       'Jura':39, 'Landes':40, 'Loir-et-Cher':41, 'Loire':42, 'Haute-Loire':43,
       'Loire-Atlantique':44, 'Loiret':45, 'Lot':46, 'Lot-et-Garonne':47, 'Lozère':48,
       'Maine-et-Loire':49, 'Manche':50, 'Marne':51, 'Haute-Marne':52, 'Mayenne':53,
       'Meurthe-et-Moselle':54, 'Meuse':55, 'Morbihan':56, 'Moselle':57, 'Nièvre':58,
       'Nord':59, 'Oise':60, 'Orne':61, 'Pas-de-Calais':62, 'Puy-de-Dôme':63,
       'Pyrénées-Atlantiques':64, 'Hautes-Pyrénées':65, 'Pyrénées-Orientales':66,
       'Bas-Rhin':67, 'Haut-Rhin':68, 'Rhône':69, 'Haute-Saône':70, 'Saône-et-Loire':71,
       'Sarthe':72, 'Savoie':73, 'Haute-Savoie':74, 'Paris':75, 'Seine-Maritime':76,
       'Seine-et-Marne':77, 'Yvelines':78, 'Deux-Sèvres':79, 'Somme':80, 'Tarn':81,
       'Tarn-et-Garonne':82, 'Var':83, 'Vaucluse':84, 'Vendée':85, 'Vienne':86,
       'Haute-Vienne':87, 'Vosges':88, 'Yonne':89, 'Territoire de Belfort':90,
       'Essonne':91, 'Hauts-de-Seine':92, 'Seine-Saint-Denis':93, 'Val-de-Marne':94,
       "Val-d'Oise":95, 'Guadeloupe':971, 'Martinique':972, 'Guyane':973, 'La Réunion':974,
       'Mayotte':976} 

df_mensuel['code_departement'] = df_mensuel['nom_departement'].apply(set_values, args =(dic_departement, )) 

df_mensuel.head()

Unnamed: 0,annee,mois,nom_departement,categorie,arrivees,nuitees,taux_occupation,id_categorie,code_departement
6060,2011,1,Ain,etrangers,7.41,,,2,1
6061,2011,1,Aisne,etrangers,2.4,,,2,2
6062,2011,1,Allier,etrangers,0.94,,,2,3
6063,2011,1,Alpes-de-Haute-Provence,etrangers,0.65,,,2,4
6064,2011,1,Hautes-Alpes,etrangers,3.01,,,2,5


In [43]:
df_mensuel['nom_departement'].unique() 

array(['Ain', 'Aisne', 'Allier', 'Alpes-de-Haute-Provence',
       'Hautes-Alpes', 'Alpes-Maritimes', 'Ardèche', 'Ardennes', 'Ariège',
       'Aube', 'Aude', 'Aveyron', 'Bouches-du-Rhône', 'Calvados',
       'Cantal', 'Charente', 'Charente-Maritime', 'Cher', 'Corrèze',
       "Côte-d'Or", "Côtes-d'Armor", 'Creuse', 'Dordogne', 'Doubs',
       'Drôme', 'Eure', 'Eure-et-Loir', 'Finistère', 'Corse-du-Sud',
       'Haute-Corse', 'Gard', 'Haute-Garonne', 'Gers', 'Gironde',
       'Hérault', 'Ille-et-Vilaine', 'Indre', 'Indre-et-Loire', 'Isère',
       'Jura', 'Landes', 'Loir-et-Cher', 'Loire', 'Haute-Loire',
       'Loire-Atlantique', 'Loiret', 'Lot', 'Lot-et-Garonne', 'Lozère',
       'Maine-et-Loire', 'Manche', 'Marne', 'Haute-Marne', 'Mayenne',
       'Meurthe-et-Moselle', 'Meuse', 'Morbihan', 'Moselle', 'Nièvre',
       'Nord', 'Oise', 'Orne', 'Pas-de-Calais', 'Puy-de-Dôme',
       'Pyrénées-Atlantiques', 'Hautes-Pyrénées', 'Pyrénées-Orientales',
       'Bas-Rhin', 'Haut-Rhin', 'Rhône',

In [44]:
#téléchargement du csv département df_departement
df_departement=pd.read_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data/departments.csv', sep=',')
df_departement.head()

Unnamed: 0,region_code,code_departement,nom_departement
0,84,1,Ain
1,32,2,Aisne
2,84,3,Allier
3,93,4,Alpes-de-Haute-Provence
4,93,5,Hautes-Alpes


In [45]:
#Nous allons faire une jointure des 2 dataframes en indiquant la colonne sur laquelle nous ferons la jointure
#df_fusion1 est la fusion du df_mensuel et df_departement
df_fusion1= df_mensuel.merge(df_departement, on = ['nom_departement'])
#df_fusion1 = df_fusion1.drop('nom_departement', 1)
#df_fusion1.rename(columns={'Nom_du_departement': 'nom_departement'}, inplace=True)
df_fusion1.sample(30)

Unnamed: 0,annee,mois,nom_departement,categorie,arrivees,nuitees,taux_occupation,id_categorie,code_departement_x,region_code,code_departement_y
2980,2020,9,Hautes-Alpes,etrangers,2.85,,,2,5,93,5
10716,2019,8,Cher,français,54.94,,,1,18,24,18
35911,2019,7,Nord,français,148.07,,,1,59,32,59
933,2016,7,Aisne,français,,32.37,,1,2,32,2
33907,2016,2,Morbihan,etrangers,,4.13,,2,56,53,56
15050,2011,11,Eure,etrangers,1.91,,,2,27,28,27
10805,2011,2,Corrèze,etrangers,0.46,,,2,19,75,19
49955,2013,8,Var,etrangers,77.55,,,2,83,93,83
24179,2013,12,Landes,Non applicable,,,33.9,3,40,75,40
48394,2017,7,Somme,Non applicable,,,66.9,3,80,32,80


In [46]:
df_fusion1['nom_departement'].unique()

array(['Ain', 'Aisne', 'Allier', 'Alpes-de-Haute-Provence',
       'Hautes-Alpes', 'Alpes-Maritimes', 'Ardèche', 'Ardennes', 'Ariège',
       'Aube', 'Aude', 'Aveyron', 'Bouches-du-Rhône', 'Calvados',
       'Cantal', 'Charente', 'Charente-Maritime', 'Cher', 'Corrèze',
       "Côte-d'Or", "Côtes-d'Armor", 'Creuse', 'Dordogne', 'Doubs',
       'Drôme', 'Eure', 'Eure-et-Loir', 'Finistère', 'Corse-du-Sud',
       'Haute-Corse', 'Gard', 'Haute-Garonne', 'Gers', 'Gironde',
       'Hérault', 'Ille-et-Vilaine', 'Indre', 'Indre-et-Loire', 'Isère',
       'Jura', 'Landes', 'Loir-et-Cher', 'Loire', 'Haute-Loire',
       'Loire-Atlantique', 'Loiret', 'Lot', 'Lot-et-Garonne', 'Lozère',
       'Maine-et-Loire', 'Manche', 'Marne', 'Haute-Marne', 'Mayenne',
       'Meurthe-et-Moselle', 'Meuse', 'Morbihan', 'Moselle', 'Nièvre',
       'Nord', 'Oise', 'Orne', 'Pas-de-Calais', 'Puy-de-Dôme',
       'Pyrénées-Atlantiques', 'Hautes-Pyrénées', 'Pyrénées-Orientales',
       'Bas-Rhin', 'Haut-Rhin', 'Rhône',

In [47]:
#téléchargement du csv des dates
df_date=pd.read_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data/table_date.csv', sep=',')
df_date.head()

Unnamed: 0,id_date,annee,mois,trimestre
0,1,2011,janvier,1
1,2,2011,fevrier,1
2,3,2011,mars,1
3,4,2011,avril,2
4,5,2011,mai,2


In [48]:
df_fusion1['mois'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12], dtype=int64)

In [49]:
df_date['mois'].unique()

array(['janvier', 'fevrier', 'mars', 'avril', 'mai', 'juin', 'juillet',
       'aout', 'septembre', 'octobre', 'novembre', 'decembre'],
      dtype=object)

In [50]:
#Uniformisation de la colonne mois dans les 2 tables
dic_mois ={1:'janvier',2:'fevrier', 3:'mars', 4:'avril',5:"mai", 6:'juin', 7:'juillet',8:'aout', 
           9:'septembre',10:'octobre', 11:'novembre', 12:'decembre'} 

df_fusion1['Mois'] = df_fusion1['mois'].apply(set_values, args =(dic_mois, )) 
df_fusion1 = df_fusion1.drop('mois', 1)
df_fusion1.rename(columns={'Mois': 'mois'}, inplace=True)
df_fusion1.head()

Unnamed: 0,annee,nom_departement,categorie,arrivees,nuitees,taux_occupation,id_categorie,code_departement_x,region_code,code_departement_y,mois
0,2011,Ain,etrangers,7.41,,,2,1,84,1,janvier
1,2011,Ain,français,39.91,,,1,1,84,1,janvier
2,2011,Ain,etrangers,,12.19,,2,1,84,1,janvier
3,2011,Ain,français,,56.49,,1,1,84,1,janvier
4,2011,Ain,Non applicable,,,46.1,3,1,84,1,janvier


In [51]:
df_fusion1['mois'].unique()

array(['janvier', 'fevrier', 'mars', 'avril', 'mai', 'juin', 'juillet',
       'aout', 'septembre', 'octobre', 'novembre', 'decembre'],
      dtype=object)

In [52]:
df_fusion1.rename(columns={'code_departement_x': 'code_departement',}, inplace=True)

In [53]:
#Nous allons faire une jointure des 2 dataframes en indiquant les colonnes sur lesquelles nous ferons la jointure
#df_fusion1 est la fusion du df_fusion1 et df_date
df_fusion2= df_fusion1.merge(df_date, on = ['annee','mois'])

df_fusion2.head()

Unnamed: 0,annee,nom_departement,categorie,arrivees,nuitees,taux_occupation,id_categorie,code_departement,region_code,code_departement_y,mois,id_date,trimestre
0,2011,Ain,etrangers,7.41,,,2,1,84,1,janvier,1,1
1,2011,Ain,français,39.91,,,1,1,84,1,janvier,1,1
2,2011,Ain,etrangers,,12.19,,2,1,84,1,janvier,1,1
3,2011,Ain,français,,56.49,,1,1,84,1,janvier,1,1
4,2011,Ain,Non applicable,,,46.1,3,1,84,1,janvier,1,1


In [54]:
df_fusion2.sample(20)

Unnamed: 0,annee,nom_departement,categorie,arrivees,nuitees,taux_occupation,id_categorie,code_departement,region_code,code_departement_y,mois,id_date,trimestre
22965,2014,Lozère,etrangers,1.52,,,2,48,76,48,octobre,46,4
18075,2013,Somme,etrangers,5.21,,,2,80,32,80,decembre,36,4
15070,2013,Vendée,etrangers,4.43,,,2,85,52,85,juin,30,2
22456,2014,Lot-et-Garonne,français,24.85,,,1,47,75,47,septembre,45,3
616,2011,Dordogne,français,22.55,,,1,24,75,24,fevrier,2,1
42660,2018,Lozère,etrangers,0.71,,,2,48,76,48,janvier,85,1
47308,2018,Haut-Rhin,français,,144.91,,1,68,44,68,octobre,94,4
54787,2020,Maine-et-Loire,etrangers,-300.0,-300.0,-300.0,2,49,52,49,janvier,109,1
37775,2017,Tarn,etrangers,1.76,,,2,81,76,81,mars,75,1
26431,2015,Hérault,français,149.31,,,1,34,76,34,mai,53,2


In [55]:
df_fusion2 = df_fusion2.drop('code_departement_y', 1)
df_fusion2.sample(20)

Unnamed: 0,annee,nom_departement,categorie,arrivees,nuitees,taux_occupation,id_categorie,code_departement,region_code,mois,id_date,trimestre
56586,2020,Alpes-Maritimes,français,-300.0,-300.0,-300.0,1,6,93,mai,113,2
22924,2014,Jura,Non applicable,,,46.1,3,39,27,octobre,46,4
47928,2018,Essonne,français,,136.21,,1,91,11,novembre,95,4
31984,2016,Gironde,Non applicable,,,60.0,3,33,75,avril,64,2
56284,2020,Loiret,Non applicable,-300.0,-300.0,-300.0,3,45,24,avril,112,2
960,2011,Essonne,etrangers,9.58,,,2,91,11,fevrier,2,1
32255,2016,Vosges,etrangers,4.29,,,2,88,44,avril,64,2
58852,2020,Meurthe-et-Moselle,etrangers,,11.26,,2,54,44,septembre,117,3
59326,2020,Lozère,français,14.43,,,1,48,76,octobre,118,4
18468,2014,Moselle,français,,86.54,,1,57,44,janvier,37,1


In [56]:
df_fusion2.columns

Index(['annee', 'nom_departement', 'categorie', 'arrivees', 'nuitees',
       'taux_occupation', 'id_categorie', 'code_departement', 'region_code',
       'mois', 'id_date', 'trimestre'],
      dtype='object')

In [57]:


df_fusion2= df_fusion2[['id_date','annee','mois','trimestre','id_categorie','categorie','code_departement',
                        'nom_departement','region_code','arrivees','nuitees','taux_occupation']] #reorganisation ordre colonne

df_fusion2.rename(columns={'region_code': 'code_region'}, inplace=True)
df_fusion2.sample(10)

Unnamed: 0,id_date,annee,mois,trimestre,id_categorie,categorie,code_departement,nom_departement,code_region,arrivees,nuitees,taux_occupation
4086,9,2011,septembre,3,1,français,10,Aube,44,35.02,,
51894,103,2019,juillet,3,3,Non applicable,76,Seine-Maritime,28,,,66.2
92,1,2011,janvier,1,2,etrangers,19,Corrèze,75,,0.63,
4621,10,2011,octobre,4,1,français,16,Charente,75,21.41,,
442,1,2011,janvier,1,2,etrangers,88,Vosges,44,,18.76,
27081,54,2015,juin,2,1,français,63,Puy-de-Dôme,84,84.92,,
38996,78,2017,juin,2,1,français,24,Dordogne,75,43.87,,
10053,20,2012,aout,3,1,français,91,Essonne,11,,119.8,
39380,78,2017,juin,2,2,etrangers,974,La Réunion,4,4.1,,
28734,57,2015,septembre,3,3,Non applicable,90,Territoire de Belfort,27,,,59.4


In [58]:
df_fusion2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 60600 entries, 0 to 60599
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   id_date           60600 non-null  int64 
 1   annee             60600 non-null  int64 
 2   mois              60600 non-null  object
 3   trimestre         60600 non-null  int64 
 4   id_categorie      60600 non-null  int64 
 5   categorie         60600 non-null  object
 6   code_departement  60600 non-null  object
 7   nom_departement   60600 non-null  object
 8   code_region       60600 non-null  int64 
 9   arrivees          60600 non-null  object
 10  nuitees           60600 non-null  object
 11  taux_occupation   60600 non-null  object
dtypes: int64(5), object(7)
memory usage: 6.0+ MB


In [None]:
#enregistrer ces données dans gros csv que nous appelerons data_global1

df_fusion2.to_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/data_global1.csv', index=False)


# table categorie touriste

In [59]:
# à partir de df_fusion2, suppression des colonnes inutiles et des duplicats
df_categorietouriste = df_fusion2.drop(['id_date','annee','mois','trimestre','code_departement',
                                        'nom_departement','code_region','arrivees','nuitees','taux_occupation'],1)
df_categorietouriste.drop_duplicates(inplace=True)
df_categorietouriste

Unnamed: 0,id_categorie,categorie
0,2,etrangers
1,1,français
4,3,Non applicable


In [60]:
#suppresion du 3 car non touriste
df_categorietouriste = df_categorietouriste[df_categorietouriste.id_categorie!=3]
df_categorietouriste

Unnamed: 0,id_categorie,categorie
0,2,etrangers
1,1,français


In [None]:
#enregistrer ces données dans  csv que nous appelerons categorie_touriste

df_categorietouriste.to_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/categorie_touristes.csv', index=False)

# table indicateurs_tourisme

In [61]:
# à partir de df_fusion2, suppression des colonnes inutiles et des duplicats
df_indicateurstourisme = df_fusion2.drop(['annee','mois','trimestre','categorie',
                                        'nom_departement','code_region'],1)

df_indicateurstourisme.sample(20)

Unnamed: 0,id_date,id_categorie,code_departement,arrivees,nuitees,taux_occupation
38548,77,1,33,,321.15,
51776,103,1,53,15.71,,
37963,76,1,18,,54.48,
22864,46,3,29,,,46.1
7091,15,1,5,45.25,,
5723,12,1,33,,172.65,
32107,64,2,58,,3.81,
16266,33,1,23,8.62,,
51116,102,1,24,49.46,,
31040,62,2,47,1.06,,


In [62]:
df_indicateurstourisme.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 60600 entries, 0 to 60599
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   id_date           60600 non-null  int64 
 1   id_categorie      60600 non-null  int64 
 2   code_departement  60600 non-null  object
 3   arrivees          60600 non-null  object
 4   nuitees           60600 non-null  object
 5   taux_occupation   60600 non-null  object
dtypes: int64(2), object(4)
memory usage: 3.2+ MB


In [64]:
#enregistrer ces données dans  csv que nous appelerons indicateurs_tourisme4

df_indicateurstourisme.to_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/indicateurs_tourisme4.csv', index=False)

In [65]:
df_indicateurstourisme2=pd.read_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/indicateurs_tourisme4.csv', sep=',')
df_indicateurstourisme2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60600 entries, 0 to 60599
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   id_date           60600 non-null  int64  
 1   id_categorie      60600 non-null  int64  
 2   code_departement  60600 non-null  object 
 3   arrivees          26807 non-null  float64
 4   nuitees           26783 non-null  float64
 5   taux_occupation   15568 non-null  float64
dtypes: float64(3), int64(2), object(1)
memory usage: 2.8+ MB


In [66]:
#pour supprimer les nan et avoir des élements uniques, nous allons faire un group by 
df_indicateurstourisme2.sample(100)

Unnamed: 0,id_date,id_categorie,code_departement,arrivees,nuitees,taux_occupation
611,2,1,23,5.01,,
12498,25,1,75,,1011.02,
48080,96,2,23,0.13,,
26162,52,2,81,,3.57,
59506,118,1,84,61.71,,
12606,25,1,972,29.78,,
23518,47,1,57,,98.83,
25386,51,1,29,62.44,,
50686,101,1,37,89.05,,
14666,30,1,5,30.62,,


In [68]:
                         #on fait un groupby afin d'avoir des indicateurs uniques
df_indicateurstourisme2= df_indicateurstourisme2.groupby(["id_date","id_categorie","code_departement"])[["arrivees","nuitees",'taux_occupation']].sum()
df_indicateurstourisme2.sample(100)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,arrivees,nuitees,taux_occupation
id_date,id_categorie,code_departement,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
63,3,5,0.0,0.0,51.0
80,3,32,0.0,0.0,55.6
32,2,90,5.21,7.21,0.0
120,2,95,-600.0,-600.0,-600.0
78,3,62,0.0,0.0,66.8
19,3,31,0.0,0.0,59.2
81,2,5,6.84,9.35,0.0
57,1,95,143.49,220.64,0.0
94,2,52,3.92,5.22,0.0
101,2,18,7.39,9.23,0.0


In [70]:
total_nan_values = df_indicateurstourisme2.isna().sum().sum()
total_nan_values

0

In [71]:
#affectation de la valeur 0 à tous les indicateurs auxquelles nous avions affecté une valeur arbitraire de 300 au debut 
df_indicateurstourisme2['arrivees']= df_indicateurstourisme2['arrivees'].replace([-600,-300],0)
df_indicateurstourisme2['nuitees']= df_indicateurstourisme2['nuitees'].replace([-600,-300],0)
df_indicateurstourisme2['taux_occupation']= df_indicateurstourisme2['taux_occupation'].replace([-600,-300],0)
df_indicateurstourisme2.sample(100)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,arrivees,nuitees,taux_occupation
id_date,id_categorie,code_departement,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
31,3,85,0.0,0.0,63.2
67,1,64,143.85,254.41,0.0
36,3,48,0.0,0.0,22.3
58,3,65,0.0,0.0,47.0
11,3,49,0.0,0.0,50.7
78,1,11,46.25,70.27,0.0
50,3,32,0.0,0.0,28.8
65,2,19,3.45,4.94,0.0
110,1,85,0.0,0.0,0.0
103,1,45,82.55,114.88,0.0


In [72]:
all_indicateurs= df_indicateurstourisme2.groupby(["id_date","id_categorie","code_departement"])[["arrivees","nuitees"]].sum().to_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/indicateur_global.csv', index=True)

In [73]:
#dans le fichier enregistré précédemment, suppression de l'id catégorie 3
indicateurs_sejour = pd.read_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/indicateur_global.csv', sep=',')

indicateurs_sejour= indicateurs_sejour[indicateurs_sejour.id_categorie!= 3]

indicateurs_sejour.sample(100)

Unnamed: 0,id_date,id_categorie,code_departement,arrivees,nuitees
11297,38,1,87,24.37,35.59
11302,38,1,91,68.96,119.71
19717,66,1,2B,55.91,120.68
3214,11,2,84,11.08,18.16
20329,68,1,34,200.85,401.63
17130,57,2,64,31.2,60.09
6069,21,1,18,35.17,52.39
28202,94,1,3,45.06,67.96
26794,89,2,35,32.35,55.03
7468,25,2,95,45.69,66.66


In [None]:
indicateurs_sejour.to_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/indicateurs_sejour.csv', index=False)

# table taux occupation

In [None]:
df_indicateurstourisme2.groupby(["id_date","id_categorie","code_departement"])[["taux_occupation"]].sum().to_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/indicateur_occupation.csv', index=True)


In [74]:
taux_occupation= pd.read_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/indicateur_occupation.csv', sep=',')

In [None]:
taux_occupation= taux_occupation[taux_occupation.id_categorie== 3]

In [75]:
taux_occupation.sample(100)

Unnamed: 0,id_date,id_categorie,code_departement,taux_occupation
9879,33,2,83,0.0
398,2,1,95,0.0
8596,29,2,2,0.0
34711,115,2,70,0.0
6841,23,2,76,0.0
23879,79,3,48,56.6
34636,115,1,94,0.0
24893,83,1,51,0.0
30349,101,1,53,0.0
32602,108,2,81,0.0


In [None]:
taux_occupation.to_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/occupation_hotel.csv', index=False)

# table des dates

In [76]:
df_tabledate= df_fusion2.drop(['id_categorie','categorie','code_departement','nom_departement',
                               'code_region','arrivees','nuitees','taux_occupation'],1)

df_tabledate.head()

Unnamed: 0,id_date,annee,mois,trimestre
0,1,2011,janvier,1
1,1,2011,janvier,1
2,1,2011,janvier,1
3,1,2011,janvier,1
4,1,2011,janvier,1


In [77]:
df_tabledate.sample(20)

Unnamed: 0,id_date,annee,mois,trimestre
3040,7,2011,juillet,3
15035,30,2013,juin,2
4545,10,2011,octobre,4
25945,52,2015,avril,2
49642,99,2019,mars,1
25907,52,2015,avril,2
46980,94,2018,octobre,4
35911,72,2016,decembre,4
33195,66,2016,juin,2
53043,106,2019,octobre,4


In [78]:
df_tabledate.drop_duplicates(inplace=True) #suppression des duplicats

In [79]:
df_tabledate['id_date'].unique()

array([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,
        14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,
        27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,
        40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,  52,
        53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,  65,
        66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,  78,
        79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,  91,
        92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103, 104,
       105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117,
       118, 119, 120], dtype=int64)

In [None]:
#enregistrer ces données dans  csv que nous appelerons table_date

df_tabledate.to_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/table_date.csv', index=False)

# table departement

In [80]:
df_tabledepartement= df_fusion2.drop(['annee','mois','trimestre','id_date','id_categorie','categorie','arrivees','nuitees',
                                      'taux_occupation'],1)
#df_tabledepartement.drop_duplicates(inplace=True) #suppression des duplicats

df_tabledepartement['nom_departement'].unique()

array(['Ain', 'Aisne', 'Allier', 'Alpes-de-Haute-Provence',
       'Hautes-Alpes', 'Alpes-Maritimes', 'Ardèche', 'Ardennes', 'Ariège',
       'Aube', 'Aude', 'Aveyron', 'Bouches-du-Rhône', 'Calvados',
       'Cantal', 'Charente', 'Charente-Maritime', 'Cher', 'Corrèze',
       "Côte-d'Or", "Côtes-d'Armor", 'Creuse', 'Dordogne', 'Doubs',
       'Drôme', 'Eure', 'Eure-et-Loir', 'Finistère', 'Corse-du-Sud',
       'Haute-Corse', 'Gard', 'Haute-Garonne', 'Gers', 'Gironde',
       'Hérault', 'Ille-et-Vilaine', 'Indre', 'Indre-et-Loire', 'Isère',
       'Jura', 'Landes', 'Loir-et-Cher', 'Loire', 'Haute-Loire',
       'Loire-Atlantique', 'Loiret', 'Lot', 'Lot-et-Garonne', 'Lozère',
       'Maine-et-Loire', 'Manche', 'Marne', 'Haute-Marne', 'Mayenne',
       'Meurthe-et-Moselle', 'Meuse', 'Morbihan', 'Moselle', 'Nièvre',
       'Nord', 'Oise', 'Orne', 'Pas-de-Calais', 'Puy-de-Dôme',
       'Pyrénées-Atlantiques', 'Hautes-Pyrénées', 'Pyrénées-Orientales',
       'Bas-Rhin', 'Haut-Rhin', 'Rhône',

In [81]:
df_tabledepartement.drop_duplicates(inplace=True) #suppression des duplicats

In [82]:
df_tabledepartement['nom_departement'].unique()

array(['Ain', 'Aisne', 'Allier', 'Alpes-de-Haute-Provence',
       'Hautes-Alpes', 'Alpes-Maritimes', 'Ardèche', 'Ardennes', 'Ariège',
       'Aube', 'Aude', 'Aveyron', 'Bouches-du-Rhône', 'Calvados',
       'Cantal', 'Charente', 'Charente-Maritime', 'Cher', 'Corrèze',
       "Côte-d'Or", "Côtes-d'Armor", 'Creuse', 'Dordogne', 'Doubs',
       'Drôme', 'Eure', 'Eure-et-Loir', 'Finistère', 'Corse-du-Sud',
       'Haute-Corse', 'Gard', 'Haute-Garonne', 'Gers', 'Gironde',
       'Hérault', 'Ille-et-Vilaine', 'Indre', 'Indre-et-Loire', 'Isère',
       'Jura', 'Landes', 'Loir-et-Cher', 'Loire', 'Haute-Loire',
       'Loire-Atlantique', 'Loiret', 'Lot', 'Lot-et-Garonne', 'Lozère',
       'Maine-et-Loire', 'Manche', 'Marne', 'Haute-Marne', 'Mayenne',
       'Meurthe-et-Moselle', 'Meuse', 'Morbihan', 'Moselle', 'Nièvre',
       'Nord', 'Oise', 'Orne', 'Pas-de-Calais', 'Puy-de-Dôme',
       'Pyrénées-Atlantiques', 'Hautes-Pyrénées', 'Pyrénées-Orientales',
       'Bas-Rhin', 'Haut-Rhin', 'Rhône',

In [None]:
df_tabledepartement.to_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/departement.csv', index=False)

# Traitement du dataframe csv provenance touristes étrangers . 

In [83]:
#Traitement du dataframe csv provenance touristes étrangers . Nous l'appelerons df_provenance_etrangers
#données disponibles uniquement pour la destination France Métropolitaine

df_provenance_etrangers=pd.read_csv('data/data_avec_pays_origine/valeurs_trimestrielles.csv', sep=';')
df_provenance_etrangers.sample(10)

Unnamed: 0,Libellé,idBank,Dernière mise à jour,Période,2011-T1,2011-T2,2011-T3,2011-T4,2012-T1,2012-T2,...,2017-T3,2017-T4,2018-T1,2018-T2,2018-T3,2018-T4,2019-T1,2019-T2,2019-T3,2019-T4
2,Evolution des nuitées en glissement trimestrie...,10569951.0,07/02/2020 12:00,,2.2,3.1,3.0,4.6,2.3,-1.2,...,5.3,5.1,4.7,1.3,2.0,1.5,-0.9,2.4,0.4,1.0
19,Codes,,,,A,A,A,A,A,A,...,A,A,A,A,A,A,A,A,A,A
27,Codes,,,,A,A,A,A,A,A,...,A,A,A,A,A,A,A,A,A,A
31,Codes,,,,A,A,A,A,A,A,...,A,A,A,A,A,A,A,A,A,A
35,Codes,,,,A,A,A,A,A,A,...,A,A,A,A,A,A,A,A,A,A
29,Codes,,,,A,A,A,A,A,A,...,A,A,A,A,A,A,A,A,A,A
23,Codes,,,,A,A,A,A,A,A,...,A,A,A,A,A,A,A,A,A,A
4,Evolution des nuitées en glissement trimestrie...,10569952.0,07/02/2020 12:00,,,,,,3.8,0.7,...,6.6,16.3,11.8,3.7,-0.9,3.6,-4.9,2.6,2.6,0.1
15,Codes,,,,A,A,A,A,A,A,...,A,A,A,A,A,A,A,A,A,A
3,Codes,,,,A,A,A,A,A,A,...,A,A,A,A,A,A,A,A,A,P


In [84]:
#Pour créer la colonne variable qui contient toutes les années et mois, nous allons utiliser la méthode melt. 
#Nous allons prendre toutes les colonnes qui se trouvent après le 4ème élement jusqu'au dernier.

df_provenance_etrangers=pd.melt(df_provenance_etrangers, id_vars ='Libellé', value_vars =df_provenance_etrangers.columns[4:])
df_provenance_etrangers.head(10)

Unnamed: 0,Libellé,variable,value
0,Evolution des nuitées en glissement trimestrie...,2011-T1,
1,Codes,2011-T1,O
2,Evolution des nuitées en glissement trimestrie...,2011-T1,2.2
3,Codes,2011-T1,A
4,Evolution des nuitées en glissement trimestrie...,2011-T1,
5,Codes,2011-T1,
6,Nuitées dans l'hôtellerie en provenance - Amér...,2011-T1,385
7,Codes,2011-T1,A
8,Nuitées dans l'hôtellerie en provenance - Afri...,2011-T1,219
9,Codes,2011-T1,A


In [85]:
df_provenance_etrangers['Annee'] = df_provenance_etrangers['variable'].apply(lambda x: x.split('-')[0])
df_provenance_etrangers['Trimestre'] = df_provenance_etrangers['variable'].apply(lambda x: x.split('-')[1])

df_provenance_etrangers.sample(10)

Unnamed: 0,Libellé,variable,value,Annee,Trimestre
1050,Nuitées dans l'hôtellerie en provenance - Alle...,2017-T3,2443,2017,T3
1431,Codes,2019-T4,A,2019,T4
1250,Nuitées dans l'hôtellerie en provenance - Alle...,2018-T4,1328,2018,T4
161,Codes,2012-T1,O,2012,T1
12,Nuitées dans l'hôtellerie en provenance - Amér...,2011-T1,1304,2011,T1
702,Nuitées dans l'hôtellerie en provenance - Etat...,2015-T2,2471,2015,T2
404,Evolution des nuitées en glissement trimestrie...,2013-T3,0.2,2013,T3
44,Evolution des nuitées en glissement trimestrie...,2011-T2,,2011,T2
17,Codes,2011-T1,A,2011,T1
260,Nuitées dans l'hôtellerie en provenance - Espa...,2012-T3,1769,2012,T3


In [86]:
df_provenance_etrangers['Libellé'].unique()

array(['Evolution des nuitées en glissement trimestriel (%) dans l’hôtellerie de plein air - France métropolitaine',
       'Codes',
       'Evolution des nuitées en glissement trimestriel (%) dans l’hôtellerie - France métropolitaine',
       'Evolution des nuitées en glissement trimestriel (%) dans les Autres Hébergements Collectifs Touristiques - France métropolitaine',
       "Nuitées dans l'hôtellerie en provenance - Amérique centrale et du Sud - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Afrique - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Allemagne - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Amérique - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Asie et Océanie - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Belgique - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Chine - France métropolitaine",
      

In [87]:
#suppression des lignes dont nous n'avons pas besoin
df_provenance_etrangers= df_provenance_etrangers[~df_provenance_etrangers['Libellé'].str.contains("Evolution")]
df_provenance_etrangers= df_provenance_etrangers[~df_provenance_etrangers['Libellé'].str.contains("Codes")]

df_provenance_etrangers['Libellé'].unique()

array(["Nuitées dans l'hôtellerie en provenance - Amérique centrale et du Sud - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Afrique - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Allemagne - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Amérique - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Asie et Océanie - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Belgique - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Chine - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Espagne - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Etats-Unis - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Europe hors France - France métropolitaine",
       "Nuitées dans l'hôtellerie en provenance - Italie - France métropolitaine",
       "Nuitées dans l'hôtellerie

In [88]:
#création de 2 colonnes "provenance" et destination en France (Territoire) à partir de la colonne Libellé
df_provenance_etrangers['provenance'] = df_provenance_etrangers['Libellé'].apply(lambda x: x.split(' - ')[1])
df_provenance_etrangers['Territoire'] = df_provenance_etrangers['Libellé'].apply(lambda x: x.split(' - ')[-1])

df_provenance_etrangers.head()

Unnamed: 0,Libellé,variable,value,Annee,Trimestre,provenance,Territoire
6,Nuitées dans l'hôtellerie en provenance - Amér...,2011-T1,385,2011,T1,Amérique centrale et du Sud,France métropolitaine
8,Nuitées dans l'hôtellerie en provenance - Afri...,2011-T1,219,2011,T1,Afrique,France métropolitaine
10,Nuitées dans l'hôtellerie en provenance - Alle...,2011-T1,764,2011,T1,Allemagne,France métropolitaine
12,Nuitées dans l'hôtellerie en provenance - Amér...,2011-T1,1304,2011,T1,Amérique,France métropolitaine
14,Nuitées dans l'hôtellerie en provenance - Asie...,2011-T1,1375,2011,T1,Asie et Océanie,France métropolitaine


In [89]:
#suppression des colonnes Libellé et variable
#reorganisation du dataframe 
#renommer colonne value car c'est un mot reservé sql
df_provenance_etrangers.drop(columns=["Libellé","variable"],inplace=True)
df_provenance_etrangers = df_provenance_etrangers[['Annee','Trimestre','value','provenance','Territoire']]
df_provenance_etrangers.rename(columns={'value': 'quantite','Territoire':'destination','Annee':'annee','Trimestre':'trimestre'}, inplace=True)
df_provenance_etrangers.head()

Unnamed: 0,annee,trimestre,quantite,provenance,destination
6,2011,T1,385,Amérique centrale et du Sud,France métropolitaine
8,2011,T1,219,Afrique,France métropolitaine
10,2011,T1,764,Allemagne,France métropolitaine
12,2011,T1,1304,Amérique,France métropolitaine
14,2011,T1,1375,Asie et Océanie,France métropolitaine


In [90]:
df_provenance_etrangers.sample(20)

Unnamed: 0,annee,trimestre,quantite,provenance,destination
464,2013,T4,8738,Europe hors France,France métropolitaine
1246,2018,T4,646,Amérique centrale et du Sud,France métropolitaine
1188,2018,T2,350,Japon,France métropolitaine
172,2012,T1,1370,Amérique,France métropolitaine
1384,2019,T3,17842,Europe hors France,France métropolitaine
816,2016,T1,935,Belgique,France métropolitaine
1192,2018,T2,533,Proche et Moyen-Orient,France métropolitaine
674,2015,T1,2302,Royaume-Uni,France métropolitaine
1106,2017,T4,851,Italie,France métropolitaine
418,2013,T3,749,Chine,France métropolitaine


In [91]:

df_provenance_etrangers['trimestre'].unique()




array(['T1', 'T2', 'T3', 'T4'], dtype=object)

In [92]:
#Uniformisation de la colonne trimestre
dic_trimestre ={'T1':1, 'T2':2, 'T3':3,'T4':4} 

df_provenance_etrangers['trimestre'] = df_provenance_etrangers['trimestre'].apply(set_values, args =(dic_trimestre, )) 

df_provenance_etrangers.sample(20)

Unnamed: 0,annee,trimestre,quantite,provenance,destination
286,2012,4,552,Amérique centrale et du Sud,France métropolitaine
1418,2019,4,631,Chine,France métropolitaine
1254,2018,4,2429,Asie et Océanie,France métropolitaine
48,2011,2,275,Afrique,France métropolitaine
980,2017,1,710,Espagne,France métropolitaine
832,2016,1,373,Proche et Moyen-Orient,France métropolitaine
412,2013,3,3714,Amérique,France métropolitaine
144,2011,4,8523,Europe hors France,France métropolitaine
866,2016,2,1023,Italie,France métropolitaine
858,2016,2,636,Chine,France métropolitaine


In [93]:
df_provenance_etrangers['provenance'].unique()

array(['Amérique centrale et du Sud', 'Afrique', 'Allemagne', 'Amérique',
       'Asie et Océanie', 'Belgique', 'Chine', 'Espagne', 'Etats-Unis',
       'Europe hors France', 'Italie', 'Japon', 'Pays-Bas',
       'Proche et Moyen-Orient', 'Royaume-Uni', 'Russie', 'Suisse'],
      dtype=object)

In [94]:
#Création d'une colonne id_provenance
dic_provenance ={'Amérique centrale et du Sud':1, 'Afrique':2, 'Allemagne':3, 'Amérique':4,'Asie et Océanie':5, 
                 'Belgique':6, 'Chine':7, 'Espagne':8, 'Etats-Unis':9,'Europe hors France':10, 'Italie':11, 'Japon':12, 
                 'Pays-Bas':13,'Proche et Moyen-Orient':14, 'Royaume-Uni':15, 'Russie':16, 'Suisse':17} 

df_provenance_etrangers['id_provenance'] = df_provenance_etrangers['provenance'].apply(set_values, args =(dic_provenance, )) 

df_provenance_etrangers.sample(20)

Unnamed: 0,annee,trimestre,quantite,provenance,destination,id_provenance
8,2011,1,219,Afrique,France métropolitaine,2
926,2016,4,527,Amérique centrale et du Sud,France métropolitaine,1
1068,2017,3,363,Japon,France métropolitaine,12
534,2014,2,2508,Asie et Océanie,France métropolitaine,5
736,2015,3,2182,Belgique,France métropolitaine,6
1358,2019,2,1069,Suisse,France métropolitaine,17
1114,2017,4,2051,Royaume-Uni,France métropolitaine,15
318,2012,4,596,Suisse,France métropolitaine,17
1072,2017,3,1014,Proche et Moyen-Orient,France métropolitaine,14
928,2016,4,408,Afrique,France métropolitaine,2


In [95]:
df_date.sample(10)

Unnamed: 0,id_date,annee,mois,trimestre
114,115,2020,juillet,3
106,107,2019,novembre,4
84,85,2018,janvier,1
68,69,2016,septembre,3
40,41,2014,mai,2
109,110,2020,fevrier,1
39,40,2014,avril,2
77,78,2017,juin,2
100,101,2019,mai,2
1,2,2011,fevrier,1


In [96]:
df_date.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120 entries, 0 to 119
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   id_date    120 non-null    int64 
 1   annee      120 non-null    int64 
 2   mois       120 non-null    object
 3   trimestre  120 non-null    int64 
dtypes: int64(3), object(1)
memory usage: 3.9+ KB


In [97]:
df_provenance_etrangers.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 612 entries, 6 to 1438
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   annee          612 non-null    object
 1   trimestre      612 non-null    int64 
 2   quantite       612 non-null    object
 3   provenance     612 non-null    object
 4   destination    612 non-null    object
 5   id_provenance  612 non-null    int64 
dtypes: int64(2), object(4)
memory usage: 33.5+ KB


In [98]:
df_provenance_etrangers["annee"] = pd.to_numeric(df_provenance_etrangers["annee"])
df_provenance_etrangers["quantite"] = pd.to_numeric(df_provenance_etrangers["quantite"])

In [99]:
#Nous allons faire une jointure des 2 dataframes en indiquant les colonnes sur lesquelles nous ferons la jointure

df_fusionprovenance= df_provenance_etrangers.merge(df_date, on = ['annee','trimestre'])

df_fusionprovenance.sample(20)

Unnamed: 0,annee,trimestre,quantite,provenance,destination,id_provenance,id_date,mois
26,2011,1,811,Etats-Unis,France métropolitaine,9,3,mars
91,2011,2,311,Proche et Moyen-Orient,France métropolitaine,14,5,mai
475,2013,2,1309,Belgique,France métropolitaine,6,29,mai
732,2014,3,826,Chine,France métropolitaine,7,43,juillet
995,2015,4,1388,Etats-Unis,France métropolitaine,9,60,decembre
1700,2019,2,1399,Belgique,France métropolitaine,6,102,juin
1718,2019,2,401,Japon,France métropolitaine,12,102,juin
735,2014,3,1923,Espagne,France métropolitaine,8,43,juillet
918,2015,3,824,Amérique centrale et du Sud,France métropolitaine,1,55,juillet
795,2014,4,1049,Italie,France métropolitaine,11,46,octobre


In [100]:
df_zoneoriginetouriste = df_fusionprovenance[['id_date','id_provenance','quantite','destination']]
df_zoneoriginetouriste.sample(10)

Unnamed: 0,id_date,id_provenance,quantite,destination
273,16,7,389,France métropolitaine
1642,98,4,2089,France métropolitaine
118,8,6,2225,France métropolitaine
1136,69,5,3293,France métropolitaine
1794,106,4,2715,France métropolitaine
1614,94,12,390,France métropolitaine
1512,88,12,350,France métropolitaine
326,21,7,579,France métropolitaine
1793,108,3,1306,France métropolitaine
1630,95,17,703,France métropolitaine


In [None]:
df_zoneoriginetouriste.to_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/zone_origine_touristes.csv', index=False)

In [101]:
df_regiondepart = df_fusionprovenance[['id_provenance','provenance']]
df_regiondepart.sample(10)

Unnamed: 0,id_provenance,provenance
548,13,Pays-Bas
1548,7,Chine
468,4,Amérique
1427,17,Suisse
1493,5,Asie et Océanie
260,2,Afrique
1736,1,Amérique centrale et du Sud
616,2,Afrique
1671,14,Proche et Moyen-Orient
904,13,Pays-Bas


In [102]:
df_regiondepart.drop_duplicates(inplace=True) #suppression des duplicats
df_regiondepart


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_regiondepart.drop_duplicates(inplace=True) #suppression des duplicats


Unnamed: 0,id_provenance,provenance
0,1,Amérique centrale et du Sud
3,2,Afrique
6,3,Allemagne
9,4,Amérique
12,5,Asie et Océanie
15,6,Belgique
18,7,Chine
21,8,Espagne
24,9,Etats-Unis
27,10,Europe hors France


In [None]:
df_regiondepart.to_csv('C:/Users/Alain NGABO/Dropbox/SIMPLON/Chefdoeuvre/data_propre/region_depart.csv', index=False)

### ******* fin *********