# Work from home, from an external site or on the move (2018)

### Adresse web
- lien = https://appsso.eurostat.ec.europa.eu/nui/show.do?dataset=isoc_iw_hem&lang=en


### Fichier source
- Pour l'année 2018 : Statistiques de la fréquence du télétravail par pays Européens
- L'unité qui nous intéresse ici : "Percentage of individuals"

## 1) Import des bibliothèques et paramètres

In [1]:
# Importation des bibliothèques
import pandas as pd
import numpy as np

# Paramétrage des options d'affichage des colonnes
pd.options.display.max_columns = None
pd.set_option('display.max_colwidth', None)

## 2) Nettoyage des données

In [8]:
def traitement_df(chemin): 
    # Création du dataframe
    df = pd.read_csv(chemin, sep=',', engine='python')

    # Renommage des colonnes 
    df.rename(columns={'INDIC_IS':'categorie', 'GEO':'pays',
                         'IND_TYPE':'type_individu', 'TIME':'annee',
                         'UNIT':'unite', 'Value':'valeur', 'Flag and Footnotes':'notes'}, inplace=True)

    # Suppression des colonnes non pertinentes
    df_2 = df.drop(["type_individu", "annee", "notes"], axis=1)

    # Remplace les ":" par la valeur "888" afin de faire le traitement et conversion
    df_2['valeur'] = df_2['valeur'].str.replace(':','888') # 888 pour identification simple des NaN
    df_2.valeur = df_2.valeur.astype(int)

    # Sélection des occurrences avec pour unité "Percentage of individuals"
    #df_3 = df_2[df_2["unite"] == "Percentage of individuals"]  # 280 lignes

In [12]:
traitement_df("./isoc_iw_hem_1_Data.csv")

In [17]:
df_2.shape

(1400, 4)

In [18]:
df_3.head()

Unnamed: 0,categorie,pays,unite,valeur
0,Individuals worked from home every day or almost every day,European Union - 27 countries (from 2020),Percentage of individuals,4
5,Individuals worked from home every day or almost every day,European Union - 28 countries (2013-2020),Percentage of individuals,5
10,Individuals worked from home every day or almost every day,European Union - 27 countries (2007-2013),Percentage of individuals,5
15,Individuals worked from home every day or almost every day,European Union - 15 countries (1995-2004),Percentage of individuals,5
20,Individuals worked from home every day or almost every day,"Euro area (EA11-1999, EA12-2001, EA13-2007, EA15-2008, EA16-2009, EA17-2011, EA18-2014, EA19-2015)",Percentage of individuals,5


## 3) Export

### Datasets originaux 

In [48]:
# Création de deux datasets de 1000 et 400 lignes afin de les exploiter sous Tableau Public
dataset_1 = df_2.loc[0:999, :]
dataset_2 = df_2.loc[1000:1401, :]

# Export des deux datasets crées au format CSV
dataset_1.to_csv(r'./lien1_dataset_1.csv')  # 1000 lignes
dataset_2.to_csv(r'./lien1_dataset_2.csv')  # 400  lignes


# Export du dataset entier au format CSV
df_2.to_csv(r'./lien1_dataset_full.csv')    # 1400 lignes

# Export du dataset réduit au format CSV
df_3.to_csv(r'./lien1_dataset_reduit.csv')  # 280 lignes

### Pivot table (sélection de l'unité désirée)

In [10]:
# Filtre sur la colonne "UNIT" : on s'intéresse à la valeur "Percentage of individuals"
df_3 = df_2[df_2["unite"] == "Percentage of individuals"]

# Création de la pivot table 
piv_table = pd.pivot_table(df_3, values='valeur', index=['pays'], columns=['categorie'])

# Export du pivot table au format CSV
piv_table.to_csv(r'./lien1_dataset_3.csv')