# Projet maison n° 5

On s'intéresse au fichier sur la Couverture 2G, 3G, 4G en France par opérateur de juillet 2015 fourni par l'ARCEP : "couverture-2g-3g-4g-en-france-par-operateur-juillet-2015.csv".

[°] Ce fichier donne le taux de couverture par commune, par opérateur (Orange France, Bouygues Telecom, SFR, Free Mobile, Tout Opérateur), par type de couverture (Couverture population, Couverture surfacique) et par réseau (2G, 3G, 4G).

1. Chargez le fichier dans un DataFrame.
2. Transformez ce DataFrame large en un DataFrame long en isolant les colonnes d'identification d'une part et les colonnes de valeurs de couverture d'autre part.
3. Rajoutez 3 colonnes "Opérateur", "Type Couverture" et "Réseau" calculées à partir de la colonne "variable" obtenue en 2 (utilisez les valeurs indiquées entre parenthèses ci-dessus [°]).
4. A partir de ce DataFrame, obtenez un objet de type Series dont les valeurs correspondent à la colonne "value" obtenue en 2 et dont le multi-index contient les autres colonnes du DataFrame sauf la colonne "variable" obtenue en 2. Puis remontez les index "Opérateur", "Type Couverture" et "Réseau" en colonnes multi-indexées. Vous devez obtenir un DataFrame avec 7 niveaux d'index et 3 niveaux de colonnes.
5. Chargez le DataFrame des communes déjà utilisé ("correspondance-code-insee-code-postal.csv") et effectuez une jointure sur le code INSEE avec le DataFrame obtenu en 3.
6. Pour le réseau 4G et la couverture surfacique, calculez la moyenne des couvertures par statut de commune et par opérateur. Pour quel couple (statut, opérateur) a-t-on la moyenne de la couverture la plus faible ?

In [232]:
# import
import pandas as pd
import re

In [233]:
# 1) Chargez le fichier dans un DataFrame
def load_data():
    df = pd.read_csv("couverture-2g-3g-4g-en-france-par-operateur-juillet-2015.csv", sep = ';')
    return df

In [241]:
# 2) Transformez ce DataFrame large en un DataFrame long
def data_wide2long():
    df = load_data()
    df_long = pd.melt(df, id_vars=['CODE POSTAL','CODE INSEE','NOM COMMUNE','CODE DEPARTEMENT','SURFACE COMMUNE (km²)',
                              'POPULATION COMMUNE','coordonnees'])
    return df_long

In [242]:
# 3) Rajoutez 3 colonnes "Opérateur", "Type Couverture" et "Réseau"
def data_add3columns():
    op = []
    type_couv = []
    reseau = []

    df = data_wide2long()
    
    for var in df['variable']: #Je n'ai pas réussi à le faire avec une regex
        if 'Orange France' in var:
            op.append('Orange France')
        elif 'SFR' in var:
            op.append('SFR')
        elif 'Bouygues Telecom' in var:
            op.append('Bouygues Telecom')
        elif 'Free Mobile' in var:
            op.append('Free Mobile')
        elif 'Par au moins' in var:
            op.append('Tout Opérateur')
            
        if 'population' in var:
            type_couv.append('Couverture population')
        else:
            type_couv.append('Couverture surfacique')
            
        reseau.append(re.findall('[0-9G]+',var)[0])
        
    df['Opérateur'] = op
    df['Type Couverture'] = type_couv
    df['Réseau'] = reseau
    #df = pd.DataFrame(columns=['Opérateur', 'Type Couverture', 'Réseau'])
    return df

In [243]:
# 4) Transformez ce DataFrame en multi-index
def data_multi_index():
    df = data_add3columns()
    df = df.pivot_table(values='value', index=list(df.columns[:7]), columns=list(df.columns[-3:]))
    return df

In [244]:
# 5) Effectuez une jointure sur le code INSEE
def data_join_geo():
    df = data_add3columns()
    df2 = pd.read_csv("../session2/correspondance-code-insee-code-postal.csv",sep=';')
    df = pd.merge(df,
              df2,
              left_on='CODE INSEE',
              right_on='Code INSEE')
    return df

In [250]:
# 6) Pour quel couple (statut, opérateur) a-t-on la moyenne de la couverture la plus faible ?
def data_get_worst_statut_operateur():
    df = data_join_geo()
    
    worst_statut_operateur = df[(df['Réseau'] == '4G') & (df['Type Couverture'] == 'Couverture surfacique')]\
    .groupby(['Statut','Opérateur']).mean()['value'].idxmin()
    
    return worst_statut_operateur

In [251]:
import unittest

class Lesson5Tests(unittest.TestCase):
    
    def test_01_load_data(self):
        df = load_data()
        # test shape
        self.assertEqual(df.shape, (36594, 37))
        
    def test_02_data_wide2long(self):
        df = data_wide2long()
        # test shape
        self.assertEqual(df.shape, (1097820, 9))
        
    def test_03_data_add3columns(self):
        df = data_add3columns()
        # test "Opérateur" values
        s1 = set(df['Opérateur'].unique())
        s2 = set(['Orange France', 'Bouygues Telecom', 'SFR', 'Free Mobile', 'Tout Opérateur'])
        self.assertSetEqual(s1, s2)
        # test "Type Couverture" values
        s1 = set(df['Type Couverture'].unique())
        s2 = set(['Couverture population', 'Couverture surfacique'])
        self.assertSetEqual(s1, s2)
        # test "Réseau" values
        s1 = set(df['Réseau'].unique())
        s2 = set(['2G', '3G', '4G'])
        self.assertSetEqual(s1, s2)
        
    def test_04_data_multi_index(self):
        df = data_multi_index()
        # test shape
        self.assertEqual(df.shape, (36594, 30))
        # test multi-index de l'index
        self.assertEqual(len(df.index.levels), 7)
        # test multi-index des columns
        self.assertEqual(len(df.columns.levels), 3)
        
    def test_05_data_join_geo(self):
        df = data_join_geo()
        # test length
        self.assertEqual(len(df), 1097820)
        
    def test_06_data_get_worst_statut_operateur(self):
        statut_operateur = data_get_worst_statut_operateur()
        # test length
        self.assertEqual(statut_operateur, ('Commune simple', 'Free Mobile'))


In [252]:
# run tests
test_suite = unittest.makeSuite(Lesson5Tests)
runner = unittest.TextTestRunner(verbosity=2)
runner.run(test_suite)

test_01_load_data (__main__.Lesson5Tests) ... ok
test_02_data_wide2long (__main__.Lesson5Tests) ... ok
test_03_data_add3columns (__main__.Lesson5Tests) ... ok
test_04_data_multi_index (__main__.Lesson5Tests) ... ok
test_05_data_join_geo (__main__.Lesson5Tests) ... ok
test_06_data_get_worst_statut_operateur (__main__.Lesson5Tests) ... ok

----------------------------------------------------------------------
Ran 6 tests in 27.272s

OK


<unittest.runner.TextTestResult run=6 errors=0 failures=0>