# Statistiques sur les communes de France

## Un apprentissage par problème (APP) déstiné aux étudiants du module "Algorithmie avancée 1"

Le sujet s'appuie sur les données contenues dans le fichier https://www.data.gouv.fr/fr/datasets/r/554590ab-ae62-40ac-8353-ee75162c05ee, qu'il vous est demandé de télécharger (dans le même dossier que ce notebook).

Le but de l'APP est de fournir des algorithmes permettant de trier les communes de France selon certains critères.

Vous devez implémenter un algorithme permettant de trier les communes de France par ordre croissant de distance à une ville donnée. Votre algorithme devra être le plus rapide possible.

### Les ressources pour traiter la situation-problème
+ Module 29 : Notions er dénmbrement
+ Module 30 : Analuse de deux tris itératifs
+ Module 31 : Notations pour l'analyser asymptotique

### Timing séance "aller" et travail individuel

### Timing séance "retour"

### Des fonctions pour faciliter le travail en équipe

### Evaluation du travail en équipe (1)

### Evaluation du travail en équipe (2)

### Evaluation de votre travail individuel

### Notes aux tuteurs

Les étudiants seront confronté à la question du pré-traitement des données pour optimiser leur algorithme.

### Importation des données

In [1]:
# coding: utf-8
communes = []
with open("laposte_hexasmal.csv", encoding="utf-8") as f:
    lignes = f.readlines()
    for ligne in lignes:
        communes.append(ligne.split(";"))
print(len(communes))
print(communes[0])
print(*communes[-5:], sep="\n")

39193
['Code_commune_INSEE', 'Nom_commune', 'Code_postal', 'Ligne_5', 'Libellé_d_acheminement', 'coordonnees_gps\n']
['87114', 'PANAZOL', '87350', '', 'PANAZOL', '45.8407332178,1.32357791715\n']
['87126', 'ROCHECHOUART', '87600', '', 'ROCHECHOUART', '45.8236032815,0.84280512319\n']
['87130', 'ROZIERS ST GEORGES', '87130', '', 'ROZIERS ST GEORGES', '45.7432695076,1.56065453243\n']
['87131', 'SAILLAT SUR VIENNE', '87720', '', 'SAILLAT SUR VIENNE', '45.8704899446,0.834066842263\n']
['87137', 'ST BAZILE', '87150', '', 'ST BAZILE', '45.7346220066,0.807218203369\n']


### Note
Le serveur jupyter doit être condfiguré pour accepter d'ouvrir les fichiers dépassant une certaine taille. 

In [10]:
def rechercher(ville):
    indice = -1
    for i, commune in enumerate(communes):
        if commune[1] == ville:
            indice = i
            break
    return indice

In [16]:
rechercher('PARIS 01')

27481

In [17]:
def tri_bulle(communes, f):
    for i in range(1, len(communes)):
        for j in range(len(communes)-i):
            if f(communes[j]) > f(communes[j+1]):
                communes[j], communes[j+1] = communes[j+1], communes[j]

In [28]:
def fusion(liste1, liste2, f):
    res = []
    while liste1 and liste2:
        if f(liste1[0]) < f(liste2[0]):
            res.append(liste1.pop(0))
        else:
            res.append(liste2.pop(0))
    if liste1:
        res += liste1
    if liste2:
        res += liste2
    return res
def tri_fusion(liste, f):
    if len(liste) == 1:
        return liste
    else:
        milieu = len(liste) // 2
        return fusion(tri_fusion(liste[:milieu], f), tri_fusion(liste[milieu:], f), f)

Le nombre d'entrées dans la base de donnée est convenable. Un tri en $O(n^{2})$ de la totalité des données est possible mais prendra plusieurs minutes. Cela doit pousser les étudiants à implémenter un algorithme en $O(n\ln(n))$. Un algorithme en $O(n\ln(n))$ prend moins d'une seconde pour trier l'intégralité des données.

In [31]:
#communes.sort(key=lambda ligne: ligne[1])
import time
N = 1
t = 0
while t < 60 and N < len(communes):
    communes_ = communes[0:N]
    t1 = time.time()
    #tri_bulle(communes_, lambda ligne: ligne[1])
    communes_ = tri_fusion(communes_, lambda ligne: ligne[1])
    t2 = time.time()
    t = t2 - t1
    N *= 2
    print(N, t)
print(*communes_[:10], sep="\n")

2 0.0
4 0.0
8 0.0
16 0.0
32 0.0
64 0.0
128 0.0
256 0.000997781753540039
512 0.0019941329956054688
1024 0.0049893856048583984
2048 0.013958930969238281
4096 0.019972562789916992
8192 0.03290843963623047
16384 0.06485176086425781
32768 0.15459609031677246
65536 0.4079406261444092
['64001', 'AAST', '64460', '', 'AAST', '43.2908772184,-0.0817726913902\n']
['55001', 'ABAINVILLE', '55130', '', 'ABAINVILLE', '48.5326982449,5.51524727317\n']
['59001', 'ABANCOURT', '59268', '', 'ABANCOURT', '50.2368696873,3.20731301738\n']
['54001', 'ABAUCOURT', '54610', '', 'ABAUCOURT SUR SEILLE', '48.8928445916,6.26559712571\n']
['55002', 'ABAUCOURT HAUTECOURT', '55400', 'HAUTECOURT LES BROVILLE', 'ABAUCOURT HAUTECOURT', '49.1969606553,5.54868808043\n']
['55002', 'ABAUCOURT HAUTECOURT', '55400', '', 'ABAUCOURT HAUTECOURT', '49.1969606553,5.54868808043\n']
['44001', 'ABBARETZ', '44170', '', 'ABBARETZ', '47.5560384833,-1.49327262094\n']
['60002', 'ABBECOURT', '60430', '', 'ABBECOURT', '49.361199272,2.1550903381

In [36]:
def clef(ligne):
    latitude, longitude = map(float, (ligne[5][:-1].split(',')))
    return latitude, longitude
#communes_ = tri_fusion()
print(clef(communes[500]))

(44.549017078, 4.50337369457)


In [29]:
l=[4,1,2,3]
sorted(l)
l
print(tri_fusion(l,lambda x: x))

[1, 2, 3, 4]
