# Calcul de la distance au point de branchement
Il peut être intéressant de connaitre la distance entre la maison du client et celle du point branchement auquel il doit être rattaché car un certain nombre d'échec de production et de rendez-vous inutiles vienne d'une distance trop importante entre les 2 : le technicien vient sans le matériel adapté ou ne trouve pas le Point de Branchement.

Ce notebook permet de traiter les adresses présentes dans le fichier Excel ETI31 et de calculer leurs coordonnées GPS.

Il faudra également ajouter les adresses des Points de Branchement associés à chacune des adresses pour pouvoir calculer la distance et pour l'intégrer aux notebooks de prévisions d'échecs.

Les étapes de ce notebook :
- Importation des bibliothèques
- Proxy
- Fonction pour la conversion Adresse /GPS et calcul de la distance
- Importation ETI31 et préparation des données
- Coordonnées GPS pour les adresses clients
- Réparation

### Importation des bibliothèques

In [1]:
from geopy.geocoders import Nominatim
from geopy import distance
import requests
import http.client, urllib.parse
import random
import time
import socket
socket.getaddrinfo('localhost', 8888)
import json
import numpy as np
import math
import re
import urllib3
import os
import pickle
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

### Proxy

In [2]:
os.environ['HTTP_PROXY'] = f'http://{"localhost"}:{"8888"}'
os.environ['HTTPS_PROXY'] = f'http://{"localhost"}:{"8888"}'

### Fonctions pour la conversion Adresse / GPS et calcul de la distance

In [3]:
#Fonction qui prend en entrée une adresse et renvoie la latitude et la longitude associée
def adress_latitude_longitude(adresse):
    api_key = "192349ff78a82f7905ff72c0850de2cd"
    country = "FR"
    url = f"http://api.positionstack.com/v1/forward?access_key={api_key}&query={adresse}&country={country}"
    response = requests.get(url)
    data = response.json()
    
    if data["data"]:
        # Extraire les informations de géocodage
        try :
            latitude = data["data"][0]["latitude"]
            longitude = data["data"][0]["longitude"]
        except:
            print("erreur (data liste) pour :" + adresse)
            latitude = None
            longitude = None
        return latitude,longitude
    else:
        print("erreur (adresse non trouvée) pour :" + adresse)
        return None,None

In [4]:
#Test
adress_latitude_longitude("106 Boulevard Georges Clemenceau 35200 Rennes")

(48.093828, -1.676935)

In [None]:
#Fonction qui calcule la distance entre deux points A et B à partir de leur latitude et longitude
def distance_lat_long(A_lat,A_long,B_lat,B_long):
    A =(A_lat, A_long)
    B =(B_lat , B_long)
    distance = round(GD(A,B).m,2)
    print("La distance est de : " + str(distance) + " mètres.")
    return distance

In [None]:
#Fonction qui calcule la distance à partir de 2 adresses
def distance_2_adresses(adresseA,adresseB):
    A_lat,A_long = adresse_latitude_longitude(adresseA)
    B_lat,B_long = adresse_latitude_longitude(adresseB)
    if A_lat != null and A_long != null and B_lat != null and B_long != null :
        return distance_lat_long(A_lat,A_long,B_lat,B_long)
    else :
        print ("Erreur")
        return 

### Importation des adresses de ETI31 et préparation des données

In [7]:
#Importation avec Pandas
path_eti31 = "csv/ETI31_adresse_client.csv"
df = pd.read_csv(path_eti31,low_memory=False).drop(columns=["CODE INTERVENTION","CODE VOIE"])

In [8]:
df

Unnamed: 0,No DESIGNATION,CODE RELEVE,DI_ADR_NUMV,DI_ADR_LIBVOIE,DI_ADR_LIBCOMM
0,299568158,RRC,4,LA BRETECHE,MEILLAC
1,297892193,DMS,28,RUE DE KERULVE,LORIENT
2,297897767,DMS,44,RTE PINS,BELZ
3,223370510,DMS,4,RUE DE L OISEAU MARTIN,CHATEAUGIRON
4,299556603,DMS,23,RUE ROBERT DOISNEAU,ACIGNE
...,...,...,...,...,...
5028,296611510,DMS,62,BD WALDECK ROUSSEAU,SAINT BRIEUC
5029,223273821,,,,
5030,223309738,DMS,11,SQ DE TERRE NEUVE,RENNES
5031,298170718,DMS,,MOULIN NEUF,MOTREFF


In [9]:
#Labélisation
label_echec = ["ANC","ANN","ETU","MAJ","ORT","PAD","PBC","REO","RMC","RMF","RRC"]
def colonne_label():
    colonne = []
    for i in df["CODE RELEVE"]:
        if i in label_echec:
            colonne.append(False)
        else :
            colonne.append(True)
    return colonne
df["Reussite"]=colonne_label() 
df = df.drop(columns="CODE RELEVE")

In [10]:
#Nettoyafe des lignes où il manque des données
df = df.dropna(subset=['No DESIGNATION', "DI_ADR_NUMV","DI_ADR_LIBVOIE","DI_ADR_LIBCOMM","Reussite"]).reset_index(drop=True)

In [11]:
#Fonction pour réunir les informations de chaque colonne en une seule colonne adresse
def colonne_adresse():
    new_col = []
    for i in range(0,len(df)):
        new_col.append(str(df.loc[i,"DI_ADR_NUMV"]) + " " + str(df.loc[i,"DI_ADR_LIBVOIE"]) + " " + str(df.loc[i,"DI_ADR_LIBCOMM"]))
    return new_col
df["ADRESSE"]=colonne_adresse()

#On supprimer les colonnes qui sont maintenant inutiles
df = df.drop(columns=["DI_ADR_NUMV","DI_ADR_LIBVOIE","DI_ADR_LIBCOMM"])

In [12]:
#Le dataframe a la fin de la préparation
df

Unnamed: 0,No DESIGNATION,Reussite,ADRESSE
0,299568158,False,4 LA BRETECHE MEILLAC
1,297892193,True,28 RUE DE KERULVE LORIENT
2,297897767,True,44 RTE PINS BELZ
3,223370510,True,4 RUE DE L OISEAU MARTIN CHATEAUGIRON
4,299556603,True,23 RUE ROBERT DOISNEAU ACIGNE
...,...,...,...
4030,297702145,True,10 LA TOUCHE MORGAN SERENT
4031,299001524,True,3 RUE PERCEVAL CHATEAUGIRON
4032,296611510,True,62 BD WALDECK ROUSSEAU SAINT BRIEUC
4033,223309738,True,11 SQ DE TERRE NEUVE RENNES


### Coordonnées GPS pour les adresses clients

In [13]:
def listeAdresses_listesGPS(listeAdresses):
    liste_latitude = []
    liste_longitude = []
    longueur = len(listeAdresses)
    i = 0
    for adresse in listeAdresses:
        if i%50 == 0: 
            print(str(i) + " sur " + str(longueur))
        i = i+1
        lat_adresse,long_adresse = adress_latitude_longitude(adresse)
        liste_latitude.append(lat_adresse)
        liste_longitude.append(long_adresse)
    return liste_latitude,liste_longitude

On va séparer le dataframe en 40 parties pour éviter de perdre des données inutilement et du temps aussi. Histoire que s'il y a une erreur à la ligne 4000 on perde pas tous les calculs qui ont été fait avant. On aura juste à reconcaténer les dataframe derrière.


In [14]:
len(df)

4035

In [15]:
def creerdf(df,nbr_lignes):
    borne_inf = 0
    borne_sup = nbr_lignes-1
    limite = len(df)
    dfs = []
    ajout = True
    while ajout :
        dfs.append(df.loc[borne_inf:borne_sup])
        
        #Si la dernière ligne ajoutée est la dernière ligne du dataframe
        if borne_sup == limite-1:
            ajout = False
        
        #Si il y a nbr_lignes lignes ou moins à ajouter
        elif borne_sup + nbr_lignes > limite :
            borne_sup = borne_sup+1
            dfs.append(df.loc[borne_sup:limite])
            ajout = False
        
        #Sinon
        else :
            borne_inf=borne_sup+1
            borne_sup = borne_sup + nbr_lignes
    
    return dfs

In [16]:
dfs = creerdf(df,200)

In [17]:
len(dfs)

21

In [18]:
def pickeling_results(liste_df):
    for i in range(17,len(liste_df)):
        print("On fait le " + str(i) + "ème sur " + str(len(liste_df)))
        df_i = liste_df[i]
        df_i["Latitude"],df_i["Longitude"] = listeAdresses_listesGPS(df_i["ADRESSE"])
        name = "pickle/gps/df"+str(i+1) +"_lat_long.pkl"
        df_i.to_pickle(name)        

In [28]:
#pickeling_results(dfs)

### Réparation
Plusieurs lignes ont eu des erreurs lors de la recherche des coordonnées GPS.
On va refaire passer l'algorithme sur les adresses qui ont eu un bug (erreur data liste) et faire la recherche manuellement pour les autres.

In [29]:
def recup_pickle(list_df):
    new_df = pd.DataFrame({'No DESIGNATION': [], 'Reussite': [],"ADRESSE":[],"Latitude":[],"Longitude":[]})
    for i in range(0,len(list_df)) :
        name = "pickle/gps/df"+str(i+1) +"_lat_long.pkl"
        df_i = pd.read_pickle(name)
        new_df = pd.concat([new_df, df_i], ignore_index = True)
    return new_df

In [30]:
df2 = recup_pickle(dfs)
df2

Unnamed: 0,No DESIGNATION,Reussite,ADRESSE,Latitude,Longitude
0,299568158.0,0.0,4 LA BRETECHE MEILLAC,48.411014,-1.813760
1,297892193.0,1.0,28 RUE DE KERULVE LORIENT,47.764217,-3.390459
2,297897767.0,1.0,44 RTE PINS BELZ,47.669344,-3.143888
3,223370510.0,1.0,4 RUE DE L OISEAU MARTIN CHATEAUGIRON,48.048201,-1.506094
4,299556603.0,1.0,23 RUE ROBERT DOISNEAU ACIGNE,48.140801,-1.521849
...,...,...,...,...,...
4030,297702145.0,True,10 LA TOUCHE MORGAN SERENT,47.821428,-2.508299
4031,299001524.0,True,3 RUE PERCEVAL CHATEAUGIRON,48.041649,-1.487380
4032,296611510.0,True,62 BD WALDECK ROUSSEAU SAINT BRIEUC,48.507698,-2.759642
4033,223309738.0,True,11 SQ DE TERRE NEUVE RENNES,48.085388,-1.683169


In [31]:
df2.loc[1194,"Latitude"] #Exemple de ligne qui n'a pas marché.

nan

In [32]:
df2.loc[913,"ADRESSE"]

'3 RUE DE LA MASSE CAMOEL'

In [33]:
def ou_sont_les_erreurs(dataframe):
    liste_erreurs = []
    for i in range(0,len(dataframe)):
        if pd.isna(dataframe.loc[i,"Latitude"]) or pd.isna(dataframe.loc[i,"Longitude"]) :
            liste_erreurs.append(i)
    return liste_erreurs


In [34]:
len(ou_sont_les_erreurs(df2))

73

In [35]:
def reparation(dataframe,id_erreurs):
    for id_erreur in id_erreurs:
        dataframe.loc[id_erreur,"Latitude"],dataframe.loc[id_erreur,"Longitude"] = adress_latitude_longitude(dataframe.loc[id_erreur,"ADRESSE"])
    return dataframe
        

In [36]:
#df2_repare = reparation(df2,ou_sont_les_erreurs(df2))
#df2_repare

In [38]:
#len(ou_sont_les_erreurs(df2_repare)),ou_sont_les_erreurs(df2_repare)

In [39]:
#df2_repare.to_csv("csv/latlong_repare.csv")


J'ai fait le choix de transformer le dataframe en CSV et de traiter les 23 adresses qui ne peuvent pas être traitée par le dans un fichier Excel plutôt que sur jupyter et pandas pour plus de praticité.

In [79]:
df3 = pd.read_csv("csv/latitude_longitude_repare.csv")
df3 = df3.drop(columns="Unnamed: 0")
df3["Reussite"] = df3["Reussite"].replace({"0":False,"1":True})
df3["Reussite"] = df3["Reussite"].astype(bool)
df3

Unnamed: 0,No DESIGNATION,Reussite,ADRESSE,Latitude,Longitude
0,299568158,False,4 LA BRETECHE MEILLAC,48.411014,-1.813760
1,297892193,True,28 RUE DE KERULVE LORIENT,47.764217,-3.390459
2,297897767,True,44 RTE PINS BELZ,47.669344,-3.143888
3,223370510,True,4 RUE DE L OISEAU MARTIN CHATEAUGIRON,48.048201,-1.506094
4,299556603,True,23 RUE ROBERT DOISNEAU ACIGNE,48.140801,-1.521849
...,...,...,...,...,...
4030,297702145,True,10 LA TOUCHE MORGAN SERENT,47.821428,-2.508299
4031,299001524,True,3 RUE PERCEVAL CHATEAUGIRON,48.041649,-1.487380
4032,296611510,True,62 BD WALDECK ROUSSEAU SAINT BRIEUC,48.507698,-2.759642
4033,223309738,True,11 SQ DE TERRE NEUVE RENNES,48.085388,-1.683169


In [82]:
df3.loc[2672,"No DESIGNATION":"Longitude"], df3.loc[2672,"Longitude"]>-0.5

(No DESIGNATION                   298194038
 Reussite                              True
 ADRESSE           8 MESCOUES SAINT SAUVEUR
 Latitude                         47.786523
 Longitude                         6.363622
 Name: 2672, dtype: object,
 True)

In [83]:
def adresses_France(dataframe):
    for i in range(0,len(dataframe)):
        lat_i = dataframe.loc[i,"Latitude"]
        long_i = dataframe.loc[i,"Longitude"]
        if ((lat_i<47.2) or (lat_i>49.1) or (long_i>-0.5)):
            print(i)
            dataframe.loc[i,"ADRESSE"] += " BRETAGNE France"
            lat,long=adress_latitude_longitude(dataframe.loc[i,"ADRESSE"])
            if(lat_i == lat and long_i == long):
                print("Pas reussi a modifier :", i)
            else:
                dataframe.loc[i,"Latitude"],dataframe.loc[i,"Longitude"] = lat,long
    return dataframe                                                                                       

In [84]:
df4 = adresses_France(df3)
df4

2145
2298
2489
2491
2575
Pas reussi a modifier : 2575
2672
2750
2849
Pas reussi a modifier : 2849
2920
2941
2948
2961
3029
3087
3207
Pas reussi a modifier : 3207
3386
erreur (data liste) pour :2 ST MEEN BOURSEUL BRETAGNE France
3440
Pas reussi a modifier : 3440
3466
erreur (data liste) pour :33 LA COSSONNIERE SERVON SUR VILAINE BRETAGNE France
3478
3533
3580
erreur (data liste) pour :42 LA GUIHOMMERAIE SAINT HILAIRE DES LANDES BRETAGNE France
3607
3782
3784
3835
3838
3874
3900
3928
3936
3940
4028


Unnamed: 0,No DESIGNATION,Reussite,ADRESSE,Latitude,Longitude
0,299568158,False,4 LA BRETECHE MEILLAC,48.411014,-1.813760
1,297892193,True,28 RUE DE KERULVE LORIENT,47.764217,-3.390459
2,297897767,True,44 RTE PINS BELZ,47.669344,-3.143888
3,223370510,True,4 RUE DE L OISEAU MARTIN CHATEAUGIRON,48.048201,-1.506094
4,299556603,True,23 RUE ROBERT DOISNEAU ACIGNE,48.140801,-1.521849
...,...,...,...,...,...
4030,297702145,True,10 LA TOUCHE MORGAN SERENT,47.821428,-2.508299
4031,299001524,True,3 RUE PERCEVAL CHATEAUGIRON,48.041649,-1.487380
4032,296611510,True,62 BD WALDECK ROUSSEAU SAINT BRIEUC,48.507698,-2.759642
4033,223309738,True,11 SQ DE TERRE NEUVE RENNES,48.085388,-1.683169


On peut supposer que les adresses ont été modifiées correctement que les nouvelles coordonnées GPS sont bien les bonnes. Il reste néanmoins quelques adresses à modifier manuellement : 2575,2849,3207,3386,3440,3466 et 3580.
On va faire une petite fonction pour faire cela.

In [86]:
def affiche_adresse(indices):
    for i in indices :
        print(df3.loc[i,"ADRESSE"])
affiche_adresse([2575,2849,3207,3386,3440,3466,3580])

24 L EORGEAIS GUICHEN BRETAGNE France
60 LA PEVRIE SAINT MELOIR BRETAGNE France
17 L AUBAUDAIS GUICHEN BRETAGNE France
2 ST MEEN BOURSEUL BRETAGNE France
20 L ANERIE BROONS BRETAGNE France
33 LA COSSONNIERE SERVON SUR VILAINE BRETAGNE France
42 LA GUIHOMMERAIE SAINT HILAIRE DES LANDES BRETAGNE France


In [89]:
df3.loc[2575,"Latitude"],df3.loc[2575,"Longitude"]=47.968061,-1.794965
df3.loc[2849,"Latitude"],df3.loc[2849,"Longitude"]=48.45,-2.25
df3.loc[3207,"Latitude"],df3.loc[3207,"Longitude"]=47.968036,-1.768202
df3.loc[3386,"Latitude"],df3.loc[3386,"Longitude"]=48.56111,-4.26556
df3.loc[3440,"Latitude"],df3.loc[3440,"Longitude"]=48.286428,-2.240408
df3.loc[3466,"Latitude"],df3.loc[3466,"Longitude"]=48.122146,-1.459639
df3.loc[3580,"Latitude"],df3.loc[3580,"Longitude"]=48.348450,-1.388758
df3

Unnamed: 0,No DESIGNATION,Reussite,ADRESSE,Latitude,Longitude
0,299568158,False,4 LA BRETECHE MEILLAC,48.411014,-1.813760
1,297892193,True,28 RUE DE KERULVE LORIENT,47.764217,-3.390459
2,297897767,True,44 RTE PINS BELZ,47.669344,-3.143888
3,223370510,True,4 RUE DE L OISEAU MARTIN CHATEAUGIRON,48.048201,-1.506094
4,299556603,True,23 RUE ROBERT DOISNEAU ACIGNE,48.140801,-1.521849
...,...,...,...,...,...
4030,297702145,True,10 LA TOUCHE MORGAN SERENT,47.821428,-2.508299
4031,299001524,True,3 RUE PERCEVAL CHATEAUGIRON,48.041649,-1.487380
4032,296611510,True,62 BD WALDECK ROUSSEAU SAINT BRIEUC,48.507698,-2.759642
4033,223309738,True,11 SQ DE TERRE NEUVE RENNES,48.085388,-1.683169


In [90]:
df4 = df3.drop(columns="ADRESSE",axis=1)
df4

Unnamed: 0,No DESIGNATION,Reussite,Latitude,Longitude
0,299568158,False,48.411014,-1.813760
1,297892193,True,47.764217,-3.390459
2,297897767,True,47.669344,-3.143888
3,223370510,True,48.048201,-1.506094
4,299556603,True,48.140801,-1.521849
...,...,...,...,...
4030,297702145,True,47.821428,-2.508299
4031,299001524,True,48.041649,-1.487380
4032,296611510,True,48.507698,-2.759642
4033,223309738,True,48.085388,-1.683169


In [91]:
df4.to_pickle("pickle/df_latitude_longitude.pkl") 