# Normalizzare le coordinate GPS

<br>

![latlon](https://upload.wikimedia.org/wikipedia/commons/thumb/6/62/Latitude_and_Longitude_of_the_Earth.svg/2560px-Latitude_and_Longitude_of_the_Earth.svg.png)

<br>

Le coordinate GPS sono composte da due variabili, latitudine e longitudine, che rappresentano uno spazio tridimensionale.

Il problema dei valori di longitudine e latitudine è che non si possono semplicemente dedurre le distanze da essi.

* Lavorando su una sfera se pensiamo alla longitudine i punti molto distanti tra loro sono in realtà molto vicini. 
* Un $Δ(lon,lat)$ porterebbe a distanze diverse a seconda che ci si trovi all'equatore o ai poli.

> Questa situazione può portare ad un riverbero dell'errore in particolare nei casi in cui si cerca di normalizzare/standardizzare le coordinate GPS.

## Dataset di esempio

Prendiamo due città sul meridiano di Greenwich, Dunkirk in Francia e Plymouth nel Regno Unito; e due sull'equatore Libreville in Gabon e Luanda in Angola.

In [None]:
import pandas as pd
import numpy as np

In [None]:
x = {"city":["Dunkirk", "Plymouth", "Libreville", "Luanda"], "lat":[51.04224, 50.38342, 0.41121, -8.8535258], "lon": [2.37634, -4.1826092, 9.3645, 13.2140644]}

In [None]:
df = pd.DataFrame(x)

In [None]:
df

## Analisi grafica

In [None]:
import matplotlib.pyplot as plt

In [None]:
lat, lon = df['lat'], df['lon']
fig, ax = plt.subplots()
ax.scatter(lat, lon)

for i, txt in enumerate(df['city']):
    ax.annotate(txt, (lat[i], lon[i]))
plt.show()

Se disegnamo lo scatterplot di questi 4 punti sembra che le coppie di città siano equidistanti ma approssimativamente tra Dunkirk e Plymouth ci sono circa 550 KM mentre le due città africane sono divise dal triplo dei KM.

Vediamo cosa succede se scaliamo le coordinate tra 0 e 1.

In [None]:
def minmax(x):
    return (x-np.min(x))/(np.max(x)-np.min(x))

In [None]:
new_lat = minmax(df.lat)
new_lon = minmax(df.lon)

In [None]:
fig, ax = plt.subplots()
ax.scatter(new_lat, new_lon)

for i, txt in enumerate(df['city']):
    ax.annotate(txt, (new_lat[i], new_lon[i]))
plt.show()

A colpo d'occhio la situazione resta immutata.

## Possibile soluzione

**Come fare per riportare le distanze *"sulla carta"* a quelle reali?**

Possiamo applicare una semplice trasformazione per riportare il tutto allo spazio 3D.

$x = cos(lat) * cos(lon)$

$y = cos(lat) * sin(lon)$

$z = sin(lat)$

> N.B. se non strettamente necessaria possiamo non usare la z

In [None]:
x = np.cos(df.lat) * np.cos(df.lon)
y = np.cos(df.lat) * np.sin(df.lon)

In [None]:
fig, ax = plt.subplots()
ax.scatter(x, y)

for i, txt in enumerate(df['city']):
    ax.annotate(txt, (x[i], y[i]))
plt.show()

Ora le variabili possono essere normalizzate/standardizzate correttamente.

In [None]:
new_x = minmax(x)
new_y = minmax(y)

In [None]:
fig, ax = plt.subplots()
ax.scatter(new_x, new_y)

for i, txt in enumerate(df['city']):
    ax.annotate(txt, (new_x[i], new_y[i]))
plt.show()

## Conclusione

Le distanze tra le coppie sembrano essere tornate *alla realtà*, chiaramente la  distanza tra Dunkirk e Luanda è un pò falsata probabilmente dal fatto che abbiamo solo 4 punti e nella normalizzazione questo ha influito.

> Una spiegazione in inglese potete trovarla [qui](https://datascience.stackexchange.com/questions/13567/ways-to-deal-with-longitude-latitude-feature/13575#13575)

> For an explaination in english check [here](https://datascience.stackexchange.com/questions/13567/ways-to-deal-with-longitude-latitude-feature/13575#13575)