[![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/pabanib/Cursos/blob/master/Espacial/localizacion.ipynb)

 # **<font color="lightblue">Transformar direcciones postales a coordenadas</font>**

 ## **<font color="lightblue">Geolocalización</font>**

<p align="justify">
La geolocalización es una tecnología fundamental en la era digital que nos permite determinar la ubicación geográfica precisa de objetos, personas o lugares en la Tierra. Desde aplicaciones de navegación hasta redes sociales y análisis de datos, la geolocalización desempeña un papel fundamental en una amplia variedad de campos. En este colab, exploraremos cómo utilizar las herramientas <code>Geopy</code> y <code>Nominatim</code> para llevar a cabo tareas de geolocalización de manera efectiva.

 ## **<font color="lightblue">Geopy: Geolocalización Simplificada</font>**

<p align="justify">
<code>Geopy</code> es una biblioteca de Python que ofrece una interfaz sencilla para acceder a varios servicios de geolocalización. Con <code>Geopy</code>, podemos realizar una variedad de tareas relacionadas con la geolocalización, como obtener coordenadas geográficas a partir de direcciones y viceversa, calcular distancias entre ubicaciones y buscar lugares cercanos a una posición dada.

 ## **<font color="lightblue">Nominatim: Motor de Búsqueda Geográfica</font>**

<p align="justify">
<code>Nominatim</code> es un servicio de búsqueda geográfica desarrollado por OpenStreetMap, la cual es una iniciativa de mapeo colaborativo a nivel mundial.
<br><br>
<code>Nominatim</code> (<a href='https://nominatim.org/'>https://nominatim.org/</a>) permite realizar búsquedas geográficas utilizando direcciones o descripciones de lugares, y devuelve información detallada sobre la ubicación, como las coordenadas geográficas, el tipo de lugar y otros datos relevantes.

 ## **<font color="lightblue">Instalación y carga de bibliotecas</font>**

In [1]:
from geopy.geocoders import Nominatim
import pandas as pd
import os
import numpy as np
import geopandas as gpd
import plotly.express as px

ModuleNotFoundError: No module named 'geopy'

 ## **<font color="lightblue">Carga del conjunto de datos</font>**

 Para mostrar como conseguir las coordenadas geográficas vamos trabajar con un conjunto de datos de alumnos de la Facultad de Ciencias Económicas.

In [None]:
url = "https://raw.githubusercontent.com/gustavomachin/RendimientoAcademico/main/AlumnosFCEDatosPersonales.csv"

In [None]:
data=pd.read_csv(url, sep=";", encoding='latin1')

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3775 entries, 0 to 3774
Data columns (total 28 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   ID                             3775 non-null   int64  
 1   estado_civil                   3771 non-null   float64
 2   unido_hecho                    3773 non-null   object 
 3   situacion_padre                3745 non-null   object 
 4   situacion_madre                3747 non-null   object 
 5   cantidad_hijos                 3735 non-null   float64
 6   cantidad_familia               3688 non-null   float64
 7   turno_preferido                3565 non-null   float64
 8   cobertura_salud                3615 non-null   float64
 9   tipo_vivienda                  3003 non-null   float64
 10  vive_con                       3649 non-null   float64
 11  periodo_lectivo_calle          3768 non-null   object 
 12  periodo_lectivo_numero         3763 non-null   o

<p align='justify'>
Preparamos los datos y eliminamos columnas que no vamos a utilizar, nos enfocaremos solo en obtener las coordenadas a partir de las direcciones.

In [None]:
data = data.iloc[:,11:19]
data

Unnamed: 0,periodo_lectivo_calle,periodo_lectivo_numero,periodo_lectivo_piso,periodo_lectivo_departamento,periodo_lectivo_unidad,periodo_lectivo_localidad,periodo_lectivo_barrio,periodo_lectivo_codigo_postal
0,Arenales,1180,,,,13217.0,Fuchs,5501.0
1,Lisandro Moyano,1077,8,,,13208.0,Ciudad Capital,5500.0
2,Barrio Dalvian,1345,,,,50352.0,,5519.0
3,El Portillo,473,,,,13488.0,Jardin,5570.0
4,Alfredo Bufano,376,,,,13208.0,Dalvian,5500.0
...,...,...,...,...,...,...,...,...
3770,Prolongación Corrientes,52,,,,13208.0,,5500.0
3771,,54,1,5,1,13616.0,,5600.0
3772,,S/n,,,,13217.0,,5501.0
3773,Doctor Lemos,890,,,,13272.0,Covipa,5519.0


In [None]:
data.drop(columns=["periodo_lectivo_piso", "periodo_lectivo_departamento", "periodo_lectivo_unidad", "periodo_lectivo_barrio", "periodo_lectivo_localidad"], inplace=True)

In [None]:
data.head()

Unnamed: 0,periodo_lectivo_calle,periodo_lectivo_numero,periodo_lectivo_codigo_postal
0,Arenales,1180,5501.0
1,Lisandro Moyano,1077,5500.0
2,Barrio Dalvian,1345,5519.0
3,El Portillo,473,5570.0
4,Alfredo Bufano,376,5500.0


In [None]:
data = data.dropna()

In [None]:
data

Unnamed: 0,periodo_lectivo_calle,periodo_lectivo_numero,periodo_lectivo_codigo_postal
0,Arenales,1180,5501.0
1,Lisandro Moyano,1077,5500.0
2,Barrio Dalvian,1345,5519.0
3,El Portillo,473,5570.0
4,Alfredo Bufano,376,5500.0
...,...,...,...
3768,San Juan Bosco,147,5500.0
3769,San Juan Bosco,589,5525.0
3770,Prolongación Corrientes,52,5500.0
3773,Doctor Lemos,890,5519.0


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3746 entries, 0 to 3774
Data columns (total 3 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   periodo_lectivo_calle          3746 non-null   object 
 1   periodo_lectivo_numero         3746 non-null   object 
 2   periodo_lectivo_codigo_postal  3746 non-null   float64
dtypes: float64(1), object(2)
memory usage: 117.1+ KB


In [None]:
data = data.rename(columns={"periodo_lectivo_calle":"calle",
                            "periodo_lectivo_numero":"numero",
                            "periodo_lectivo_codigo_postal":"cp"})

In [None]:
data.head()

Unnamed: 0,calle,numero,cp
0,Arenales,1180,5501.0
1,Lisandro Moyano,1077,5500.0
2,Barrio Dalvian,1345,5519.0
3,El Portillo,473,5570.0
4,Alfredo Bufano,376,5500.0


Eliminamos todas aquellas direcciones que nos vengan sin número para no tener problemas en la búsqueda de la coordenada.

In [None]:
data.drop(data[data.numero == "S/n"].index, axis=0, inplace=True)

<p align='justify'>
Los códigos postales son importantes para la búsqueda de la coordenada ya que ayuda a ubicar la provincia, el país, etc. También se puede pasar la ciudad, provincia y país. El formato que debe llevar este tiene que ser en formato entero, para que <code>Nominatim</code> lo pueda interpretar.

In [None]:
data.cp = data.cp.astype("int")

In [None]:
data.head()

Unnamed: 0,calle,numero,cp
0,Arenales,1180,5501
1,Lisandro Moyano,1077,5500
2,Barrio Dalvian,1345,5519
3,El Portillo,473,5570
4,Alfredo Bufano,376,5500


 ## **<font color="lightblue">Localización con nominatim</font>**

<p align='justify'>
Cada servicio de geolocalización como Google Maps, Bing Maps, Yahoo, MapQuest o Nominatim tiene su propia clase en <code>geopy.geocoders</code> para utilizar el servicio API.
<br><br>
Creamos un objeto llamado geolocalizador a partir de la clase <code>Nominatim()</code>.

In [None]:
geolocalizador = Nominatim(user_agent = "http")

In [None]:
punto[0]

NameError: ignored

Ya con este geolocalizador podemos ubicar la dirección que deseemos. Por ejemplo, vamos a localizar la Plaza Independencia de Mendoza.

In [None]:
geolocalizador.geocode(["Patricias Mendocinas",1157, 5500,"Mendoza"])

Location(Patricias Mendocinas, Ciudad de Mendoza, Sección 2ª Barrio Cívico, Departamento Capital, Mendoza, M5500EAV, Argentina, (-32.8878174, -68.8426548, 0.0))

In [None]:
geolocalizador.geocode(["Patricias Mendocinas",1157, "Departamento Capital","Mendoza", "Argentina"])

Location(Patricias Mendocinas, Ciudad de Mendoza, Sección 2ª Barrio Cívico, Departamento Capital, Mendoza, M5500EAV, Argentina, (-32.8878174, -68.8426548, 0.0))

<p align='justify'>
Ahora vamos a generar la localización de cada uno de los datos de nuestro dataframe.
<br><br>
Creamos un nueva lista donde se guardarán las localizaciones y una lista de errores porque puede pasar que no se encuentre la dirección. Luego iteramos por cada una de las filas del dataframe para pasar las direcciones.

In [None]:
localizaciones = []
errores = []
# Itreamos por cada una de las filas
for i in range(len(data.iloc[:50])):
    # Armamos la lista con los valores que representan la dirección
    val = data.iloc[i].values
    direccion = geolocalizador.geocode(val, timeout=15)

    # Intentamos trar la dirección en  caso que falle pasamos valores nulos y agregamos la fila a errores
    try:
      localizaciones.append((direccion.latitude, direccion.longitude))
    except AttributeError:
      localizaciones.append((None,None))
      errores.append(val)

In [None]:
localizaciones

[(-32.9657601, -68.827711),
 (-32.8622709, -68.8217583),
 (-32.8675765, -68.888668),
 (None, None),
 (-32.9610054, -68.7872968),
 (-32.9390449, -68.80801),
 (-31.4987885, -68.5390528),
 (None, None),
 (None, None),
 (None, None),
 (None, None),
 (None, None),
 (None, None),
 (-32.924487, -68.8210383),
 (None, None),
 (-32.9663876, -68.7885983),
 (-32.8473592, -68.8149837),
 (-32.920791618367346, -68.85524507346939),
 (-32.9245226, -68.8158237),
 (-32.9842082, -68.7936393),
 (None, None),
 (-32.8374758, -68.7710202),
 (-32.9511332, -68.8599457),
 (None, None),
 (None, None),
 (-32.892613, -68.8603647),
 (-33.0349314, -68.8909197),
 (-34.623512522448976, -68.34162770612245),
 (None, None),
 (-32.9086247, -68.8293469),
 (-32.9631961, -68.8641836),
 (None, None),
 (-32.90771064545454, -68.84995176060606),
 (None, None),
 (-32.9881374, -68.82978655691126),
 (-32.9099276, -68.8274926),
 (-32.894701433557046, -68.84992749060403),
 (None, None),
 (-32.927975841666665, -68.83470407916667),
 (No

In [None]:
errores

[array(['El Portillo', '473', 5570], dtype=object),
 array(['Barrio Cooperativa Jocoli M D C 13', '290', 5600], dtype=object),
 array(['Cayetano Silva', '4616', 5533], dtype=object),
 array(['Dr. Schestakow', '5', 5529], dtype=object),
 array(['Monseñor Manuel Álvarez', '142', 5500], dtype=object),
 array(['B° S.p.u.n.c Manz "b"', '3141', 5500], dtype=object),
 array(['Helen Keller', '4041', 5521], dtype=object),
 array(['Río Tunuyán', '28B', 5570], dtype=object),
 array(['Los Paraisos Bº 22 De Octubre Manzana E', 'Mh C8', 5515],
       dtype=object),
 array(['Arturo Gonzalez', '3191', 5500], dtype=object),
 array(['San Lorenzo', 'Mdc2', 5533], dtype=object),
 array(['Club De Campo Mendoza, Manzana J, Casa 7', '6507', 5521],
       dtype=object),
 array(['Callejon Fernandez', '360', 5515], dtype=object),
 array(['Los Paraisos', '55', 5600], dtype=object),
 array(['Bruno Moron', '29', 5533], dtype=object),
 array(['Cerro Angostura', '5383', 5517], dtype=object),
 array(['Granaderos', '1

In [None]:
data2 = data.iloc[:50]

In [None]:
data2['latitud'] = np.array(localizaciones)[:,0]
data2['longitud'] = np.array(localizaciones)[:,1]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data2['latitud'] = np.array(localizaciones)[:,0]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data2['longitud'] = np.array(localizaciones)[:,1]


In [None]:
data_geo = gpd.GeoDataFrame(data2, geometry = gpd.points_from_xy(data2.latitud, data2.longitud))

In [None]:
data_geo.head()

Unnamed: 0,calle,numero,cp,latitud,longitud,geometry
0,Arenales,1180,5501,-32.96576,-68.827711,POINT (-32.96576 -68.82771)
1,Lisandro Moyano,1077,5500,-32.862271,-68.821758,POINT (-32.86227 -68.82176)
2,Barrio Dalvian,1345,5519,-32.867576,-68.888668,POINT (-32.86758 -68.88867)
3,El Portillo,473,5570,,,POINT EMPTY
4,Alfredo Bufano,376,5500,-32.961005,-68.787297,POINT (-32.96101 -68.78730)


In [None]:
data_geo2 = data_geo.dropna()

In [None]:
data_geo2.head()

Unnamed: 0,calle,numero,cp,latitud,longitud,geometry
0,Arenales,1180,5501,-32.96576,-68.827711,POINT (-32.96576 -68.82771)
1,Lisandro Moyano,1077,5500,-32.862271,-68.821758,POINT (-32.86227 -68.82176)
2,Barrio Dalvian,1345,5519,-32.867576,-68.888668,POINT (-32.86758 -68.88867)
4,Alfredo Bufano,376,5500,-32.961005,-68.787297,POINT (-32.96101 -68.78730)
7,Riveros,2350,5500,-32.939045,-68.80801,POINT (-32.93904 -68.80801)


Mapeamos los puntos con <code>plotly</code>, ya que tiene sus propias visualizaciones que mapean.

In [None]:
fig = px.scatter_mapbox(data_geo2,
                        lat="latitud",
                        lon="longitud",
                        hover_data=["calle", "numero", "cp"],
                        center={"lat":-32.882699833649745, "lon":-68.87827123082963}, #UNCuyo
                        zoom=9
                        )
fig.update_layout(mapbox_style="open-street-map")
fig.show()

 # **<font color="lightblue">Conclusiones</font>**

<p align="justify">
En este notebook nosotros:<br><br>
✅ Aprendimos que funciones tiene <code>geopy</code>.<br>
✅ Utilizamos <code>nominatim</code> y <code>geopy</code> para obtener coordenadas.<br>
✅ Mapeamos los puntos encontrados con <code>plotly<code>.<br>

<p align="justify">

