In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import geopandas as gpd
from shapely.geometry import Point


# Datos geográficos



In [3]:
import urllib
import json
import requests

Los datos georreferenciados representan ubicaciones exactas sobre la superficie terrestre. Sin embargo, es todo un reto representar en forma precisa una posición en la Tierra cuando ésta tiene una forma irregular. Esto se termina relacionando con el problema de cómo mostrar sobre superficies planas rasgos geográficos que pertenecen a una superficie tridimensional esférica. 
Es por ésto que se desarrollan los Sistemas de coordenadas de referencia (CRS -en inglés-), y de proyecciones cartográficas.

* Los CRS son un sistema de números que definen ubicaciones sobre la superficie de la Tierra; funcionan como direcciones. (Ej: el CRS que usa latitud y longitud para definir posiciones en los ejes norte-sur y este-oeste)

* Las proyecciones cartográficas son instrucciones para traducir a un plano la disposición de puntos ubicados en la esfera terrestre. Como en toda traducción, hay algo que se pierde en el proceso. 

Es por éste motivo que existen distintas proyecciones de la Tierra, cada una pensada para minimizar alguno de los tipos de distorsión, o para encontrar una solución de compromiso que los balancée.

La proyección más utilizada en la actualidad es la "Mercator", ésta se diseñó originalmente para asistir la navegación marítima. Su fortaleza es que no distorsiona las direcciones, por lo que permite fijar el rumbo de navegación consultando el mapa. Su principal problema es que produce una distorsión notable en las áreas cercanas a los polos.

### Formatos de archivos

El formato más común es el denominado “shapefile”. Éste formato guarda la información en varios archivos distintos, generalmente combinados en un archivo .zip para su distribución. 
Uno de los inconvenientes que puede tener éste tipo de formato adempas de que ser de archivo múltiple es que los nombres de las variables dentro del shapefile deben tener 10 caracteres o menos, lo que puede causar abreviaturas ininteligibles. 
Es por ello que los archivos en formatos “GeoJSON” vienen a corregir éstos inconvenientes.

In [4]:
# El formato json puede leerse a partir de lo siguientes comandos:
url = "https://infra.datos.gob.ar/catalog/modernizacion/dataset/7/distribution/7.2/download/provincias.json"
response = requests.get(url)
response.raise_for_status()
response.json()
# El problema de éste archivo es que la variable "geometry" está como punto y no polígono por lo que no serviría para representar las provincias con su forma original.


{'provincias': [{'nombre_completo': 'Provincia de Misiones',
   'fuente': 'IGN',
   'iso_id': 'AR-N',
   'nombre': 'Misiones',
   'id': '54',
   'categoria': 'Provincia',
   'iso_nombre': 'Misiones',
   'centroide': {'lat': -26.8753965086829, 'lon': -54.6516966230371}},
  {'nombre_completo': 'Provincia de San Luis',
   'fuente': 'IGN',
   'iso_id': 'AR-D',
   'nombre': 'San Luis',
   'id': '74',
   'categoria': 'Provincia',
   'iso_nombre': 'San Luis',
   'centroide': {'lat': -33.7577257449137, 'lon': -66.0281298195836}},
  {'nombre_completo': 'Provincia de San Juan',
   'fuente': 'IGN',
   'iso_id': 'AR-J',
   'nombre': 'San Juan',
   'id': '70',
   'categoria': 'Provincia',
   'iso_nombre': 'San Juan',
   'centroide': {'lat': -30.8653679979618, 'lon': -68.8894908486844}},
  {'nombre_completo': 'Provincia de Entre Ríos',
   'fuente': 'IGN',
   'iso_id': 'AR-E',
   'nombre': 'Entre Ríos',
   'id': '30',
   'categoria': 'Provincia',
   'iso_nombre': 'Entre Ríos',
   'centroide': {'lat':

In [5]:
#Desde la librerría de geopandas es posible contar con la representación de todos los paises del mundo a partir de la variable "world" a partir del comando:
world = geopandas.read_file(geopandas.datasets.get_path('naturalearth_lowres'))
world['gdp_per_cap'] = world.gdp_md_est / world.pop_est

# Para la escala de colores que queremos utilizar consultamos los colores en: "https://matplotlib.org/3.1.1/tutorials/colors/colormaps.html"
world.plot(column='gdp_per_cap', cmap=plt.cm.twilight, legend=True)

NameError: name 'geopandas' is not defined

In [6]:
#la capa de provincias en formato geojson con el campo geometry definido en polígonos están el siguiente link="http://www.ign.gob.ar/NuestrasActividades/InformacionGeoespacial/CapasSIG"
provincias = gpd.read_file('./provincia.json')
ejes= world[~(world["name"]=="Argentina")].plot(color="c")

#los colores para utilizar están en el siguiente link="https://matplotlib.org/examples/color/named_colors.html"
provincias.plot(ax=ejes, color="lightgray", figsize=(10,20))
plt.xlim(-75, -50)
plt.ylim(-60, -20);

NameError: name 'world' is not defined

In [None]:
rem_trim_prov= pd.read_csv("./remun_prov_pesos_trim.csv")
rem_trim_ult_trim= rem_trim_prov[rem_trim_prov["indice_tiempo"]=="2015-04-01"].T
rem_trim_ult_trim.index.names=["provincias"]
rem_trim_ult_trim=rem_trim_ult_trim.rename(columns= {37:"remuneracion_trim"})
rem_trim_ult_trim= rem_trim_ult_trim.drop(["indice_tiempo"], axis=0)
rem_trim_ult_trim= rem_trim_ult_trim.drop(["total_sector_privado"], axis=0)
pd.merge(rem_trim_ult_trim,provincias, left_on="provincias", right_on="nam")

In [None]:
provincias["nam"]= provincias["nam"].str.lower()
provincias[provincias.nam=="la rioja"]

In [None]:
#Para crear las coordenadas de algún dataset que contenga direcciones que permitan georeferenciarse
world = geopandas.read_file(geopandas.datasets.get_path('naturalearth_lowres'))
provincias = gpd.read_file('./provincia.json')

dataset = pd.read_csv("https://apis.datos.gob.ar/georef/api/provincias?formato=csv")
dataset["coordenadas"]=list(zip(dataset.provincia_centroide_lat, dataset.provincia_centroide_lon))
dataset['coordenadas'] = dataset['coordenadas'].apply(Point)
prov_punto = gpd.GeoDataFrame(dataset, geometry='coordenadas')

ejes= world[~(world["name"]=="Argentina")].plot(color="c")
provincias.plot(ax=ejes, color="lightgray", figsize=(10,20))
prov_punto.plot(ax=ejes, color="r", markersize=4)
plt.xlim(-75, -50)
plt.ylim(-60, -20);

# Normalización direcciones

In [None]:
import requests as rqs

In [None]:
direccion = 'Honduras 3755, CABA'
provincia = 'caba'
url_base ='https://apis.datos.gob.ar/georef/api/direcciones?direccion={}&provincia={}'
url_base.format(direccion, provincia)

In [None]:
r = rqs.get(url_base.format(direccion, provincia))
r.json()

In [None]:
r.json()["parametros"]

In [None]:
data = r.json()
data['direcciones'][0]

In [None]:
data['direcciones'][0]['ubicacion']

In [None]:
direccion = ['Belgrano 637',
'Balcarce 50',
'Av San Martin 935']

df = pd.DataFrame(data=direccion,columns=['direccion'])
df

In [None]:
def interpretar_direccion(direccion):
    url_base ='https://apis.datos.gob.ar/georef/api/direcciones?direccion={}'
    r = requests.get(url_base.format(direccion))
    data = r.json()
    ubicacion = data['direcciones'][0]['ubicacion']
    return Point((ubicacion['lat'], ubicacion['lon']))

In [None]:
url_base ='https://apis.datos.gob.ar/georef/api/direcciones?direccion={}'
r = requests.get(url_base.format(direccion[0]))
r.json()["direcciones"][0]

In [None]:
df['geometry'] = df.direccion.apply(interpretar_direccion)
df

In [None]:
interpretar_direccion('Diagonal Norte 511')

In [None]:
df