In [1]:
import geopandas as gpd
import pandas as pd
import sqlalchemy
import requests

In [2]:
# URLs de endpoints de las 3 entidades

url_especies = "https://api.arbolesurbanos.com.ar/json/especies"
url_localidades = "https://api.arbolesurbanos.com.ar/json/localidades"
url_arboles = "https://api.arbolesurbanos.com.ar/json/arboles"

# Traigo la data

req_especies = requests.get(url_especies)
req_localidades = requests.get(url_localidades)
req_arboles = requests.get(url_arboles)

# Convierto a Dict

especies = req_especies.json()["data"]
localidades = req_localidades.json()["data"]
arboles = req_arboles.json()["data"]

# Cargo DataFrames con los dict

especies_df = pd.DataFrame.from_dict(especies)
localidades_df = pd.DataFrame.from_dict(localidades)

In [38]:
# Importo un CSV con datos de polígonos georreferenciados para asignar cada árbol según su coordenada a un polígono que define el sector geográfico al que corresponde
# Uso GeoPandas para usar algunas funciones geográficas (en este caso ver si un punto cae dentro o fuera de un polígono)
# Defino cuál es la geometría y en qué sistema de coordenadas está

sectores_df = pd.read_csv("sectores.csv")
gdf_sectores = gpd.GeoDataFrame(sectores_df)
gdf_sectores["poligono"] = gpd.GeoSeries.from_wkt(gdf_sectores["poligono"])
gdf_sectores["poligono"]  = gdf_sectores["poligono"].set_crs('EPSG:4386')
gdf_sectores = gdf_sectores.set_geometry("poligono")

gdf_sectores





Unnamed: 0,poligono,id,nombre,localidad
0,"MULTIPOLYGON (((-71.34588 -40.15162, -71.34489...",1,San Martín de Los Andes 1,1
1,"MULTIPOLYGON (((-71.36229 -40.16033, -71.36500...",2,San Martín de Los Andes 2,1
2,"MULTIPOLYGON (((-70.95919 -39.18822, -70.86297...",10,Aluminé,5
3,"MULTIPOLYGON (((-71.08944 -39.90938, -71.03574...",11,Junín de Los Andes,4
4,"MULTIPOLYGON (((-71.58732 -41.07830, -71.58174...",12,San Carlos de Bariloche,2
5,"MULTIPOLYGON (((-71.55233 -41.88825, -71.48818...",13,El Bolsón,3
6,"POLYGON ((-71.30641 -40.16186, -71.33895 -40.1...",14,San Martín de Los Andes 3,1


In [21]:
# Al de arboles hay que laburarlo un poco más porque está en GeoJson, un Json específico para guardar datos georreferenciados

arboles_list = []

for arbol in arboles:

    arbol_dict = {}

    arbol_dict["id"] = arbol["id"]
    arbol_dict["localidad"] = arbol["localidad"]
    arbol_dict["especie"] = arbol["especie"]
    # Esta modificación es para que al convertir este DF en uno de Geopandas interprete la geometría como Punto (formato WKT)
    arbol_dict["posicion"] = "POINT ({} {})".format(arbol["posicion"]["coordinates"][0],arbol["posicion"]["coordinates"][1])

    arboles_list.append(arbol_dict)

In [22]:
arboles_df = pd.DataFrame.from_dict(arboles_list)

arboles_df

Unnamed: 0,id,localidad,especie,posicion
0,5407,5,12,POINT (-70.91609438689663 -39.238584250266065)
1,5393,5,3,POINT (-70.91629903804633 -39.2388849493729)
2,5394,5,3,POINT (-70.91558995069984 -39.238039441881824)
3,5361,5,121,POINT (-70.91561055017057 -39.23838603411222)
4,5359,5,121,POINT (-70.91617750233583 -39.23826005597549)
...,...,...,...,...
12688,12129,1,41,POINT (-71.24397266229109 -40.12896289331835)
12689,6237,1,23,POINT (-71.31205780825762 -40.15693786239265)
12690,10181,1,3,POINT (-71.24678176869756 -40.12606442232301)
12691,13142,1,23,POINT (-71.22903699092056 -40.13398448545932)


In [25]:


gdf_arboles = gpd.GeoDataFrame(arboles_df)
gdf_arboles["posicion"] = gpd.GeoSeries.from_wkt(gdf_arboles["posicion"])
gdf_arboles["posicion"] = gdf_arboles["posicion"].set_crs('EPSG:4386')
gdf_arboles = gdf_arboles.set_geometry("posicion")

gdf_arboles

Unnamed: 0,id,localidad,especie,posicion
0,5407,5,12,POINT (-70.91609 -39.23858)
1,5393,5,3,POINT (-70.91630 -39.23888)
2,5394,5,3,POINT (-70.91559 -39.23804)
3,5361,5,121,POINT (-70.91561 -39.23839)
4,5359,5,121,POINT (-70.91618 -39.23826)
...,...,...,...,...
12688,12129,1,41,POINT (-71.24397 -40.12896)
12689,6237,1,23,POINT (-71.31206 -40.15694)
12690,10181,1,3,POINT (-71.24678 -40.12606)
12691,13142,1,23,POINT (-71.22904 -40.13398)


In [36]:
# Itero el DF de sectores y filtro cuáles árboles caen dentro. Asigno el id de sector a la columna "sector" del DF de árboles

id_sectores = list(gdf_sectores["id"])

gdf_arboles["sector"] = None

for s in id_sectores:    
    gdf_arboles.loc[ gdf_arboles["posicion"].within(gdf_sectores[ gdf_sectores["id"] == s ].at[gdf_sectores[ gdf_sectores["id"] == s ].index[0],"poligono"]) , ["sector"]] = s

# No necesito más la columna localidad porque el sector está referenciado a la localidad

gdf_arboles = gdf_arboles.drop("localidad", axis=1)


Unnamed: 0,id,localidad,especie,posicion,sector
0,5407,5,12,POINT (-70.91609 -39.23858),10
1,5393,5,3,POINT (-70.91630 -39.23888),10
2,5394,5,3,POINT (-70.91559 -39.23804),10
3,5361,5,121,POINT (-70.91561 -39.23839),10
4,5359,5,121,POINT (-70.91618 -39.23826),10
...,...,...,...,...,...
12688,12129,1,41,POINT (-71.24397 -40.12896),14
12689,6237,1,23,POINT (-71.31206 -40.15694),14
12690,10181,1,3,POINT (-71.24678 -40.12606),14
12691,13142,1,23,POINT (-71.22904 -40.13398),14


In [39]:
# Uso SqlAlchemy para guardar Dfs con to_sql

url = 'postgresql+psycopg2://fmorosini_coderhouse:77Vz3W9KPP@data-engineer-cluster.cyhh5bfevlmn.us-east-1.redshift.amazonaws.com:5439/data-engineer-database'
engine = sqlalchemy.create_engine(url)

In [41]:
# Solo guardo 100 arboles por cuestion de tiempo de carga...
gdf_arboles.head(100).to_sql(
    name = "arboles", 
    con = engine,
    if_exists = "replace",
    index=False,
    dtype={
       "id": sqlalchemy.INTEGER,
       "sector": sqlalchemy.INTEGER,
       "especie": sqlalchemy.INTEGER,
       "posicion": sqlalchemy.String(255)
     }
)

OperationalError: (psycopg2.OperationalError) could not connect to server: Connection refused (0x0000274D/10061)
	Is the server running on host "data-engineer-cluster.cyhh5bfevlmn.us-east-1.redshift.amazonaws.com" (52.44.43.227) and accepting
	TCP/IP connections on port 5439?

(Background on this error at: https://sqlalche.me/e/14/e3q8)

In [51]:
# Para las localidades le elimino un par de columnas que no necesito

localidades_df = localidades_df.drop(['zoom','posicion'], axis=1)

In [52]:

localidades_df.to_sql(
    name = "localidades",
    con = engine,
    if_exists = "replace",
    index = False,
    dtype = {
        "nombre": sqlalchemy.String(80),
        "ogc_fig": sqlalchemy.INTEGER
    }
)

7

In [59]:
# Reemplazo los NULL del campo url_ficha por un URL genérico

especies_df["url_ficha"] = especies_df["url_ficha"].fillna("https://www.arbolesurbanos.com.ar/")



In [60]:
especies_df.to_sql(
    name = "especies",
    con = engine,
    if_exists = "replace",
    index = False,
    dtype = {
        "nombrevulgar": sqlalchemy.String(50),
        "nombrecientifico": sqlalchemy.String(50),
        "imagen": sqlalchemy.String(50),
        "magnitud": sqlalchemy.INTEGER,
        "tipo": sqlalchemy.String(15),
        "follaje": sqlalchemy.String(15),
        "url_ficha": sqlalchemy.String(255),
        "thumbnail": sqlalchemy.String(100),
        "id": sqlalchemy.INTEGER
    }
)

151

In [None]:
gdf_sectores.to_sql(
    name = "sectores",
    con = engine,
    if_exists = "replace"
    index = False,
    dtype = {
        "id": sqlalchemy.INTEGER,
        "nombre": sqlalchemy.String(50),
        "localidad": sqlalchemy.INTEGER,
        "poligono": sqlalchemy.String(4000)
    }
)

In [55]:
# Limpio memoria

del arboles_df
del localidades_df
del especies_df
del gdf_arboles
del gdf_sectores