In [1]:
import geopandas as gpd
import pandas as pd
import sqlalchemy
import requests

In [2]:
# URLs de endpoints de las 3 entidades

url_especies = "https://api.arbolesurbanos.com.ar/json/especies"
url_localidades = "https://api.arbolesurbanos.com.ar/json/localidades"
url_arboles = "https://api.arbolesurbanos.com.ar/json/arboles"

# Traigo la data

req_especies = requests.get(url_especies)
req_localidades = requests.get(url_localidades)
req_arboles = requests.get(url_arboles)

# Convierto a Dict

especies = req_especies.json()["data"]
localidades = req_localidades.json()["data"]
arboles = req_arboles.json()["data"]

# Cargo DataFrames con los dict

especies_df = pd.DataFrame.from_dict(especies)
localidades_df = pd.DataFrame.from_dict(localidades)

In [31]:
sectores_df = pd.read_csv("sectores.csv")
gdf_sectores = gpd.GeoDataFrame(sectores_df)
gdf_sectores["poligono"] = gpd.GeoSeries.from_wkt(gdf_sectores["poligono"])
gdf_sectores["poligono"]  = gdf_sectores["poligono"].set_crs('EPSG:4386')
gdf_sectores = gdf_sectores.set_geometry("poligono")





In [21]:
# Al de arboles hay que laburarlo un poco más porque está en GeoJson, un Json específico para guardar datos georreferenciados

arboles_list = []

for arbol in arboles:

    arbol_dict = {}

    arbol_dict["id"] = arbol["id"]
    arbol_dict["localidad"] = arbol["localidad"]
    arbol_dict["especie"] = arbol["especie"]
    arbol_dict["posicion"] = "POINT ({} {})".format(arbol["posicion"]["coordinates"][0],arbol["posicion"]["coordinates"][1])

    arboles_list.append(arbol_dict)

In [22]:
arboles_df = pd.DataFrame.from_dict(arboles_list)

arboles_df

Unnamed: 0,id,localidad,especie,posicion
0,5407,5,12,POINT (-70.91609438689663 -39.238584250266065)
1,5393,5,3,POINT (-70.91629903804633 -39.2388849493729)
2,5394,5,3,POINT (-70.91558995069984 -39.238039441881824)
3,5361,5,121,POINT (-70.91561055017057 -39.23838603411222)
4,5359,5,121,POINT (-70.91617750233583 -39.23826005597549)
...,...,...,...,...
12688,12129,1,41,POINT (-71.24397266229109 -40.12896289331835)
12689,6237,1,23,POINT (-71.31205780825762 -40.15693786239265)
12690,10181,1,3,POINT (-71.24678176869756 -40.12606442232301)
12691,13142,1,23,POINT (-71.22903699092056 -40.13398448545932)


In [25]:


gdf_arboles = gpd.GeoDataFrame(arboles_df)
gdf_arboles["posicion"] = gpd.GeoSeries.from_wkt(gdf_arboles["posicion"])
gdf_arboles["posicion"] = gdf_arboles["posicion"].set_crs('EPSG:4386')
gdf_arboles = gdf_arboles.set_geometry("posicion")

gdf_arboles

Unnamed: 0,id,localidad,especie,posicion
0,5407,5,12,POINT (-70.91609 -39.23858)
1,5393,5,3,POINT (-70.91630 -39.23888)
2,5394,5,3,POINT (-70.91559 -39.23804)
3,5361,5,121,POINT (-70.91561 -39.23839)
4,5359,5,121,POINT (-70.91618 -39.23826)
...,...,...,...,...
12688,12129,1,41,POINT (-71.24397 -40.12896)
12689,6237,1,23,POINT (-71.31206 -40.15694)
12690,10181,1,3,POINT (-71.24678 -40.12606)
12691,13142,1,23,POINT (-71.22904 -40.13398)


In [32]:
id_sectores = list(gdf_sectores["id"])
gdf_arboles["sector"] = None

for s in id_sectores:    
    gdf_arboles.loc[ gdf_arboles["posicion"].within(gdf_sectores[ gdf_sectores["id"] == s ].at[gdf_sectores[ gdf_sectores["id"] == s ].index[0],"poligono"]) , ["sector"]] = s


In [49]:
# Uso SqlAlchemy para guardar Dfs con to_sql

url = 'postgresql+psycopg2://fmorosini_coderhouse:77Vz3W9KPP@data-engineer-cluster.cyhh5bfevlmn.us-east-1.redshift.amazonaws.com:5439/data-engineer-database'
engine = sqlalchemy.create_engine(url)

In [50]:
# Solo guardo 100 arboles por cuestion de tiempo de carga...

arboles_df.head(100).to_sql(
    name = "arboles", 
    con = engine,
    if_exists = "replace",
    index=False,
    dtype={
       "id": sqlalchemy.INTEGER,
       "localidad": sqlalchemy.INTEGER,
       "especie": sqlalchemy.INTEGER,
       "lon": sqlalchemy.FLOAT,
       "lat": sqlalchemy.FLOAT
     }
)

100

In [51]:
# Para las localidades le elimino un par de columnas que no necesito

localidades_df = localidades_df.drop(['zoom','posicion'], axis=1)

In [52]:

localidades_df.to_sql(
    name = "localidades",
    con = engine,
    if_exists = "replace",
    index = False,
    dtype = {
        "nombre": sqlalchemy.String(80),
        "ogc_fig": sqlalchemy.INTEGER
    }
)

7

In [59]:
# Reemplazo los NULL del campo url_ficha por un URL genérico

especies_df["url_ficha"] = especies_df["url_ficha"].fillna("https://www.arbolesurbanos.com.ar/")



In [60]:
especies_df.to_sql(
    name = "especies",
    con = engine,
    if_exists = "replace",
    index = False,
    dtype = {
        "nombrevulgar": sqlalchemy.String(50),
        "nombrecientifico": sqlalchemy.String(50),
        "imagen": sqlalchemy.String(50),
        "magnitud": sqlalchemy.INTEGER,
        "tipo": sqlalchemy.String(15),
        "follaje": sqlalchemy.String(15),
        "url_ficha": sqlalchemy.String(255),
        "thumbnail": sqlalchemy.String(100),
        "id": sqlalchemy.INTEGER
    }
)

151

In [55]:
# Limpio memoria

del arboles_df
del localidades_df
del especies_df