In [10]:
import pandas as pd
import psycopg2
import sqlalchemy
import requests

In [11]:
# URLs de endpoints de las 3 entidades

url_especies = "https://api.arbolesurbanos.com.ar/json/especies"
url_localidades = "https://api.arbolesurbanos.com.ar/json/localidades"
url_arboles = "https://api.arbolesurbanos.com.ar/json/arboles"

# Traigo la data

req_especies = requests.get(url_especies)
req_localidades = requests.get(url_localidades)
req_arboles = requests.get(url_arboles)

# Convierto a Dict

especies = req_especies.json()["data"]
localidades = req_localidades.json()["data"]
arboles = req_arboles.json()["data"]

# Cargo DataFrames con los dict

especies_df = pd.DataFrame.from_dict(especies)
localidades_df = pd.DataFrame.from_dict(localidades)

In [12]:
# Al de arboles hay que laburarlo un poco más porque está en GeoJson, un Json específico para guardar datos georreferenciados

arboles_list = []

for arbol in arboles:

    arbol_dict = {}

    arbol_dict["id"] = arbol["id"]
    arbol_dict["localidad"] = arbol["localidad"]
    arbol_dict["especie"] = arbol["especie"]
    arbol_dict["lon"] = arbol["posicion"]["coordinates"][0]
    arbol_dict["lat"] = arbol["posicion"]["coordinates"][1]

    arboles_list.append(arbol_dict)

In [13]:
arboles_df = pd.DataFrame.from_dict(arboles_list)

In [14]:
# Uso SqlAlchemy para guardar Dfs con to_sql

url = 'postgresql+psycopg2://fmorosini_coderhouse:77Vz3W9KPP@data-engineer-cluster.cyhh5bfevlmn.us-east-1.redshift.amazonaws.com:5439/data-engineer-database'
engine = sqlalchemy.create_engine(url)

In [16]:
# Solo guardo 100 arboles por cuestion de tiempo de carga...

arboles_df.head(100).to_sql(
    name = "arboles", 
    con = engine,
    if_exists = "replace",
    index = False,
    dtype={
       "id": sqlalchemy.INTEGER,
       "localidad": sqlalchemy.INTEGER,
       "especie": sqlalchemy.INTEGER,
       "lon": sqlalchemy.FLOAT,
       "lat": sqlalchemy.FLOAT
     }
)

ValueError: Table 'arboles' already exists.

In [40]:
# Para las localidades le elimino un par de columnas que no necesito

localidades_df = localidades_df.drop(['zoom','posicion'], axis=1)

In [41]:

localidades_df.to_sql(
    name = "localidades",
    con = engine,
    if_exists = "replace",
    index = False,
    dtype = {
        "nombre": sqlalchemy.String(80),
        "ogc_fig": sqlalchemy.INTEGER
    }
)

7

In [42]:
# Reemplazo los NULL del campo url_ficha por un URL genérico

especies_df["url_ficha"] = especies_df["url_ficha"].fillna("https://www.arbolesurbanos.com.ar/")



In [43]:
especies_df.to_sql(
    name = "especies",
    con = engine,
    if_exists = "replace",
    index = False,
    dtype = {
        "nombrevulgar": sqlalchemy.String(50),
        "nombrecientifico": sqlalchemy.String(50),
        "imagen": sqlalchemy.String(50),
        "magnitud": sqlalchemy.INTEGER,
        "tipo": sqlalchemy.String(15),
        "follaje": sqlalchemy.String(15),
        "url_ficha": sqlalchemy.String(255),
        "thumbnail": sqlalchemy.String(100),
        "id": sqlalchemy.INTEGER
    }
)

151

In [55]:
# Limpio memoria

del arboles_df
del localidades_df
del especies_df