<h1>Manejo de datos en JSON</h1>

<p> Esta práctica nos muestra como podemos manejar datos que provienen de un API y que generalmente se ofrecen en JSON.</p>

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
        <li><a href="dataset">About the Dataset</a></li>
        <li><a href="pandas">Introduction of <code>Pandas</code></a></li>
        <li><a href="data">Viewing Data and Accessing Data</a></li>
        <li><a href="quiz">Quiz on DataFrame</a></li>
    </ul>
    <p>
        Estimated time needed: <strong>15 min</strong>
    </p>
</div>

<hr>

<hr>

<h2 id="pandas">Introducción</h2>

En estas práctica vamos a descargar varios datasets que representan todos los terremotos que han ocurrido en el mundo en un determinado perido de tiempo. Tendremos la posibilidad de crear un mapa que mostrará la localización de estos terremotos y posteriormente también aprenderemos a guardar esta información en una base de datos PostGIS.

In [14]:
import json

# Explore the structure of the data.
filename = 'data/eq_data_1_day_m1.json'
with open(filename) as f:
    all_eq_data = json.load(f)
    
texto_bonito = 'data/bonito_eq_data.json'
with open(texto_bonito, 'w') as f:
    json.dump(all_eq_data, f, indent=4)

<b>Ejercicio</b>: Presentamos las 20 primeras lineas de bonito_eq_data.json

Viendo la estructura del archivo geojson, vamos a almacenar en la variable todos_terremotos la lista con los terremotos (a partir del campo features[]). Imprimamos el número total de terremotos que viene en el archivo:

In [16]:
# Escriba aquí su código

158


La forma de trabajar con el objeto json es como si de un objeto python se tratara. Por ejemplo, vamos a obtener las listas <code>mags</code>, <code>lns</code> y <code>lats</code> con las magnitudes, longitudes y latitudes de cada terremoto

In [17]:
mags, lons, lats, hover_texts = [], [], [], []
for terremoto in todos_terremotos:
    mag = terremoto['properties']['mag']
    lon = terremoto['geometry']['coordinates'][0]
    lat = terremoto['geometry']['coordinates'][1]
    title = terremoto['properties']['title']
    mags.append(mag)
    lons.append(lon)
    lats.append(lat)
    hover_texts.append(title)

<b>Ejercicio</b>: Presentamos los 10 primeros valores de cada una de estas listas

In [1]:
# Escriba aquí su código


<hr>

<h2 id="maps">Representando los datos en mapas</h2>

You can also get a column as a series. You can think of a Pandas series as a 1-D dataframe. Just use one bracket: 

In [4]:
!pip install plotly
from plotly.graph_objs import Scattergeo, Layout
from plotly import offline

Collecting plotly
  Downloading https://files.pythonhosted.org/packages/70/19/8437e22c84083a6d5d8a3c80f4edc73c9dcbb89261d07e6bd13b48752bbd/plotly-4.1.1-py2.py3-none-any.whl (7.1MB)
Collecting retrying>=1.3.3 (from plotly)
Installing collected packages: retrying, plotly
Successfully installed plotly-4.1.1 retrying-1.3.3


Utilizamos la nueva librería <code>plotly</code> para generar un mapa con los terremotos. Por ejemplo, queremos que el tamaño de los puntos sea proporcional a la magnitud de los terremotos, hacemos un escalado de 5 para que la representación quede mejor proporcionada.

In [18]:
# Map the earthquakes.
offline.init_notebook_mode(connected=True)
data = [{
    'type': 'scattergeo',
    'lon': lons,
    'lat': lats,
    'text': hover_texts,
    'marker': {
        'size': [5*mag for mag in mags],
        'color': mags,
        'colorscale': 'Viridis', #Escala de va desde el azul oscuro hasta el amarillo claro
        'reversescale': True, #Amarillo claro para valores bajos
        'colorbar': {'title': 'Magnitude'}, #Va a aparecer una leyenda en la parte derecha
    },
}]

my_layout = Layout(title='Global Earthquakes')

fig = {'data': data, 'layout': my_layout}
offline.plot(fig, filename='global_earthquakes.html')

'global_earthquakes.html'

Mucha más información de como hacer representaciónes de datos en python en <a href="https://plot.ly/">https://plot.ly/</a>

<h2 id="basedatos"> Geopandas y acceso e inserción en base de datos PostGIS </h2>

Con geopandas tenemos una mejor forma de recuperar información en formato geoespacial, como es el geojson. En una consola de Anaconda hacemos: <code> conda install geopandas</code>


In [19]:
import geopandas as gpd
from geopandas import GeoSeries, GeoDataFrame
world = gpd.read_file(gpd.datasets.get_path('naturalearth_lowres'))
#world.plot(figsize=(8, 8));
terremotos_gdf = GeoDataFrame.from_features(all_eq_data)
terremotos_gdf.plot(ax=world.plot(cmap='Set3', figsize=(10, 6)),
             marker='o', color='red', markersize=15);

ModuleNotFoundError: No module named 'geopandas'

La variable <code>terremotos_gdf</code> corresponde con un <i>geopandas data frame</i>, y existen funciones muy sencillas para el manejo de este tipo de objetos. <br/>
Realizaremos una conexión con una base de datos postgis, crearemos una tabla e introduciremos la información de terremotos:

One way to access unique elements is the <code>iloc</code> method, where you can access the 1st row and the 1st column as follows:

In [78]:
# Imports
!pip install geoalchemy2
from geoalchemy2 import Geometry, WKTElement
from sqlalchemy import *
import pandas as pd
import geopandas as gpd



Unnamed: 0,alert,cdi,code,detail,dmin,felt,gap,geometry,ids,mag,...,sources,status,time,title,tsunami,type,types,tz,updated,url
0,,,37532978,https://earthquake.usgs.gov/earthquakes/feed/v...,0.02648,,37.0,POINT Z (-116.7941667 33.4863333 3.22),",ci37532978,",0.96,...,",ci,",automatic,1550360775470,"M 1.0 - 8km NE of Aguanga, CA",0,earthquake,",geoserve,nearby-cities,origin,phase-data,",-480,1550360993593,https://earthquake.usgs.gov/earthquakes/eventp...
1,,,0192641ikq,https://earthquake.usgs.gov/earthquakes/feed/v...,,,,POINT Z (-148.9865 64.6673 0),",ak0192641ikq,",1.2,...,",ak,",automatic,1550358909272,"M 1.2 - 11km NNE of North Nenana, Alaska",0,earthquake,",geoserve,origin,",-540,1550359211283,https://earthquake.usgs.gov/earthquakes/eventp...
2,,,2000jizi,https://earthquake.usgs.gov/earthquakes/feed/v...,2.553,,98.0,POINT Z (-74.2343 -12.1025 10),",us2000jizi,",4.3,...,",us,",reviewed,1550358621670,"M 4.3 - 69km NNW of Ayna, Peru",0,earthquake,",geoserve,origin,phase-data,",-300,1550360269040,https://earthquake.usgs.gov/earthquakes/eventp...
3,,,2000jizh,https://earthquake.usgs.gov/earthquakes/feed/v...,1.194,,177.0,POINT Z (-161.6801 54.2232 46.66),",us2000jizh,",3.6,...,",us,",reviewed,1550358590770,"M 3.6 - 126km SSE of Cold Bay, Alaska",0,earthquake,",geoserve,origin,phase-data,",-660,1550359431040,https://earthquake.usgs.gov/earthquakes/eventp...
4,,,37532962,https://earthquake.usgs.gov/earthquakes/feed/v...,0.09256,,87.0,POINT Z (-118.5316667 35.3098333 3.88),",ci37532962,",2.1,...,",ci,",automatic,1550358390290,"M 2.1 - 21km NNW of Tehachapi, CA",0,earthquake,",focal-mechanism,geoserve,nearby-cities,origin...",-480,1550359037950,https://earthquake.usgs.gov/earthquakes/eventp...


In [90]:
# Creating SQLAlchemy's engine to use
engine = create_engine('postgresql://postgres:postgres@127.0.0.1:5432/postgis')
table_name = "terremotos"

if 'geometry' in terremotos_gdf.columns:
    terremotos_gdf['geom'] = terremotos_gdf['geometry'].apply(lambda x: WKTElement(x.wkt, srid=4326))
    #drop the geometry column as it is now duplicative
    terremotos_gdf.drop('geometry', 1, inplace=True)


# Use 'dtype' to specify column's type
# For the geom column, we will use GeoAlchemy's type 'Geometry'
terremotos_gdf.to_sql(table_name, engine, if_exists='replace', index=False, 
                         dtype={'geom': Geometry('POINTZ', srid= 4326)})  #Ponemos Pointz porque es un punto de 3 dimensiones

 if_exists = replace: If table exists, drop it, recreate it, and insert data. <br/>
 if_exists = fail: If table exists, do nothing. <br/>
 if_exists = append: If table exists, insert data. Create if does not exist. 

Comprobamos como la tabla terremotos se ha creado en la base de datos con toda la información que viene del JSON. <br/>
Para mayor infomraicón de cómo se utiliza geopandas su puede leer el tutorial de este enlace <a href="https://geohackweek.github.io/vector/04-geopandas-intro/">https://geohackweek.github.io/vector/04-geopandas-intro/</a>

<h2 id="ejerciciosdf"> Ejercicios </h2>

Siguiendo las instrucciones del tutorial "Read from OGC WFS GeoJSON response into a GeoDataFrame", de <a href="https://geohackweek.github.io/vector/04-geopandas-intro/">https://geohackweek.github.io/vector/04-geopandas-intro/</a>, vamos a acceder a un servicios WFS y guardar la información GeoJSON que nos devuelve en una base de datos. <br/>
Usaremos los datos abiertos proporcionados por el ayutameinto de valencia: <a href="http://gobiernoabierto.valencia.es/en/dataset/?id=obras-ejecutadas">http://gobiernoabierto.valencia.es/en/dataset/?id=obras-ejecutadas</a> <br/>
En concreto son datos de obras ejecutadas, con los siguientes parámetros alfanuméricos:
<ul>
    <li>Title: project name</li>
<li>Scope: scope of work</li>
<li>Description: brief description of the performance</li>
<li>Surface: surface of the intervention in square meters</li>
<li>Date of receipt: date of receipt of works</li>
<li>Contractor: name of the construction company</li>
<li>Budget: budget in € of executed works</li>
    </ul>


In [None]:
url_obras = 'http://mapas.valencia.es/lanzadera/opendata/OI-OBRAS-EJECUTADAS/WFS?service=wfs&VERSION=1.1.0&REQUEST=GETFEATURE&typename=oi-obras-ejecutadas&outputFormat=text/json'


Mediante la librería <code> requests </code> haga una petición para obtener el json, represente la información con plotly o con la función plot de geopandas e introduzca la información en una nueva tabla de nuestra base de datos postgis.

In [91]:
# Escriba su código aquí

<hr>