# 4. Archivos Json y API's

## Javascript Object Notation (JSON)

- Es una notación común para data web
- No tabular:
     - Registros no tienen todos el mismo conjunto de atributos
- Datos se encuentran organizados en colecciones de objetos
- Objectos son colecciones de atributos clave : valor
- Json nested: objectos se encuentran anidados

#### Tipos de Archivo Json

- **Record Orientation**: JSON más común

<img src='./img/json_record_orientation.png' width="600" height="1000">

- **Column Orientation**: Uso de espación más eficiente que en record Orientation

<img src='./img/json_column_orientation.png' width="300" height="500">

- **Specifying Orientation**: Divide orientation data

<img src='./img/json_specify_orientation.png' width="300" height="500">

#### Lectura de Archivo Json con Pandas

In [1]:
import pandas as pd

death_causes = pd.read_json("./datasets/example.json",
                             orient="records"
                           )
death_causes.head(2)

Unnamed: 0,_id,Description,TypeLevel1,Currency,Operational,TypeLevel2,Settlement,SCSP,BBT,TCK,SMCP,SMCP2
0,26,10 YEAR,INTEREST,USD,True,LONG,90,Rajna,CITITYM9,ZN,1,2
1,27,5 YEAR,PRINCIPAL,GNP,False,LONG,40,Paus,CITITYM10,PY,5,9


## Introducción al uso de API's

- Define como una aplicación se comunica con otros programas
- Es una forma de obtener data sin conocer detalles de la base de datos

<img src='./img/api.png' width="500" height="700">

Para poder estos datos una forma general de hacerlo es usando la libreria <code>request</code>

#### Request

- Envía y obtiene datos de una página web
- No se encuentra vinculado a un api en particular
- <code>request.get(url_string)</code> para obtener data de una url en particular


In [2]:
def read_file(filename):
    with open(filename) as f:
        api=f.readlines()
        return api

#### Open Weathermap

In [3]:
API_KEY_WEATHER=read_file('weather_api.txt')[0]

In [6]:
import requests

# api gratuita: https://home.openweathermap.org/
# documentacion: https://openweathermap.org/api

response = requests.get("http://api.openweathermap.org/data/2.5/weather?q=London,uk&APPID={}".format(API_KEY_WEATHER))
# weather_api_data=json.loads(weather_json.text)

In [7]:
response

<Response [200]>

In [8]:
data=response.json()

In [11]:
data

{'coord': {'lon': -0.13, 'lat': 51.51},
 'weather': [{'id': 804,
   'main': 'Clouds',
   'description': 'overcast clouds',
   'icon': '04n'}],
 'base': 'stations',
 'main': {'temp': 283.84,
  'feels_like': 279.61,
  'temp_min': 283.71,
  'temp_max': 284.26,
  'pressure': 1010,
  'humidity': 85},
 'visibility': 10000,
 'wind': {'speed': 5.47, 'deg': 208},
 'clouds': {'all': 93},
 'dt': 1604195058,
 'sys': {'type': 3,
  'id': 2019646,
  'country': 'GB',
  'sunrise': 1604213674,
  'sunset': 1604248411},
 'timezone': 0,
 'id': 2643743,
 'name': 'London',
 'cod': 200}

In [25]:
import json

In [26]:
type(data)

dict

#### Parámetros <code>request.get(url_string)</code>

Este método presenta algunos parámetros admisibles como:

- Keywords arguments:
    - **params**: permite pasar un diccionario de la llave y el valor del API
    - **headers**: similar al anterior pero este método debe ser usado para autenticarse con el API.
- La respuesta obtenida será un objeto <code>response</code> el cual contendrá data y metadata.
    - <code>response.json()</code> nos brindará solo la data

### Ejemplo

Yelp es una empresa pública estadounidense con sede en San Francisco, California. La compañía desarrolla, aloja y comercializa el sitio web de Yelp.com y la aplicación móvil de Yelp, que publican reseñas de empresas de fuentes públicas. También opera un servicio de reservas en línea llamado Reservas de Yelp

In [None]:
# obtener API access: https://rapidapi.com/blog/yelp-fusion-api-profile-pull-local-business-data/?utm_source=google&utm_medium=cpc&utm_campaign=DSA&gclid=Cj0KCQjwlvT8BRDeARIsAACRFiWVp-3OcJVj9IGyxHIeZwa6Abn5VqM55qhjnMyONKZ5-btXIu8a9VQaAtaZEALw_wcB

In [16]:
API_KEY_YELP = read_file('yelp_api.txt')[1]

In [18]:
# documentacion: https://www.yelp.com/developers/documentation/v3/business_search

import requests 
api_url = "https://api.yelp.com/v3/businesses/search"

# Colocando parámetros según documentación del sitio
params = {"term": "bookstore", #termino a buscar
            "location": "San Francisco" # locacion
         }
headers = {"Authorization": "Bearer {}".format(API_KEY_YELP)}

In [19]:
response = requests.get(api_url, 
                headers=headers, 
                params=params)

# Extraigo JSON data de response
data = response.json()

In [22]:
data.keys()

dict_keys(['businesses', 'total', 'region'])

In [23]:
# Cargando data a dataframe
df_yelp = pd.DataFrame(data["businesses"])
df_yelp.head(2)


Unnamed: 0,id,alias,name,image_url,is_closed,url,review_count,categories,rating,coordinates,transactions,price,location,phone,display_phone,distance
0,_rbF2ooLcMRA7Kh8neIr4g,city-lights-booksellers-and-publishers-san-fra...,City Lights Booksellers & Publishers,https://s3-media4.fl.yelpcdn.com/bphoto/PQV_Sg...,False,https://www.yelp.com/biz/city-lights-bookselle...,696,"[{'alias': 'bookstores', 'title': 'Bookstores'}]",4.5,"{'latitude': 37.7975997924805, 'longitude': -1...",[],$$,"{'address1': '261 Columbus Ave', 'address2': '...",14153628193,(415) 362-8193,4851.824108
1,ngUUOEyCHdLkGnO1I5M4Vg,green-apple-books-san-francisco,Green Apple Books,https://s3-media1.fl.yelpcdn.com/bphoto/49i9ez...,False,https://www.yelp.com/biz/green-apple-books-san...,1334,"[{'alias': 'musicvideo', 'title': 'Music & DVD...",4.5,"{'latitude': 37.783391, 'longitude': -122.464596}",[],$$,"{'address1': '506 Clement St', 'address2': 'at...",14153872272,(415) 387-2272,3517.958893


In [24]:
# Visualizando tipo de datos de la respuesta
print(df_yelp.dtypes)

id                object
alias             object
name              object
image_url         object
is_closed           bool
url               object
review_count       int64
categories        object
rating           float64
coordinates       object
transactions      object
price             object
location          object
phone             object
display_phone     object
distance         float64
dtype: object


## Trabajando con Nested JSON

- JSON contiene atributos clave - valor
- JSON es nested es cuando el valor es un objeto

<img src='./img/json_nested.png' width="500" height="700">

In [27]:
print(df_yelp[["categories","coordinates","location"]].head(3))

                                          categories  \
0   [{'alias': 'bookstores', 'title': 'Bookstores'}]   
1  [{'alias': 'musicvideo', 'title': 'Music & DVD...   
2  [{'alias': 'bookstores', 'title': 'Bookstores'...   

                                         coordinates  \
0  {'latitude': 37.7975997924805, 'longitude': -1...   
1  {'latitude': 37.783391, 'longitude': -122.464596}   
2    {'latitude': 37.76997, 'longitude': -122.44942}   

                                            location  
0  {'address1': '261 Columbus Ave', 'address2': '...  
1  {'address1': '506 Clement St', 'address2': 'at...  
2  {'address1': '1644 Haight St', 'address2': '',...  


#### pandas.io.json

- Contiene un sub modulo el cual nos permite leer y escribir json nested

In [31]:
import pandas as pd
import requests
#from pandas.io.json import json_normalize # en desuso según documentación actual
# Set up headers, parameters, and API endpoint
api_url = "https://api.yelp.com/v3/businesses/search"
headers = {"Authorization": "Bearer {}".format(API_KEY_YELP)}
params = {"term": "bookstore",
          "location": "San Francisco"}
# Make the API call and extract the JSON data
response = requests.get(api_url,
                        headers=headers,
                        params=params)
data = response.json()

In [32]:
# Flatten data and load to data frame, with _ separators
bookstores = pd.json_normalize(data["businesses"], sep="_")
print(list(bookstores))

['id', 'alias', 'name', 'image_url', 'is_closed', 'url', 'review_count', 'categories', 'rating', 'transactions', 'price', 'phone', 'display_phone', 'distance', 'coordinates_latitude', 'coordinates_longitude', 'location_address1', 'location_address2', 'location_address3', 'location_city', 'location_zip_code', 'location_country', 'location_state', 'location_display_address']


In [33]:
bookstores.head(1)

Unnamed: 0,id,alias,name,image_url,is_closed,url,review_count,categories,rating,transactions,...,coordinates_latitude,coordinates_longitude,location_address1,location_address2,location_address3,location_city,location_zip_code,location_country,location_state,location_display_address
0,_rbF2ooLcMRA7Kh8neIr4g,city-lights-booksellers-and-publishers-san-fra...,City Lights Booksellers & Publishers,https://s3-media4.fl.yelpcdn.com/bphoto/PQV_Sg...,False,https://www.yelp.com/biz/city-lights-bookselle...,696,"[{'alias': 'bookstores', 'title': 'Bookstores'}]",4.5,[],...,37.7976,-122.406578,261 Columbus Ave,,,San Francisco,94133,US,CA,"[261 Columbus Ave, San Francisco, CA 94133]"


In [34]:
print(bookstores.categories.head())

0     [{'alias': 'bookstores', 'title': 'Bookstores'}]
1    [{'alias': 'musicvideo', 'title': 'Music & DVD...
2    [{'alias': 'bookstores', 'title': 'Bookstores'...
3    [{'alias': 'bookstores', 'title': 'Bookstores'...
4     [{'alias': 'bookstores', 'title': 'Bookstores'}]
Name: categories, dtype: object


In [35]:
df = pd.json_normalize(data["businesses"],
                    sep="_", 
                    record_path=["categories"],
                    meta=["name",
                          "alias",
                          "rating",
                          ["coordinates","latitude"],
                          ["coordinates","longitude"]],
                    meta_prefix="biz_")

In [36]:
df.head(1)

Unnamed: 0,alias,title,biz_name,biz_alias,biz_rating,biz_coordinates_latitude,biz_coordinates_longitude
0,bookstores,Bookstores,City Lights Booksellers & Publishers,city-lights-booksellers-and-publishers-san-fra...,4.5,37.7976,-122.407


## Recursos Adicionales

- [working with json pandas](https://kanoki.org/2019/12/12/how-to-work-with-json-in-pandas/)
- [open street maps api](https://towardsdatascience.com/loading-data-from-openstreetmap-with-python-and-the-overpass-api-513882a27fd0)
- [google maps api python](https://github.com/googlemaps/google-maps-services-python)
- [pandas documentacion lectura json](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.json_normalize.html)
- [us data gov](https://docs.ckan.org/en/latest/api/index.html)