# 4. Archivos Json y API's

## Javascript Object Notation (JSON)

- Es una notación común para data web
- No tabular:
     - Registros no tienen todos el mismo conjunto de atributos
- Datos se encuentran organizados en colecciones de objetos
- Objectos son colecciones de atributos clave : valor
- Json nested: objectos se encuentran anidados

#### Tipos de Archivo Json

- **Record Orientation**: JSON más común

<img src='./img/json_record_orientation.png' width="600" height="1000">

- **Column Orientation**: Uso de espación más eficiente que en record Orientation

<img src='./img/json_column_orientation.png' width="300" height="500">

- **Specifying Orientation**: Divide orientation data

<img src='./img/json_specify_orientation.png' width="300" height="500">

#### Lectura de Archivo Json con Pandas

In [46]:
import pandas as pd

death_causes = pd.read_json("./datasets/example.json",
                             orient="records"
                           )
death_causes.head(2)

Unnamed: 0,_id,Description,TypeLevel1,Currency,Operational,TypeLevel2,Settlement,SCSP,BBT,TCK,SMCP,SMCP2
0,26,10 YEAR,INTEREST,USD,True,LONG,90,Rajna,CITITYM9,ZN,1,2
1,27,5 YEAR,PRINCIPAL,GNP,False,LONG,40,Paus,CITITYM10,PY,5,9


## Introducción al uso de API's

- Define como una aplicación se comunica con otros programas
- Es una forma de obtener data sin conocer detalles de la base de datos

<img src='./img/api.png' width="500" height="700">

Para poder estos datos una forma general de hacerlo es usando la libreria <code>request</code>

#### Request

- Envía y obtiene datos de una página web
- No se encuentra vinculado a un api en particular
- <code>request.get(url_string)</code> para obtener data de una url en particular


In [70]:
def read_file(filename):
    with open(filename) as f:
        api=f.readlines()
        return api

In [75]:
API_KEY_WEATHER=read_file('weather_api.txt')[0]

In [76]:
import requests

# api gratuita: https://home.openweathermap.org/
# documentacion: https://openweathermap.org/api

weather_json = requests.get("http://api.openweathermap.org/data/2.5/weather?q=London,uk&APPID={}".format(API_KEY_WEATHER))
# weather_api_data=json.loads(weather_json.text)

In [77]:
data=weather_json.json()

In [78]:
data

{'coord': {'lon': -0.13, 'lat': 51.51},
 'weather': [{'id': 804,
   'main': 'Clouds',
   'description': 'overcast clouds',
   'icon': '04n'}],
 'base': 'stations',
 'main': {'temp': 283.59,
  'feels_like': 278.77,
  'temp_min': 283.15,
  'temp_max': 284.26,
  'pressure': 1012,
  'humidity': 83},
 'visibility': 10000,
 'wind': {'speed': 6.11, 'deg': 235},
 'clouds': {'all': 100},
 'dt': 1604176569,
 'sys': {'type': 3,
  'id': 2019646,
  'country': 'GB',
  'sunrise': 1604127167,
  'sunset': 1604162119},
 'timezone': 0,
 'id': 2643743,
 'name': 'London',
 'cod': 200}

In [61]:
df = pd.DataFrame(data.items())
df.head(2)

Unnamed: 0,0,1
0,coord,"{'lon': -0.13, 'lat': 51.51}"
1,weather,"[{'id': 804, 'main': 'Clouds', 'description': ..."


#### Parámetros <code>request.get(url_string)</code>

Este método presenta algunos parámetros admisibles como:

- Keywords arguments:
    - **params**: permite pasar un diccionario de la llave y el valor del API
    - **headers**: similar al anterior pero este método debe ser usado para autenticarse con el API.
- La respuesta obtenida será un objeto <code>response</code> el cual contendrá data y metadata.
    - <code>response.json()</code> nos brindará solo la data

### Ejemplo 1

In [30]:
# data: https://catalog.data.gov/dataset/dhs-daily-report-6287f/resource/7017d18e-6da6-4156-93f8-be9be3cfd2e7
url='https://data.cityofnewyork.us/api/views/k46n-sa2m/rows.json?accessType=DOWNLOAD'
import requests

response = requests.get(url)



In [35]:
data = response.json()

In [44]:
data['meta']['view'].keys()

dict_keys(['id', 'name', 'assetType', 'attribution', 'attributionLink', 'averageRating', 'category', 'createdAt', 'description', 'displayType', 'downloadCount', 'hideFromCatalog', 'hideFromDataJson', 'indexUpdatedAt', 'newBackend', 'numberOfComments', 'oid', 'provenance', 'publicationAppendEnabled', 'publicationDate', 'publicationGroup', 'publicationStage', 'rowsUpdatedAt', 'rowsUpdatedBy', 'tableId', 'totalTimesRated', 'viewCount', 'viewLastModified', 'viewType', 'approvals', 'columns', 'grants', 'metadata', 'owner', 'query', 'rights', 'tableAuthor', 'tags', 'flags'])

In [45]:
df_dhs_daily_report = pd.DataFrame(data['data'])
df_dhs_daily_report.head(2)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,11,12,13,14,15,16,17,18,19,20
0,row-qjgc~2jbe.6unm,00000000-0000-0000-659B-18395000D68B,0,1597859572,,1597859572,,{ },2020-02-11T00:00:00,38032,...,58900,12522,4702,17224,11627,15613,20868,36481,2463,5195
1,row-ttsa_3beg-g3j2,00000000-0000-0000-8D27-3D0E5719F6D3,0,1597859572,,1597859572,,{ },2020-02-12T00:00:00,38013,...,58863,12504,4710,17214,11613,15592,20850,36442,2470,5207


### Ejemplo 2

Yelp es una empresa pública estadounidense con sede en San Francisco, California. La compañía desarrolla, aloja y comercializa el sitio web de Yelp.com y la aplicación móvil de Yelp, que publican reseñas de empresas de fuentes públicas. También opera un servicio de reservas en línea llamado Reservas de Yelp

In [None]:
# obtener API access: https://rapidapi.com/blog/yelp-fusion-api-profile-pull-local-business-data/?utm_source=google&utm_medium=cpc&utm_campaign=DSA&gclid=Cj0KCQjwlvT8BRDeARIsAACRFiWVp-3OcJVj9IGyxHIeZwa6Abn5VqM55qhjnMyONKZ5-btXIu8a9VQaAtaZEALw_wcB

In [79]:
API_KEY_YELP = read_file('yelp_api.txt')[1]

In [80]:
# documentacion: https://www.yelp.com/developers/documentation/v3/business_search

import requests 
api_url = "https://api.yelp.com/v3/businesses/search"

# Colocando parámetros según documentación del sitio
params = {"term": "bookstore", #termino a buscar
            "location": "San Francisco" # locacion
         }
headers = {"Authorization": "Bearer {}".format(API_KEY_YELP)}

In [81]:
response = requests.get(api_url, 
                headers=headers, 
                params=params)

# Extraigo JSON data de response
data = response.json()

id                object
alias             object
name              object
image_url         object
is_closed           bool
url               object
review_count       int64
categories        object
rating           float64
coordinates       object
transactions      object
price             object
location          object
phone             object
display_phone     object
distance         float64
dtype: object


In [None]:
# Cargando data a dataframe
df_yelp = pd.DataFrame(data["businesses"])
df_yelp.head(2)


In [None]:
# Visualizando tipo de datos de la respuesta
print(df_yelp.dtypes)

## Trabajando con Nested JSON

- JSON contiene atributos clave - valor
- JSON es nested es cuando el valor es un objeto

<img src='./img/json_nested.png' width="500" height="700">

## Recursos Adicionales

- https://kanoki.org/2019/12/12/how-to-work-with-json-in-pandas/