# Uso, interpretación y gestión de datos abiertos



El internet es la red informática más grande que existe. Nos permite interconectarnos a través de dispositivos como teléfonos, computadoras, tablets, entre otros. Estos elementos se conocen como *host* o *endpoints*. Estos usualmente se clasifican entre clientes y servidores.

![Figure 1](https://upload.wikimedia.org/wikipedia/commons/thumb/c/c9/Client-server-model.svg/1200px-Client-server-model.svg.png)

Los archivos relacionados con una página web están almacenados en un servidor y nuestras computadoras son los clientes que acceden a este recurso a través del internet. Estos se conectan a internet a través de los Proveedores de Servicio (Internet Service Providers).

El intercambio de datos en internet se da a cabo con dispositivos intermediarios denominados conmutadores de paquetes o packet switches. Los routers son uno de los conmutadores de paquetes más conocidos.

Describamos brevemente el proceso de intercambio de información de dos dispositivos conectados a internet. Consideremos que deseamos acceder a la página web del Tecnológico de Monterrey ubicada en`https://tec.mx/es`. Mi computadora deberá enviar una petición al servidor donde está alojada la página para acceder a tal información. Ambos dispositivos se identifican en la red de internet a través de identificadores especiales, direcciones IP (Internet Protocol por sus siglas en inglés). Los cuales están formados generalmente por una secuencia de 4 bytes.

![Figure 2](https://www.ipxo.com/app/uploads/2021/09/IPv4-anatomy.png)

Pero, yo no sé la dirección IP del servidor que tiene alojada la página web. El Domain Name System (DNS) es un sistema que nos permite asociar a cada hostname su respectiva dirección IP.

Entonces, mi computadora integrará un mensaje que incluya su dirección física (MAC address), la dirección IP de destino y la petición. Este paquete llegará a través de la red local (Local Area Network) hasta el router. El router incluirá su dirección IP correspondiente, y enviará la petición a través del internet. El paquete recorrerá diferentes routers intermedios, los cuales redirigirán el mensaje hasta llegar al servidor. Finalmente, el mensaje llegará al servidor donde está almacenada la página web.

![Figure 3](https://miro.medium.com/max/1400/1*Lm3WWTj1A0n1vMPN4LXx7g.png)

El servidor entonces ubicará los archivos correspondientes (HTML, CSS, JS, Imágenes). La información total será dividida en pequeños paquetes (packets). El servidor enviará los paquetes de regreso a través de su router local, y navegará por el Internet hasta mi computadora. La secuencia de enlaces de comunicación y conmutadores de paquetes atravesados durante el envío formarán una ruta. Los paquetes no están obligados a seguir la misma ruta, sin embargo, todos deben llegar al destino final, en donde serán integrados para recuperar la información original y entonces mi navegador integrará los archivos correspondientes.

El intercambio de datos debe llevarse de forma que todos seamos capaces de comunicarnos de forma satisfactoria, incluso debe permitir diseñar sistemas que puedan comunicarse entre sí de forma automática. Esto se logra adoptando protocolos y estándares. En las siguientes unidades revisaremos los protocolos TCP/IP y el HTTP.



### 1 Accediendo a Páginas Web con [`request`](https://pypi.org/project/requests/)

El módulo externo `requests` permite realizar peticiones HTTP de una manera elegante y simple.

Observemos el procedimiento para acceder al artículo de Python en Wikipedia [[1](https://en.wikipedia.org/wiki/Python_(programming_language))].

In [1]:
import requests

In [2]:
# Accedemos a una pagina de Wikipedia que nos muestra info de python
url = 'https://en.wikipedia.org/wiki/Python_(programming_language)'

In [3]:
#Peticion a esta pagina para que me de el html que almacenamos aqui
response = requests.get(url)

In [4]:
# Status
response.status_code

403

In [5]:
# Codificación
response.encoding

'ISO-8859-1'

In [6]:
# Web Page Source Code
data = response.content.decode()
data

'Please set a user-agent and respect our robot policy https://w.wiki/4wJS. See also T400119.\n'

In [7]:
type(data)

str

In [8]:
# Web Page Source Code (Alternative)
data = response.text
data

'Please set a user-agent and respect our robot policy https://w.wiki/4wJS. See also T400119.\n'

Ahora, accedamos al texto de Romeo y Julieta recuperado de Proyecto Gutemberg a partir del siguiente [enlace](https://www.gutenberg.org/files/1112/1112.txt).

In [9]:
# Accedemos a Project Gutemberg (Romeo and Juliet)
url = 'https://www.gutenberg.org/files/1112/1112.txt'
response = requests.get(url)

#Al formato original que se recibe lo cambiamos/transformamos a una cadena de caracteres
romeo_and_juliet = response.text

In [10]:
print(romeo_and_juliet[:1500])

<!DOCTYPE html>
<html class="client-nojs" lang="en" dir="ltr">
<head>
 <meta charset="UTF-8" >

<title>404 | Project Gutenberg</title>
 <link rel="stylesheet" href="/gutenberg/style2.css?v=1.7">
 <link rel="stylesheet" href="/gutenberg/collapsible.css?1.3">
 <link rel="stylesheet" href="/gutenberg/new_nav.css?v=1.6">
 <link rel="stylesheet" href="/gutenberg/pg-desktop-one.css?v=1.1">

 <meta name="viewport" content="width=device-width, initial-scale=1">
 <meta name="keywords" content="books, ebooks, free, kindle, android, iphone, ipad">
 <meta name="google-site-verification" content="wucOEvSnj5kP3Ts_36OfP64laakK-1mVTg-ptrGC9io">
 <meta name="alexaVerifyID" content="4WNaCljsE-A82vP_ih2H_UqXZvM">
 
 <link rel="copyright" href="https://www.gnu.org/copyleft/fdl.html">
 <link rel="icon" type="image/png" href="/gutenberg/favicon.ico" sizes="16x16" >
 
 <meta property="og:title"        content="Project Gutenberg" >
 <meta property="og:type"         content="website" >
 <meta property="og:url"

In [11]:
romeo_and_juliet[:1500].split()[-30:]

['library',
 'of',
 'free',
 'eBooks."',
 '>',
 '<meta',
 'property="fb:admins"',
 'content="615269807"',
 '>',
 '<meta',
 'property="fb:app_id"',
 'content="115319388529183"',
 '>',
 '<meta',
 'property="og:site_name"',
 'content="Project',
 'Gutenberg"',
 '>',
 '<meta',
 'property="og:image"',
 'content="https://www.gutenberg.org/gutenberg/pg-logo-144x144.png"',
 '>',
 '</head>',
 '<body>',
 '<div',
 'class="container"><!--',
 'start',
 'body',
 '--><header>',
 '<in']

In [12]:
len(romeo_and_juliet.split())

487

### 2 JSON

JavaScript Object Notation (JSON) es un formato utilizado para el intercambio de datos a través de la web. Este formato es independiente del lenguaje y utiliza convenciones que son familiares con múltiples lenguajes de programación. Entre ellos, Python.

Los JSON están compuestos de cuatro tipos de datos primitivos: cadenas de caracteres, números, booleanos (true y false) y el valor nulo (null); y dos tipos de estructuras: objetos y arreglos.

Python nos provee del módulo estándar [json](https://docs.python.org/3/library/json.html) que permite la manipulación y escritura de este tipo de archivos. Python toma el texto plano y los transforma en las estructuras correspondiente tomando en cuenta una [tabla](https://docs.python.org/3/library/json.html#json-to-py-table) de conversión.

In [13]:
import json

In [14]:
JSON1 = '''
{"Image": {
            "Width":  800,
            "Height": 600,
            "Title":  "View from 15th Floor",
            "Thumbnail": {
                "Url": "http://www.example.com/image/481989943",
                "Height": 125,
                "Width": 100
                },
            "Animated" : false,
            "IDs": [116, 943, 234, 38793]
            }
}
'''

In [15]:
JSON2 = '''
[
      {
       "precision": "zip",
       "Latitude":  37.7668,
       "Longitude": -122.3959,
       "Address":   "",
       "City":  "SAN FRANCISCO",
       "State": "CA",
       "Zip":   "94107",
       "Country":   "US"
      },
      {
       "precision": "zip",
       "Latitude":  37.371991,
       "Longitude": -122.026020,
       "Address":   "",
       "City":  "SUNNYVALE",
       "State": "CA",
       "Zip":   "94085",
       "Country":   "US"
       }
]
'''



In [16]:
# Transformación de JSON a Objetos de Python
data_json1 = json.loads(JSON1)
data_json2 = json.loads(JSON2)

In [17]:
# Resultado de transformar JSON1
type(data_json1)

dict

In [18]:
# Resultado de transformar JSON2
type(data_json2)

list

In [19]:
# Observemos `data_json1`
data_json1

{'Image': {'Width': 800,
  'Height': 600,
  'Title': 'View from 15th Floor',
  'Thumbnail': {'Url': 'http://www.example.com/image/481989943',
   'Height': 125,
   'Width': 100},
  'Animated': False,
  'IDs': [116, 943, 234, 38793]}}

In [20]:
# Acceso a las `keys` de JSON
data_json1.keys()

dict_keys(['Image'])

In [21]:
data_json1["Image"]["Thumbnail"]["Url"]

'http://www.example.com/image/481989943'

In [22]:
# Acceso al `key` "Image"
data_json1["Image"]

{'Width': 800,
 'Height': 600,
 'Title': 'View from 15th Floor',
 'Thumbnail': {'Url': 'http://www.example.com/image/481989943',
  'Height': 125,
  'Width': 100},
 'Animated': False,
 'IDs': [116, 943, 234, 38793]}

In [23]:
# Acceso a las `keys` de JSON!
data_json1["Image"].keys()

dict_keys(['Width', 'Height', 'Title', 'Thumbnail', 'Animated', 'IDs'])

In [24]:
# Recuperación de un elemento en específico
data_json1["Image"]["Thumbnail"]["Url"]

'http://www.example.com/image/481989943'

In [25]:
data_json1["Image"]["IDs"][0]

116

In [26]:
# Observemos `data_json2`
data_json2

[{'precision': 'zip',
  'Latitude': 37.7668,
  'Longitude': -122.3959,
  'Address': '',
  'City': 'SAN FRANCISCO',
  'State': 'CA',
  'Zip': '94107',
  'Country': 'US'},
 {'precision': 'zip',
  'Latitude': 37.371991,
  'Longitude': -122.02602,
  'Address': '',
  'City': 'SUNNYVALE',
  'State': 'CA',
  'Zip': '94085',
  'Country': 'US'}]

In [27]:
for item in data_json2:
  print(item)

{'precision': 'zip', 'Latitude': 37.7668, 'Longitude': -122.3959, 'Address': '', 'City': 'SAN FRANCISCO', 'State': 'CA', 'Zip': '94107', 'Country': 'US'}
{'precision': 'zip', 'Latitude': 37.371991, 'Longitude': -122.02602, 'Address': '', 'City': 'SUNNYVALE', 'State': 'CA', 'Zip': '94085', 'Country': 'US'}


In [28]:
# Iteremos sobre cada elemento para acceder a su información
for item in data_json2:
  print("Coordenadas:",item["Latitude"], item["Longitude"])

Coordenadas: 37.7668 -122.3959
Coordenadas: 37.371991 -122.02602


In [29]:
# Iteremos sobre cada elemento para acceder a su "City"
for item in data_json2:
  print("city:", item["City"])

city: SAN FRANCISCO
city: SUNNYVALE


## 3 Uso de APIs

Las Application Programming Interfaces (APIs) permiten servir como lingua franca entre diferentes elementos de software que interactuan entre sí. Estas establecen un conjunto de servicios que están disponibles para el uso de otras aplicaciones, así como las reglas que deben seguirse para acceder a estos recursos.

A continuación se proveen un conjunto de recursos para entender cómo funcionan las API:
* ¿Qué es una API? por BBVA ([Infografía](https://www.bbvaapimarket.com/es/mundo-api/infografia-que-es-una-api/)).
* ¿Qué es una API? por CódigoFacilito ([Video](https://www.youtube.com/watch?v=OqZbg1OIPBE)).

En resumen, las APIs establecen un conjunto de servicios que están disponibles para el uso de otras aplicaciones, y las reglas que deben seguirse para acceder a ellos. Un tipo específicos de APIs son las basadas en web o web-based APIs, las cuales utilizan servicios web para el intercambio de información. Consideremos que se desea acceder a un conjunto de datos específicos a través de una web-based API. Comúnmente, el programa hará una petición a la API via HTTP indicando la información que se desea obtener. La API devolverá los datos en formatos estándar como JSON.

Considera las siguientes APIs:
* [Open API](http://open-notify.org). Esta API nos brinda información sobre la Estación Espacial Internacional.
* [Sunrise Sunset](https://sunrise-sunset.org/api). Esta API nos brinda información sobre la hora de salida y puesta del Sol.


### 3.1 Posición de la ISS

La posición de la Estación Espacial Internacional puede accederse mediante la siguiente [endpoint](http://open-notify.org/Open-Notify-API/ISS-Location-Now/). Observa que la documentación describe cómo acceder a los datos.


In [30]:
import requests

In [31]:
# Acceso a la Posición (abrir URL)
url = "http://api.open-notify.org/iss-now.json"
results = requests.get(url)

In [32]:
results.text

'{"timestamp": 1759358261, "message": "success", "iss_position": {"longitude": "114.3987", "latitude": "-34.6614"}}'

In [33]:
# Alternativa 1
data = json.loads(results.text)
data

{'timestamp': 1759358261,
 'message': 'success',
 'iss_position': {'longitude': '114.3987', 'latitude': '-34.6614'}}

In [34]:
# Alternativa 2
data = results.json()
data

{'timestamp': 1759358261,
 'message': 'success',
 'iss_position': {'longitude': '114.3987', 'latitude': '-34.6614'}}

In [35]:
# Accedamos a su latitud y longitud
lat = data["iss_position"]["latitude"]
lon = data["iss_position"]["longitude"]

In [36]:
print(f"lat:  {lat}")
print(f"lon:  {lon}")

lat:  -34.6614
lon:  114.3987


### 3.2 Personas en el espacio

La información de las personas en el espacio puede accederse mediante el siguiente [endpoint](http://open-notify.org/Open-Notify-API/People-In-Space/). Observa que la documentación describe cómo acceder a los datos.

In [38]:
# URL
url = "http://api.open-notify.org/astros.json"

# Petición de los Datos
results = requests.get(url)

# Datos
data = results.json()

In [39]:
data

{'people': [{'craft': 'ISS', 'name': 'Oleg Kononenko'},
  {'craft': 'ISS', 'name': 'Nikolai Chub'},
  {'craft': 'ISS', 'name': 'Tracy Caldwell Dyson'},
  {'craft': 'ISS', 'name': 'Matthew Dominick'},
  {'craft': 'ISS', 'name': 'Michael Barratt'},
  {'craft': 'ISS', 'name': 'Jeanette Epps'},
  {'craft': 'ISS', 'name': 'Alexander Grebenkin'},
  {'craft': 'ISS', 'name': 'Butch Wilmore'},
  {'craft': 'ISS', 'name': 'Sunita Williams'},
  {'craft': 'Tiangong', 'name': 'Li Guangsu'},
  {'craft': 'Tiangong', 'name': 'Li Cong'},
  {'craft': 'Tiangong', 'name': 'Ye Guangfu'}],
 'number': 12,
 'message': 'success'}

In [40]:
data["number"]

12

In [41]:
# Accedamos al nombre de cada astronauta
for astronaut_data in data["people"]:
  print(astronaut_data["name"])

Oleg Kononenko
Nikolai Chub
Tracy Caldwell Dyson
Matthew Dominick
Michael Barratt
Jeanette Epps
Alexander Grebenkin
Butch Wilmore
Sunita Williams
Li Guangsu
Li Cong
Ye Guangfu


### 3.3 Uso de Parámetros

La API Sunrise-Sunset provee los tiempos de salida y puesta del sol dada la latitud, longitud y fecha. La documentación de la misma se encuentra en el siguiente [enlace](https://sunrise-sunset.org/api).

Observa con detenimiento, la manera en que se estructura la URL y cómo se proporcionan los datos.

In [47]:
# URL (ver documentación)
url = "https://api.sunrise-sunset.org/json"

In [48]:
# Parámetros
params = {'lat' : "20.9888",
          'lng' : "-89.7373",
          'date': "2023-09-11"}

In [49]:
# Petición de Información
response = requests.get(url, params=params)

In [50]:
# Accedo a la URL de la petición
response.url

'https://api.sunrise-sunset.org/json?lat=20.9888&lng=-89.7373&date=2023-09-11'

In [51]:
# Datos obtenidos
data = response.json()
data

{'results': {'sunrise': '11:44:00 AM',
  'sunset': '12:07:08 AM',
  'solar_noon': '5:55:34 PM',
  'day_length': '12:23:08',
  'civil_twilight_begin': '11:22:53 AM',
  'civil_twilight_end': '12:28:16 AM',
  'nautical_twilight_begin': '10:56:54 AM',
  'nautical_twilight_end': '12:54:14 AM',
  'astronomical_twilight_begin': '10:30:43 AM',
  'astronomical_twilight_end': '1:20:25 AM'},
 'status': 'OK',
 'tzid': 'UTC'}