# Adquisición de datos modo `DIRECTO`

- [X] descarga directa
- petición GET a través de API de terceros (ej. AEMET, Ayto. Barcelona....)
- web crawling (que es una práctica ilegal...pero muy de moda entre los hackers!?¿!)

## Introducción
Internet es una fuente de datos inmensa que podemos aprovechar para nuestros análisis. En esta unidad, revisaremos tres métodos de adquisición de datos de internet:

La descarga directa de los datos.
La petición de datos a otras API de terceros.
El *crawling* de los datos en sitios web.
Antes de empezar con los ejemplos prácticos de adquisición de datos con los tres métodos propuestos, presentaremos a nivel teórico los conceptos necesarios para entender los dos últimos métodos, la petición de datos a otras API de terceros y el crawling, que incluyen algunas tecnologías que quizás desconocéis.

### 2.1 Bibliografía

* Web API: https://en.wikipedia.org/wiki/Web_API
* JSON: https://www.w3schools.com/js/
* XML: https://www.w3schools.com/xml/
* HTML: https://www.w3schools.com/html/

### Recursos

Algunos de los sitios web donde podéis encontrar conjuntos de datos para analizar son:
- [Open Data gencat](http://dadesobertes.gencat.cat/en/), el portal de datos abiertos de la Generalitat.
- [datos.gov.es](http://datos.gob.es/es/catalogo), el catálogo de conjuntos de datos del Gobierno de España.
- [European Data Sources](https://data.europa.eu/), el portal de datos abiertos de la Unión Europea.
- [Mark Newman network datasets](http://www-personal.umich.edu/~mejn/netdata/), conjuntos de datos en forma de red recopilados por Mark Newman.
- [Stanford Large Network Dataset Collection](http://snap.stanford.edu/data/), otra recopilación de conjuntos de datos en forma de red, en este caso creado por Jure Leskovec.
- [SecRepo.com](http://www.secrepo.com/), datos relacionados con la seguridad.
- [AWS Public Datasets](https://aws.amazon.com/public-datasets/), conjuntos de datos recopilados y hospedados por Amazon.
- [UC Irvine Machine Learning Repository](http://archive.ics.uci.edu/ml/), datos recopilados por un grupo de investigación de la Universidad de California en Irvine.
- El [repositorio de Five Thirty Eight](https://github.com/fivethirtyeight), que recoge datos utilizados en artículos de la publicación y que ya hemos visto en la unidad anterior.



## Primer paso

El labor de un analista de datos es tratar los ficheros en formato `JSON`

In [5]:
# Primer vamos a entender el funcionamiento de un fichero JSON a través los diccionarios de python (dict)
# Construimos un diccionar de ejemplo y mostramos los datos
diccionario_ejemplo = {"nombre":"Maria", "apellidos":{"apellido1":"Perez","apellido2":"Garcia"}, "edad":56, "geoloc":(-14.5,56.3),
                       "mascotas":[{"perro":"Chucy"},{"gato":"Fluffy"}]}
print(diccionario_ejemplo)

{'nombre': 'Maria', 'apellidos': {'apellido1': 'Perez', 'apellido2': 'Garcia'}, 'edad': 56, 'geoloc': (-14.5, 56.3), 'mascotas': [{'perro': 'Chucy'}, {'gato': 'Fluffy'}]}


In [6]:
type(diccionario_ejemplo)

dict

In [7]:
# Paralelamente construimos una lista
lista_ejemplo = [1,2,3]
print(lista_ejemplo)

[1, 2, 3]


In [8]:
type(lista_ejemplo)

list

In [13]:
type(diccionario_ejemplo['mascotas'])

list

In [14]:
nested_dict = [diccionario_ejemplo]
nested_dict
print(type(nested_dict))

<class 'list'>


In [15]:
nested_dict

[{'apellidos': {'apellido1': 'Perez', 'apellido2': 'Garcia'},
  'edad': 56,
  'geoloc': (-14.5, 56.3),
  'mascotas': [{'perro': 'Chucy'}, {'gato': 'Fluffy'}],
  'nombre': 'Maria'}]

In [16]:
len(nested_dict)

1

In [17]:
nested_dict[0]

{'apellidos': {'apellido1': 'Perez', 'apellido2': 'Garcia'},
 'edad': 56,
 'geoloc': (-14.5, 56.3),
 'mascotas': [{'perro': 'Chucy'}, {'gato': 'Fluffy'}],
 'nombre': 'Maria'}

In [18]:
type(nested_dict[0])

dict

In [19]:
# trataremos los json a parte
import json
# mostramos la representación del json del diccionario
json_dict = json.dumps(diccionario_ejemplo)

In [20]:
# mostramos la estructura del json
print(type(json_dict))

<class 'str'>


In [21]:
# visualizamos el json
json_dict

'{"nombre": "Maria", "apellidos": {"apellido1": "Perez", "apellido2": "Garcia"}, "edad": 56, "geoloc": [-14.5, 56.3], "mascotas": [{"perro": "Chucy"}, {"gato": "Fluffy"}]}'

In [22]:
json_dict['nombre']

TypeError: ignored

In [23]:
# Mostramos la representación del json de la lista
json_lista = json.dumps(lista_ejemplo)
print(type(json_lista))

<class 'str'>


In [24]:
json_lista

'[1, 2, 3]'

Este proceso a través de la función `json.dumps` del json, es **serializar** el objeto, en este caso siempre será en formato 'string'.

***

El proceso inverso conocido como **deserializar** crea objetos Python en `list` y `dict` a través de la función `json.loads`

In [25]:
# Como el caso anterior convertimos los JSONs en dict y list
json2dict = json.loads(json_dict)
print(json2dict)

{'nombre': 'Maria', 'apellidos': {'apellido1': 'Perez', 'apellido2': 'Garcia'}, 'edad': 56, 'geoloc': [-14.5, 56.3], 'mascotas': [{'perro': 'Chucy'}, {'gato': 'Fluffy'}]}


In [26]:
type(json2dict)

dict

In [27]:
# Sin embargo convertir a json datos en una lista a diccionarios, tienen quer ser en un formato a class: STR, BYTES, BYTEARRAY
json2dict_2 = json.loads(nested_dict)

TypeError: ignored

In [28]:
type(nested_dict)

list

In [29]:
# Convertimos el objeto (anteriormente en lista) de json a list
json2list = json.loads(json_lista)
print(json2list)

[1, 2, 3]


In [30]:
type(json2list)

list

In [31]:
# Si realizamos el dump de un diccionario anidad
json_anidado = json.dumps(nested_dict)
print(json_anidado)

[{"nombre": "Maria", "apellidos": {"apellido1": "Perez", "apellido2": "Garcia"}, "edad": 56, "geoloc": [-14.5, 56.3], "mascotas": [{"perro": "Chucy"}, {"gato": "Fluffy"}]}]


In [32]:
type(json_anidado)

str

In [33]:
json2nested = json.loads(json_anidado)
print(json2nested)


[{'nombre': 'Maria', 'apellidos': {'apellido1': 'Perez', 'apellido2': 'Garcia'}, 'edad': 56, 'geoloc': [-14.5, 56.3], 'mascotas': [{'perro': 'Chucy'}, {'gato': 'Fluffy'}]}]


In [34]:
type(json2nested)

list

In [35]:
type(json2nested[0])

dict

***
Para mejorar la legibilidad de los datos que obtendremos de las API, definiremos una función que mostrará cadenas JSON por pantalla formateadas para mejorar la lectura. La función aceptará tanto cadenas de carácteres con contenido JSON como objetos Python, y mostrará el contenido por pantalla.

Además, la función recibirá un parámetro opcional que nos permitirá indicar el número máximo de líneas que hay que mostrar. Así, podremos usar la función para visualizar las primeras líneas de un JSON largo, sin tener que mostrar el JSON completo por pantalla.

In [37]:
json_dict

'{"nombre": "Maria", "apellidos": {"apellido1": "Perez", "apellido2": "Garcia"}, "edad": 56, "geoloc": [-14.5, 56.3], "mascotas": [{"perro": "Chucy"}, {"gato": "Fluffy"}]}'

In [38]:
json2dict

{'apellidos': {'apellido1': 'Perez', 'apellido2': 'Garcia'},
 'edad': 56,
 'geoloc': [-14.5, 56.3],
 'mascotas': [{'perro': 'Chucy'}, {'gato': 'Fluffy'}],
 'nombre': 'Maria'}

In [39]:
# Definimos una función `json_print` que tiene un parámetro (json_data) y uno opcional (limit)
# El parámetro sort_keys FALSE para ordenar o no alfabeticamente
# el parámetro indent para buscar entre los anidados (niveles)
def json_print(json_data, limit=None):
    if isinstance(json_data, (str)):
        json_data = json.loads(json_data)
    nice = json.dumps(json_data, sort_keys=False, indent=3, separators=(',',':'))
    print("\n".join(nice.split("\n")[0:limit]))
    if limit is not None:
        print("[....]")

In [40]:
json_print(json_dict)

{
   "nombre":"Maria",
   "apellidos":{
      "apellido1":"Perez",
      "apellido2":"Garcia"
   },
   "edad":56,
   "geoloc":[
      -14.5,
      56.3
   ],
   "mascotas":[
      {
         "perro":"Chucy"
      },
      {
         "gato":"Fluffy"
      }
   ]
}


In [41]:
# Aplicamos la función a un tweet
tweet = {
  "created_at": "Thu Apr 06 15:24:15 +0000 2017",
  "id_str": "850006245121695744",
  "text": "1\/ Today we\u2019re sharing our vision for the future of the Twitter API platform!\nhttps:\/\/t.co\/XweGngmxlP",
  "user": {
    "id": 2244994945,
    "name": "Twitter Dev",
    "screen_name": "TwitterDev",
    "location": "Internet",
    "url": "https:\/\/dev.twitter.com\/",
    "description": "Your official source for Twitter Platform news, updates & events. Need technical help? Visit https:\/\/twittercommunity.com\/ \u2328\ufe0f #TapIntoTwitter"
  },
  "place": {   
  },
  "entities": {
    "hashtags": [      
    ],
    "urls": [
      {
        "url": "https:\/\/t.co\/XweGngmxlP",
        "unwound": {
          "url": "https:\/\/cards.twitter.com\/cards\/18ce53wgo4h\/3xo1c",
          "title": "Building the Future of the Twitter API Platform"
        }
      }
    ],
    "user_mentions": [     
    ]
  }
}

In [42]:
type(tweet)

dict

In [43]:
json_print(tweet)

{
   "created_at":"Thu Apr 06 15:24:15 +0000 2017",
   "id_str":"850006245121695744",
   "text":"1\\/ Today we\u2019re sharing our vision for the future of the Twitter API platform!\nhttps:\\/\\/t.co\\/XweGngmxlP",
   "user":{
      "id":2244994945,
      "name":"Twitter Dev",
      "screen_name":"TwitterDev",
      "location":"Internet",
      "url":"https:\\/\\/dev.twitter.com\\/",
      "description":"Your official source for Twitter Platform news, updates & events. Need technical help? Visit https:\\/\\/twittercommunity.com\\/ \u2328\ufe0f #TapIntoTwitter"
   },
   "place":{},
   "entities":{
      "hashtags":[],
      "urls":[
         {
            "url":"https:\\/\\/t.co\\/XweGngmxlP",
            "unwound":{
               "url":"https:\\/\\/cards.twitter.com\\/cards\\/18ce53wgo4h\\/3xo1c",
               "title":"Building the Future of the Twitter API Platform"
            }
         }
      ],
      "user_mentions":[]
   }
}


In [45]:
print(diccionario_ejemplo)

{'nombre': 'Maria', 'apellidos': {'apellido1': 'Perez', 'apellido2': 'Garcia'}, 'edad': 56, 'geoloc': (-14.5, 56.3), 'mascotas': [{'perro': 'Chucy'}, {'gato': 'Fluffy'}]}


In [46]:
diccionario_ejemplo

{'apellidos': {'apellido1': 'Perez', 'apellido2': 'Garcia'},
 'edad': 56,
 'geoloc': (-14.5, 56.3),
 'mascotas': [{'perro': 'Chucy'}, {'gato': 'Fluffy'}],
 'nombre': 'Maria'}

In [44]:
json_print(diccionario_ejemplo)

{
   "nombre":"Maria",
   "apellidos":{
      "apellido1":"Perez",
      "apellido2":"Garcia"
   },
   "edad":56,
   "geoloc":[
      -14.5,
      56.3
   ],
   "mascotas":[
      {
         "perro":"Chucy"
      },
      {
         "gato":"Fluffy"
      }
   ]
}


***

# Adquisión de datos `API`

- [ ] descarga directa
- [X] petición GET a través de API de terceros (ej. AEMET, Ayto. Barcelona....)
- web crawling (que es una práctica ilegal...pero muy de moda entre los hackers!?¿!)

## Acceso a API manualmente

Podemos utilizar la librería de Python [Requests](http://docs.python-requests.org/) para realizar peticiones a web API de manera manual. Para ello, tendremos que acceder a la documentación de la API con la que queramos actuar, construir manualmente las peticiones para obtener la información deseada y procesar también manualmente la respuesta recibida.

Veamos un ejemplo de petición HTTP a una API pública. El sitio http://postcodes.io/ ofrece una API de geolocalización sobre códigos postales en el Reino Unido. Leyendo la documentación, podemos ver que tiene un método GET con la URL http://api.postcodes.io/postcodes/código-postal que nos retorna información del código postal especificado. 

Una **API** (del inglés, Application Programming Interface) es un conjunto de métodos de comunicación entre varios componentes de software.

Las API facilitan el trabajo de integración de programas ya que permiten ofrecer una interfaz clara y bien especificada con la que interactuar con una aplicación, ocultando los detalles de la implementación concreta y exponiendo únicamente funciones específicas de interés.

La definición de API es muy genérica y podemos encontrar API en muchos contextos. En esta unidad, nos centraremos en el uso de API web para la adquisición de datos de servicios de terceros. Las API web se definen habitualmente como un conjunto de peticiones HTTP junto con la especificación de la estructura de los datos de las respuestas, normalmente en formato JSON o XML.

El uso de API web está muy extendido actualmente para interactuar con grandes proveedores de servicios en Internet. Algunos ejemplos de API populares son las de [Google maps](https://developers.google.com/maps/), [YouTube](https://developers.google.com/youtube/), [Spotify](https://developer.spotify.com/web-api/), [Twitter](https://developer.spotify.com/web-api/) o [Facebook](https://developer.spotify.com/web-api/).

Decimos que una API es RESTful (o, a veces, simplemente REST) cuando cumple un conjunto de características, entre las cuales destaca que no mantiene el estado entre peticiones. Es decir, toda la información necesaria para responder una petición se encuentra en la petición individual (y no depende de ningún estado almacenado por el servidor). 

### 3.2 Peticiones HTTP
Para interactuar con una web API realizaremos una petición HTTP. A su vez, el servidor nos responderá con un mensaje de respuesta HTTP. Las peticiones y respuestas HTTP se estructuran en tres partes:

Una línea inicial de petición, que incluye la acción que hay que realizar (el método de la petición) y la URL del recurso, en las peticiones; y el código de estado y el mensaje asociado, en el caso de las respuestas.
La cabecera, que incluye metadatos con varias finalidades, por ejemplo, para describir el contenido, realizar la autenticación o controlar las cookies.
Una línea en blanco que separa la cabecera del cuerpo.
El cuerpo, que puede estar vacío o contener datos.
En la siguiente imagen se muestra un ejemplo simplificado de una petición y una respuesta HTTP:

In [47]:
# importar la librería requests
import requests

# realizamos la petición GET a la API por un código postal 'E98 1TT'
respuesta = requests.get('http://api.postcodes.io/postcodes/E981TT')

In [50]:
# mostramos la respuesta
print(u"Código de estado de la petición es: ", respuesta.status_code, "\n")

Código de estado de la petición es:  200 



### Respuestas HTTP
La línea inicial de las respuestas HTTP contiene el código de estado, un número entero de tres cifras que informa sobre el intento de entender y procesar la petición HTTP. El primer dígito del número define el tipo de respuesta. Actualmente, existen cinco tipos reconocidos:

- 1xx: informacional.
- 2xx: éxito.
- 3xx: redirección.
- 4xx: error del cliente.
- 5xx: error del servidor.

Así, cuando navegamos por Internet, normalmente nuestras peticiones se responden correctamente, devolviendo el código de estado 200. De vez en cuando nos encontramos también con errores del cliente. Por ejemplo, el error 404 nos indica que nuestra máquina ha sido capaz de comunicarse con el servidor, pero que el recurso que hemos solicitado no existe. Podemos forzar este error accediendo a [URLs no válidas](https://es.wikipedia.org/wiki/HTTP_404).

Las acciones o métodos más usados en interacción con web API son:

- GET: permite obtener información del recurso especificado.
- POST: permite enviar datos al recurso especificado.
- PUT: carga datos actualizando los ya existentes en el recurso especificado.
- DELETE: elimina información del recurso especificado.

In [51]:
print(respuesta.headers)

{'Date': 'Sat, 10 Jul 2021 11:05:30 GMT', 'Content-Type': 'application/json; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'x-gnu': 'Michael J Blanchard', 'access-control-allow-origin': '*', 'etag': 'W/"373-/8yjBdTw42so+uUhFTU7MuYLzQA"', 'CF-Cache-Status': 'MISS', 'Report-To': '{"endpoints":[{"url":"https:\\/\\/a.nel.cloudflare.com\\/report\\/v2?s=RSpjnNs5G89fVw5sqKzEfLRVpevY5TcKa%2BxPoiemW6P4FLiqkOBFD07amuWH4WFSCexb3Ws5S2pFhlpqSQpZ6j4lBcUlzwBkmW0%2Fh%2Frnbruhy%2Bvj5NHHpe0o%2BR%2Bh"}],"group":"cf-nel","max_age":604800}', 'NEL': '{"report_to":"cf-nel","max_age":604800}', 'Vary': 'Accept-Encoding', 'Server': 'cloudflare', 'CF-RAY': '66c9513c0863b9fe-ATL', 'Content-Encoding': 'gzip'}


In [52]:
print(respuesta.content)

b'{"status":200,"result":{"postcode":"E98 1TT","quality":1,"eastings":534427,"northings":180564,"country":"England","nhs_ha":"London","longitude":-0.064393,"latitude":51.508024,"european_electoral_region":"London","primary_care_trust":"Tower Hamlets","region":"London","lsoa":"Tower Hamlets 026B","msoa":"Tower Hamlets 026","incode":"1TT","outcode":"E98","parliamentary_constituency":"Poplar and Limehouse","admin_district":"Tower Hamlets","parish":"Tower Hamlets, unparished area","admin_county":null,"admin_ward":"St Katharine\'s & Wapping","ced":null,"ccg":"NHS North East London","nuts":"Tower Hamlets","codes":{"admin_district":"E09000030","admin_county":"E99999999","admin_ward":"E05009330","parish":"E43000220","parliamentary_constituency":"E14000882","ccg":"E38000255","ccg_id":"A3A8R","ced":"E99999999","nuts":"TLI42","lsoa":"E01004294","msoa":"E02000889","lau2":"E09000030"}}}'


In [53]:
jsonAPI = respuesta.content

In [54]:
jsonAPI

b'{"status":200,"result":{"postcode":"E98 1TT","quality":1,"eastings":534427,"northings":180564,"country":"England","nhs_ha":"London","longitude":-0.064393,"latitude":51.508024,"european_electoral_region":"London","primary_care_trust":"Tower Hamlets","region":"London","lsoa":"Tower Hamlets 026B","msoa":"Tower Hamlets 026","incode":"1TT","outcode":"E98","parliamentary_constituency":"Poplar and Limehouse","admin_district":"Tower Hamlets","parish":"Tower Hamlets, unparished area","admin_county":null,"admin_ward":"St Katharine\'s & Wapping","ced":null,"ccg":"NHS North East London","nuts":"Tower Hamlets","codes":{"admin_district":"E09000030","admin_county":"E99999999","admin_ward":"E05009330","parish":"E43000220","parliamentary_constituency":"E14000882","ccg":"E38000255","ccg_id":"A3A8R","ced":"E99999999","nuts":"TLI42","lsoa":"E01004294","msoa":"E02000889","lau2":"E09000030"}}}'

In [56]:
type(jsonAPI)

bytes

In [57]:
json_print(jsonAPI)

TypeError: ignored

In [60]:
type(json.loads(jsonAPI))

dict

In [67]:
print(type(dict(respuesta.headers)))

<class 'dict'>


In [62]:
json2dictAPI = json.loads(jsonAPI)
json2dictAPI

{'result': {'admin_county': None,
  'admin_district': 'Tower Hamlets',
  'admin_ward': "St Katharine's & Wapping",
  'ccg': 'NHS North East London',
  'ced': None,
  'codes': {'admin_county': 'E99999999',
   'admin_district': 'E09000030',
   'admin_ward': 'E05009330',
   'ccg': 'E38000255',
   'ccg_id': 'A3A8R',
   'ced': 'E99999999',
   'lau2': 'E09000030',
   'lsoa': 'E01004294',
   'msoa': 'E02000889',
   'nuts': 'TLI42',
   'parish': 'E43000220',
   'parliamentary_constituency': 'E14000882'},
  'country': 'England',
  'eastings': 534427,
  'european_electoral_region': 'London',
  'incode': '1TT',
  'latitude': 51.508024,
  'longitude': -0.064393,
  'lsoa': 'Tower Hamlets 026B',
  'msoa': 'Tower Hamlets 026',
  'nhs_ha': 'London',
  'northings': 180564,
  'nuts': 'Tower Hamlets',
  'outcode': 'E98',
  'parish': 'Tower Hamlets, unparished area',
  'parliamentary_constituency': 'Poplar and Limehouse',
  'postcode': 'E98 1TT',
  'primary_care_trust': 'Tower Hamlets',
  'quality': 1,
  

In [63]:
type(json2dictAPI)

dict

In [69]:
type(respuesta.text)

str

In [70]:
respuesta.text

'{"status":200,"result":{"postcode":"E98 1TT","quality":1,"eastings":534427,"northings":180564,"country":"England","nhs_ha":"London","longitude":-0.064393,"latitude":51.508024,"european_electoral_region":"London","primary_care_trust":"Tower Hamlets","region":"London","lsoa":"Tower Hamlets 026B","msoa":"Tower Hamlets 026","incode":"1TT","outcode":"E98","parliamentary_constituency":"Poplar and Limehouse","admin_district":"Tower Hamlets","parish":"Tower Hamlets, unparished area","admin_county":null,"admin_ward":"St Katharine\'s & Wapping","ced":null,"ccg":"NHS North East London","nuts":"Tower Hamlets","codes":{"admin_district":"E09000030","admin_county":"E99999999","admin_ward":"E05009330","parish":"E43000220","parliamentary_constituency":"E14000882","ccg":"E38000255","ccg_id":"A3A8R","ced":"E99999999","nuts":"TLI42","lsoa":"E01004294","msoa":"E02000889","lau2":"E09000030"}}}'

In [72]:
import pandas as pd
dataset = pd.read_json(respuesta.text)

In [73]:
dataset

Unnamed: 0,status,result
admin_county,200,
admin_district,200,Tower Hamlets
admin_ward,200,St Katharine's & Wapping
ccg,200,NHS North East London
ced,200,
codes,200,"{'admin_district': 'E09000030', 'admin_county'..."
country,200,England
eastings,200,534427
european_electoral_region,200,London
incode,200,1TT


***

3.3 JSON y XML

Dos de los formatos más habituales para incluir datos en las respuestas de las web API son JSON y XML. Ambos formatos tienen varias propiedades en común. En primer lugar, fueron diseñados para ser legibles tanto por humanos como por ordenadores, lo que los hace ideales en este contexto. En segundo lugar, ambos incorporan información sobre la estructura de los datos que codifican. Finalmente, ambos almacenan los datos en texto claro. Sin embargo, ambos lenguajes presentan múltiples diferencias.

El formato **XML** (del inglés, eXtensible Markup Language) es un lenguaje de marcas que utiliza un conjunto de etiquetas no predefinido. Los documentos XML tienen un único elemento raíz del cual pueden colgar otros elementos. Los elementos se delimitan con una etiqueta inicial y una etiqueta final. Veamos un ejemplo de un sencillo documento XML:

```
<persona>
  <nombre>Yann</nombre>
  <apellidos>
    <apellido1>LeCun</apellido1>
    <apellido2>-</apellido2>
  </apellidos>
  <edad>56</edad>
</persona>
```

El formato **JSON** (del inglés, *JavaScript Object Notation*) es un subconjunto de la notación de objetos javascript. JSON se basa en dos estructuras de datos, el *array* y el objeto, que serían equivalentes a las listas y los diccionarios de Python que ya hemos introducido. 

Así, un *array* JSON es una lista ordenada de cero o más valores, por ejemplo:

```
["data", "science", "course"]
```

En este caso, el array está formado por cadenas de caracteres. 

Un objeto JSON es una colección no ordenada de pares de clave y valor. Por ejemplo: 

```
{
  "course": "Data Science",
  "year": 2017
}
```

Veamos un ejemplo de los datos que hemos representado anteriormente en XML, usando ahora el formato JSON:

```
{
  "nombre": "Yann",
  "apellidos": {
    "apellido1": "LeCun",
    "apellido2": "-"
  },
  "edad" : 56
}

```
En este caso, hemos usado un objeto con tres claves: la primera tiene como valor una cadena de caracteres, la segunda tiene como valor otro objeto y la tercera tiene como valor un entero.