**Ejecuta esta línea para cargar los archivos necesarios para el notebook**

In [None]:
!wget https://raw.githubusercontent.com/dduril/Movies-JSON/master/marvel-cinematic-universe.json

--2022-03-16 00:33:51--  https://raw.githubusercontent.com/dduril/Movies-JSON/master/marvel-cinematic-universe.json
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.110.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 10199 (10.0K) [text/plain]
Saving to: ‘marvel-cinematic-universe.json’


2022-03-16 00:33:51 (62.7 MB/s) - ‘marvel-cinematic-universe.json’ saved [10199/10199]



# Manejo de archivos 2
Estudiemos el manejo de tipos especiales de archivos, estos están diseñados para almacenar de forma estructurada la información, facilitando su procesamiento con lenguajes de programación. Iniciaremos con los archivos en formato ***JSON***.

## ¿Qué es JSON?
JSON o JavaScript Object Notation es un formato para estructurar datos. Este formato de datos es especialmente utilizado por las aplicaciones web para comunicarse entre sí. Todos los archivos con este formato deben tener la extensión `.json` para diferenciarlos.



###Características

* Es legible y escribible por humanos.
* Es un formato de intercambio de datos basado en texto ligero, lo que significa que es más sencillo de leer y escribir en comparación con XML.
* Se utiliza ampliamente como formato de almacenamiento y comunicación de datos en la web.
* Aunque se deriva de un subconjunto de JavaScript, es independiente del lenguaje. Por lo tanto, el código para generar y analizar los datos JSON puede ser escrito en cualquier otro lenguaje de programación.


###Reglas de la **sintaxis**
La sintaxis de los JSON se deriva de la sintaxis de la notación de objetos de JavaScript:

* Los datos están en pares `nombre:valor` y cada paquete de datos está rodeado por llaves `{ }`

```
{ "nombre":"Thanos" }
```

¿Te recuerda a alguna estructura que ya hemos estudiado?

* Los datos están separados por comas
```
{ 
    "nombre":"Thanos",
    "ocupación":"Destruir la mitad del universo"
}
```

* Los corchetes contienen listas 

```
{ 
    "nombre":"Thanos",
    "ocupación":"Destruir la mitad del universo",
    "poderes":[
        "Puede destruir cualquier cosa con un chasquido de dedos",
        "Resistencia al daño", 
        "Reflejos sobrehumanos"
    ] 
}

```
* Es posible tener arreglos de objetos JSON.

```
{
    "Avengers": [
  
        {
          "nombre" : "Tony stark",
          "A.K.A" : "Iron man",
          "habilidades" : [ "Genio", "Billonario",
                        "Playboy", "Filántropo" ]
        },
  
        {
          "nombre" : "Peter parker",
          "A.K.A" : "Spider man",
          "habilidades" : [ "Telarañas", "Sentido Arácnido" ]
        }
    ]
}

```

## Lectura de archivos JSON

Intentemos primero abrir un archivo como aprendimos en la sección pasada, ¿cómo leería Python su interior? Para este notebook usaremos una base de datos en formato JSON, que contiene información variada sobre las películas del universo cinematográfico de Marvel. Tenemos una clave principal `Marvel Cinematic Universe` que almacena en su interior cada película como objetos JSON, así, cada película tendrá por clave su nombre (ej: `Iron Man` o `Marvel's The Avengers`) y en su interior hay información como la fecha de estreno o las ganancias de la película.

In [None]:
#Carguemos el archivo que descargamos en la primera línea de código

with open("marvel-cinematic-universe.json") as marvel:
    print(marvel.read())

{
	"Marvel Cinematic Universe" : {
		"Iron Man": {
			"movie_id" : 1,
			"title" : "Iron Man",
			"phase" : "Phase One: Avengers Assembled",
			"category_name" : "Action",
			"release_year" : 2015,
			"running_time" : 126,
			"rating_name" : "PG-13",
			"disc_format_name" : "Blu-ray",
			"number_discs" : 1,
			"viewing_format_name" : "Widescreen",
			"aspect_ratio_name" : "2.35:1",
			"status" : 1,
			"release_date" : "May 2, 2008",
			"budget" : "140,000,000",
			"gross" : "318,298,180",
			"time_stamp" : "2015-05-03"
		},
		"The Incredible Hulk": {
			"movie_id" : 2,
			"title" : "The Incredible Hulk",
			"phase" : "Phase One: Avengers Assembled",
			"category_name" : "Action",
			"release_year" : 2008,
			"running_time" : 112,
			"rating_name" : "PG-13",
			"disc_format_name" : "DVD",
			"number_discs" : 3,
			"viewing_format_name" : "Widescreen",
			"aspect_ratio_name" : "2.35:1",
			"status" : 1,
			"release_date" : "June 13, 2008",
			"budget" : "150,000,000",
			"gross" : "134,5

Como vemos, procesar este archivo para extraer la información, con las técnicas que conocemos sería un trabajo bastante tedioso. Por suerte, Python cuenta con una librería que nos simplifica todo este trabajo.


## Trabajar con datos JSON en Python 

El primer paso que debemos realizar para leer nuestro archivo es importar la librería.

In [None]:
import json

Luego, usando la sentencia `with` abrimos el archivo y lo usamos como argumento en la función `load` que hace parte de la librería.

In [None]:
with open("marvel-cinematic-universe.json") as marvel:
    data = json.load(marvel)
print(type(data),data)

<class 'dict'> {'Marvel Cinematic Universe': {'Iron Man': {'movie_id': 1, 'title': 'Iron Man', 'phase': 'Phase One: Avengers Assembled', 'category_name': 'Action', 'release_year': 2015, 'running_time': 126, 'rating_name': 'PG-13', 'disc_format_name': 'Blu-ray', 'number_discs': 1, 'viewing_format_name': 'Widescreen', 'aspect_ratio_name': '2.35:1', 'status': 1, 'release_date': 'May 2, 2008', 'budget': '140,000,000', 'gross': '318,298,180', 'time_stamp': '2015-05-03'}, 'The Incredible Hulk': {'movie_id': 2, 'title': 'The Incredible Hulk', 'phase': 'Phase One: Avengers Assembled', 'category_name': 'Action', 'release_year': 2008, 'running_time': 112, 'rating_name': 'PG-13', 'disc_format_name': 'DVD', 'number_discs': 3, 'viewing_format_name': 'Widescreen', 'aspect_ratio_name': '2.35:1', 'status': 1, 'release_date': 'June 13, 2008', 'budget': '150,000,000', 'gross': '134,518,390', 'time_stamp': '2008-10-21'}, 'Iron Man 2': {'movie_id': 3, 'title': 'Iron Man 2', 'phase': 'Phase One: Avengers A

La librería `json` ha convertido el archivo en un diccionario de Python y por lo tanto podemos acceder a sus datos como aprendimos en las clases pasadas.

In [None]:
for k in data['Marvel Cinematic Universe']['Iron Man']:
    print(f"{k} : {data['Marvel Cinematic Universe']['Iron Man'][k]} ")
    #recordemos que debemos usar comillas dobles para usar comillas sencillas 
    #dentro de un string

movie_id : 1 
title : Iron Man 
phase : Phase One: Avengers Assembled 
category_name : Action 
release_year : 2015 
running_time : 126 
rating_name : PG-13 
disc_format_name : Blu-ray 
number_discs : 1 
viewing_format_name : Widescreen 
aspect_ratio_name : 2.35:1 
status : 1 
release_date : May 2, 2008 
budget : 140,000,000 
gross : 318,298,180 
time_stamp : 2015-05-03 


In [None]:
sub_diccionario = data['Marvel Cinematic Universe']['Doctor Strange']
print(sub_diccionario)
print(sub_diccionario['release_date'])

{'movie_id': 14, 'title': 'Doctor Strange', 'phase': 'Phase Three', 'category_name': 'Science Fiction', 'release_year': 2016, 'running_time': 115, 'rating_name': 'PG-13', 'disc_format_name': 'Blu-ray', 'number_discs': 1, 'viewing_format_name': 'Widescreen', 'aspect_ratio_name': '2.39:1', 'status': 1, 'release_date': 'November 4, 2016', 'budget': '165,000,000', 'gross': '232,641,920', 'time_stamp': '2017-11-09'}
November 4, 2016


## Conversión de datos a JSON

JSON al estar originalmente planteado como parte del lenguaje Java Script, cambia en su formato la sintaxis de algunos de los datos que usamos en Python.

|Python object     |	JSON object  |
|:----------------:|:---------------:|
|`dict`            |	`object `    |
|`list`, `tuple`   |	`array`      |
|`str `            |	`string`     |
|`int`, `float`    |	`number`     |
|`True`            |	`true`       |
|`False `          |	`false `     |
|`None`	           |  `null`         |

Para garantizar que a la hora de exportar nuestros datos al archivo JSON estén en el formato correcto, debemos usar las funciones `dump` o `dumps`.

* El método `json.dump()` (sin "s" en "dump") se utiliza para escribir un objeto Python serializado como datos con formato JSON en un archivo.
* El método `json.dumps()` codifica cualquier objeto Python en una cadena con formato JSON.

Así pues, `dump` en singular puede convertir un diccionario completo directamente a un archivo en formato JSON, mientras que `dumps` en plural, permite guardar dentro de la memoria un string en formato JSON, con el cual podemos trabajar dentro del código del programa, si así lo quisiéramos.

> la serialización consiste en un proceso de codificación de un objeto en un medio de almacenamiento con el fin de transmitirlo a través de una conexión en red como una serie de bytes o en un formato humanamente más legible como JSON.


In [None]:
print('lista',json.dumps(['hugo', "paco", "luis"]))

lista ["hugo", "paco", "luis"]


In [None]:
print('tupla',json.dumps(('hugo', "paco", "luis")))

tupla ["hugo", "paco", "luis"]


In [None]:
print(json.dumps("Hola"))

"Hola"


In [None]:
print(json.dumps(123))
 

123


In [None]:
print(json.dumps(23.572))

23.572


In [None]:
print(json.dumps(True))
print(json.dumps(False))

true
false


In [None]:
print(json.dumps(None))

null


Ahora, exportemos el diccionario que creamos en sección anterior a un archivo JSON

In [None]:
with open('doctor_strange.json', 'w') as json_file:
  json.dump(sub_diccionario, json_file) #usamos dump para serializar el dict 
                                        #como archivo JSON

Abramos el nuevo archivo para comprobar su contenido.

In [None]:
with open('doctor_strange.json', 'r') as salida:
    print(salida.read())

{"movie_id": 14, "title": "Doctor Strange", "phase": "Phase Three", "category_name": "Science Fiction", "release_year": 2016, "running_time": 115, "rating_name": "PG-13", "disc_format_name": "Blu-ray", "number_discs": 1, "viewing_format_name": "Widescreen", "aspect_ratio_name": "2.39:1", "status": 1, "release_date": "November 4, 2016", "budget": "165,000,000", "gross": "232,641,920", "time_stamp": "2017-11-09"}
