# Manejo de archivos JSON
- JSON es un formato muy utilizado por archivos que contienen configuraciones.
- Quiere decir JavaScript Object Notation.
- Es liviano y sirve para transportar data. Además, es muy fácil de entender.
- Es la evolución de XML.
- https://en.wikipedia.org/wiki/JSON
- Aquí un ejemplo:

{

"empleados": [

    {"Nombre": "Luke", "Apellido": "Wilson"},
    
    {"Nombre": "Harry", "Apellido": "Potter"},
    
    {"Nombre": "Indiana", "Apellido": "Jones"}
    
]

}

In [2]:
# Se importa la librería general de json
# Se hizo un download del archivo "EmployeeData.json" desde https://www.appsloveworld.com/download-sample-json-file-with-multiple-records/
# Los archivos json pueden descargarse de cientos de fuentes, además de producirse como forma de intercambio de
# información entre aplicaciones y sitios
import json

# Se selecciona el archivo a abrir
with open('example.json', 'r') as json_file:
    employees_json = json.load(json_file)

print(employees_json)

{'employee': [{'id': '01', 'name': 'Rodrigo', 'department': 'ventas'}, {'id': '04', 'name': 'Nelson', 'department': 'RRHH'}]}


In [3]:
for i in employees_json['employee']: print(i)

{'id': '01', 'name': 'Rodrigo', 'department': 'ventas'}
{'id': '04', 'name': 'Nelson', 'department': 'RRHH'}


In [4]:
# Se obtiene el primer empleado
employees_json['employee'][0]['name']

'Rodrigo'

In [5]:
# Si bien el archivo se ve como una gran lista, se podría imprimir de una manera más visualmente fácil de entender
# usando indent
# Además se usa "sort_keys" para ordenar alfabéticamente las llaves del JSON
print(json.dumps(employees_json, sort_keys=True, indent=2))

{
  "employee": [
    {
      "department": "ventas",
      "id": "01",
      "name": "Rodrigo"
    },
    {
      "department": "RRHH",
      "id": "04",
      "name": "Nelson"
    }
  ]
}


# Escribiendo archivos JSON
- Se ha generado ya un archivo JSON.
- Ahora se tomarán algunas películas del array y se generará un archivo.

In [16]:
import csv
# Abre el archivo de lectura
file = open(r'./netflix_titles.csv')

# Lee el archivo en el objeto csvreader
csvreader = csv.reader(file)

header = []
header = next(csvreader)

# Extrae los datos a una lista
rows = []
for row in csvreader: rows.append(row)
    
# Para trabajar con filas y columnas, podemos usar numpy

# Importamos la función numpy
# https://numpy.org/doc/
import numpy as np
movies = np.array(rows)

In [17]:
# Se recuerda que la variables movies es del tipo nparray (todos los ítems son del mismo tipo)
# se la debe convertir a un dictionary
# Se usa enumerate para hacer la transformación

movies_dict = dict(enumerate(movies.flatten(), 1))

In [18]:
# Se verifica el tipo de movies_dict
type(movies_dict)

dict

In [19]:
# Se usa dumps de la librería json para pasar la salida a formato json
movies_json = json.dumps(movies_dict, indent=4)
movies_json



In [20]:
# Se puede ver que como no tenemos por el momento la información de los campos
# el JSON se generará con un auto-generado numérico

# Cómo se podría tener un JSON correctamente formado
# Donde se tengan los identificadores correspondientes a cada uno de los campos
# Obtiene los encabezados del archivo (header)
header

['show_id',
 'type',
 'title',
 'director',
 'cast',
 'country',
 'date_added',
 'release_year',
 'rating',
 'duration',
 'listed_in',
 'description']

In [21]:
# Primero se convierte el header a un array
movie_header = np.array(header)
type(movie_header)

numpy.ndarray

In [22]:
rows[0:1]
# La lista es una lista nested, eso quiere decir que es una lista de listas, que tiene que ser flatten
# es decir una lista con un solo nivel

[['s1',
  'Movie',
  'Dick Johnson Is Dead',
  'Kirsten Johnson',
  '',
  'United States',
  'September 25, 2021',
  '2020',
  'PG-13',
  '90 min',
  'Documentaries',
  'As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable.']]

In [23]:
# Convierte el array de listas en un array junto
flat_movies = [item for sublist in rows for item in sublist]
flat_movies[0:20]

['s1',
 'Movie',
 'Dick Johnson Is Dead',
 'Kirsten Johnson',
 '',
 'United States',
 'September 25, 2021',
 '2020',
 'PG-13',
 '90 min',
 'Documentaries',
 'As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable.',
 's2',
 'TV Show',
 'Blood & Water',
 '',
 'Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng',
 'South Africa',
 'September 24, 2021',
 '2021']

In [24]:
# Combina los headers con cada fila
# Ref: https://stackoverflow.com/questions/55789565/how-to-make-a-json-from-two-lists-in-python
# Ref2:
len_headers = len(header)
len_data = len(flat_movies)
num_movies = int(len_data / len_headers)
flat_header = header * num_movies # Python permite la multiplicación de listas

print(len_headers)
print(len_data)
print(num_movies)

12
105684
8807


In [25]:
# Verifica que ambas listas tengan el mismo tamaño
print(len(flat_header))
print(len(flat_movies))

105684
105684


In [26]:
# Se puede generar una lista de diccionarios, como la que se ve a continuación, con las primeras 3 películas
final_list = []
header_length = len(flat_header) # No. of columns
_splitted_dict_list = [{k: v} for k, v in zip(flat_header, flat_movies)]
for v in range(0, 3*len_headers, 1): # Primeras 3 películas
    final_list.append({nk:nv for nested_dict in _splitted_dict_list[v:v+1] for nk, nv in nested_dict.items()})

final_list

[{'show_id': 's1'},
 {'type': 'Movie'},
 {'title': 'Dick Johnson Is Dead'},
 {'director': 'Kirsten Johnson'},
 {'cast': ''},
 {'country': 'United States'},
 {'date_added': 'September 25, 2021'},
 {'release_year': '2020'},
 {'rating': 'PG-13'},
 {'duration': '90 min'},
 {'listed_in': 'Documentaries'},
 {'description': 'As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable.'},
 {'show_id': 's2'},
 {'type': 'TV Show'},
 {'title': 'Blood & Water'},
 {'director': ''},
 {'cast': 'Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng'},
 {'country': 'South Africa'},
 {'date_added': 'September 24, 2021'},
 {'release_year': '2021'},
 {'rating': 'TV-MA'}

In [27]:
# Ahora bien, lo que nos sirve a nosotros es generar un diccionario
# para poder encontrar rápidamente una película o un valor

from itertools import cycle
result = {}
for key, val in zip(cycle(header), flat_movies):
    if key not in result:
        result[key] = []
    result[key].append(val)

# Se obtiene un diccionario que se puede filtrar fácilmente
result["show_id"][0:3]

['s1', 's2', 's3']

In [28]:
# Se obtienen los 2 primeros títulos de películas
result["title"][0:2]

['Dick Johnson Is Dead', 'Blood & Water']

In [29]:
type(result)

dict

In [30]:
# Guardar el JSON en un archivo
with open('movies.json', 'w') as json_file:
    json.dump(result, json_file)