<a target="_blank" href="https://colab.research.google.com/github/sonder-art/fdd_o23/blob/main/codigo/numpy/01_numpy_pkl.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

In [1]:
import numpy as np
import sys

# Pickle

In [2]:
import pickle

## Numpy

Salvar objeto con pickle

In [None]:
a = np.array([1, 2, 3, 4, 5])
with open("array.pkl", "wb") as f:
    pickle.dump(a, f)

In [None]:
a[0] = -1
print(a)

[-1  2  3  4  5]


In [None]:
!ls

array.pkl  sample_data


Cargar objeto con Pickle

In [None]:
with open("array.pkl", "rb") as f:
    b = pickle.load(f)
print(b)

[1 2 3 4 5]


## Dicts

In [None]:
# Crear un objeto Python
data = {"name": "John Doe", "age": 32, "email": "johndoe@example.com"}

# Serializar el objeto y guardarlo en un archivo
with open("data.pkl", "wb") as f:
    pickle.dump(data, f)

# Cargar el objeto desde el archivo
with open("data.pkl", "rb") as f:
    loaded_data = pickle.load(f)

print(loaded_data)

{'name': 'John Doe', 'age': 32, 'email': 'johndoe@example.com'}


In [None]:
!ls

array.pkl  data.pkl  sample_data


Estos archivos pickle no son human readable

In [None]:
! cat array.pkl

���       �numpy.core.multiarray��_reconstruct����numpy��ndarray���K ��Cb���R�(KK��h�dtype����i8�����R�(K�<�NNNJ����J����K t�b�C(                                   �t�b.

# Json

In [3]:
import json

In [None]:

# Crear un objeto Python, nota que es igual que en el ejemplo anterior
data = {"name": "John Doe", "age": 32, "email": "johndoe@example.com"}


{'name': 'John Doe', 'age': 32, 'email': 'johndoe@example.com'}


In [None]:
# Serializar el objeto en formato JSON y guardarlo en un archivo
with open("data.json", "w") as f:
    json.dump(data, f)


In [None]:
data

{'name': 'John Doe', 'age': 32, 'email': 'johndoe@example.com'}

In [None]:
# Cargar el objeto desde el archivo de JSON
with open("data.json", "r") as f:
    loaded_data = json.load(f)

print(loaded_data)

{'name': 'John Doe', 'age': 32, 'email': 'johndoe@example.com'}


Los archivos json son human readable

In [None]:
! cat data.json

{"name": "John Doe", "age": 32, "email": "johndoe@example.com"}

# Comparemos su tamanyo

In [None]:
!ls -lh

total 16K
-rw-r--r-- 1 root root  187 Feb 13 17:42 array.pkl
-rw-r--r-- 1 root root   63 Feb 13 17:51 data.json
-rw-r--r-- 1 root root   72 Feb 13 17:47 data.pkl
drwxr-xr-x 1 root root 4.0K Feb 10 14:33 sample_data


# JSON vs. Pickle

In [None]:
ar = np.array([1, 2, 3, 4, 5])
ar_dict = {'np_array':ar}

In [None]:
with open("dict_array.pkl", "wb") as f:
    pickle.dump(ar_dict, f)

In [None]:
with open("dict_list.json", "w") as f:
    json.dump(ar_dict, f)


TypeError: ignored

# Diccionarios

In [None]:
ar = np.array([1, 2, 3, 4, 5])
ar_dict = {'np_array':ar}

# Los diccionarios tambien se pasan por referencia, asi que hay que
# hacer una compia para no modificar el original
ar_dict2 = ar_dict.copy()
print(ar_dict2)
ar_dict2['np_array'][0] = -1
ar_dict2['np_array'] = list(ar_dict2['np_array'])

{'np_array': array([1, 2, 3, 4, 5])}


In [None]:
ar_dict

{'np_array': array([-1,  2,  3,  4,  5])}

In [None]:
ar_dict2

{'np_array': [-1, 2, 3, 4, 5]}

Nota que incluso al `copiar` el diccionario, este sigue apuntando a los objetos originales. Por lo tanto hay que tener cuidado con que modificamos

In [None]:
ar = np.array([1, 2, 3, 4, 5])
ar_dict = {'np_array':ar}

ar_dict2 = ar_dict.copy()
print(ar_dict2)
# Cambiamos el objeto al que referencia el diccionario 2
ar_dict2['np_array'] = list(ar_dict2['np_array'])
ar_dict2['np_array'][0] = -1


{'np_array': array([1, 2, 3, 4, 5])}


In [None]:
ar_dict

{'np_array': array([1, 2, 3, 4, 5])}

In [None]:
ar_dict2

{'np_array': [-1, 2, 3, 4, 5]}

## Dicts, Json y Numpy

El error TypeError: Object of type int64 is not JSON serializable ocurre cuando intentas serializar un objeto que contiene un tipo de datos que no se puede serializar en formato JSON. En este caso, el tipo de datos que causa el error es int64, que es un tipo de numpy para representar enteros de 64 bits.

In [None]:
with open("dict_list.json", "w") as f:
    json.dump(ar_dict2, f)


TypeError: ignored

Que pasa si revisamos los tipos de datos

In [None]:
isinstance(1,np.int64)

False

In [None]:
isinstance(1,int)

True

In [None]:
isinstance(1,np.int)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  isinstance(1,np.int)


True

In [None]:
isinstance(1,np.int32)

False

In [None]:
for key in ar_dict2:
    print(f'Llave/Key del diccionario {key}')
    print
    # Convertir los numeros a formato int para poder crear JSON files
    ar_dict2[key] = [int(number) for number in ar_dict2[key]] 

Llave/Key del diccionario np_array


In [None]:
with open("dict_list.json", "w") as f:
    json.dump(ar_dict2, f)

### Funciones para revisar

La diferencia entre `json.dump` y `json.dumps` en Python es que json.dump escribe un objeto en un archivo, mientras que json.dumps devuelve una representación en formato cadena del objeto JSON.

El argumento `default` en la función `json.dumps` se usa para especificar una función que se usará para convertir objetos que no se pueden serializar automáticamente en formato JSON a una forma que se pueda serializar. Esta función se llama cada vez que se encuentra un objeto que no se puede serializar y se le pasa el objeto como argumento.  
La función debe devolver un objeto que se pueda serializar en formato JSON.

In [None]:
def json_serializable(o):
    if isinstance(o, np.int64):
        return int(o)
    raise TypeError("No puedo serializar objetos de tipo {}".format(o.__class__.__name__))


In [None]:
try:
    arr = np.array([1, 2, 3], dtype=np.int64)
    # Serializar el objeto a JSON
    serialized = json.dumps(arr, default=json_serializable)
except Exception as e:
    print(e)

No puedo serializar objetos de tipo ndarray


Tratamos de inferir si era `np.int64`, pero nos dio error, pues se pasa un `array`.

In [None]:
def json_serializable(o):
    print(o)
    if isinstance(o, np.ndarray) :
        return int(o)
    raise TypeError("No puedo serializar objetos de tipo {}".format(o.__class__.__name__))


In [None]:
try:
    arr = np.array([1, 2, 3], dtype=np.int64)
    # Serializar el objeto a JSON
    serialized = json.dumps(arr, default=json_serializable)
except Exception as e:
    print(e)

[1 2 3]
only size-1 arrays can be converted to Python scalars


No podemos aplicar la funcion `int` a un array

In [None]:
def json_serializable(o):
    print(o)
    if isinstance(o, np.ndarray):
        return [np.asscalar(n) for n in o]
    raise TypeError("No puedo serializar objetos de tipo {}".format(o.__class__.__name__))


In [None]:
try:
    arr = np.array([1, 2, 3], dtype=np.int64)
    # Serializar el objeto a JSON
    serialized = json.dumps(arr, default=json_serializable)
except Exception as e:
    print(e)

[1 2 3]


  return [np.asscalar(n) for n in o]


la funcion `np.asscalar` sera deprecada, usemos lo que nos sugieren

In [None]:
arr = np.array([1, 2, 3], dtype=np.int64)
arr[0].item()

1

In [None]:
def json_serializable(o):
    print(o)
    if isinstance(o, np.ndarray):
        return [n.item() for n in o]
    raise TypeError("No puedo serializar objetos de tipo {}".format(o.__class__.__name__))

In [None]:
try:
    arr = np.array([1, 2, 3], dtype=np.int64)
    # Serializar el objeto a JSON
    serialized = json.dumps(arr, default=json_serializable)
except Exception as e:
    print(e)

[1 2 3]


Se logro ejecutar la funcion para numeros. Funciona para arrays multidimensionales?

In [None]:
try:
    arr = np.array([[1, 2, 3], [-1,-2,-3]], dtype=np.int64)
    # Serializar el objeto a JSON
    serialized = json.dumps(arr, default=json_serializable)
except Exception as e:
    print(e)

[[ 1  2  3]
 [-1 -2 -3]]
can only convert an array of size 1 to a Python scalar


In [11]:
def json_serializable(o):
    if isinstance(o, np.ndarray):
        return o.tolist()
    if isinstance(o, np.number): 
        # todo a float, no enteros
        return float(o)
    raise TypeError("No puedo serializar objetos de tipo {}".format(o.__class__.__name__))


In [None]:
arr = np.array([[1, 2, 3], [4, 5, 6]], dtype=np.int64)
# Serializar el objeto a JSON
serialized = json.dumps(arr, default=json_serializable)
serialized

'[[1, 2, 3], [4, 5, 6]]'

In [12]:
arr = np.array([[1, 2, 3], [4, 5, 6]], dtype=np.int64)
with open("ndarray_json.json", "w") as f:
    json.dump(arr, f, default=json_serializable)

In [14]:
!cat ndarray_json.json

[[1, 2, 3], [4, 5, 6]]

In [15]:
# Cargar el objeto desde el archivo de JSON
with open("ndarray_json.json", "r") as f:
    loaded_data = json.load(f)

loaded_data

[[1, 2, 3], [4, 5, 6]]

Nota como pudimos guardarlo en formato `JSON` si necesidad de anidarlo en un diccionario

# Encodings

In [4]:
arr_str = "asdfg"
with open("string.json", "w") as f:
    json.dump(arr_str, f)

In [6]:
!cat string.json

"asdfg"

In [17]:
arr_str = "Ñ"
with open("string.json", "w") as f:
    json.dump(arr_str, f)

In [18]:
!cat string.json

"\u00d1"

Si quieren usar la terminal para cargar el archivo correctamente, les recomiendo buscar sobre el comando `iconv` y los encodings como `latin1`

In [19]:
# Cargar el objeto desde el archivo de JSON
with open("string.json", "r") as f:
    loaded_data = json.load(f)

loaded_data

'Ñ'