# Ayudantía 0b111 : I/O + Serialización + Regex
## Autores: [@jjaguillon](https://github.com/jjaguillon) & [@csantiagopaz](https://github.com/csantiagopaz)

Esta ayudantía tiene dos partes, un pequeño resumen de la materia de la semana y ejercicios con material audiovisual complementario.

# Resumen

## Serialización

### ¿Que significa serializar?
   Serializar es transformar un objeto en una secuencia o serie de *bytes*. Con eso tenemos la información en un estado de forma persistente, lo que sirve para enviar el objeto a otros computadores y programas.


## JSON
### ¿Que es JSON?
JSON es un formato estándar de intercambio de datos que puede ser interpretado por muchos lenguajes, resumiendo es una forma de serealizar.

Este formato es limitado, pues permite serializar solamente algunos objetos específicos como strings y diccionarios, sin embargo es legible por humanos.

## Pickle
### ¿Que es Pickle?

Pickle es un formato específico de Python de serialización. Debido a esto, permite serializar cualquier objeto de python, sin embargo no puede ser leído por otros lenguajes de programación ni por humanos.

Debido a lo anterior, es posible incluír código malicioso en un programa que utiliza pickle, por lo que **NO** deberías ejecutar código que incluya pickle si es que no confías en su origen.

## Pickle vs JSON
![Resumen](imgs/resumen.png)

## *Bytes*


### ¿Qué es un *byte*?

Es una unidad de información utilizada en computación, tal que tu computador pueda interpretar y entregarte esa información.

Tal como medimos la naturaleza mediante unidades de medida (gramos, litros, Newton, etc.), el *byte* lo utilizamos para medir el tamaño de los archivos de un computador.

**Para mayor información de como el computador interpreta esta info, puede tomar el curso IIC2343 Arquitectura de Computadores**

### *Bytes* en IIC2233 

En el curso, se les solicitará que puedan utilizar el lenguaje Python para leer y manejar esta unidad de información como si fuera un dato, tal como un string, int, list, etc.

### Modo bytes en open()

En Python podrán leer y escribir archivos en modo bytes.

¿Qué permite eso? Leer archivos que no son de texto, por ejemplo: imágenes, videos, audio, etc. Y trabajar con sus bytes

In [None]:
with open('texto.txt', 'r') as text_file:
    print(text_file.read())
    
with open('datos.bin', 'rb') as byte_file:
    print(byte_file.read())

### bytes() v/s bytearray() 

En Python existen dos metodos llamados **bytes()** y **bytearray()** que crean estructuras de datos especializadas en bytes.

Estos métodos permitirán contener bytes o transformar otros tipos de datos a un objeto de tipo *bytes*.

La diferencia entre *bytes* y *bytearrays* es la misma que entre *tuples* y *lists*:

 - *bytes* y *tuples* son **inmutables**. Mientras que,

 - *bytearrays* y *lists* son **mutables**.

In [None]:
datos = bytes([1, 12, 133]) #transformo una lista de ints (0 <= x <= 255)
print(datos)

inversos = bytearray()
for i in range(len(datos)-1, -1, -1):
    inversos.append(datos[i])

print(inversos)

### *bytes* a números enteros.

Como podemos observar, los bytes podemos tratarlos como un array (lista, tupla), pero también , los bytes los podemos tratar como un número entero.

In [None]:
print(int.from_bytes(b'\x01\x01', byteorder='big')) # Utilizaremos el estandar big endian [leer un número de izquierda a derecha]

### *bits*

**¿Qué es un *bit*?**: es la unidad de información básica de la computación.

Un *byte* se compone de 8 *bits*. 

#### Obtener los *bits* de *bytes*.

Para obtener los bits de un byte, debemos realizar el siguiente algoritmo

In [None]:
un_byte = b'\x7a'

#pasamos de bytes a int
int_byte = int.from_bytes(un_byte, 'big')
print('1.', int_byte)

#transformamos a un string binario
bin_byte = bin(int_byte)
print('2.', bin_byte)

#eliminamos el 0b del formato bin
bin_byte = bin_byte[2:]
print('3.', bin_byte)

#rellenamos con 0 a la izquierda, para ajustar el tamaño a 8 bits.
bits_byte = bin_byte.zfill(8)
print('4.', bits_byte)

## Regex

Las "Expresiones regulares" o *regex* son una secuencia de caracteres utilizados para la búsqueda de patrones de texto. Estas pueden ser de mucha utilidad, pues te entrega alternativas para analizar y dar formato a texto; una expresión regular se forma utilizando los caracteres que deseas buscar, junto con 3 principales elementos descritos a continuación. 

Los tres elementos principales que pueden conformar una expresión regular (además de los carácteres que se quieren buscar) son:

- Alternación: |
- Cuantificación: ? * + {1}
- Agrupación: ( )

**¿Donde practicar el uso de RegEx?**

[https://pythex.org/](https://pythex.org/)

# Ejercicios

A continuación se encuentran dos ejercicios correspondientes a actividades pasadas. Para complementar su aprendizaje, grabamos una solución de cada uno de estos en video.

Sinceramente esperamos que les sirva los videos y la ayudantia. Ánimo y éxito con lo que resta del semestre, los queremos :D

## Ejercicio 1: En búsqueda de los contenidos del infinito: Alma

Video: https://vimeo.com/372694040

Para recuperar el contenido del Alma, debes encontrar un archivo corrupto, arreglarlo y deserializarlo.


Se te acerca un personaje de extraña reputación, **Red Skullwirth**, y te entrega el siguiente mensaje: ''El contenido del alma tiene cierta sabiduría, para conseguirlo, debes completar la siguiente función''

La funcion **obtener_contenido(path_alma)** debe recibir el path del archivo **contenido.alma**, y desencriptarlo utilizando el siguiente algoritmo:

1. Leer el archivo completo en forma de *bytes*.
2. Deberá obtener pedazos de a 5 *bytes* del archivo y eliminar el máximo de ese *chunk* de *bytes*, ignorando el *chunk* que reste al final.
3. Debes sacrificar el último *byte* obtenido del total (es decir, eliminarlo del **bytearray**)

Terminado esto, debes escribir los *bytes* resultantes en un archivo nuevo llamado **desencriptado.alma**.

In [None]:
def obtener_contenido(path_alma):
    out = bytearray()
    with open(path_alma, 'rb') as file:
        data = bytearray(file.read())
        for i in range(0, len(data), 5):
            extracto = data[i:i+5]
            extracto.remove(max(extracto))
            out.extend(extracto)
    out = out[:-1]
    with open('desencriptado.alma', 'wb') as out_file:
        out_file.write(out)

Para obtener el contenido del infinito, deberas cargar la informacion del archivo generado en la funcion anterior mediante algun metodo de deserialización. 
Este archivo esta serializado en uno de los metodos deserializacion visto en las clases de **Fernando Banner**, el cual debes identificar abriendo el archivo con tu editor de texto.

Primero deberas completar el metodo de deserialización que corresponda para el tipo de archivo generado (*set_state* u *object_hook*). Este metodo debera filtrar los valores de los parametros del objeto, ys olo mantener aquellos parametros cuyos nombres estan dentro de la tupla **params** (que es una constante entregada). Ademas, el metodo debe agregar el atributo **sacrificio** cuyo valor sera un *string* con lo que usted sacrifico para esta mision (es decir, lo que pudo haber estado haciendo hoy en vez de la actividad)

Finalmente, completar la función **deserializar_contenido(path_serializado)** que retornará una instancia de la clase **ContenidoDelInfinito**, mediante alguno de los métodos de serialización descritos.

In [None]:
import os
import pickle
# import json


class ContenidoDelInfinito:
    def __init__(self, nombre, semana, contenido):
        self.nombre = nombre
        self.semana = semana
        self.contenido = contenido

    def __setstate__(self, state):
        '''COMPLETAR SOLO SI ES CORRESPONDIENTE'''
        params = ('nombre', 'semana', 'contenido')
        state = {key: state[key] for key in params}
        state.update({'sacrificio': 'mis sueños y esperanzas en la vida'})
        self.__dict__ = state

    def __str__(self):
        return 'nombre: {} - semana: {} - contenido: {} - sacrificio: {}'.format(
            self.nombre,
            self.semana,
            self.contenido,
            self.sacrificio)

def contenido_hook(contenido):
    '''COMPLETAR SOLO SI ES CORRESPONDIENTE'''
    params = ('nombre', 'semana', 'contenido')
    # No se completa jeje
    pass

def deserializar_contenido(path_serializado):
    with open(path_serializado, 'rb') as file:
        data = pickle.load(file)
        return data

## Ejercicio 2: YesCo, eliminaron mi arroz

Video: https://vimeo.com/372724280

YesCo es una empresa alimenticia que crea alimentos muy nutritivos, y han sufrido un ataque en su base de datos.

Su base de datos es un archivo de texto **recetas.txt**, que contiene todos alimentos base utilizados para crear sus recetas, pero ahora esta lleno de palabras extrañas que no corresponden a las recetas.

Estas palabras inician con la letra **aA** y terminan con la letra **zZ**. Sin embargo, el **Arroz** es un alimento base que es muy utilizado en estas recetas, y temen que sea eliminado, ya que posee las mismas características que estas palabras incorrectas.

Se te pide que elimine las palabras que no correspondan a las recetas, o identifique las palabras que si corresponden mediante RegEx, y escribirlas en un nuevo archivo **recetas_new.txt**.

In [None]:
import re

#verificamos si la palabra cumple de empezar con aA y terminar con zZ y es distinto de Arroz, si no haces, la guardamos.

with open('recetas.txt', "r", encoding="UTF-8") as file:
    nuevas_recetas = []  # es una lista con todas las nuevas recetas
    for line in file:
        nueva_receta = []  # es una lista temporaria para verificar si la receta contiene algo
        lista_palabras = line.strip().split(" ")
        for palabra in lista_palabras:
            if not re.match('(?![a|A]{1}[r|R]{2}[o|O]{1}[z|Z]{1})(^[a|A].*[z|Z]$)', palabra): # esa linea es la más importante
# con ella verificamos si Arroz, arroz, aRroz ... etc esta contido(?!) en la palabra y si no (^)empezá con a|A y termina($) con z|Z
# ?! eso en verdad seria un NO esta contido, pero como tenemos un if not, doble negación = afirmación
                nueva_receta.append(palabra)
        if nueva_receta:  #verificamos si resto algun ingrediente en la receta
            nueva_receta.append("\n")
            nuevas_recetas.extend(nueva_receta)
    with open("recetas_new.txt.", "w+") as new_file: #escribimos la nueva receta
        new_file.write(" ".join(nuevas_recetas))
        
        