# Práctica 1. Preprocesado básico de datos

### Grupo 41
Alumnos:
- Óscar Rico Rodríguez
- Jia Hao Yang

# Ejercicio 1: Conversión de datos simbólicos a numéricos

Importamos las librerías, para esta práctica, solo utilizaremos la librería NumPy.

In [1]:
import numpy as np

La clase *CodificadorBinario* contiene cuatro métodos:
- El primer método, es el constructor de la clase e inicializa dos estructuras de datos, en nuestro caso dos diccionarios donde se almacenarán los datos. Estos son un diccionario que almacenará los valores de codificación y el otro los valores de decodificación respectivamente.

- El segundo método genera y almacena las claves y los valores en sus respectivos diccionarios que hemos previamente generado con el constructor, asociando a cada valor simbólico un valor numérico. Este no tiene porque estar ordenado.

- El tercer método, devuelve una lista de los valores numéricos que han sido codificados mediante el diccionario de codificación.

- El cuarto método, devuelve una lista de los valores simbólicos que han sido decodificados mediante el diccionario de decodificación.

In [51]:
class CodificadorEtiqueta:
    def __init__(self) -> None:
        self.coding_dict = dict()
        self.decoding_dict = dict()

    def inicializar(self, y: list) -> None:
        for idx, val in enumerate(set(y)):
            self.coding_dict[val] = idx
            self.decoding_dict[idx] = val
        return None

    def codificar(self, y: list) -> list:
        coded = []
        for val in y:
            if val not in self.coding_dict.keys():
                raise ValueError("Value not found or hasn't been initialized before.")
            coded.append(self.coding_dict.get(val))
        return coded

    def decodificar(self, y: list) -> list:
        decoded = []
        for val in y:
            if val not in self.decoding_dict.keys():
                raise ValueError("Value not found or hasn't been initialized before.")
            decoded.append(self.decoding_dict.get(val))
        return decoded

Ejemplos de cómo funciona la clase.

### Ejemplo 1.
Caso favorable, donde el array que pasa por el inicializador es el mismo que se quiere codificar.

In [52]:
codificador_etiqueta = CodificadorEtiqueta()
array = ["a", "b", "c", "d", "e"]
codificar = ["a", "b", "c", "d", "e"]
decodificar = [2, 0, 1, 4, 3]
print(codificador_etiqueta.inicializar(y = array))
print(codificador_etiqueta.codificar(y = codificar))
print(codificador_etiqueta.decodificar(y = decodificar))

None
[0, 1, 4, 2, 3]
['d', 'a', 'b', 'c', 'e']


### Ejemplo 2.
Caso no favorable. El array a codificar contiene un valor que no se ha encontrado o que no ha sido inicializado, saltando así un ```ValueError``` que indica que la clave no se encuentra en el diccionario o que no ha sido inicializado.

In [42]:
codificador_etiqueta = CodificadorEtiqueta()
array = ["a", "b", "c", "d", "e"]
codificar = ["a", "b", "c", "d", "e", "Pepe"]
decodificar = [2, 0, 1, 4, 3]
print(codificador_etiqueta.inicializar(y = array))
print(codificador_etiqueta.codificar(y = codificar))
print(codificador_etiqueta.decodificar(y = decodificar))

None


ValueError: Value not found or hasn't been initialized before.

### Ejemplo 3.
Caso no favorable. El array a decodificar contiene un valor que no se ha encontrado o que no ha sido inicializado, saltando así un ```ValueError``` que indica que la clave no se encuentra en el diccionario o que no ha sido inicializado.

In [43]:
codificador_etiqueta = CodificadorEtiqueta()
array = ["a", "b", "c", "d", "e"]
codificar = ["a", "b", "c", "d", "e"]
decodificar = [2, 0, 1, 4, 3, 1000]
print(codificador_etiqueta.inicializar(y = array))
print(codificador_etiqueta.codificar(y = codificar))
print(codificador_etiqueta.decodificar(y = decodificar))

None
['a', 'b', 'c', 'd', 'e']


ValueError: Value not found or hasn't been initialized before.

# Ejercicio 2: Escalar valores numéricos

La clase *EscalarValores* contiene cuatro métodos:
- El primer método es el constructor, inicializa:
    - Una lista de tuplas que contine los valores $m$ y $n$, respectivamente.
    - Un array de NumPy donde se almacenarán los valores escalados con respecto al array original
    - Un array de NumPy donde se almacenarán los valores desescalados.
- El segundo método calcula máximo y mínimo de cada columna, pendiente y valor independiente. Inicializando las variables de la fórmula para su posterior uso en los siguientes métodos. 
- El tercer método realiza el cálculo para escalar dichos valores y almacenarlos en un array de valores escalados.
- El cuarto método realiza la misma operación que el método anterior pero a la inversa almacenándolo también en un array de valores desescalados.

In [76]:
class EscalarValores:
    def __init__(self) -> None:
        self.touples = []
        self.scales = np.ndarray
        self.invscale = np.ndarray

    def inicializar(self, x: np.ndarray, min: np.double = -1, max: np.double = 1) -> None:
        x_max = np.amax(x, axis=0)
        x_min = np.amin(x, axis=0)
        for idx, val in enumerate(x.T):
            m = ((max-min)) / (x_max[idx] - x_min[idx])
            n = ((min*x_max[idx])-(max*x_min[idx])) / (x_max[idx]-x_min[idx])
            self.touples.append((m, n))
        return None

    def escalar(self, x: np.ndarray) -> np.ndarray:
        self.scales = x.copy().T
        for idx, ival in enumerate(self.scales):
            for jdx, jval in enumerate(self.scales[idx]):
                self.scales[idx][jdx] = (self.touples[idx])[0] * self.scales[idx][jdx] + (self.touples[idx])[1]
        return self.scales.T

    def escalar_inv(self, x: np.ndarray) -> np.ndarray:
        self.invscale = x.copy().T
        for idx, ival in enumerate(self.invscale):
            for jdx, jval in enumerate(self.invscale[idx]):
                self.invscale[idx][jdx] = (self.invscale[idx][jdx] - (self.touples[idx])[1]) / (self.touples[idx])[0] 
        return self.invscale.T

Ejemplos de como funciona la clase.

In [77]:
array = np.array(
    [
        [1, 2, 5],
        [2, 8, 100],
        [3, 24, 1000]
    ], np.float64
)

escalar_valores = EscalarValores()
escalar_valores.inicializar(array)
escalado = escalar_valores.escalar(array)
desescalado = escalar_valores.escalar_inv(escalado)
print(escalado)
print(desescalado)

[[-1.         -1.         -1.        ]
 [ 0.         -0.45454545 -0.80904523]
 [ 1.          1.          1.        ]]
[[   1.    2.    5.]
 [   2.    8.  100.]
 [   3.   24. 1000.]]


# Ejercicio 3.  División de un conjunto de datos en entrenamiento y test

En este ejercicio se nos pide desarrollar una función que divida un array con datos númericos en un segmento para el entrenamiento de un modelo y la otra parte para el testeo. Acepta parámetros para que se reordenen de manera pseudoaleatoria y una semilla si se desea un orden de aleatoriedad fija. Además, acepta otro parámetro que tiene que ser un array unidimensional con valores simbólicos que se ordenan y segmentan de la misma manera que el array original

**¿Cómo se hizo?**

Para la semilla hemos usado la función propia de NumPy `random.seed()` que establece un orden de aleatoriedad fija si se le pasa un valor númerico distinto de `None`. A continuación, cogemos el número de filas total del array `x` y lo multiplicamos por la proporción pasada como parámetro para segmentar el array original en las subarrays de *train* y *test*.

En caso de que la variable `mezclar` sea `True` creamos un array de números aleatorios entre 0 y el número de filas del array `x` con la función de Numpy `random.permutation()` que usaremos como índices, los cuáles usaremos para mezclar la `x` y en caso de que exista el array `y`. Esta fue la solución que encontramos para mezclar ambos arrays y que las filas concuerden.

Tras esto usamos slicing para subdividir el array `x` en *train* y *test*. En caso de que exista el array `y`, se usaría la misma técnica y se devolvería una lista de 4 valores (x_train, x_test, y_train, y_test). De lo contrario se devolvería una lista de 2 valores (x_train, x_test).

In [78]:
def divide_entrenamiento_test(x: np.ndarray, y: np.array=None,tam_train: np.double=0.7, semilla: int=None,mezclar: bool=True) -> list:
    np.random.seed(semilla)
    num_filas = x.shape[0]
    num_filas_entrenamiento = int(tam_train * num_filas)
    
    if mezclar:
        indices = np.random.permutation(num_filas)
        x = x[indices]
        if y is not None:
            y = y[indices]

    x_entrenamiento = x[:num_filas_entrenamiento]
    x_test = x[num_filas_entrenamiento:]
    
    if y is not None:
        y_entrenamiento = y[:num_filas_entrenamiento]
        y_test = y[num_filas_entrenamiento:]
        return [x_entrenamiento, x_test, y_entrenamiento, y_test]
    return [x_entrenamiento, x_test]

Ejemplos de como funciona la clase.

In [79]:
x_array = np.array(
    [
        [2, 4, 6, 7, 9],
        [9, 12, 13, 16, 18],
        [1, 4, 7, 17, 18],
        [4, 6, 10, 13, 20],
        [5, 6, 13, 14, 15],
        [1, 3, 7, 13, 16],
        [1, 7, 8, 9, 12],
        [3, 4, 5, 10, 16],
        [9, 13, 16, 17, 19],
        [12, 13, 16, 17, 20]    
    ]
)

y_array = np.array(
    [
        ["si"],
        ["no"],        
        ["no"],
        ["si"],
        ["si"],
        ["no"],
        ["si"],
        ["no"],
        ["no"],
        ["si"]
    ]
)

result = divide_entrenamiento_test(x=x_array, tam_train=0.8, mezclar=True, semilla=1, y=y_array)
print(result)

[array([[ 1,  4,  7, 17, 18],
       [12, 13, 16, 17, 20],
       [ 1,  7,  8,  9, 12],
       [ 5,  6, 13, 14, 15],
       [ 2,  4,  6,  7,  9],
       [ 4,  6, 10, 13, 20],
       [ 9, 12, 13, 16, 18],
       [ 3,  4,  5, 10, 16]]), array([[ 9, 13, 16, 17, 19],
       [ 1,  3,  7, 13, 16]]), array([['no'],
       ['si'],
       ['si'],
       ['si'],
       ['si'],
       ['si'],
       ['no'],
       ['no']], dtype='<U2'), array([['no'],
       ['no']], dtype='<U2')]
