# Tansformación de datos

Alan Badillo Salas (badillo@hotmail.com)

El mapeo de datos consiste en convertir una lista en otra lista de igual tamaño, dónde cada elemento de la primer lista se transforma en otro elemento dada una función de transformación. Dicha función de transformación recibe un elemento a transformar y devuelve el elemento transformado, a esta función la vamos a nombrar el `transformador` o la `función de transformación`.

El "mapeador" se considera que es un `funcional` o `aplicador` que recibe como primer parámetro la *función de transformación* (el *transformador*) y como segundo parámetro la lista (o vector) a transformar. Este recorrerá elemento por elemento y para cada elemento obtendrá el elemento transformado y lo irá colocando en una nueva lista, al final, cada elemento de la lista original quedará transformado en una nueva lista.

Por ejemplo, imagina que tenemos una lista de números y definimos una función de transformación que dado un número lo eleva al cuadrado, entonces si la lista de entrada fuera `[1, 2, 3, 4, 5]` la lista resultante sería `[1, 4, 9, 16, 25]`.

Veamos como funciona:

In [6]:
# A - Es una lista de números
A = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# T - Es la función de transformación que recibe un número `x`
# y devuelve el número `x` elevado al cuadrado
def T(x):
    return x ** 2

# B - Es la lista generada a partir del mapeo de la función de
# transformación `T` aplicada a la lista `A`
B = list(map(T, A))

print("A: {}".format(A))
print("B: {}".format(B))

A: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
B: [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]


Cuándo las funciones son sencillas, es decir, sólo devuelven resultados de operaciones aritméticas, podemos definir la función en una sóla línea de código a través de un `lambda`. La función `lambda` toma el parámetro de entrada y devuelve las operaciones de salida.

In [7]:
A = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# T - Es la función de transformación generada a partir
# de una función `lambda` que toma a `x` y devuelve `x ** 2`
T = lambda x: x ** 2

B = list(map(T, A))

print("A: {}".format(A))
print("B: {}".format(B))

A: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
B: [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]


Las funciones `lambda` nos permiten generar mapeos rápidos (en el sentido de escritura), para definir las funciones de transformación directamente en el mapeo.

In [None]:
A = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

B = list(map(lambda x: x ** 2, A))

print("A: {}".format(A))
print("B: {}".format(B))

Si las funciones de transformación son bien conocidas, merecen la pena almacenarlas en variables o funciones nombradas con una gramática inteligente.

Por ejemplo, imagina que queremos obtener una transformación que nos indique si los elementos son positivos o negativos. Ej. dado `[1, -1, 2, 19, -20, -6]` obtener `["POSITIVO", "NEGATIVO", "POSITIVO", "POSITIVO", "NEGATIVO", "NEGATIVO"]`.

In [12]:
EtiquetaPositivoNegativo = lambda x: "POSITIVO" if x >= 0 else "NEGATIVO"

A = [1, -1, 2, 19, -20, -6]

B = list(map(EtiquetaPositivoNegativo, A))

B

['POSITIVO', 'NEGATIVO', 'POSITIVO', 'POSITIVO', 'NEGATIVO', 'NEGATIVO']

En una versión menos complicada podríamos no optar por usar lambdas.

In [None]:
def EtiquetaPositivoNegativo(x):
    if x >= 0:
        return "POSITIVO"
    else:
        return "NEGATIVO"

A = [1, -1, 2, 19, -20, -6]

B = list(map(EtiquetaPositivoNegativo, A))

B

A veces va a ser buena idea tener una función que nos regrese otra función, esto se conoce como un decorador.

Imagina el caso en que queramos una función que transforme a nuestros números multiplicándolos por un escalar, sin embargo, queremos que ese escalar se pueda modificar.

Este problema involucra generar una función que nos devuelva un número `x` multiplicado por un escalar `s`. Para lograr esto, vamos a definir una función que se llame `EscaladorMapper(s)` que reciba el escalar `s` y nos vuelva el `mapper` con la transformación correcta para que cada `x` se mapee `x * s`.

In [13]:
def EscaladorMapper(s):
    return lambda x: x * s

A = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

B = list(map(EscaladorMapper(10), A))

B

[10, 20, 30, 40, 50, 60, 70, 80, 90, 100]

In [14]:
A = [1, 4, 3, 5, 6, 2, 7, 9, 8]

B = list(map(EscaladorMapper(10), A))

B

[10, 40, 30, 50, 60, 20, 70, 90, 80]

Observa que la función `EscaladorMapper` recibe un escalar `s` y devuelve otra función que hace uso de el parámetro `s`, esta segunda función es nuestro `mapper` que será utilizado para aplicar el mapeo.

En forma extensa, podemos visualizar el mismo ejemplo paso por paso.

In [15]:
# Definimos una función capaz de generar otra función con parámetros extra
# Está función `EscaladorMapper` se conoce como un decorador.
def EscaladorMapper(s):
    return lambda x: x * s

# Creamos una función de transformación (un transformador o `mapper`)
# El cuál dada una `x` la multiplica 10 veces
# Esto a partir de la generación del mapeador mediante `EscaladorMapper`
T = EscaladorMapper(10)

A = [1, 2, 3]

# Aplicamos el transformador T (creado del `EscaladorMapper`)
# y transformamos cada valor de A multiplicado 10-veces
B = list(map(T, A))

B

[10, 20, 30]

Veamos otro ejemplo dónde creamos un linealizador de datos basados en una pendiente y un interceptor. Es decir, dada una `x` queremos generar `m * x + b`, dónde `m` y `b` son parámetros modificables.

In [16]:
def linealizador(m, b):
    return lambda x: m * x + b

A = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

B = list(map(linealizador(2, 4), A))

B

[6, 8, 10, 12, 14, 16, 18, 20, 22, 24]

Observa que el linealizador que intercepta a 0, es un escalador.

In [17]:
A = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

B = list(map(linealizador(10, 0), A))

B

[10, 20, 30, 40, 50, 60, 70, 80, 90, 100]

Observa que el linealizador con pendiente 1 e interceptor `a` equivale a una suma que recorrecore `a`-veces el número original.

In [19]:
A = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

B = list(map(linealizador(1, 5), A))

B

[6, 7, 8, 9, 10, 11, 12, 13, 14, 15]

In [20]:
A = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

B = list(map(linealizador(0, 0), A))

B

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

## Tarea 3

Definir una función decoradora de mapeos para la normalización de datos, basado en un `mu` y un `sigma`, dónde `mu` es la media de los datos y `sigma` es la desviación estándar. 

Implementar la ecuación de normalización que pude ser consultada en https://en.wikipedia.org/wiki/Standard_deviation:

> `y = exp( -0.5 * [ (x - mu) / sigma ]^2 ) / sqrt(2 * PI * sigma^2)`

Crear la función `Normalizador(mu, sigma)` que devuelva una función *lambda* con la ecuación de normalización (*exp*, *pi* y *sqrt* están en la librería *math*)