# Taller de Manejo y Análisis de Datos

**Profesor**: Pedro Montealegre

# Herramientas de Programación funcional

En Python, hay comandos bases como `map`, `filter`, `reduce` así como también `lambda` (para crear funciones anónimas) y *list comprehension*. Estos son típicos comandos de lenguajes de programación funcional (como LISP). 


La programación funcional puede ser extremadamente poderosa, y una de las fortalezas de Python es que permite programar en los tres paradigmas fundamentales: (i) programación procedual, (ii) programación orientada a objetos y (iii) de estilo funcional. Es el programador quién elige cuál forma usar, dependiendo de sus gustos y necesidades.


## Funciones Anónimas

Todas las funciones que hemos visto en Python hasta el momento se han definido a través de la palabra clave `def`, por ejemplo:

In [None]:
def cuadrado(x):
     return x ** 2

In [None]:
def polinomio(x):
    return x**4 + 3*x**3 + 2*x**2 + x + 1

In [None]:
polinomio(2)

In [None]:
polinomio(3)

Esta función tiene el nombre `cuadrado`. Una vez que la función es definida (i.e. el intérprete Python pasa por la línea `def`), podemos llamar a la función usando su nombre, por ejemplo:

In [None]:
cuadrado(5)

In [None]:
type(cuadrado)

A veces, necesitamos definir una función que solo se va a usar una vez. En este caso, creamos lo que se llama una *función anónima*, una que no tiene nombre. En Python, la palabra clave `lambda` permite crear funciones anónimas. 

```python
lambda argumentos : codigo
```

Siguiendo el ejemplo anterior, la siguiente función anónima tendrá el mismo funcionamiento que `cuadrado`:

In [None]:
lambda x: x ** 2

In [None]:
type(lambda x: x ** 2)

In [None]:
(lambda x: x ** 2)(10)

También podemos asignar el resultado a una variable y así definir una función de manera concisa:

In [None]:
cuadrado2 = (lambda x: x ** 2)
cuadrado2(5)

Las funciónes anónimas pueden tomar más de un argumento::

In [None]:
(lambda x, y: x + y)(10, 20)

In [None]:
(lambda x, y, z: (x + y) * z )(10, 20, 2)

o ninguno...

In [None]:
(lambda : _+1)()

In [None]:
_

**Importante** las funciones anónimas solo pueden usarse cuando su código se pueda escribir en **una y solo una** línea. 

### Ejercicio
1. Escriba una función anónima equivalente a la función definida por el siguiente código:
```python
def funcion_ejemplo(x,texto):
    texto_mayus = texto.upper()
    texto_repetido = x*(texto_mayus+" ")
    return(texto_repetido)
```

In [None]:
# Escribe aquí tu solución

2. Escriba una función anónima que tenga como argumento tres variables `a`, `b`, `c` y devuelva `True` si `a` es múltiplo de `b` o `a` es múltiplo de `c`; y en caso contrario devuelva `False`.

In [None]:
# Escribe aquí tu solución

## Map

La función `map(f,s)` recibe como argumentos una función `f` y una secuencia `s`, y el resultado que devuelve se puede transformar en una lista que consiste en la aplicación de la función `f` a todos los elementos de `s`:

In [None]:
def f(x): 
    return x ** 2
list(map(f, range(10)))

In [None]:
for i in map(f, range(10)):
    print(i)

In [None]:
range(10)

In [None]:
list(range(10))

In [None]:
list(map(f,range(10)))

In [None]:
list(map(f,[2,4,3,1,6,8]))

In [None]:
def mayusculas(texto):
    return texto.upper()

valor = map(mayusculas, ['pera', 'manzana', 'naranja'])

In [None]:
for i in valor:
    print(i)

In [None]:
list(valor)  # En el for anterior borramos los valores

In [None]:
valor = map(mayusculas, ['pera', 'manzana', 'naranja'])
for i in valor:
    print(i)
"MANZANA" in valor

In [None]:
valor = map(mayusculas, ['pera', 'manzana', 'naranja'])
print("PERA" in valor) 
print(list(valor))

In [None]:
list(valor)

In [None]:
valor = map(mayusculas, ['pera', 'manzana', 'naranja'])
print("MANZANA" in valor) # Aquí busca el string "MANZANA" en valor, y si lo encuentra lo borra
print("MANZANA" in valor) # Así que si vuelvo a llamar a la variable, no la encuentro

In [None]:
list(valor) # De hecho se borran todos los elementos

In [None]:
valor = list(map(mayusculas, ['pera', 'manzana', 'naranja']))
print("MANZANA" in valor)  

A menudo se combina la función `map` con funciones anónimas `lambda`:

In [None]:
list(map(lambda x: x ** 2, range(10) ))

In [None]:
list(map(lambda s: s.upper(), ['pera', 'manzana', 'naranja']))

### Ejercicio
1.  En este ejercicio utilizaremos el archivo `Ejercicio_map.txt`, que contiene una lista enumerada de 20 números escogidos al azar entre 0 y 1, en el formato `i,numero`. Escriba un programa que utilice la función `map` para construir una lista en la que se reemplace cada línea del archivo `Ejercicio_map.txt` por un `0`o `1` dependiendo si el número correspondiente es mayor a `0.5`.

In [None]:
# Código para crear el archivo
import random
file = open('Ejercicio_map.txt', 'w')
    
for i in range(20):
    file.write(str(i)+","+str(random.random())+"\n")
# random.random() genera un número al azar entre 0 y 1
file.close()

In [None]:
# Escriba  aquí su solución

## Filter

Sea `f` el nombre de alguna función, el comando `filter` está diseñado para usarse con alguna función `f` que devuelva un valor de tipo `bool` (i.e. `True` o `False`). La función `filter(f, s)` aplica la función `f` a todos los elementos de la secuencia `s`, y devuelve una lista para los cuales `f` devuelve `True`. Por ejemplo:

In [None]:
def mayor_que_5(x):
    if x > 5:
            return True
    else:
            return False
        
list(filter(mayor_que_5, range(11)))

El uso de `lambda` puede simplificar esta tarea significativamente: 

In [None]:
list(filter(lambda x: x > 5, range(11))) # Se guardan los que dan verdadero

Otro ejemplo:

In [None]:
lista_fruta = ['manzana', 'pera', 'platano']
lista_otra = ['perro', 'gato', 'manzana', 'auto', 'tren', 'platano']

list(filter(lambda palabra: not palabra in lista_fruta, lista_otra))


In [None]:
fruta = ['manzana', 'pera', 'platano']
list(filter(lambda otrapalabra : 
            (lambda palabra, fruta : not palabra in fruta)(otrapalabra,fruta), 
            ['perro', 'gato', 'manzana', 'auto', 'tren', 'platano']))

### Diferencia entre map y filter
La función Map toma todos los elementos de una secuencia `s` y aplica una función `f` a cada uno de los elementos de la secuencia, retornando una nueva secuencia según el output correspondiente.<br>
La función filter, tal como lo dice su nombre, filtra los valores que cumplen con la condición de una función. Por lo cual, toma todos los elementos de una secuencia `s` y aplica una función `f` a cada uno de los elementos de la secuencia, retornando una nueva secuencia solo con los valores (NO con los outputs) donde la función fue verdadera.

In [None]:
#Ejemplo
#Verificando si un número es par o impar
print(list(map(lambda var: var%2==0,range(10))))

#Filtrando los números, solo dejo pasar los números pares
print(list(filter(lambda var: var%2==0,range(10))))

#Código inicial para hacer lo mismo que filter
lista=[]
for i in range(10):
    if i%2==0:
        lista.append(i)
print(lista)

### Ejercicio
1.  Genere una lista al azar de 10000 valores entre `0`y `1` (use el módulo `random` y la función `random.random()`). Luego use el comando `filter` para contar cuántos valores en la lista son mayores que `0.9`.

In [None]:
# Escriba aquí su solución

## List comprehension

List comprehensions proveen una forma concisa de crear y modificar listas sin necesidad de recurrir a `map`, `filter` y/o `lambda`. La definición de las listas creadas de este modo tienden a ser más claras que las listas creadas con los métodos anteriormente mencionados. Cada list comprehension consiste en una expresión seguida de una clausula `for`, y luego una o más clausulas `for` e `if`. El resultado será una lista que resulta de evaluar la expresión en el contexto de los ciclos y condicionales que lo definen.

Su sintaxis básica esta dada por: \[ expression `for` item `in` list `if` conditional \] donde:<br>
<ul>
    <li> expression: línea de código a evaluar.
    <li> item: variable a reemplazar dentro de expression.
    <li> list: lista de valores que tomara item.
    <li> conditional (opcional): condición necesaria de un valor de list para que se evalue expression
</ul>
En resumen, dada una lista con valores y linea de código, se verifica si el elemento de la lista cumple con la condición y en caso de cumplirla, item toma ese valor y evalua la linea de código requerida.
    
Como se puede apreciar, la sintaxis comienza y termina con parentesis cuadrados (\[ \]) para recordarnos que se retorna una lista

Veamos algunos ejemplos:

In [None]:
vec = [2, 3, 4, 6, 7]         # Tomamos un vector
[3 * x for x in vec]    # y definimos otro multiplicando cada elemento por 3

In [None]:
[x for x in vec if x > 3]  # En este caso nos quedamos solo con los elementos mayores que 3

In [None]:
[3 * x for x in vec if x < 2] # o los menores que 2 (ninguno)

In [None]:
[3 * x for x in vec if x < 4]

In [None]:
[str(x) for x in vec] 

In [None]:
lista2 = [[x, x ** 2] for x in vec]  # Hacemos una lista con el par [x, x^2] por cada x en el vector
lista2[0]

In [None]:
frutaFresca = ['  platano   ', '     manzana         ', '     melón calameño   '] 
[fruta.strip() for fruta in frutaFresca]       # El método strip() elimina espacios

Podemos usar list comprehension para modificar la lista de enteros entregada por el comando `range`:

In [None]:
[x*0.5 for x in range(10)]

In [None]:
[x for x in range(11) if x>5 ]

In [None]:
# También funciona bien con arreglos de numpy (ver clase siguiente)

import numpy as np

x = np.array([1,2,3])
[np.sqrt(y) for y in x]

In [None]:
nombresConocidos = ['Pedro', 'Pablo']

[nombre for nombre in ['Juan','Pablo,''Diego','Pablo','Samuel', 'Arturo', 'Jose', 'Pedro'] 
 if (nombre in nombresConocidos)]  # Ojo, solo guarda una aparición

In [None]:
[x ** 2 for x in range(10) ]

También se puede sar para crear listas que no dependen de la variable en el `for`:

In [None]:
import random
[random.random() for x in range(10)]

También se pueden anidar: 

In [None]:
[[[[x,y,z] for x in range(3)] for y in range(3)] for z in range(3)]

Más detalles

-   Python Tutorial [5.1.4 List comprehensions](http://docs.python.org/tutorial/datastructures.html#list-comprehensions)

### Ejercicio
    
1. En este ejercicio utilizaremos el archivo Ejercicio_list_comp.txt, que contiene una lista enumerada de 1000 números escogidos al azar entre 0 y 1, en el formato i,numero. Escriba un programa que utilice list comprehension para obtener una lista con los números mayores a 0.99 en en Ejercicio_list_comp.txt. 

In [None]:
# Código para crear el archivo
import random
file = open('Ejercicio_list_comp.txt', 'w')
    
for i in range(1000):
    file.write(str(i)+","+str(random.random())+"\n")

file.close()

In [None]:
# Escriba aquí su solución

2. Usando solo list comprehension genere una lista de 10000 valores entre 0 y 1 al azar (puede usar el módulo random y la función random.random()). Luego cuente cuántos valores en la lista son mayores que 0.9.

In [None]:
# Escriba aquí su solución

## Reduce

La función `reduce` es parte del modulo `functools`. Podemos importarla usando el siguiente comando: 

In [None]:
from functools import reduce

La función `reduce` tiene como parámetros una función `f(x,y)` (observar que la función f recibe exclusivamente dos parámetros) y una secuencia `s`, y retorna un único valor. Este valor se calcula de la siguiente forma:
<ul>
    <li> La función f(x,y) es llamada con los dos primeros valores de s, retornando un valor.
    <li> La función f(x,y) es llamada con el valor retornado y el siguiente valor de s. Este proceso se repite hasta que todos los elementos de s son utilizados.
</ul>

Otra forma de llamar a reduce es con la inclusión de un valor de entrada `a0`. En este caso, se aplica la función `f` al valor de entrada `a0` y al primer elemento de la secuencia (`s[0]`), retornando `a1 = f(a0, s[0])`. El segundo elemento de la secuencia (`s[1]`) se procesa como sigue: la función `f` es llamada con los argumentos `a1` y `s[1]`, i.e. `a2 = f(a1,s[1])`. De este modo, toda la secuencia es procesada, hasta que `reduce` devuelve un único elemento. 

Este comando se puede utilizar, por ejemplo, para calcular la suma de los números en una secuencia: 

In [None]:
def sumar(x, y):
    return x + y
reduce(sumar, [1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

In [None]:
#Lo que es equivalente a 
def sumar(x, y):
    return x + y
reduce(sumar, [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 0)

In [None]:
reduce(sumar, [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 100)

Podemos modificar la función `sumar` para que nos entregue más información sobre el proceso:

In [None]:
def sumar_verboso(x, y):
    print("sumar(x=%s, y=%s) -> %s" % (x, y, x+y))
    return x+y

reduce(sumar_verboso, [1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

También podemos usar una función asimétrica `f`, como por ejemplo `sumar_largo(n,s)`, donde `s` es una secuencia y la función devuelve `n+len(s)`:

In [None]:
def sumar_largo(n, s):
    return n + len(s)

reduce(sumar_largo, ["Este","es","un","ejemplo"],0)

Como antes, vamos a usar una versión verbosa de la función binaria para ver qué es lo que está ocurriendo:

In [None]:
def sumar_largo_verboso(n, s):
    print("sumar_largo(n=%d, s=%s) -> %d" % (n, s, n+len(s)))
    return n+len(s)

reduce(sumar_largo_verboso, ["Este","es","un","ejemplo"],0)

Reduce también se puede combinar con `lambda`:

In [None]:
reduce(lambda x, y: x + y, [1, 2, 3, 4, 5], 0)

### Ejercicio
1. Escriba un programa que lea el archivo `Ejercicio_reduce.txt`, el cual contiene una lista de valores en el formato `i,numero`, donde `i` es el número de línea y `numero` es un valor al azar entre `0` y `1`. Usando solo `reduce`y list comprehension  escriba el archivo `Ejercicio_out.txt` con las líneas `i,numero,j` donde `j` vale `TRUE` si `numero` es mayor que 0.5 y `j` vale `False` en caso contrario. 

In [None]:
# Código para crear el archivo
import random
file = open('Ejercicio_reduce.txt', 'w')
    
for i in range(1000):
    file.write(str(i)+","+str(random.random())+"\n")

file.close()

In [None]:
# Escriba aquí su solución

## Por qué no usar simplemente un ciclo for?

Comparemos el siguiente ejemplo: queremos calcular los números 0<sup>2</sup>, 1<sup>2</sup>, 2<sup>2</sup>, 3<sup>2</sup>, ... hasta (*n* − 1)<sup>2</sup> para un cierto valor n.

Podemos realizar esta tarea haciendo un ciclo for, cuando *n*=10:

In [None]:
y = []
for i in range(10):
    y.append(i**2)
    
y

o en cambio implementarlo con list comprehension:

In [None]:
y = [x**2 for x in range(10)]
y

o en cambio implementarlo con map:

In [None]:
y = map(lambda x: x**2, range(10))
list(y)

La vesión que usa list comprehension cabe en una sola línea de código, mientras que el ciclo for necesita 3. Este ejemplo muestra cómo la programación fucnional puede resultar en expresiones más *concisas*. Tipicamente, el número de errores que hace un programador se multiplican con el número de líneas, por lo que se prefiere códigos que ocupen la menor cantidad posible. 

### Velocidad

List comprehension también puede ser más rápido que usar ciclos explícitos sobre elementos de una lista. 

Supongamos que queremos calcular $\sum_{i=0}^{N-1} i^2$ para un valor de $N = 20.000.000$ 

Para esto podemos usar la magia "`%%timeit`" (si corremos esto en un archivo Jupyter notebook): si una celda comienza con el texto `%%timeit`, entonces el intérprete de Pyhton corre los comandos de la celda varias veces, y entrega el tiempo promedio de ejecución:

In [None]:
from functools import reduce

In [None]:
%%timeit
y = []
for x in range(2*10**6):
    y.append(x**2)
y = sum(y)

In [None]:
%%timeit
reduce(lambda s, x: s + x**2, range(2*10**6),0)

In [None]:
%%timeit
y = sum([x**2 for x in range(2*10**6)])

Por suspuesto que el desempeño va a depender del computador, la versión de Python y las librerías que usemos. 
En este ejemplo vemos que el uso de list comprehension es más rápido (al rededor de un 10% mejor) que el uso de un ciclo for.
Si usamos el módulo numpy, obtenemos una diferencia más dramática:

In [None]:
%%timeit
import numpy
y = numpy.sum(numpy.arange(0, 2*10**6, dtype='d') ** 2)