In [None]:
#Clase 24 junio:

In [1]:
import pandas as pd, numpy as np

### Funciones `lambda`
Una función `lambda` es una función anónima que nos permite definir y tratar funciones como si fuesen elementos.

Podemos pensar una función lambda como una función compuesta 
$$ 
    \lambda (f(p_1, p_2, \dots, p_n))
$$

Las funciones `lambda` pueden ser tratadas como cualquier otro elemento. i.e. no es necesario declararlas para poder usarlas

In [2]:
# Tomemos un ejemplo sencillo
(lambda x,y: x**y)(3,2)
# los parámetros x,y se declaran después de la palabra reservada 'lambda'
#Después de los puntos indicamos qué operación realizará la función.
# Por último, le pasamod los valores de x y de y



9

In [3]:
def potencia(x,y):
    return (x**y)

In [4]:
potencia(2,3)

8

In [5]:
# Las funciones lambda nos permiten pasar funciones como parámetros SIN haberlos definido previamente
# Composición de funciones fog(x) = f(g(x))

#definimos la función f con dos argumentos: g (función) y x

def f(g,x):
    return 2*g(x)

f(lambda y:y**(1/2), 3)
#En la función f, mandamos una fn lambda como g; i.e.: x**(1/2) y el valor x=3
# entoinces si x=3, g(x) = sqrt(3)*2

3.4641016151377544

## filter( )
* Se utiliza para crear un iterador de elementos de un iterable para los cuales una función devuelve `True`.

* Sintaxis: **`filter( f(), secuencia)`**    --> devuelve los elementos de la secuencia que son **TRUE** bajo las condiciones impuestas por la función `f()`.

* Ideal para extraer elementos de una lista (o cualquier iterable) que cumplan ciertas condiciones.

In [6]:
emp = pd.read_csv('empleados_3.csv', parse_dates=['fh_ant'])
emp.head(3)

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
0,Ana,False,,1997-04-24,7.719971,sistemas,2133821
1,Mónica,False,F,2012-06-15,14.23114,corporate investments,339196
2,Ana,False,F,1985-12-10,10.035779,compras,1886316


In [7]:
emp.dtypes

nombre                  object
es_directivo              bool
genero                  object
fh_ant          datetime64[ns]
pct bono               float64
area                    object
salario                  int64
dtype: object

In [16]:
emp.shape

(622, 7)

In [8]:
def is_masc(g):
    if g=='M':
        return True
    else:
        return False

In [11]:
pd.Series(list(filter(is_masc, emp.genero))) #regresa los elementos de la col 'genero' que son True bajo lo que indica la fn is_masc.

0      M
1      M
2      M
3      M
4      M
      ..
271    M
272    M
273    M
274    M
275    M
Length: 276, dtype: object

In [17]:
# Ejemplo: de una lista, extraer los números pares: n es par si existe una k tal que n=2k
lista = [1,2,3,4,5,6,7,8,9,10]
pares = list(filter( lambda x:x%2==0 , lista))
print(pares)
# filter(func, secuencia): filtrar los elementos de secuencia que son True bajo lo que dicta func.

[2, 4, 6, 8, 10]


In [18]:
#Extraer los impares
impares = list(filter(lambda x:x%2!=0 , lista))
impares

[1, 3, 5, 7, 9]

In [19]:
#Equivalente a lo anterior
impares = list(filter(lambda x:~x%2==0 , lista))
impares

[1, 3, 5, 7, 9]

In [20]:
# definir una función que verifique qué elementos de una lista son vocales
def voc(x):
    vocales = ['a','e','i','o','u']
    if x in vocales:
        return True
    else:
        return False

lista = ['m','f','a','b','z','e','i','t']

list(filter(voc, lista))


['a', 'e', 'i']

In [21]:
vocales = ['a','e','i','o','u']

list(filter(lambda x:x in vocales, lista))



['a', 'e', 'i']

In [23]:
# Encontrar la intersección de dos listas utilizando una función lambda
lista_1 = [1,2,3,5,7,9,11,12,20]
lista_2 = [2,5,11,9,30]

list(filter(lambda x:x in lista_1, lista_2)) #filtra los elementos de lista_2 que cumplen con la condición: x:x pertenece a lista_1


[2, 5, 11, 9]

In [24]:
# Encontrar lista_1 \ lista_2. A\B = A intersección complemento(B)   
lista_1 = [1,2,3,5,7,9,11,12,20]
lista_2 = [2,5,11,9]

list(filter(lambda x:x not in lista_2, lista_1)) #B= lista_2, A = lista_1

[1, 3, 7, 12, 20]

In [25]:
palabra_1 = 'ordinario'
palabra_2 = 'extraordinario'

list(filter(lambda x:x not in palabra_1, palabra_2))

['e', 'x', 't']

In [28]:
# revisar: list(filter(lambda x:~(x in palabra_1), palabra_2))

## `map( )`

La función **`map()`** aplica una función f a un iterable X de n elementos entrada por entrada:
```python
map(f, X) = [f(x1), f(x2), ..., f(xn)]
```
donde X = (x1, x2, ..., xn)

Es decir: `map()`aplica una función a **cada** elemento de un iterable y nos regresa un objeto de tipo map, el 

cual es un **iterador**. Para ver sus valores los sacamos convirtiéndolos a una lista.

* Se usa normalmente para transformar elementos de una colección; e.g.: aplicar una fórmula a cada elemento

* Beneficio de usar map(): eficiencia en memoria y cómputo


#### Ejemplos `map( )`

In [33]:
list(range(1,11))

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [29]:
#Ejemplo: elevar al cuadrado cada elemento de un conjunto de valores
cuadrados = list(map(lambda x:x**2, range(1,11)))
cuadrados

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

In [30]:
rango = range(1,11)
rango.apply(lambda x:x**2) # nos da error porque range no tiene método apply()

AttributeError: 'range' object has no attribute 'apply'

In [31]:
#Funciona si conviertes el rango a una serie
pd.Series(rango).apply(lambda x:x**2)

0      1
1      4
2      9
3     16
4     25
5     36
6     49
7     64
8     81
9    100
dtype: int64

In [32]:
#Sup queremos aplicar una función donde los argumentos provienen de diferentes rangos
# i.e. sup x pertenece a range(a1, b1) y pertenece a range(a2,b2)
res = list(map( lambda x,y: x+y, range(1,11), range(10,100)))
res

[11, 13, 15, 17, 19, 21, 23, 25, 27, 29]

In [34]:
#Sumar elementos de dos listas:
lista_1 = [1,2,3]
lista_2 = [4,5,6]
list(map(lambda x,y: x+y, lista_1, lista_2))

[5, 7, 9]

In [35]:
#unión de las 2 listas
lista_1 + lista_2

[1, 2, 3, 4, 5, 6]

In [38]:
lista_1 = [1,2,3]
lista_2 = [4,5,6]
lista_3 = [7,8,9]
list(map(lambda x,y,z:x+y+z, lista_1, lista_2, lista_3))

[12, 15, 18]

In [39]:
lista = ['lu','ma','mie','jue','vie']
res = map(list, lista)
print(list(res))

[['l', 'u'], ['m', 'a'], ['m', 'i', 'e'], ['j', 'u', 'e'], ['v', 'i', 'e']]


In [40]:
#EL ejemplo de Fahrenheit a Celsius usando map():

temp_f = [100,80,78,60,90,32]
list(map(lambda x: round((x -32)*5/9,2), temp_f))

[37.78, 26.67, 25.56, 15.56, 32.22, 0.0]

In [41]:
strgs = ["1","2","3"]
enteros = list(map(int, strgs))
enteros

[1, 2, 3]

In [42]:
#encontrar la longitud de cada palabra en una lista de palabras:
palabras = ["arbol","mesa","letra"]
list(map(len, palabras))

[5, 4, 5]

In [43]:
list(map(lambda x: len(x), palabras))

[5, 4, 5]

In [44]:
#Crea una lista Booleana dependiendo de si un número de una lista es mayor a 2
numeros = [1,2,3,4,5,6,7,8]
list(map(lambda x:x>2, numeros))

[False, False, True, True, True, True, True, True]

## `reduce( )`

* Aplica una 'rolling computation' o cálculo acumulativo a pares secuenciales de valores en una lista (o iterable) y los reduce a un solo número
* Sintáxis:
```python
reduce(function, iterable[, initializer])
```
* Aplica la función de forma acumulativa a los elementos del iterable, de izquiera a derecha.

In [45]:
from functools import reduce

#### Ejemplos `reduce( )`

In [46]:
# Define una función que suma dos cantidades:
def sumar(x,y):
    return x+y

lista = [1,2,3,4,5]

#usar reduce() para sumar los numeros:
res = reduce(sumar, lista)
res


15

In [48]:
#Encontrando el máximo de una lista:
def max_func(a,b):
    return a if a > b else b

lista = [47,11,42,102,13]
maximo = reduce(max_func, lista)
maximo

102

#### Ejemplo anterior paso a paso

1. Se llama a `max_func(47, 11)`, regresa 47.
2. Se llama a `max_func(47, 42)`, regresa 47.
3. Se llama a `max_func(47, 102`, regresa 102.
4. Se llama a `max_func(102, 13)`,regresa 102.

In [49]:
#Ejemplo: concatenando strings:

strings = ['Hola', ' ', 'a', ' ', 'todos', ' ', 'Bienvenidos']

# Función para concatenar sólo dos strings

def concat(a, b):
    return a+b

reduce(concat, strings)


'Hola a todos Bienvenidos'

### Otros ejemplos:

In [50]:
#quiero filtrar los valores mayores a 5 de una secuencia:
list(filter(lambda x: (x > 5), (3,4,5,6,7)))

[6, 7]

In [51]:
#calcular el factorial de un número n (n=6). recordar n! = 1*2*3*...*n
reduce(lambda x,y:x*y, [1,2,3,4,5,6])

720

## índice y slicing de un DataFrame

In [52]:
df = pd.read_csv('empleados_3.csv', index_col = 'nombre')
df.head()

Unnamed: 0_level_0,es_directivo,genero,fh_ant,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Ana,False,,1997-04-24,7.719971,sistemas,2133821
Mónica,False,F,2012-06-15,14.23114,corporate investments,339196
Ana,False,F,1985-12-10,10.035779,compras,1886316
Bernardo,False,M,2017-11-26,8.657518,riesgos,3232929
Laura,True,F,2001-03-16,12.073975,valoración y desarrollo,2378736


In [53]:
df = pd.read_csv('empleados_3.csv')
df.head()

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
0,Ana,False,,1997-04-24,7.719971,sistemas,2133821
1,Mónica,False,F,2012-06-15,14.23114,corporate investments,339196
2,Ana,False,F,1985-12-10,10.035779,compras,1886316
3,Bernardo,False,M,2017-11-26,8.657518,riesgos,3232929
4,Laura,True,F,2001-03-16,12.073975,valoración y desarrollo,2378736


## set_index()

In [54]:
# keys parameter es la columna que quieres como índice:
df.set_index(keys = 'nombre', inplace=True)
df.head(3)

Unnamed: 0_level_0,es_directivo,genero,fh_ant,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Ana,False,,1997-04-24,7.719971,sistemas,2133821
Mónica,False,F,2012-06-15,14.23114,corporate investments,339196
Ana,False,F,1985-12-10,10.035779,compras,1886316


### `reset_index()`

In [55]:
df.reset_index(inplace=True)
df.head(3)

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
0,Ana,False,,1997-04-24,7.719971,sistemas,2133821
1,Mónica,False,F,2012-06-15,14.23114,corporate investments,339196
2,Ana,False,F,1985-12-10,10.035779,compras,1886316


In [56]:
df.set_index(keys = 'nombre', inplace=True, drop=False) #para conservar la columna además de tenerla como índice
df.head(8)

Unnamed: 0_level_0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Ana,Ana,False,,1997-04-24,7.719971,sistemas,2133821
Mónica,Mónica,False,F,2012-06-15,14.23114,corporate investments,339196
Ana,Ana,False,F,1985-12-10,10.035779,compras,1886316
Bernardo,Bernardo,False,M,2017-11-26,8.657518,riesgos,3232929
Laura,Laura,True,F,2001-03-16,12.073975,valoración y desarrollo,2378736
Daniel,Daniel,True,M,2013-12-20,19.613251,staff DG,4364527
René,René,True,M,2002-04-12,9.363798,sistemas,4770660
Ignacio,Ignacio,False,M,1987-09-11,17.230757,proyectos,1535389


In [57]:
df.drop('nombre', axis=1, inplace=True)
df.head()

Unnamed: 0_level_0,es_directivo,genero,fh_ant,pct bono,area,salario
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Ana,False,,1997-04-24,7.719971,sistemas,2133821
Mónica,False,F,2012-06-15,14.23114,corporate investments,339196
Ana,False,F,1985-12-10,10.035779,compras,1886316
Bernardo,False,M,2017-11-26,8.657518,riesgos,3232929
Laura,True,F,2001-03-16,12.073975,valoración y desarrollo,2378736


In [58]:
df.reset_index(inplace=True)
df.head()

Unnamed: 0,nombre,es_directivo,genero,fh_ant,pct bono,area,salario
0,Ana,False,,1997-04-24,7.719971,sistemas,2133821
1,Mónica,False,F,2012-06-15,14.23114,corporate investments,339196
2,Ana,False,F,1985-12-10,10.035779,compras,1886316
3,Bernardo,False,M,2017-11-26,8.657518,riesgos,3232929
4,Laura,True,F,2001-03-16,12.073975,valoración y desarrollo,2378736


In [None]:
# fin clase 24 junio