## Ejemplo 2: Filter

### 1. Objetivos:
    - Entender cómo funciona la función `filter` y verla aplicada en ejemplos para después poder reproducir su uso
 
---
    
### 2. Desarrollo:

`filter` nos permite filtrar nuestras `listas` para dejar fuera elementos que no queremos. Tal vez te parezca un poco extraño esto. ¿Por qué queremos filtrar datos? Una de nuestras tareas más importantes como procesadores de datos es la de limpiar nuestros conjuntos de datos para que tengan solamente los datos que necesitamos para nuestro análisis. Una de las técnicas de limpieza más comunes es la de filtrar nuestro conjunto de datos. Vamos a aprender a hacer esto usando `filter`.

Como ya vimos, `filter` recibe una función y una lista, y regresa una nueva lista con los elementos que fueron filtrados. La función debe de regresar `True` o `False`. Cada que la función regresa `True`, el elemento al que le fue aplicado la función se agrega a la nueva `lista`. Cada que la función regresa `False` (o `None`), el elemento al que le fue aplicado la función es descartado.

Veamos esto en acción:

Obtener la lista de palabras que tienen más de 5 letras

In [1]:
palabras = ["achicoria", "pasto", "sol", "loquillo", "moquillo", "sed",
            "pez", "jacaranda", "mil"]

def palabra_con_mas_de_5_letras(palabra):
    if len(palabra) > 5:
        return True
    else:
        return False
    

list(filter(palabra_con_mas_de_5_letras, palabras))

['achicoria', 'loquillo', 'moquillo', 'jacaranda']

Obtener la lista de palabras que tienen más de n letras

In [4]:
def palabra_con_mas_de_m_letras(palabra, m):
    return len(palabra) > m # esta forma es la version corta de la forma de arriba
# esta función va a dar un error por eso se hace lo que sigue
# Usa lista de compresión para aplicar la función a la lista de palabras
[p for p in palabras if palabra_con_mas_de_m_letras(p, 8)]

['achicoria', 'jacaranda']

Obtener la lista de números que sean divisibles entre `m`

In [5]:
numeros = [3, 7, 9, 34, 72, 90, 87, 34, 99, 56, 12, 18]

def es_divisible_entre(n, m):
    """Regtresa True si n es divisible entre m"""
    return n % m == 0

# Usa una lista de compresión para obtener los que son divisibles entre 5
[i for i in numeros if es_divisible_entre(i,5)]

[90]

In [6]:
[i for i in numeros if i % 5 ==0]

[90]

Obteniendo el resultado pero usando `filter()` y `lambda` (lo veremos adelante más a detalle)

In [9]:
list(filter(lambda i:es_divisible_entre(i, 5), numeros))

[90]

¡Ahora es tu turno de poner `filter` en práctica!

---
---
## Reto 2: Filter

### 1. Objetivos:
    - Practicar el uso de `filter` para filtrar los datos en una `lista`
 
---
    
### 2. Desarrollo:

#### a) Limpiando datos nulos

Debajo tenemos una `lista` que incluye datos acerca de las edades de las personas que han atendido a un curso de Cocina Medieval (ya sabes: puerco al horno, manzanas asadas, aguardiente, sangre fresca de tus enemigos). Algunas de las personas que atendieron no quisieron dar su edad. Es por eso que algunos de los elementos son `None`:

In [2]:
edades = [12, 16, 19, None, 21, 25, 24, None, None,
    16, 17, 25, 23, 28, None, 23, 35, 59, 67, None,
    34, 21, 23, 15, 14, None, 18, 24, 23, 17]

Queremos realizar una pequeña visualización (un histograma, que ya aprenderás a hacer más tarde) con nuestros datos. Pero no nos interesan los datos que vienen como `None`. Escribe una función llamada `no_es_none` que reciba un valor, cheque si el valor es `None`, regrese `False` si el valor es `None` o regrese `True` si el valor **no** es `None`. Después úsala para filtrar tus datos.

In [5]:
## Tu función va aquí
## ...
## ...
def no_es_none(numero):
    if numero == None:
        return False
    else:
        return True
    

In [6]:
edades_filtradas = list(filter(no_es_none,edades))

Ahora ejecuta la siguiente celda para ver las edades resultantes

In [7]:
def imprimir_edades(datos):
    print("== Lista de edades correctas ==\n")
    for valor in datos:
        print(f"{valor}")
    
imprimir_edades(edades_filtradas)

== Lista de edades correctas ==

12
16
19
21
25
24
16
17
25
23
28
23
35
59
67
34
21
23
15
14
18
24
23
17


#### b) Filtrando datos atípicos

Aquí tenemos una `lista` que contiene datos acerca de los sueldos (cada número representa "miles de pesos") de los empleados de EyePoker Inc. (la empresa donde se producen los mejores picadores de ojos en todo el Hemisferio Occidental):

In [8]:
sueldos = [26, 32, 26, 30, 30, 32, 28, 30, 28,
    110, 34, 30, 28, 26, 28, 30, 28, 85, 25,
    30, 34, 34, 30, 30, 120, 28, 28, 120, 125]

En general todos los sueldos se encuentran en un rango bastante restringido, pero tenemos algunos datos sobre sueldos "anormalmente" grandes. Los sueldos tan grandes son los de los ejecutivos, que claramente no tienen ninguna noción de "justicia" (eso pasa cuando tus picadores de ojos son los mejores de todo el Hemisferio Occidental). Nosotros queremos usar el promedio para tener una idea de cuál es el sueldo `típico` en esta empresa. Nuestros valores `atípicos` (los sueldos anormalmente grandes) van a arruinar nuestro cálculo.

Mira cuál es el sueldo `típico` si no filtramos nuestros valores anormalmente grandes:

In [9]:
print(f'El sueldo "típico" en EyePoker Inc. es de {sum(sueldos) / len(sueldos)}')

El sueldo "típico" en EyePoker Inc. es de 43.62068965517241


Para corregir esto haz una función llamada `es_menor_que_40` que descarte los números mayores de 40, y úsala para filtrar la lista `sueldos`, para tener un cálculo más apropiado del sueldo `típico` en esta empresa.

In [11]:
# tu función aquí
def es_menor_que_40(numero):
    return numero < 40

In [12]:
sueldos_filtrados = list(filter(es_menor_que_40,sueldos))

In [13]:
print(f'El sueldo "típico" en EyePoker Inc. es de {sum(sueldos_filtrados) / len(sueldos_filtrados)}')

El sueldo "típico" en EyePoker Inc. es de 29.375


Notas: