## Ejemplo 2: Filter

### 1. Objetivos:
    - Entender cómo funciona la función `filter` y verla aplicada en ejemplos para después poder reproducir su uso
 
---
    
### 2. Desarrollo:

`filter` nos permite filtrar nuestras `listas` para dejar fuera elementos que no queremos. Tal vez te parezca un poco extraño esto. ¿Por qué queremos filtrar datos? Una de nuestras tareas más importantes como procesadores de datos es la de limpiar nuestros conjuntos de datos para que tengan solamente los datos que necesitamos para nuestro análisis. Una de las técnicas de limpieza más comunes es la de filtrar nuestro conjunto de datos. Vamos a aprender a hacer esto usando `filter`.

La función `filter()` tiene la siguiente forma:

    filter(funcion, lista)

y regresa una nueva lista con los elementos de `lista` filtrados por `funcion`.

Donde:

`funcion` es ejecutada con cada uno de los elementos de `lista` y regresa `True` o `False`, si el valor es `True` entonces el elemento al que le fue aplicada se agrega a una nueva lista creada por filter, si el valor regresado es `False` (o `None`) el elemento al que le fue aplicada se descarta.
`lista` contiene la lista de elementos a filterar y se espera que sean todos del mismo tipo.

In [25]:
from pprint import pprint

A continuación se tiene la lista de palabras obtenidas del fragmento de la novela de Julio Cortázar usanda anteriormente:

In [1]:
fragmento_palabras = ['Apenas', 'él', 'le', 'amalaba', 'el', 'noema', 'a', 'ella', 'se', 'le', 'agolpaba', 'el', 'clémiso', 'y', 'caían', 'en', 'hidromurias', 'en', 'salvajes', 'ambonios', 'en', 'sustalos', 'exasperantes', 'Cada', 'vez', 'que', 'él', 'procuraba', 'relamar', 'las', 'incopelusas', 'se', 'enredaba', 'en', 'un', 'grimado', 'quejumbroso', 'y', 'tenía', 'que', 'envulsionarse', 'de', 'cara', 'al', 'nóvalo', 'sintiendo', 'cómo', 'poco', 'a', 'poco', 'las', 'arnillas', 'se', 'espejunaban', 'se', 'iban', 'apeltronando', 'reduplimiendo', 'hasta', 'quedar', 'tendido', 'como', 'el', 'trimalciato', 'de', 'ergomanina', 'al', 'que', 'se', 'le', 'han', 'dejado', 'caer', 'unas', 'fílulas', 'de', 'cariaconcia', 'Y', 'sin', 'embargo', 'era', 'apenas', 'el', 'principio', 'porque', 'en', 'un', 'momento', 'dado', 'ella', 'se', 'tordulaba', 'los', 'hurgalios', 'consintiendo', 'en', 'que', 'él', 'aproximara', 'suavemente', 'sus', 'orfelunios', 'Apenas', 'se', 'entreplumaban', 'algo', 'como', 'un', 'ulucordio', 'los', 'encrestoriaba', 'los', 'extrayuxtaba', 'y', 'paramovía', 'de', 'pronto', 'era', 'el', 'clinón', 'la', 'esterfurosa', 'convulcante', 'de', 'las', 'mátricas', 'la', 'jadehollante', 'embocapluvia', 'del', 'orgumio', 'los', 'esproemios', 'del', 'merpasmo', 'en', 'una', 'sobrehumítica', 'agopausa', 'Evohé', 'Evohé', 'Volposados', 'en', 'la', 'cresta', 'del', 'murelio', 'se', 'sentían', 'balpamar', 'perlinos', 'y', 'márulos', 'Temblaba', 'el', 'troc', 'se', 'vencían', 'las', 'marioplumas', 'y', 'todo', 'se', 'resolviraba', 'en', 'un', 'profundo', 'pínice', 'en', 'niolamas', 'de', 'argutendidas', 'gasas', 'en', 'carinias', 'casi', 'crueles', 'que', 'los', 'ordopenaban', 'hasta', 'el', 'límite', 'de', 'las', 'gunfias']
print(fragmento_palabras)

['Apenas', 'él', 'le', 'amalaba', 'el', 'noema', 'a', 'ella', 'se', 'le', 'agolpaba', 'el', 'clémiso', 'y', 'caían', 'en', 'hidromurias', 'en', 'salvajes', 'ambonios', 'en', 'sustalos', 'exasperantes', 'Cada', 'vez', 'que', 'él', 'procuraba', 'relamar', 'las', 'incopelusas', 'se', 'enredaba', 'en', 'un', 'grimado', 'quejumbroso', 'y', 'tenía', 'que', 'envulsionarse', 'de', 'cara', 'al', 'nóvalo', 'sintiendo', 'cómo', 'poco', 'a', 'poco', 'las', 'arnillas', 'se', 'espejunaban', 'se', 'iban', 'apeltronando', 'reduplimiendo', 'hasta', 'quedar', 'tendido', 'como', 'el', 'trimalciato', 'de', 'ergomanina', 'al', 'que', 'se', 'le', 'han', 'dejado', 'caer', 'unas', 'fílulas', 'de', 'cariaconcia', 'Y', 'sin', 'embargo', 'era', 'apenas', 'el', 'principio', 'porque', 'en', 'un', 'momento', 'dado', 'ella', 'se', 'tordulaba', 'los', 'hurgalios', 'consintiendo', 'en', 'que', 'él', 'aproximara', 'suavemente', 'sus', 'orfelunios', 'Apenas', 'se', 'entreplumaban', 'algo', 'como', 'un', 'ulucordio', 'lo

**Nota:** Esta lista de palabras ya es un ejemplo del procesamiento de datos ¿podrías obtener esta misma lista a partir del framento de texto de la sesion anterior? Observa que sólo están las palabras, sin ningún signo adicional.

Entonces vamos a obtener todas las palabras que tienen más de 5 letras, así que primero creamos nuestra función `mas_de_5_letras(palabra)`

In [13]:
def mas_de_5_letras(palabra):
    if len(palabra) > 5:
        return palabra

Y luego aplicamos la función a cada elemento de la lista con `filter()` e imprimimos la lista resultante usando `print()` y tampoco olvidar aplicar la función `list()` (por la misma razón que se usó con la función `map()`)

In [26]:
palabras_filtradas = list(filter(mas_de_5_letras,fragmento_palabras))

pprint(palabras_filtradas, compact=True, width=60)
print( len(palabras_filtradas) )

['Apenas', 'amalaba', 'agolpaba', 'clémiso', 'hidromurias',
 'salvajes', 'ambonios', 'sustalos', 'exasperantes',
 'procuraba', 'relamar', 'incopelusas', 'enredaba',
 'grimado', 'quejumbroso', 'envulsionarse', 'nóvalo',
 'sintiendo', 'arnillas', 'espejunaban', 'apeltronando',
 'reduplimiendo', 'quedar', 'tendido', 'trimalciato',
 'ergomanina', 'dejado', 'fílulas', 'cariaconcia',
 'embargo', 'apenas', 'principio', 'porque', 'momento',
 'tordulaba', 'hurgalios', 'consintiendo', 'aproximara',
 'suavemente', 'orfelunios', 'Apenas', 'entreplumaban',
 'ulucordio', 'encrestoriaba', 'extrayuxtaba', 'paramovía',
 'pronto', 'clinón', 'esterfurosa', 'convulcante',
 'mátricas', 'jadehollante', 'embocapluvia', 'orgumio',
 'esproemios', 'merpasmo', 'sobrehumítica', 'agopausa',
 'Volposados', 'cresta', 'murelio', 'sentían', 'balpamar',
 'perlinos', 'márulos', 'Temblaba', 'vencían',
 'marioplumas', 'resolviraba', 'profundo', 'pínice',
 'niolamas', 'argutendidas', 'carinias', 'crueles',
 'ordopenaban', 

Y si queremos obtener la lista de palabras que tienen más de n letras, hacemos la función `mas_de_m_letras()`:

In [23]:
def mas_de_m_letras(palabra, m):
    if len(palabra) > m :
        return palabra

Aplicamos la función a la lista con `filter()`:

In [24]:
palabras_filtradas_m = filter(mas_de_m_letras,palabra)
palabras_filtradas_m

NameError: name 'palabra' is not defined

Sucedió justo los mismo que con `map()`, entonces se obtendrá el resultado pero usando `filter()` y `lambda` (lo comentaremos a detalle más adelante), pero veamos como se usa:

In [40]:
palabras_filtradas_m = list(map(lambda x : mas_de_m_letras(x,10),fragmento_palabras))

pprint(palabras_filtradas_m, compact=True, width=60)
print( len(palabras_filtradas_m) )

[None, None, None, None, None, None, None, None, None, None,
 None, None, None, None, None, None, 'hidromurias', None,
 None, None, None, None, 'exasperantes', None, None, None,
 None, None, None, None, 'incopelusas', None, None, None,
 None, None, 'quejumbroso', None, None, None,
 'envulsionarse', None, None, None, None, None, None, None,
 None, None, None, None, None, 'espejunaban', None, None,
 'apeltronando', 'reduplimiendo', None, None, None, None,
 None, 'trimalciato', None, None, None, None, None, None,
 None, None, None, None, None, None, 'cariaconcia', None,
 None, None, None, None, None, None, None, None, None, None,
 None, None, None, None, None, None, 'consintiendo', None,
 None, None, None, None, None, None, None, None,
 'entreplumaban', None, None, None, None, None,
 'encrestoriaba', None, 'extrayuxtaba', None, None, None,
 None, None, None, None, None, 'esterfurosa', 'convulcante',
 None, None, None, None, 'jadehollante', 'embocapluvia',
 None, None, None, None, None, No

También podemos obtener la lista usando **listas de comprensión**:

In [43]:
palabras_filtradas_m = [mas_de_m_letras(palabra,10) for palabra in fragmento_palabras]

pprint(palabras_filtradas_m, compact=True, width=60)
print( len(palabras_filtradas_m) )

[None, None, None, None, None, None, None, None, None, None,
 None, None, None, None, None, None, 'hidromurias', None,
 None, None, None, None, 'exasperantes', None, None, None,
 None, None, None, None, 'incopelusas', None, None, None,
 None, None, 'quejumbroso', None, None, None,
 'envulsionarse', None, None, None, None, None, None, None,
 None, None, None, None, None, 'espejunaban', None, None,
 'apeltronando', 'reduplimiendo', None, None, None, None,
 None, 'trimalciato', None, None, None, None, None, None,
 None, None, None, None, None, None, 'cariaconcia', None,
 None, None, None, None, None, None, None, None, None, None,
 None, None, None, None, None, None, 'consintiendo', None,
 None, None, None, None, None, None, None, None,
 'entreplumaban', None, None, None, None, None,
 'encrestoriaba', None, 'extrayuxtaba', None, None, None,
 None, None, None, None, None, 'esterfurosa', 'convulcante',
 None, None, None, None, 'jadehollante', 'embocapluvia',
 None, None, None, None, None, No

---
Realicemos otro ejemplo, supongamos que tenemos un lote de latas de aluminio y se quiere verificar la calidad del lote en base a la exactitud del diámtero de la lata que debe ser de 5 cm +/- 0.1 cm, así que se toma una muestra de 100 latas y se mide el diámetro de cada una obteniendo los siguientes resultados (**Nota**: observa como se describe un problema y como fué que se han obtenido los datos):

In [44]:
# Este código crea la muestra de los diámetros de las 100 latas considerando
# el rango de error permitido agregando un rango un poco mayor para obtener
# algunas latas con diámetro fuera de lo permitido.

from pprint import pprint
import random

rango_de_muestra = 100
diametro_esperado = 5
margen_de_error = 0.1 + 0.02  # hacemos el error un poco mayor para dar margen a errores
a = diametro_esperado - margen_de_error
b = diametro_esperado + margen_de_error

muestras_diametro = []
for _ in range(100):
    random.seed()
    diametro_lata = round(random.uniform(a, b), 4)
    muestras_diametro.append(diametro_lata)

pprint(muestras_diametro, compact=True, width=60)

[4.957, 4.9131, 5.0267, 4.9652, 4.9192, 4.9227, 4.9827,
 4.8923, 5.1183, 5.0461, 5.0089, 5.0862, 5.101, 5.0058,
 4.9246, 4.9471, 5.0662, 5.1126, 4.9245, 5.0599, 5.1101,
 4.8956, 4.9551, 4.8918, 4.9697, 4.9073, 5.0929, 5.0346,
 4.97, 5.0603, 4.9781, 5.0002, 4.9934, 5.1038, 4.9512,
 4.9572, 5.0022, 5.1048, 4.9717, 5.0077, 5.0483, 4.9052,
 4.9056, 4.9021, 4.972, 4.8991, 5.0506, 5.0389, 5.0276,
 4.9845, 5.0591, 4.9689, 4.9691, 5.0613, 5.0644, 4.938,
 5.0091, 5.0631, 4.9753, 5.0325, 4.9375, 5.0969, 5.01,
 4.9954, 5.119, 5.0514, 4.9326, 5.0662, 5.0483, 4.9957,
 4.9154, 5.0443, 4.9941, 5.0824, 5.0665, 4.9416, 5.1146,
 5.0773, 4.9601, 4.8831, 5.0902, 4.9398, 4.899, 5.0136, 5.0,
 4.9408, 5.0996, 5.1117, 5.1175, 5.0963, 4.9468, 4.9874,
 4.8878, 4.8889, 5.1058, 4.929, 5.0633, 4.9511, 5.0787,
 5.034]


Considerando que una lata es aceptable si su diámetro mide 5 cm +/- 0.1 cm, encuentra todas las latas de la muestra que no cumplen con el control de calidad e indica el porciento de defectos de la muestra. **Nota:** resolver usando instrucciones if con una condición.

In [45]:
def lata_defectuosa(diametro):
    if 4.9 >= diametro <= 5.1:
        return diametro

In [48]:
latas_defectuosas = list(filter(lata_defectuosa,muestras_diametro))

print(latas_defectuosas)

[4.8923, 4.8956, 4.8918, 4.8991, 4.8831, 4.899, 4.8878, 4.8889]


In [50]:
porcentaje = len(latas_defectuosas) / len(muestras_diametro)

print(f"Porciento de defectos de latas es: {porcentaje:.0%}")

Porciento de defectos de latas es: 8%


¡Ahora es tu turno!

---
---
## Reto 2: Filter

### 1. Objetivos:
    - Practicar el uso de `filter` para filtrar los datos en una `lista`
 
### 2. Desarrollo:

#### a) Limpiando datos nulos

Debajo tenemos una `lista` que incluye datos acerca de las edades de las personas que han atendido a un curso de Cocina Medieval (ya sabes: puerco al horno, manzanas asadas, aguardiente, sangre fresca de tus enemigos). Algunas de las personas que atendieron no quisieron dar su edad. Es por eso que algunos de los elementos son `None`:

In [51]:
edades = [12, 16, 19, None, 21, 25, 24, None, None,
    16, 17, 25, 23, 28, None, 23, 35, 59, 67, None,
    34, 21, 23, 15, 14, None, 18, 24, 23, 17]

Queremos realizar una pequeña visualización (un histograma, que ya aprenderás a hacer más tarde) con nuestros datos. Pero no nos interesan los datos que vienen como `None`. Escribe una función llamada `no_es_none` que reciba un valor, cheque si el valor es `None`, regrese `False` si el valor es `None` o regrese `True` si el valor **no** es `None`. Después úsala para filtrar tus datos.

In [55]:
def no_es_none(valor):
    if valor != None:
        return True
    else: return False

In [56]:
edades_filtradas = list(filter(no_es_none,edades))
edades_filtradas

[12,
 16,
 19,
 21,
 25,
 24,
 16,
 17,
 25,
 23,
 28,
 23,
 35,
 59,
 67,
 34,
 21,
 23,
 15,
 14,
 18,
 24,
 23,
 17]

Ahora ejecuta la siguiente celda para validar tus lista de edades!

In [57]:
def imprimir_edades(datos):
    titulo = "== Validando tú lista de edades =="
    print(titulo)
    print("-" * len(titulo))
    errores = 0
    for i, valor in enumerate([x for x in edades if x]):
        try:
            if valor == datos[i]:
                print(f"{i}) Tú valor: {datos[i]}, ok")
            else:
                print(f"{i}) Tú valor: {datos[i]}, error. El valor esperado es {valor}")
                errores += 1
        except IndexError:
            print(f"{i}) Tú valor: None, error. El valor esperado es {valor}")
            errores += 1
            
    print("-" * len(titulo))
    if errores:
        print(f"Se encontraron {errores} errores, intenta de nuevo!")
    else:
        print("Cero errores, felicidadez misión cumplida!")
    
imprimir_edades(edades_filtradas)

== Validando tú lista de edades ==
----------------------------------
0) Tú valor: 12, ok
1) Tú valor: 16, ok
2) Tú valor: 19, ok
3) Tú valor: 21, ok
4) Tú valor: 25, ok
5) Tú valor: 24, ok
6) Tú valor: 16, ok
7) Tú valor: 17, ok
8) Tú valor: 25, ok
9) Tú valor: 23, ok
10) Tú valor: 28, ok
11) Tú valor: 23, ok
12) Tú valor: 35, ok
13) Tú valor: 59, ok
14) Tú valor: 67, ok
15) Tú valor: 34, ok
16) Tú valor: 21, ok
17) Tú valor: 23, ok
18) Tú valor: 15, ok
19) Tú valor: 14, ok
20) Tú valor: 18, ok
21) Tú valor: 24, ok
22) Tú valor: 23, ok
23) Tú valor: 17, ok
----------------------------------
Cero errores, felicidadez misión cumplida!


#### b) Filtrando datos atípicos

Aquí tenemos una `lista` que contiene datos acerca de los sueldos (cada número representa "miles de pesos") de los empleados de EyePoker Inc. (la empresa donde se producen los mejores picadores de ojos en todo el Hemisferio Occidental):

In [58]:
sueldos = [26, 32, 26, 30, 30, 32, 28, 30, 28,
    110, 34, 30, 28, 26, 28, 30, 28, 85, 25,
    30, 34, 34, 30, 30, 120, 28, 28, 120, 125]

En general todos los sueldos se encuentran en un rango bastante restringido, pero tenemos algunos datos sobre sueldos "anormalmente" grandes. Los sueldos tan grandes son los de los ejecutivos, que claramente no tienen ninguna noción de "justicia" (eso pasa cuando tus picadores de ojos son los mejores de todo el Hemisferio Occidental). Nosotros queremos usar el promedio para tener una idea de cuál es el sueldo `típico` en esta empresa. Nuestros valores `atípicos` (los sueldos anormalmente grandes) van a arruinar nuestro cálculo.

Mira cuál es el sueldo `típico` si no filtramos nuestros valores anormalmente grandes:

In [59]:
print(f'El sueldo "típico" en EyePoker Inc. es de $ {sum(sueldos) / len(sueldos) * 1000:.2f}')

El sueldo "típico" en EyePoker Inc. es de $ 43620.69


Para corregir esto haz una función llamada `es_menor_que_40` que descarte los números mayores de 40, y úsala para filtrar la lista `sueldos`, para tener un cálculo más apropiado del sueldo `típico` en esta empresa.

In [61]:
def es_menos_que_40(valor):
    if valor < 40 :
        return True
    else: return False

In [63]:
sueldos_filtrados = list(filter(es_menos_que_40,sueldos))
sueldos_filtrados

[26,
 32,
 26,
 30,
 30,
 32,
 28,
 30,
 28,
 34,
 30,
 28,
 26,
 28,
 30,
 28,
 25,
 30,
 34,
 34,
 30,
 30,
 28,
 28]

Y a continuación nuevamente tu celda de validación ...

In [64]:
sueldo_tipico = sum(sueldos_filtrados) / len(sueldos_filtrados) * 1000
if sueldo_tipico == 29375:
    print(f'El sueldo "típico" de $ {sueldo_tipico:.2f} en EyePoker Inc. es aceptable, estás contratado!')
else:
    print(f'El sueldo "típico" de $ {sueldo_tipico:.2f} en EyePoker Inc. no es aceptable, lo intentarás de nuevo?')
    

El sueldo "típico" de $ 29375.00 en EyePoker Inc. es aceptable, estás contratado!
