<a href="https://colab.research.google.com/github/alberto1971/Curso-de-introduccion-a-Big-Data-Parte-1-nov2021/blob/main/9_Funcionalidades_avanzadas_comprension_de_listas%2C_lambda%2C_apply%2C_filter%2C_map.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Comprensión de listas

La comprensión de listas, del inglés list comprehensions, es una funcionalidad que nos permite crear listas avanzadas en una misma línea de código. Esto se ve mucho mejor en la práctica, así que a lo largo de esta lección vamos a trabajar distintos ejemplos.

In [None]:
# Método tradicional para crear una lista con las letras de una palabra
lista = []
for letra in 'casa':
    lista.append(letra)
print(lista)

In [None]:
# Con comprensión de listas
lista = [letra for letra in 'casa']
print(lista)

In [None]:
# Método tradicional para crear una lista con las potencias de 2 de los primeros 10 números
lista = []
for numero in range(0,11):
    lista.append(numero**2)
print(lista)

In [None]:
# Con comprensión de listas
ista = [numero**2 for numero in  range(0,11)]
print(lista)

In [None]:
# Lista de los números del 0 al 10 cuando sea par, es decir, su módulo de 2 sea 0
[numero for numero in range(0,11) if numero % 2 == 0 ] 

[0, 2, 4, 6, 8, 10]

#Funciones lambda
Las funciones o expresiones lambda sirven para crear funciones anónimas. Estamos ante unas de las funcionalidades más potentes de Python a la vez que más confusas para los principiantes.

Una función anónima, como su nombre indica es una función sin nombre. ¿Es posible ejecutar una función sin referenciar un nombre? Pues sí, en Python podemos ejecutar una función sin definirla con def. De hecho son similares pero con una diferencia fundamental:

El contenido de una función lambda debe ser una única expresión en lugar de un bloque de acciones.

Y es que más allá del sentido de función que tenemos, con su nombre y sus acciones internas, una función en su sentido más trivial significa realizar algo sobre algo. Por tanto podríamos decir que, mientras las funciones anónimas lambda sirven para realizar funciones simples, las funciones definidas con def sirven para manejar tareas más extensas.

Si deconstruimos una función sencilla, podemos llegar a una función lambda. Por ejemplo tomad la siguiente función para doblar un valor:

In [None]:
#Función
def doblar(num):
    return num*2

In [None]:
doblar(5)

10

In [None]:
#Lambda
lambda num: num*2

<function __main__.<lambda>>

In [None]:
doblar_b = lambda num: num*2
doblar_b (5)

10

In [None]:
sumar = lambda x,y: x+y

sumar(5,2)

Darle la vuelta a una cadena utilizando slicing:

In [None]:
revertir = lambda cadena: cadena[::-1]

revertir("Hola")

'aloH'

#Función filter()
Tal como su nombre indica filter significa filtrar, y es una de mis funciones favoritas, ya que a partir de una lista o iterador y una función condicional, es capaz de devolver una nueva colección con los elementos filtrados que cumplan la condición.

Por ejemplo, supongamos que tenemos una lista varios números y queremos filtrarla, quedándonos únicamente con los múltiples de 5...

In [None]:
def multiple(numero):    # Primero declaramos una función condicional
    if numero % 5 == 0:  # Comprobamos si un numero es múltiple de cinco
        return True      # Sólo devolvemos True si lo es

numeros = [2, 5, 10, 23, 50, 33]

filter(multiple, numeros)

<filter at 0x7f8815f82b10>

Por tanto cuando utilizamos la función filter() tenemos que enviar una función condicional, pero como recordaréis, no es necesario definirla, podemos utlizar una función anónima lambda:

In [None]:
list( filter(lambda numero: numero%5 == 0, numeros) )


[5, 10, 50]

##Filtrando objetos
Sin embargo, más allá de filtrar listas con valores simples, el verdadero potencial de filter() sale a relucir cuando necesitamos filtrar varios objetos de una lista.

Por ejemplo, dada una lista con varias personas, nos gustaría filtrar únicamente las que son menores de edad:

In [None]:
class Persona:

    def __init__(self, nombre, edad):
        self.nombre = nombre
        self.edad = edad

    def __str__(self):
        return "{} de {} años".format(self.nombre, self.edad)


personas = [
    Persona("Juan", 35),
    Persona("Marta", 16),
    Persona("Manuel", 78),
    Persona("Eduardo", 12)
]

Para hacerlo nos vamos a servir de una función lambda, comprobando el campo edad para cada persona:

In [None]:
menores = filter(lambda persona: persona.edad < 18, personas)

for menor in menores:
    print(menor)

Marta de 16 años
Eduardo de 12 años


#Función map()
Esta función trabaja de una forma muy similar a filter(), con la diferencia que en lugar de aplicar una condición a un elemento de una lista o secuencia, aplica una función sobre todos los elementos y como resultado se devuelve un iterable de tipo map:

In [None]:
def doblar(numero):
    return numero*2

numeros = [2, 5, 10, 23, 50, 33]

map(doblar, numeros)

Fácilmente podemos transformar este iterable en una lista:

In [None]:
list(map(doblar, numeros))

Y podemos simplificarlo con una función lambda para substituir la llamada de una función definida:

In [None]:
list( map(lambda x: x*2, numeros) )

La función map() se utiliza mucho junto a expresiones lambda ya que permite ahorrarnos el esfuerzo de crear bucles for.

Además se puede utilizar sobre más de un iterable con la condición que tengan la misma longitud.

Por ejemplo si queremos multiplicar los números de dos listas:

In [None]:
a = [1, 2, 3, 4, 5]
b = [6, 7, 8, 9, 10]

list( map(lambda x,y : x*y, a,b) )

[6, 14, 24, 36, 50]

In [None]:
#Atención que estamos sumando elemento a elemento porque si hacemos la suma de las listas obtenemos esto
a+b

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [None]:
a = [1, 2, 3, 4, 5]
b = [6, 7, 8, 9, 10]
c = [11, 12, 13, 14, 15]

list( map(lambda x,y,z : x*y*z, a,b,c) )

##Mapeando objetos
Evidentemente, siempre que la utilicemos correctamente podemos mapear una serie de objetos sin ningún problema:

In [None]:
for persona in personas:
    print(persona)

Juan de 35 años
Marta de 16 años
Manuel de 78 años
Eduardo de 12 años


In [None]:
def incrementar(p):
    p.edad += 1
    return p

personas = map(incrementar, personas)

for persona in personas:
    print(persona)

Juan de 36 años
Marta de 17 años
Manuel de 79 años
Eduardo de 13 años


#Búsqueda de cadenas de texto
Una de las tareas más utilizadas en la programación es la búsqueda de subcadenas o patrones dentro de otras cadenas de texto.

Las expresiones regulares, también conocidas como 'regex' o 'regexp', son patrones de búsqueda definidos con una sintaxis formal. Siempre que sigamos sus reglas, podremos realizar búsquedas simples y avanzadas, que utilizadas en conjunto con otras funcionalidades, las vuelven una de las opciones más útiles e importantes de cualquier lenguaje.

##Métodos básicos
re.search: busca un patrón en otra cadena:


In [None]:
import re

texto = "En esta cadena se encuentra una palabra mágica"

re.search('mágica', texto)

<re.Match object; span=(40, 46), match='mágica'>

Como vemos, al realizar la búsqueda lo que nos encontramos es un objeto de tipo Match (encontrado), en lugar un simple True o False.

In [None]:
palabra = "mágica"

encontrado = re.search(palabra,  texto)

if encontrado:
    print("Se ha encontrado la palabra:", palabra)
else:
    print("No se ha encontrado la palabra:", palabra)

Se ha encontrado la palabra: mágica


Sin embargo, volviendo al objeto devuelto de tipo Match, éste nos ofrece algunas opciones interesantes.

In [None]:
# Posición donde empieza la coincidencia
print( encontrado.start() ) 
# Posición donde termina la coincidencia
print( encontrado.end() )  
# Tupla con posiciones donde empieza y termina la coincidencia
print( encontrado.span() )   
# Cadena sobre la que se ha realizado la búsqueda
print( encontrado.string )  

40
46
(40, 46)
En esta cadena se encuentra una palabra mágica


re.split: divide una cadena a partir de un patrón:

In [None]:
texto = "Vamos a dividir esta cadena"

re.split(' ', texto)

['Vamos', 'a', 'dividir', 'esta', 'cadena']

re.sub: sustituye todas las coincidencias en una cadena:

In [None]:
texto = "Hola amigo"

re.sub('amigo', 'amiga', texto)

'Hola amiga'

re.findall: busca todas las coincidencias en una cadena:

In [None]:
texto = "hola adios hola hola"

re.findall('hola', texto)

['hola', 'hola', 'hola']

##Patrones con varios valores
Si queremos comprobar varias posibilidades, podemos utilizar una tubería | a modo de OR. Generalmente pondremos el listado de alternativas entre paréntesis ():

In [None]:
texto = "hola adios hello bye"

re.findall('hola|hello', texto)

['hola', 'hello']

##Patrones con sintaxis repetida
Otra posibilidad que se nos ofrece es la de buscar patrones con letras repetidas, y aquí es donde se empieza a poner interesante. Como podemos o no saber de antemano el número de repeticiones hay varias formas de definirlos.

In [None]:
texto = "hla hola hoola hooola hooooola"

Antes de continuar, y para aligerar todo el proceso, vamos a crear una función capaz de ejecutar varios patrones en una lista sobre un texto:

In [None]:
def buscar(patrones, texto):
    for patron in patrones:
        print( re.findall(patron, texto) )

patrones = ['hla', 'hola', 'hoola']
buscar(patrones, texto)

['hla']
['hola']
['hoola']


Con meta-carácter *
Lo utilizaremos para definir ninguna o más repeticiones de la letra a la izquierda del meta-carácter:

In [None]:
patrones = ['ho','ho*','ho*la','hu*la']

buscar(patrones, texto)

['ho', 'ho', 'ho', 'ho']
['h', 'ho', 'hoo', 'hooo', 'hooooo']
['hla', 'hola', 'hoola', 'hooola', 'hooooola']
['hla']


Otros meta-caracteres:  
'+'

?

^

{n}


##Conjuntos de caracteres
Cuando nos interese crear un patrón con distintos carácteres, podemos definir conjuntos entre paréntesis:

In [None]:
texto = "hala hela hila hola hula"

patrones = ['h[ou]la', 'h[aio]la', 'h[aeiou]la']
buscar(patrones, texto)

['hola', 'hula']
['hala', 'hila', 'hola']
['hala', 'hela', 'hila', 'hola', 'hula']


Rangos [ - ]:
Otra característica que hace ultra potentes los grupos, es la capacidad de definir rangos. Ejemplos de rangos:

[A-Z]: Cualquier carácter alfabético en mayúscula (no especial ni número).

[a-z]: Cualquier carácter alfabético en minúscula (no especial ni número).

[A-Za-z]: Cualquier carácter alfabético en minúscula o mayúscula (no especial ni número).

[A-z]: Cualquier carácter alfabético en minúscula o mayúscula (no especial ni número).

[0-9]: Cualquier carácter numérico (no especial ni alfabético).

[a-zA-Z0-9]: Cualquier carácter alfanumérico (no especial).

In [None]:
texto = "hola h0la Hola mola m0la M0la"

patrones = ['h[a-z]la', 'h[0-9]la', '[A-z]{4}', '[A-Z][A-z0-9]{3}'] 
buscar(patrones, texto)


##Fuentes

https://docs.hektorprofe.net/python/funcionalidades-avanzadas/comprension-de-listas/