In [None]:
%matplotlib inline
import matplotlib
import seaborn as sns
matplotlib.rcParams['savefig.dpi'] = 144

In [None]:
import expectexception

# Tipos de datos y estructuras de Python

  <!-- requirement: images/list_illustration.png -->
  <!-- requirement: images/hash_illustration.png -->
  <!-- requirement: images/set_operations.png -->

En [Flujo de Programas](02_Fujo_de_Programas.ipynb), presentamos la idea de las variables, que podríamos usar para almacenar diferentes tipos de información. Podríamos almacenar texto, números o valores de verdad. Estos diferentes tipos de información se corresponden con los diferentes tipos de datos de Python.

In [None]:
print(type('some text'))
print(type(10))
print(type(10.3))
print(type(True))

También presentamos brevemente la 'lista' de Python, que se puede utilizar para almacenar una recopilación de datos.

In [None]:
# Una lista de ejemplo
beans_recipe = ['Remojar los porotos en agua', 'Disolver la sal en agua', 'Calentar el agua y los frijoles a hervir',
                "Escurra los porotos cuando termine de cocinar"]

A veces almacenamos información en variables individuales, pero a menudo trabajamos con varias piezas de información que queremos agrupar debido a su relación o similitud. Por ejemplo, si estuviéramos comprando comestibles, podríamos almacenar cada artículo que vamos a comprar en variables separadas o podríamos almacenar todos los artículos en una lista.

In [None]:
grocery_a = 'pollo'
grocery_b = 'cebollas'
grocery_c = 'arroz'
grocery_d = 'locote'
grocery_e = 'bananas'

grocery_list = ['pollo', 'cebollas', 'arroz', 'locote', 'bananas']

¿Cuál de estos enfoques te parece más útil? Escribamos una breve función de ejemplo que "compre" cada una de las compras que necesitamos.

In [None]:
def buy_groceries_individual(item_a, item_b, item_c, item_d, item_e):
    print( 'Buying %s...' % item_a)
    print( 'Buying %s...' % item_b)
    print( 'Buying %s...' % item_c)
    print( 'Buying %s...' % item_d)
    print( 'Buying %s...' % item_e)

def buy_grocery_list(items):
    for item in items:
        print("Buying %s..." % item )

In [None]:
buy_groceries_individual (grocery_a, grocery_b, grocery_c, grocery_d, grocery_e)

In [None]:
buy_grocery_list (grocery_list)

Al usar una `list`, podríamos usar un bucle` for` para escribir una función mucho más corta. Pero aún más importante, `buy_grocery_list` es mucho más flexible. ¿Y si en lugar de comprar cinco artículos, quisiéramos comprar más o menos?

In [None]:
%%expect_exception TypeError

# tratemos de comprar solo tres artículos
buy_groceries_individual (grocery_a, grocery_b, grocery_c)

In [None]:
%%expect_exception TypeError

# tratemos de comprar un sexto artículo

grocery_f = 'squash'

buy_groceries_individual (grocery_a, grocery_b, grocery_c, grocery_d, grocery_e, grocery_f)

In [None]:
# Nos encontramos con un error cuando intentamos usar `buy_groceries_individual` porque está esperando" exactamente 5 argumentos ". No encontramos ese problema con `buy_grocery_list`, porque nuestro bucle` for` puede funcionar con listas de cualquier longitud.

In [None]:
short_grocery_list = ['pollo', 'cebollas', 'arroz']

buy_grocery_list (short_grocery_list)

In [None]:
long_grocery_list = ['pollo', 'cebollas', 'arroz', 'locote', 'bananas', 'calabaza']

buy_grocery_list (long_grocery_list)

 Vemos que tratamos con éxito tanto una lista más corta como una más larga.

 Colecciones (o [**containers**](https://stackoverflow.com/questions/11575925/what-exactly-are-containers-in-python-and-what-are-all-the-python-container) como se les conoce en Python) pueden ser muy útiles para abordar problemas de datos complejos. Python proporciona varios tipos de contenedores, que exploraremos. Cada una tiene diferentes propiedades y estructuras que las hacen útiles para tareas específicas. Más adelante en el curso, también presentaremos contenedores poderosos y altamente estructurados que los usuarios de Python han inventado y compartido con la comunidad de Python.

 En el contexto de la ciencia de datos, a menudo llamaremos una recopilación de datos que lógicamente pertenecen a un **conjunto de datos**, y al tipo de variable que usamos para almacenarlo en Python a **estructura de datos**. Estos términos pretenden enfatizar las relaciones entre las piezas individuales de información que crean su significado como un todo.

 ### Ejercicios

 1. ¿Qué tipo de datos se pueden representar naturalmente en una `lista`? ¿Qué tal un `list` compuesto de objetos` list`?

 ## `lista`

 Hemos creado listas utilizando corchetes `[]` alrededor de los datos que queremos que contenga la lista. También podemos crear listas de variables, en lugar de escribir los datos directamente.

In [None]:
grocery_a = 'pollo'
grocery_b = 'cebolla'
grocery_c = 'arroz'
grocery_d = 'locote'
grocery_e = 'bananas'

grocery_list = ['pollo', 'cebolla', 'arroz', 'locote', 'bananas']
print( grocery_list )

grocery_list = [grocery_a, grocery_b, grocery_c, grocery_d, grocery_e]
print( grocery_list )

Hasta ahora hemos trabajado con lists of strings (yrange), pero no estamos limitados solo a ese tipo de datos.

In [None]:
int_list = [2, 6, 3049, 18, 37]
float_list = [3.7, 8.2, 178.245, 63.1]
mixed_list = [26, False, 'some words', 1.264]

print( int_list )
print( float_list )
print( mixed_list )

Podemos almacenar cualquier tipo de datos en unalista. Incluso podemos poner una lista dentro de una lista.

In [None]:
list_of_lists = [['a', 'list', 'of', 'words'], [1, 5, 209], [True, True, False]]
print( list_of_lists )

Hay muy pocas restricciones sobre cómo estructuramos una lista o lo que ponemos en ella. Esto puede llevar a una estructura anidada muy complicada.

In [None]:
confusing_list = [[23, 73, 50], 'some words', 12.308, [[False, True], 'more words']]
print( confusing_list )

Describimos la lista de Python como heterogénea porque puede contener una colección de objetos mixtos. Esta es una de las principales propiedades definitorias de la 'lista' de Python.

Es posible que también haya notado que cuando colocamos los datos en una lista en un orden particular, permanece en ese orden cuandoimprimimos o usamos la lista en un buclefor. Como list conserva el orden, decimos que está ordered. Podemos usar esta propiedad para recuperar elementos particulares de una lista en función de su posición (o **index**) en la lista.

In [None]:
print( grocery_list )
print( grocery_list[2] )

Imprimiendo `grocery_list [2]` devolvió el tercer elemento de la lista: 'arroz'. ¿Por qué devolvió el tercer artículo si solicitamos el artículo en el índice 2? Python `list`s están _cero-indexados_.

In [None]:
print( grocery_list[0] )
print( grocery_list[1] )
print( grocery_list[2] )

También podemos recuperar una _slice_ de elementos de una lista.

In [None]:
print( grocery_list[1:4] )
print( grocery_list[3:] )
print( grocery_list[:3] )

Python también tiene una sintaxis de indexación negativa, lo que nos permite acceder a la lista desde el final en lugar del principio. El último elemento está indexado por -1.

In [None]:
print( grocery_list[-1] )
print( grocery_list[-3:] )

También podemos dividir una lista utilizando un tamaño de paso distinto de 1. Por ejemplo, podemos dividir todos los demás elementos de la lista, o incluso revertir la lista haciendo pasos negativos.

In [None]:
print( grocery_list[::2] )
print( grocery_list[4:1:-1] )

Por supuesto, también podemos recuperar información de una lista usando un bucle `for`.

In [None]:
for item in grocery_list:
    print( item )

Mientras que generalmente usaremos la sintaxis `para el elemento en la lista`, a veces combinaremos un bucle` for` con la indexación. La función `range` (que usamos en el último cuaderno) es útil para esto. Por ejemplo, podemos seleccionar todos los demás elementos de la lista.

In [None]:
for i in range(0, len(grocery_list), 2):
    print( i, grocery_list[i] )

La función range crea una lista de enteros entre el primer y el segundo argumento, utilizando el tercer argumento como el tamaño del paso. Observe que el límite superior (es decir, el segundo argumento) no se incluye en la salida.


In [None]:
print( range(0, 10, 3) )
print( range(104, 100, -1) )
print( range(5) ) # starts at 0 and counts by 1 by default

También podemos usar la indexación / división para reemplazar elementos en la lista.

In [None]:
grocery_list = ['pollo', 'cebolla', 'arroz', 'locote', 'bananas']
print( grocery_list )
grocery_list[-1] = 'naranjas' # reemplazar bananas con naranjas
print( grocery_list )
grocery_list[1:3] = ['zanahoria', 'couscous'] #reemplazar cebolla y arroz con zanahoria and couscous
print( grocery_list )

Ya que podemos modificar las listas después de crearlas, las llamamos _mutable_ (las modificaciones se llaman _mutations_). Algunos tipos de datos de Python son _inmutables_, lo que significa que una vez que se crean no pueden modificarse. Exploraremos esto más a medida que introduzcamos más tipos de datos.

Otra forma en la que podemos mutar una `lista` es` agregar 'nuevos elementos.

In [None]:
grocery_list = ['pollo', 'cebolla', 'arroz', 'locote', 'bananas']
print( grocery_list )
grocery_list.append('calabaza')
print( grocery_list )
grocery_list.append(['pan', 'sal'])
print( grocery_list ) # que pasó?

Dado que las listas pueden contener listas, debemos tener cuidado al agregar varios elementos a nuestra lista. En lugar de `append`, podríamos usar` extend`.

In [None]:
grocery_list = ['pollo', 'cebolla', 'arroz', 'locote', 'bananas', 'calabaza']
print( grocery_list )
grocery_list.extend(['pan', 'sal'])
print( grocery_list )

También podemos eliminar elementos de una lista.

In [None]:
print( grocery_list )
del grocery_list[-1] # delete the last item
print( grocery_list )

In [None]:
print( grocery_list )
print( grocery_list.pop(-1)) # remove the last item from the list and return it
print( grocery_list )

Otra mutación que podemos hacer a una lista es ordenarla.

In [None]:
grocery_list.sort()
print( grocery_list )

Las tres propiedades definitorias principales de la lista de Python son ordenadas, heterogéneas y mutables. Debido a que es heterogéneo y mutable, la lista es muy flexible. Debemos tener cuidado con los cambios que hacemos en una lista, porque pueden ser muy impredecibles. ¡Podríamos romper nuestro código o perder datos!

### Ejercicios

1. Haz una lista de 10 elementos y selecciona solo los últimos 2 elementos
2. Tome la misma lista de 10 elementos y seleccione cada otro elemento comenzando con el primer elemento.
3. Seleccione cada otro elemento comenzando con el segundo elemento.

### Atención (Nombres)
Las variables y los nombres no son lo mismo en Python. Por ejemplo, ejecute el siguiente código

In [None]:
a = 4
b = a
print( a, b )
a = 5
print( a, b )

Aquí asignamos el nombre `a` al valor 4 y luego` b` para que sea igual a `a`. Pero, `b` no apunta a` a`, apunta a la variable que tiene el nombre `a`. Por lo tanto, asignar el nombre `b` al valor de` a` no causa que el valor de `b` cambie cuando el valor de` a` cambia.

Veamos otro ejemplo, aquí usaremos una 'lista' de Python. Vamos a repasar más sobre las listas en la próxima conferencia, por ahora, piense en esto como una colección ordenada de variables de Python (técnicamente objetos). En este caso, haremos exactamente lo que hicimos antes, pero en lugar de modificar dónde apunta `a`, modificaremos el objeto al que apunta. En este caso, veremos que 'b' cambia de hecho. ¡Esto se debe a que ambos apuntan a la misma variable en la memoria!

In [None]:
a = [3, 2, 1]
b = a
print( a, b )
a[1] = 5
print( a, b )

### Exercicios

1. Explica la diferencia entre un nombre y una variable.

## `tupla`

Una `tupla` de Python es muy similar a un` lista` con una gran diferencia: es inmutable. Creamos un `tupla` usando paréntesis` () `.

In [None]:
example_tuple = ('Dylan', 26, 167.6, True)
print( example_tuple )

Si bien podemos recuperar datos a través de la indexación (porque una tupla está ordenada), no podemos modificarla (porque una tupla es inmutable).

In [None]:
print( example_tuple[2] )

In [None]:
%%expect_exception TypeError


example_tuple[2] = 169.3

In [None]:
%%expect_exception TypeError

# deletion also fails
del example_tuple[-1]

Si bien, para mayor claridad, debemos encerrar las tuplas con `()`, Python asumirá que queremos una `tupla` si no usamos ningún símbolo para encerrar valores separados por comas.

In [None]:
another_example_tuple = 'Jill', 36, 162.3, True
print( another_example_tuple )
print( type(another_example_tuple) )

Esta "tupla" implícita aparece con mayor frecuencia cuando se trabaja con funciones que generan múltiples salidas. Por ejemplo, podríamos tener una función que devuelva la primera y la última letra de una cadena.

In [None]:
def first_last(s):
    return s[0], s[-1]

chars = first_last('hola!')
print( chars )

En tales casos, a veces querremos almacenar las múltiples salidas en variables separadas.

In [None]:
first_char, last_char = first_last('hola!')

print( first_char )
print( last_char )

Esta sintaxis se llama _unpacking_. Podemos usarlo con cualquier `tuple`, ya sea que haya sido devuelto por una función o no.

In [None]:
name, age, height, has_dog = example_tuple

print( name )
print( age )
print( height )
print( has_dog )

Tanto Python `list` como` tuple` están ordenados y son heterogéneos. Sin embargo, a diferencia de `list`, la` tuple` es inmutable, lo que significa que no se puede modificar después de crearla. Por lo tanto, una 'lista' podría ser mejor para representar datos que se espera que cambien en el transcurso de un programa, como una lista de tareas pendientes. Un `tuple` podría ser mejor para representar datos que se espera que sean fijos, como las respuestas de un sujeto individual a una encuesta.

#### Atención

Un error común que las personas cometen con la inmutabilidad y especialmente con las tuplas es asumir que las estructuras de datos dentro de la tupla son inmutables porque la tupla es inmutable. Veamos un ejemplo.

In [None]:
tup = tuple([[], 'a'])
print( tup )
tup[0].append(1)
print( tup )

A pesar de que la tupla en sí es inmutable, no podemos cambiar los objetos exactos que contiene, esos objetos pueden mutarse si son mutables. Al igual que con la mutabilidad que aparece, esto requiere que el programador tenga cuidado y no asuma que los datos no se han modificado en algún contexto.

## `set`

Un `set` de Python también es similar a un` list`, excepto que no está ordenado. Puede almacenar datos heterogéneos y es mutable, pero ¿qué significa estar desordenado? La explicación más simple es simplemente mirar un ejemplo. Podemos crear un conjunto encerrando nuestros datos entre corchetes `{}`.

In [None]:
example_set = {'Dylan', 26, 167.6, True}
print( example_set )

Aunque ingresamos los datos en un orden, el conjunto se imprimió en un orden diferente. Aún más importante, no podemos indexar o cortar un `conjunto`.

In [None]:
%%expect_exception TypeError

print( example_set[0] )

Sin embargo, todavía podemos agregar y eliminar elementos de un conjunto.

In [None]:
print( example_set )
print( example_set.pop() )
print( example_set )

In [None]:
example_set.add('True')
print( example_set )
example_set.update([58.1, 'brown'])
print( example_set )

El método `add` de un` set` funciona de manera similar al método `append` de un` list`. El método `update` de un` set` funciona de manera similar al método `extend` de un` list`.

_**¿Por qué es útil`set`?**_

Parece extraño que podamos querer una estructura de datos no ordenada. No podemos acceder o modificar los datos a través de la indexación. ¿Cómo nos beneficia renunciar al pedido? La respuesta es que nos da flexibilidad sobre cómo se almacenan los datos en la memoria, y esa flexibilidad puede hacer que la recuperación de datos sea mucho más rápida.

Imagina que tenemos diez cajas y diez montones de dinero. Ponemos los diez montones de dinero en las diez cajas. Ahora digamos que queremos encontrar la caja que tiene \$ 5.37 en ella. No sabemos qué casilla es esta, así que comenzamos con la primera casilla y comprobamos. Si no está en el primer cuadro, pasamos al segundo cuadro. Seguimos marcando casillas hasta que lo encontramos. Esto podría tomar un tiempo.

![list_illustration](images/list_illustration.png)

Ahora imagina que tenemos los mismos diez montones de dinero, pero tenemos 31 cajas. En lugar de poner en orden cada pila de dinero en las cajas, en lugar de poner cada pila en una caja basada en la cantidad de dinero en la pila. Primero, multiplicamos la cantidad de dinero por 100 y luego tomamos la división del módulo por 31. Esto da el número de la caja en la que deberíamos poner el montón de dinero.

In [None]:
piles = [2.83, 8.23, 9.38, 10.23, 25.58, 0.42, 5.37, 28.10, 32.14, 7.31]

In [None]:
def hash_function(x):
    return int(x*100 % 31)

In [None]:
map(hash_function, piles)

Ahora digamos que queremos encontrar la caja con \$ 5.37 en ella. No tenemos que buscar en cuadro tras cuadro. Podemos calcular:

In [None]:
print( int(5.37 * 100 % 31) )

![hash_illustration](images/hash_illustration.png)

La casilla número 10 contiene la pila \$ 5.37.

Esta técnica de asignación de cajas (es decir, memoria) basada en el objeto que contiene se llama **hashing**. Hace que la búsqueda de datos sea muy rápida (como hemos ilustrado), pero al costo de aumentar la asignación de memoria (necesitábamos más cajas). También significa que no podemos asignar un orden a los objetos ya que están almacenados en la memoria.

Hashing también pone dos restricciones principales en el `conjunto`. En primer lugar, los objetos en un `conjunto` deben ser inmutables. Si un objeto cambiara, su posición en la memoria ya no correspondería con su **hash**. En segundo lugar, los objetos en un `conjunto` deben ser únicos. Los objetos idénticos terminan con el mismo hash. Como no podemos almacenar varios objetos en la misma porción de memoria, simplemente descartamos cualquier duplicado.

Esta segunda restricción significa que podemos usar un `set` para determinar fácilmente los objetos únicos en una` list` o `tuple`.

In [None]:
print( set([23, 609, 348, 10, 5, 23, 340, 82]) )
print( set(('a', 'b', 'q', 'c', 'c', 'd', 'r', 'a')) )

Debido a que la búsqueda de datos es muy simple en un 'conjunto', también son muy útiles para hacer comparaciones entre colecciones de datos.

In [None]:
student_a_courses = {'history', 'english', 'biology', 'theatre'}
student_b_courses = {'biology', 'english', 'mathematics', 'computer science'}

print( student_a_courses.intersection(student_b_courses) )
print( student_a_courses.union(student_b_courses) )
print( student_a_courses.difference(student_b_courses) )
print( student_b_courses.difference(student_a_courses) )
print( student_a_courses.symmetric_difference(student_b_courses) )

![set_operations](images/set_operations.png)

### Ejercicios

1. ¿Cuándo debo usar un `set` en lugar de` list`?
2. ¿Cuál es un ejemplo de un problema donde un `conjunto` podría ser parte de la solución?

# dict

Para entender el `dict` de Python, comencemos de nuevo con la 'lista' de Python.

In [None]:
me = ['Sam', 26, 167.5, 56.5, 'brown', 'brown', True]

Esta `lista 'me describe: mi nombre, mi edad, mi altura (en centímetros), mi peso (en kilogramos), el color de mi cabello, el color de mis ojos y si tengo un perro o no. Sabemos que podemos acceder a esta información individualmente por índice.

In [None]:
print( 'My name is %s' % me[0] )
print( 'I have %s hair' % me[4] )

Sería fácil confundirse acerca de qué datos son cuáles (por ejemplo, ¿qué ''marrón'' es el color del cabello y cuál es el color de los ojos?), O dónde debería encontrarlo (¿la edad siempre estará en el índice 1?) .

Una mejor solución sería una estructura de datos donde podríamos indexar utilizando valores significativos. Por ejemplo, en lugar de usar `me[0]` para recuperar `Dylan`, podría usar` me['name']`. En lugar de que el color del cabello sea `me[4]`, podría ser `me['hair']`. Esta característica es la característica central del `dict` de Python.

In [None]:
me_dict = {'name': 'Dylan', 'age': 26, 'height': 167.5, 'weight': 56.5, 'hair': 'brown', 'eyes': 'brown', 'has dog': True}

print( 'My name is %s' % me_dict['name'] )
print( 'I have %s hair' % me_dict['hair'] )

En lugar de llamar a "nombre" y "cabello" el índice, los llamamos **clave**. Cada clave está asociada con un **valor** en un **par clave-valor**. Podemos ver los pares clave-valor en la sintaxis `{}` utilizada para crear un `dict`. Cada par clave-valor está separado por una coma, y dentro de un par, la clave y el valor están separados por dos puntos `:`.

### Ejercicios
1. ¿Cuándo podría ser más útil un `dict` que un` list`?
2. Compare la flexibilidad de un `dict` que contiene otro objeto` dict` con el de una matriz multidimensional.

### `zip`

La función `zip` puede ser muy útil para crear un` dict`. Volvamos a la `lista` que hicimos antes de que contenga todos los valores que me describen. Haremos una segunda 'lista' que contiene todas las claves que desearíamos para poner estos valores en un diccionario

In [None]:
value_list = me
key_list = ['name', 'age', 'height', 'weight', 'hair', 'eyes', 'has dog']

print( value_list )
print( key_list )

Actualmente tenemos dos listas: una de valores y una de claves. No tienen ninguna relación entre sí dentro de Python, pero podemos ver que pertenecen lógicamente juntos. ¿Cómo los combinamos en Python? Usando la función `zip`.

In [None]:
key_value_pairs = zip(key_list, value_list)
print( key_value_pairs )

Ahora tenemos una lista de tuplas. Interpretamos el primer elemento de cada tupla como una clave y el segundo elemento como un valor. Podemos convertir esta lista de tuplas directamente en un `dict`.

In [None]:
me_dict = dict(key_value_pairs)
print( me_dict )

Es posible que hayas notado que aunque nuestra lista de tuplas comenzó con `('name', 'Dylan')`, cuando imprimimos `me_dict` comenzó con` 'eyes': 'brown'`. Si adivinaste que esto significa que un `dict` no está ordenado, ¡estás en lo correcto! Las teclas están en hash para asignar pares clave-valor a la memoria. Por lo tanto, las claves deben ser inmutables y únicas, similares a los elementos de un 'conjunto'. Sin embargo, los valores no tienen estas restricciones.

In [None]:
%%expect_exception TypeError

# this doesn't work
invalid_dict = {[1, 5]: 'a', 5: 23}

In [None]:
# but this does
valid_dict = {(1, 5): 'a', 5: [23, 6]}
print( valid_dict )

El `dict` también es mutable. Podemos agregar nuevos pares clave-valor por simple asignación.

In [None]:
print( me_dict )
me_dict['favorite book'] =  'The Little Prince'
print( me_dict )

También podemos usar `update`, similar a la forma en que lo usamos para un` set`, excepto ahora con pares clave-valor.

In [None]:
print( me_dict )
me_dict.update({'favorite color': 'orange', 'siblings': 3, 'nieces/nephews': 3})
print( me_dict )

Podemos reemplazar o eliminar pares clave-valor del `dict`.

In [None]:
print( me_dict )
me_dict['nieces/nephews'] = 4
print( me_dict )

In [None]:
del me_dict['favorite book']
print( me_dict )

In [None]:
print( me_dict.pop('siblings') )
print( me_dict )

Debido a que el `dict` usa hash, la búsqueda es muy rápida (como en` set`). A veces, los diccionarios se denominan **tablas de búsqueda** o **tablas hash**. Es increíblemente útil para referenciar datos a través de claves significativas. Mientras que los datos en un `dict` no están ordenados, permanecen organizados por las claves. Podemos recuperar una lista de las claves y los valores directamente, o como pares clave-valor, utilizando los métodos apropiados de `dict`.

In [None]:
print( me_dict.keys() )
print( me_dict.values() )
print( me_dict.items() )

## Cambio a otra estructura de datos
Cada uno de los contenedores que hemos introducido tiene diferentes propiedades y características. A veces querremos cambiar una estructura de datos a otra para aprovechar estas diferencias. Ya hemos visto algunos métodos para transformar un `dict` en una` lista` de `tuple`s o viceversa. Podemos transformar fácilmente entre `list`,` tuple` y `set`.

In [None]:
example_list = ['a', 'b', 23, 10, True, 'a', 10]
example_tuple = tuple(example_list)
example_set = set(example_tuple)
example_list = list(example_set)

print( example_tuple )
print( example_set )
print( example_list ) # note we lost the duplicates because of set

## Buscar

Discutimos la idea de buscar datos en nuestras estructuras de datos cuando describimos lo que hace que `set` (y` dict`) sean tan especiales. ¿Cómo se ve la búsqueda en Python? Buscamos datos usando la palabra clave `in`.

In [None]:
print( example_list )
print( 'a' in example_list )
print( 'c' in example_list )

Cuando se trata de un `dict`, podemos buscar claves, pero no valores.

In [None]:
print( me_dict )
print( 'hair' in me_dict )
print( 'has cat' in me_dict )
print( 'brown' in me_dict )

La búsqueda de claves es importante en los diccionarios para que no intentemos recuperar accidentalmente un par clave-valor que no existe.

In [None]:
%%expect_exception KeyError

print( me_dict['has cat'] )

In [None]:
if 'has dog' in me_dict:
    print( 'Has dog: %s' % me_dict['has dog'] )
else:
    print( None )

if 'has cat' in me_dict:
    print( 'Has cat: %s' % me_dict['has cat'] )
else:
    print( None )

In [None]:
# Puede usar el método get para los mismos resultados.

print( 'Has dog: %s' % me_dict.get('has dog') )
print( 'Has cat: %s' % me_dict.get('has cat') )

Podemos imaginar muchas situaciones donde la búsqueda es útil. ¿Está un país en el conjunto de lugares que se van a ver afectados por una sequía? ¿Hay alguna tarea en mi lista de tareas pendientes? ¿Ya se ha tomado este nombre de usuario y, de ser así, cuál es la contraseña coincidente (aquí sería útil un `dict`)?

## Ordenamiento

Dado que una 'tupla' es inmutable, ¿podemos ordenarla? ¿O es eso una mutación? ¿Qué significaría ordenar un `set` o un` dict`, que no tiene orden?

Fuera de las estructuras de datos que hemos estudiado hasta ahora, solo `list` tiene un método` sort`. Sin embargo, Python también tiene una función `sorted`, que creará una "lista" ordenada a partir de otras estructuras de datos. Por defecto, `sorted` aplicado a un` dict` hace una `lista` de claves ordenadas. Debemos usar el método `items` si queremos que nuestra salida sean pares clave-valor.

In [None]:
print( sorted(me_dict.items()) )
print( sorted(me_dict) )

## Iteración

Como ya hemos visto en algunos ejemplos, a menudo será útil recorrer una estructura de datos, ya sea para ejecutar una tarea basada en la información contenida o para transformar o analizar un conjunto de datos. La mayoría de las veces usaremos bucles `for` para iterar sobre estructuras de datos. Con una `list`,` tuple` o `set` los elementos del contenedor se devuelven uno tras otro. Con un `dict` las cosas son un poco más complicadas: ¿queremos iterar sobre claves, valores o pares clave-valor?

In [None]:
# by default we iterate over keys of a dict
for k in me_dict:
    print( k )

In [None]:
# to iterate over values...
for v in me_dict.values():
    print( v )

In [None]:
# or to iterate over key-value pairs...
for k, v in me_dict.items():
    print( '%s: %s' % (k, v) )

¡Note que usamos `tuple` desempaquetando en el bucle` for` en el último ejemplo!

### Comprensiones

Python tiene una sintaxis especial llamada _comprensión_ para combinar iteración con la creación de una estructura de datos. Es esencialmente un bucle 'for' envuelto en los corchetes apropiados para crear la estructura de datos.

In [None]:
squares = [x**2 for x in range(10)]
square_lut = {x: x**2 for x in range(10)}

print( squares )
print( square_lut )

Las comprensiones son muy útiles para hacer transformaciones simples en estructuras de datos. Por ejemplo, tal vez estamos escribiendo una función que analizará `me_dict`. Podría ser útil tener un `dict` de los tipos de datos de los valores en` me_dict` para que sepamos qué esperar como entrada.

In [None]:
me_dict_dtypes = {k: type(v) for k, v in me_dict.items()}
print( me_dict_dtypes )

Las comprensiones también hacen que el código sea más legible. Compare la implementación del bucle `for` de` square_lut` con la comprensión.

In [None]:
square_lut = {}
for x in range(10):
    square_lut[x] = x**2

print( square_lut )

square_lut = {x: x**2 for x in range(10)}

print( square_lut )

## Colecciones
Como se mencionó anteriormente, la biblioteca estándar de Python tiene un módulo de "colecciones" que contiene una variedad de contenedores extremadamente útiles, especialmente para implementar algoritmos, ya que tienden a estar bastante optimizados. Son un poco más especializados que los contenedores generales de Python.

Los contenedores son:

- `nameduuple`
- `deque`
- `Contador`
- `OrderedDict`
- `defaultdict`


### `namedtuple`

El `namedtuple` genera una clase que es similar a una tupla, pero tiene entradas con nombre. Vamos a hacer uno para un vector tridimensional que tiene los campos `x, y, z`. Si usamos el indicador `verbose` podemos ver el código Python generado

In [None]:
from collections import namedtuple
#Vector3 = namedtuple('Vector', ['x', 'y', 'z'], verbose=True)
Vector3 = namedtuple('Vector', ['x', 'y', 'z'])

Ahora podemos acceder a los elementos de los elementos de la tupla por su nombre.

In [None]:
vec = Vector3(1,2,3)
vec.x, vec.y, vec.z

En este punto, es posible que se pregunte por qué no podemos usar un diccionario (o algún otro objeto). Una buena razón es la inmutabilidad.

In [None]:
%%expect_exception AttributeError

vec.x = 5

Otra buena razón es que se comportará como una tupla cuando se pasa a una función.

In [None]:
def tfunc(a,b,c):
    print( a,b,c )
tfunc(*vec)

`namedtuple` es una excelente manera de crear código de auto-documentación sin casi ningún costo de memoria.

### `deque`
Un `deque` es como una cola o una pila, excepto que funciona en ambos sentidos. Podemos pensar en un `deque` como una lista en la que generalmente nos importa trabajar con los extremos de la lista. El `deque` está optimizado para el rendimiento de $O(1)$ tanto para agregar como para eliminar elementos de los extremos de la estructura, mientras que una `lista` general será $O(N)$ para las operaciones al principio de la lista.

Veamos un ejemplo.

In [None]:
from collections import deque

d = deque([2,3,4,5])
print( d )
d.append(10)
print( d )
d.appendleft(20)
print( d )

Determinemos cuanto tiempo lleva realizar la misma operación agregando elementos a la izquierda de un `deque` y un `list`

In [None]:
%%timeit
l_ = list()
for i in range(40000):
    l_.insert(0, i)

In [None]:
%%timeit
d = deque()
for i in range(40000):
    d.appendleft(i)

In [None]:
d = deque()
l_ = list()
for i in range(40000):
    d.appendleft(i)
    l_.insert(0, i)
    
list(d) == l_

El `deque` es un orden de magnitud más rápido que el` list`, pero contiene los mismos valores. Por lo tanto, para algunas tareas especializadas, puede ser una mejora masiva.

### `Counter`
El 'contador' es un objeto extremadamente útil. Cuenta los elementos en algunos iterables y devuelve una estructura similar a un diccionario que contiene el recuento de cada elemento. Veamos un ejemplo.

In [None]:
from collections import Counter
ele = ['a','b','a','c','b','b','d']
c = Counter(ele)
print( c )

Podemos encontrar el número de recuentos de un elemento utilizando la misma sintaxis `get` que un diccionario. Qué pasa cuando accedemos a un elemento que no cuenta.

In [None]:
c['a'], c['z']

También podemos encontrar los elementos más comunes.

In [None]:
c.most_common(2)

### `OrderedDict`

Un diccionario de Python no tiene un orden natural, pero a veces es útil tener las propiedades de un diccionario como $O (1)$ acceso a artículos con un pedido. Un `OrderedDict` es exactamente como un` dict`, pero recuerda el orden de inserción de las claves.

### `defaultdict`

Un paradigma común de un diccionario es manejar el caso de una clave faltante. Digamos que tomamos el ejemplo contrario y tratamos de implementar el nuestro. Queremos hacer algo como crear un diccionario y cada vez que encontremos una clave queremos agregar uno al valor existente en esa clave y, si no hemos visto esa clave, queremos crearla e inicializarla a cero antes de agregarla. eso. Una forma de hacer esto es:

In [None]:
def count(x):
    count_dict = {}
    for ele in x:
        if ele in count_dict.keys():
            count_dict[ele] += 1
        else:
            count_dict[ele] = 1
    return count_dict
count(ele)

Este es un caso tan común que tenemos el `defaultdict` para resolverlo. El `defaultdict` toma una función _factory predeterminada, que puede ser tan simple como simplemente devolver 0, lo que produce un valor cuando la clave no se ha visto antes. Podemos implementar en el mismo algoritmo anterior de una manera un poco más simple

In [None]:
from collections import defaultdict
def count_default(x):
    count_dict = defaultdict(int)
    for ele in x:
        count_dict[ele] += 1
    return count_dict
count_default(ele)

## Algunos temas que no hemos discutido, pero que hemos usado:
- `map`

## Preguntas:
- ¿Son inmutables los strings? ¿Se ordenan los strings? ¿Podemos cortar los strings?