### Listas

Las listas son _contenedores_, algo así como una bolsa donde podemos meter tantos valores como la memoria de nuestra computadora lo permita. Las listas son muy usadas en Python y gran parte de la programación en Python implica crear y manipular listas.

La sintaxis para crear listas en Python es _[..., ..., ...]_:

In [16]:
lista = []  # crea una lista vacia
lista

[]

In [17]:
num = [1, 2, 3, 4, 5, 6]
num, type(num)

([1, 2, 3, 4, 5, 6], list)

In [24]:
# los operadores * y + están sobrecargados para listas
l_mult = [21] * 3 
l_sum = [21] + [23] 
print(l_mult)
print(l_sum)

[21, 21, 21]
[21, 23]


Las listas son mucho más que un simple _contenedor_, por ejemplo podemos averiguar cuantos valores contiene una lista usando la función `len()`

In [18]:
len(lista)

0

In [19]:
len(num)

6

Y podemos sumar todos los valores de una lista usando la función `sum()`

In [20]:
sum(num)

21

Si almacenamos los números que queremos promediar en una lista y usamos la función `sum` y la función `len` ahora podemos calcular una media como:

In [21]:
media = sum(num) / len(num)
media

3.5

Esta nueva forma de calcular medias tiene la ventaja que es más automática que la anterior, cada vez que cambiemos los valores contenidos en la lista `num` podremos correr la celda anterior y obtener el valor de la media. Pero podríamos hacer algo incluso mejor.

Es común, al escribir código, que necesitemos repetir una operación muchas veces, una solución simple es copiar y pegar el código cada vez que lo necesitemos. Pero esta aproximación tiene varios problemas:
* es tediosa
* es fácil cometer errores
* No funciona demasiado bien si el código son cientos de líneas.

Una mejor forma de reutilizar código es crear una _función_ que calcule la media. En programación una función es simplemente una secuencia de sentencias que ejecutan una tarea determinada. Las funciones tienen nombres de forma tal que podamos _llamarlas_ cuando lo necesitemos.

En Python crear funciones es muy simple. Veamos:

In [3]:
def calcular_media(números):
    res = sum(números) / len(números)
    return res

Analicemos la celda anterior línea por línea:

* En la primer linea
    * Usamos la palabra reservada `def`, esta es la forma en la que le indicamos a Python que estamos definiendo una función.
    * luego el nombre de la función, podemos elegir el nombre que deseemos, las reglas son básicamente las mismas que para nombrar variables. Por convención la funciones empiezan con minúscula y se suele usar `_` para separar palabras.
    * Entre paréntesis se indican los **argumentos** de las funciones. Los argumentos suelen varias entre 0 y unas pocas decenas. En este caso tenemos un solo argumento `números` que será una lista con los números a promediar.
    * Cerramos la linea con dos puntos.
* La siguiente linea contiene el cálculo de la media como ya lo habíamos definido. En nuestro caso todo el cálculo se hace en una sola línea pero es posible escribir funciones que contengan decenas o centenas de líneas. 
* Por último tenemos otra palabra reservada `return` seguida del valor que devuelve la función. Esta linea es opcional ya que es posible definir funciones que no devuelven valor alguno (ya veremos ejemplos).

Es importante notar un detalle todo el _contenido_ de la función está escrito usando una sangría de 4 espacios, la sangría es obligatoria ya que le indica a Python cual es el _cuerpo_ de la función, mientras que usar 4 espacios es convención. Podrían ser 2, 3, 8, etc, lo importante es respetar la misma cantidad. 

Una vez definida una función se la puede _llamar_ usando su nombre y pasando los argumentos necesarios.

In [4]:
calcular_media(num)

NameError: name 'num' is not defined

Una detalle importante a notar es que el nombre de la variable que le pasamos a nuestra función no tiene nada que ver con el nombre del argumento de la función. Es decir nosotros le pasamos `num` a la función e internamente `calcular_media` le llama `números`. Técnicamente decimos que `números` es una variable local (respecto de nuestra función), es decir `números` solo existe dentro de la función `calcular_media`. Fuera de esa función `números` podría no existir o referirse a otro valor.

In [9]:
números = 6
calcular_media([4, 2, 3]), números # dentro de la función `números` contiene una lista, fuera el valor `6`

(3.0, 6)

Otra convención en Python es escribir las funciones incluyendo un _docstring_. Un _docstring_ es una porción de texto que Python ignora, pero que es útil para los humanos ya que explica que hace una función y que tipo de variables espera la función como argumentos y que es lo que devuelve.

Los docstring se escriben usando comillas triples `"""` esto permite que el _cadena_ de texto puedar ocupar varias lineas. El estilo exacto de los docstring varía, lo importante es tratar de mantener una misma línea al menos dentro de un mismo proyecto. Un ejemplo de docstring sería:

In [28]:
def calcular_media(números):
    """
    Calcula la media partir de una lista.

    Parámetros
    ----------
    números : lista
        contiene los valores a promediar

    Resultado
    ----------
    res : float
        La media de los valores contenidos en `números`
    """
    res = sum(a) / len(a)
    return res

El docstring no solo puede ser leido directamente del código, si no que puede ser usado por Python y por varias herramientas externas. Por ejemplo la función `help()` de Python ofrece ayuda al usuario "leyendo el docstring". Por ejemplo si quisieramos ver que hace la función `len()`

In [1]:
help(len) 

Help on built-in function len in module builtins:

len(obj, /)
    Return the number of items in a container.



Esto no solo sirve para funciones que ya vienen con Python, si no que el mismo mecanismo es usado para funciones definidas por los usuarios.

In [2]:
help(calcular_media)

NameError: name 'calcular_media' is not defined

Jupyter (lo que estamos usando para mostrar este documento y ejecutar el código), también permite acceder al docstring usando `shift + TAB`

In [31]:
calcular_media  # seleccioná esta celda y presioná shift + tab

<function __main__.calcular_media>

Dentro de Jupyter también se puede acceder a la ayuda escribiendo `?` o  `??` luego de la función y presionado `enter`. Podés decir cual es la diferencia entre usar una u otra forma?

Todo muy bien hasta ahora, pero ¿Qué pasaría si inadvertidamente le pasáramos una lista vacía?

In [32]:
calcular_media([])

ZeroDivisionError: division by zero

La función falla por que la división por 0 no está definida y Python nos lo indica amablemente.

In [33]:
num = []  # ahora num está vacia
media = sum(num) / len(num)
media

ZeroDivisionError: division by zero

In [34]:
def calcular_media2(a):
    """
    Calcula la media partir de una lista.
    
    Parametros
    ----------
    a : lista
        lista que contiene los valores a promediar
    
    Resultado
    ----------
    res : float
        La media de los valores contenidos en a.
        Devuelve una advertencia si a está vacía.
    """
    try:
        res = sum(a) / len(a)
        return res
    except ZeroDivisionError:
        print('por favor pase una lista que no esté vacía')

In [35]:
calcular_media2([])

por favor pase una lista que no esté vacía


Ahora la función en vez de fallar devuelve un mensaje.
La novedad es que usamos el bloque `try-except`. Lo que hace esto es intentar correr lo que está dentro de cuerpo de `try`, si llegara a ocurrir un error del tipo `ZeroDivisionError` entonces se ejecuta lo que sea que esté dentro de `except` en este caso un mensaje, pero podría ser cualquier cosa. Si hubieramos escrito solo `except:` entonces el bloque `except` se ejecutaría sin importar el tipo de error, esto si bien es posible no se recomienda ya que puede llegar a ocultar _bugs_. Por ejemplo `sum()` (y también`len()`) devuelven un error si por ejemplo lo usáramos con un entero en vez de una lista.

In [36]:
calcular_media2(1)

TypeError: 'int' object is not iterable

La media es una buena descripción si los datos que estamos midiendo son más o menos similares, pero puede ofrecer una visión muy distorsionada si los datos no son muy simialres entre si, por ejemplo como puede suceder con los ingresos, algunas personas apenas ganan unos pesos al menos y otras pueden llegar a ganar millones por mes.

### mediana

La mediana es el número que separa un conjunto de datos en una mitad superior y otra inferior. Como veremos más adelante es una medida más robusta que la media a valores extremos.

Para calcular la mediana necesitamos algunos conceptos nuevos. Una caracterísitca de las listas de Python es que es posible acceder a los elementos contenidos en ellas mediante indices. Los índices deben ser enteros, empiezan en 0 y terminan `len() - 1` y pueden ser negativos.

In [37]:
lista = [5, 4, 3, 2, 1]
lista[0]  # el cero-ésimo elemento de la lista

5

In [38]:
lista[2]

3

In [39]:
lista[5] # este índice no existe en este caso y Python nos lo indica con un error

IndexError: list index out of range

In [40]:
lista[-5]  # devuelve el último elemento, que devolverá -2 y -6?

5

No solo es posible acceder a elementos individuales de una lista, también se puede acceder a rebanadas (`slices`).

In [41]:
lista[1:]  # del elemento 1 al final

[4, 3, 2, 1]

In [42]:
lista[1:4]  # del elemento 1 al 4

[4, 3, 2]

In [43]:
lista[::2]  # del primer elemento al último "de a 2"

[5, 3, 1]

In [44]:
lista[::-1]  # del primer elemento al último "de a -1", invierte el orden!

[1, 2, 3, 4, 5]

In [45]:
lista[:]  # un caso trivial, del primer al último elemento (equivale a no usar un slice!)

[5, 4, 3, 2, 1]

Ya estamos un poco más cerca de calcular la mediana, pero nos falta aprender lo que se conoce como control de flujo. Es común que al escribir un programa necesitemos ejecutar una acción de forma condicional, algo del estilo si pasa A entonces X y sino B entonces Y. Esto se consigue en Python con el bloque `if-else`.

In [46]:
if 2 > 1: # esto es cierto
    print('hola')
else:
    print('chau')

hola


si la condición a la derecha de `if` evalua como verdadero se ejecuta el cuerpo dentro de `if`, de lo contrario el bloque `else`. Veamos el siguiente ejemplo.

In [47]:
if 1 > 2: # esto es falso
    print('hola')
else:
    print('chau')

chau


El bloque `else` es opcional

In [48]:
if True: # esto es cierto
    print('hola')

hola


Es posible revisar más de una condición, en el siguiente ejemplo debido a que la expresión a la derecha de `if` evalua como falso se evalua la siguiente condición, que en este caso evalua como verdadera.

In [49]:
if 1 > 2: # esto es falso
    print('hola')
elif 2 > 1: # esto es cierto, solo se ejecuta si if evalua falso
    print('hello')
else:
    print('chau')

hello


El bloque `if-else` es algo similar al bloque `try-except`, pero ese bloque está restringido a manejar posibles errores. En cambio el bloque `if-else` sirve para tomar decisiones que no tiene que ver con errores si no con el funcionamiento _normal_ de un programa. 

Las lista vacias y otros contenedores (que veremos luego) vacíos, el numero 0, evaluan como `False`. Listas (u otros contenedores) con elementos, números distintos de 0. 

In [50]:
if []:  # esto es falso
    print('hola')

Todavía faltan un par de detalles, pero los vamos a ver directamente en la función. Es común al aprender una lenguaje encontrarse con codigo que contiene elementos desconocidos o "frases" que no sabiamos posibles/legales.

In [51]:
def mediana(lista):
    """
    ejercicio escribir docstring!
    """
    lista_ordenada = sorted(lista)
    lista_len = len(lista_ordenada)
    idx = int((lista_len - 1) / 2)

    if lista_len % 2:
        return lista_ordenada[idx]
    else:
        return (lista_ordenada[idx] + lista_ordenada[idx + 1]) / 2

Esta es una función bastante más compleja que `calcular_media()`. Veamos linea por linea que es lo que hace.

1. La primer linea (luego del docstring) ordena de menor a mayor los elementos dentro de "lista"
2. La segunda computa la longitud de `lista`
3. La tercera calcula un índice, usando el operador 
4. Esta linea evalua `True` solo si `lista_len` es impar. Podés darte cuenta por qué? (tip: probá ese bloque de código en una celda separada). 
5. Si `lista_len` es par entonces se ejecutará el bloque `else`. La razón de tener este bloque es que si la cantidad de elementos es par NO es posible obtener el valor "del medio", entonces la mediana la computamos como un promedio de los "dos valores medios".

In [52]:
mediana([1, 2, 3, 4, 5])

3

###  Varianza

Mide la dispersión de un conjunto de valores. Es cero para un conjunto de valores idénticos.

$$V(x) =  \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2$$

Donde $\mu$ es la media de $x$

Para poder calcular la varianza usando Python tenemos todos los elementos necesarios. Veamos un posible algoritmo:

In [53]:
def varianza(valores):
    """
    ejercicio escribir docstring!
    """
    media = calcular_media2(valores)
    var = []
    for i in valores:
        var.append((media - i) ** 2)
    return calcular_media2(var)

In [54]:
varianza([0, 1, 2.72, 3.14])

1.623275

Al trabajar con Python es común repetir una _frase_ como la siguiente

In [56]:
d = []
for i in [0, 1, 2, 3, 4, 5, 6, 7, 8]:
    d.append(i ** 2)
d

[0, 1, 4, 9, 16, 25, 36, 49, 64]

Este Patrón en donde iteramos a lo largo de una lista de enteros es tan común en Python (y otros lenguajes) que existe varias funciones que facilitan esta tarea. Una de ellas es `range`. 

`range` usa la sintaxis [start:stop:step] a fin de generar enteros desde `start`, hasta `stop` (sin incluirlo) y opcionalente de a `step` pasos (por defecto 1). `start` es también opcional en cuyo caso empezará en 0. Como pueden ver la sintaxis es similar a lo que ya vimos con la rebanadas de una lista. La diferencia es que las rebanadas operan sobre una lista existente y la función de `range` es la de generar un objeto que _contiene_ enteros. 

In [57]:
d = []
for i in range(0, 9):
    d.append(i ** 2)
d

[0, 1, 4, 9, 16, 25, 36, 49, 64]

En Python2 `range` devolvía una lista, en Python3 `range` es un objeto que contiene las reglas para devolver valores, pero no los valores en si. Esto es un truco que permite ocupar menos memoria. Se requiere menos memoria para especificar la regla, "devuelva todos los enteros de 0 a 1 millón", que para escribir un millón de enteros.

En el siguiente vemor una diferencia entre el objeto `range` y una lista generada a partir de convertir `range` usando el comando `list`.

In [58]:
range(9), list(range(9))

(range(0, 9), [0, 1, 2, 3, 4, 5, 6, 7, 8])

Como veníamos diciendo al trabajar con Python es común repetir una _frase_ como la siguiente:

* Creamos una lista vacía
* Iteramos a largo de algún _iterable_ como un lista o un _rango_.
* Guardamos valores en la lista originalmente vacía.

Este patrón es tan común que Python ofrece una versión alternativa, la cual es considerada por la mayoría de Pythonistas como más simple y clara. Esta versión alternativa se llama _list comprehension_, o comprensión por listas. Y luce de la siguiente forma

In [59]:
d = [i ** 2 for i in range(9)]

En palabras podríamos leerla como, "tome la variable i elevela al cuadrado y repita para todos los valores de i en el rango de 0 a 9". Usando _list compreherions_ podemos calcualr la varianza de la siguietne forma.

In [60]:
def varianza(valores):
    """
    ejercicio escribir docstring!
    """
    media = calcular_media2(valores)
    var = [(media - i) ** 2 for i in valores]
    return calcular_media2(var)