# Estadística, ciencia de datos y análisis de datos

El objetivo de este primer capítulo es introducir algunos términos y conceptos generales de estadística, que nos serán de utilidad para discutir todos los tópicos de este curso y de posteriores cursos de este Programa de Actualización en Ciencia de Datos. La introducción es bastante general, por lo que a lo largo del texto se proveen de enlaces para seguir leyendo y profundizando en el tema.

## Estadística y ciencia de datos ¿Dos nombres para lo mismo?

La [estadística](https://es.wikipedia.org/wiki/Estad%C3%ADstica) es el estudio de la recolección, análisis, interpretación y organización de datos. El corolario de esta definición podría ser que además de ser una disciplina científica en si misma, la estadística es una disciplina auxiliar de todas las demás ciencias.

La estadística suele tener el mote de ser una disciplina obscura en el mejor de los casos y de una forma sofisticada de mentir en el peor de ellos. Sin embargo, en los últimos años ha comenzado a emerger una disciplina llamada ciencia de datos (_data science_ en inglés), para muchos no es más que un nuevo y [sexy](https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/) nombre para llamar a la vieja estadística, algo así como una campaña mediática de mejoramiento de imagen. Para otros la ciencia de datos es un aporte valioso que si bien no es exactamente estadística, está contribuyendo a ésta con nuevos métodos, aproximaciones, preguntas, recursos ($$) y por supuesto mucha gente interesada en estos temas.

Una posible definición de la ciencia de datos y su relación con la estadística se muestra en el siguiente diagrama de Venn. 

<a href="http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram">
<img src='imagenes/DS.png' width=300 >
</a>

Según el diagrama, la estadística es una de las partes de la ciencia de datos. La gran diferencia entre la investigación tradicional y la ciencia de datos radica no en los conocimientos estadísticos (que ambas requieren) si no en las habilidades de _hacking_. En esto contexto _hacking_ no hace referencia a la capacidad de vulnerar la seguridad de computadoras ajenas, si no a _la capacidad técnica y creativa para encontrar soluciones mediante el uso de código_. 

Entonces, para empezar a hacer ciencia de datos necesitamos (además de un problema!):

* Nociones básicas de programación.
* Nociones básicas de estadística.

En este curso aprenderemos ambas en paralelo. Esto puede sonar complicado, pero en realidad ambos aprendizajes se acompañan y apuntalan mutuamente. La mejor forma de probar que esto es cierto es hacer el curso, pero como adelanto les puede decir que esto funciona debido a que:

* Aprender a programar sin tener un problema que resolver puede ser, para la mayoría de las personas, una tarea demasiado abstracta y poco placentera. El aprendizaje de la estadística nos proveerá de estos problemas.

* La conceptos estadísticos tienen una fundamentación matemática que suele requerir de cierta formación matemática que no es común a la mayoría de los científicos. El manejo de un lenguaje de programación provee una ruta alternativa (o complementaria), ya que nos permite comprender conceptos vía la simulación/experimentación.

Volviendo al diagrama de Venn, tanto la investigación tradicional como la ciencia de datos necesitan ir acompañadas de _conocimiento sustantivo_, esto hace referencia al conocimiento de una área particular del saber. La estadística puede ser de ayuda para estudiar genomas o partículas elementales, pero para poder hacer preguntas relevantes (y entender las respuestas) primero hay que comprender qué son los genomas y qué son las partículas elementales.
La estadística NO es una máquina auto-mágica por donde entran datos en crudo por un lado y sale información por el otro (aunque a veces se publicite de esa forma). La estadística es una herramienta que nos ayuda a pensar y tomar decisiones de forma adecuada, pero requiere del conocimiento, el criterio y la responsabilidad de quien la usa.

## Python

El lenguaje de programación elegido para este curso es Python.

[Python](http://www.python.org/) es:
* Es un lenguaje simple: El código es simple de leer, de escribir y de mantener.
* De propósito general (se suele decir que Python no es el mejor lenguaje para casi nada, pero es suficientemente bueno para casi todo)
* Multiparadigma (es posible programar usando distintos _estilos_ de programación incluso combinándolos)
* De alto nivel (es decir cercano al lenguaje humano y lejos del _lenguaje de máquinas_)
* Es interpretado (es decir no es necesario _compilarlo_ antes de correrlo)
* Es multiplataforma (corre en diversos sistemas operativos)
* Es gratuito y es una herramienta de [código abierto](https://es.wikipedia.org/wiki/C%C3%B3digo_abierto).
* Está muy bien documentado.
* Es ampliamente usado en la mayoría de las disciplinas científicas
* Tiene una gran comunidad de usuarios (no todos científicos), por lo que es fácil encontrar ayuda, tutoriales, foros, blogs, etc. por ejemplo en [StackOverflow](stackoverflow.com).


## !!!ESTO DEBERÍA SER PARTE DE ESTE MISMO REPOSITORIO O QUIZÁ MEJOR PODRÍA HABER UNA PARTE 2 DE PYTHON+ESTADÍSTICA!!!!

Como complemento de este curso está disponible [este material](https://github.com/aloctavodia/EBAD/tree/master/00_intro_python) que es algo así como una breve guía de la sintaxis y conceptos básicos para programar en Python. Recomiendo consultarlo a medida que vayamos avanzando en el curso. 

## Análisis exploratorio de datos

Para poder empezar a analizar datos lo que primero que hay que tener es...datos! Estos datos provienen de experimentos, simulaciones, encuestas, observaciones, búsquedas en base de datos, etc. Rara vez los datos se nos presentan de forma inmaculada y lista para usar, por lo general hay que limpiarlos, procesarlos, combinarlos con datos de otras fuentes etc. Para sorpresa y frustración (sobre todo frustración) de quienes se inician en el análisis de datos esta etapa suele ser la que más tiempo involucra. En este curso veremos algunos rudimentos básicos de como hacer estas tareas.

Suponiendo que ya tenemos nuestros datos, lo recomendable es intentar _ganar intuición_ sobre los datos que tenemos enfrente, tratar de ver _qué dicen_ de nuestro problema, si es que dicen algo. Para ello se han desarrollado una colección de métricas y métodos colectivamente llamados [Análisis exploratorio de datos](https://en.wikipedia.org/wiki/Exploratory_data_analysis) (EDA por sus siglas en inglés), la cual se compone basicamente de dos herramientas complementarias:

1. La estadística descriptiva 
1. La visualización de datos

La primera se ocupa de describir de forma cuantitativa un conjunto de datos. Para ello se recurre a un conjunto de medidas que nos ayudan a resumir los datos en unos pocos números. En general se habla de medidas de centralidad, de dispersión y con menor frecuencia se suele hablar de medidas de forma.
La segunda se encarga de mostrar los datos de forma que sea más facil interpretarlos. Los seres humanos tenemos un sistema visual muy poderoso y la visualización de datos intenta aprovechar sus virtudes a la vez que mitigar sus defectos.

### Tipos de variables: Métricas, ordinales y categóricas

Tanto en análisis de datos como en programación se habla de  _variables_, aunque el significado no es exactamente el mismo, veamos:

En estadística una variable es simplemente una cantidad que puede tomar más de un valor. Las variables se suelen clasificar de la siguiente manera (aunque hay otras clasificaciones):

* Métricas o cuantitativas: Son variables con las cuales es posible establecer un orden y computar distancias. Cuando en la escala existe un cero es posible además calcular proporciones, por ejemplo 1 hora es la mitad de 2 horas (por que 0 horas implica la ausencia de tiempo transcurrido). En cambio $40 ^\circ \text{C}$ no es el doble de $20 ^\circ \text{C}$, por que el cero de la escala Celcius es un punto totalmente arbitrario (contrario al cero de la escala Kelvin).
    * Continuas: Se describen usando el conjunto de los reales, algunos ejemplos son la temperatura, altura, peso, etc.
    * Discretas: Se describen usando el conjunto de los enteros, cantidad de hijos, de aviones de una aerolínea, etc.

* Cualitativas: Son el tipo de variables que indican cualidades, o atributos.
    * Categóricas o nominal: Son variables que indican pertenencia a categorías mutuamente excluyentes, como cara o ceca en una moneda. Aún cuando se usen números como 1 y 0 para representar este tipo de variables no se puede establecer orden alguno, "cara" no es más o menos que "ceca", ni "ceca" viene antes que "cara". Las variables categóricas no tienen por que ser dos pueden ser millones, como los colores.
    * Ordinales: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque el intervalo no tiene por que ser uniforme, por ej en una carrera de bicicletas, la distancia entre la primer y segunda competidora no tiene por que ser la misma que entre la segunda y la tercera.
    
En Python, como en otros lenguajes de programación, se le llama variable a un espacio en la memoria de la computadora que almacena un valor determinado y que tiene asociado un identificador, es decir un rótulo o nombre. Existen distintos "tipos" de variable, en Python los tipos más comunes que encontraremos serán:

* int : que corresponde a los numeros enteros. Por ej 42, 1, -4.
* float : son un aproximación de los números reales por ej 3.14, 1.0, -0.124.
* string : que corresponde a "letras" o _cadenas_ de letas y se escriben usando comillas dobles "" o simples ''. Por ej 'hola', '42', 's'.
* bool : Se corresponde con los booleanos. Solo hay dos valores posibles True y False.

Para saber el tipo de una variable en Python podemos usar la función `type()`:

In [13]:
type(42)

int

In [14]:
type(42.0)

float

In [15]:
type("42")

str

In [16]:
type(True)

bool

Existen muchos otros "tipos" de variables en Python, incluso los usuarios avanzados pueden crear sus propios tipos de variables! Por ahora estos tipos son suficientes. Tener variables es útil por que con ellas podemos hacer operaciones, por ejemplo operaciones matemáticas.

In [17]:
1 + 1  # esto devuelve un entero

2

In [18]:
1. + 1  # esto devuelve un float

2.0

In [19]:
2 / 1  # en Python3 la división siempre devuelve floats

2.0

In [22]:
"42" + 1  # esta operación no tiene sentido y por lo tanto Python devuelve un error!

TypeError: Can't convert 'int' object to str implicitly

In [23]:
'4' * 4  # esta operación SI tiene sentido en Python, es lo que esperabas?

'4444'

In [24]:
1 > 2  # acá comparamos variables y obtenemos un booleano

False

In [25]:
2 == 2  # ojo que el operador "igualdad" es "==" y no "="

True

En los ejemplos anteriores hemos realizado algunas operaciones con variables, pero no las hemos guardado en ningún lado! Puede no ser obvio al principio pero para poder hacer tareas más complejas es necesario poder guardar variables y ponerles nombres (el indentificador al que hacíamos referencia antes). De esa forma podemos realizar una operación, como por ejemplo `2 + 2` y guardar el resultado bajo algún nombre para luego usarla cuando lo necesitemos.

Los nombres de las variables en Python siguen ciertas reglas que es necesario respetar.

* Deben comenzar con _letras_ o con un `_`
* La _letras_ pueden corresponderse con los caracteres `a-z`, `A-Z`
* También podemos usar numeros `0-9` (solo que no al como primer caracter). 

Python 3 permite además usar otros caracteres como por ejemplo letras griegas, la `ñ`, caracteres acentuados, etc aunque el uso de este tipo de caracteres para nombrar variables no esta muy difundido aún.

Por convención, los nombres de las variables comienzan con una letra minúscula, los nombres de las funciones (ver más adelante) también, mientras que los nombres de las _clases_ (ver más adelante) comienzan con una letra mayúscula.

Para asignar una variable en Python se usa el símbolo `=`

In [27]:
a #Nombre elegido para la variable, pero antes de asignarla

NameError: name 'a' is not defined

In [28]:
a = 2 + 3

Al escribir esto le estamos diciendo a Python tome el valor `2` sumele el valor `3` y guardelo en la variable que se llama `a`. Esto lo podemos comprobar de la siguiente forma.

In [29]:
a 

5

No solo es posible usar variables para guardar valores, también podemos operar con ellas!

In [30]:
a > 2

True

In [31]:
a - 1

4

incluso podemos actualizar el valor de las variables, por ej.

In [32]:
a = a + 1
a

6

el ejemplo anterior muestra que el signo `=` no es el operador igualdad (que como vimos es `==`). No es correcto decir que `a` es igual a `a + 1`. 

Si tuvieramos que leer la celda anterior en voz alta diríamos; tome el valor de la variable `a` súmele `1` y guarde el resultado en la variable `a`.

Si tratamos de usar una variable que no ha sido definida previamente obtendremos un mensaje de error:

In [33]:
z

NameError: name 'z' is not defined

Los errores son parte central de la programación y hay que acostumbrarse a cometerlos ya que es así es como se avanza en la escritura de un programa. Al producirse errores Python entrega mensajes que son muy informativos y por lo tanto útiles para solucionar el error, por lo que es muy beneficioso aprender a interpretarlos y prestarles mucha atención cuando ocurren.   

El proceso de corrección de errores de un programa se llama _debugging_ y es quizá una de las tareas más demandantes al escribir código. Python fue pensado como un lenguaje fácil de leer debido a que en general uno pasa más tiempo leyendo código (para arreglar los errores) que escribiéndolo. Mitad broma, mitad en serio se dice que si el _debugging_ es el proceso por el cual se eliminan errores la _programación_ debe ser el proceso por el cual se introducen los errores.

Nota: en muchos lenguajes de programación (como C/C++ o Fortran) antes de poder asignar valores a variables es necesario declararlas. Declararlas, quiere decir que tenemos que indicar que nuestro programa usará una variable de nombre _tal_ que será del tipo _cual_. Recién una vez declarada la variable podemos asignarle valores concretos. En Python esto no es necesario, esto es lo que permite que en Python esté permitido re-asignar un valor a una variable, por ejemplo podemos usar la variable `a` que hacía referencia a enteros (int) para referirnos a un string. El nombre técnico de esto es el de _tipado dinámico_ (el tipo de una variable no es fijo, si no dinámico).

In [34]:
a = '42'
a

'42'

Puede parecer poco, pero con lo que hemos aprendido de Python hasta ahora podemos hacer nuestros primeros cálculos. Veamos como calcular una media.

## Medidas de  centralidad

### Media

Uno de los computos más elementales en estadística consiste en calcular la media, también conocido como promedio o valor esperado. Existen varias expresiones matemáticas que nos permiten calcular la media, quizá la más común sea:

$$E[X] = \frac{1}{n} \sum_{i=1}^n{x_i}$$

Es decir, para obtener la media de $n$ valores, los sumamos y luego dividimos en $n$. En estadística se suele usar la notación $E[X]$ nomo una forma abreviada de referirse a la media (o valor esperado) de $X$. Es común en estadística distinguir entre la media de una muestra, es decir de un conjunto finito de datos, y llamarla $\bar x$ y la media de la población y llamarla $\mu$, en la mayoría de los casos la población es un objeto imaginario al que no tenemos acceso y que solo aproximamos, en la gran mayoría de los casos $\bar x$ es un _buen_ estimador de $\mu$, por ejemplo a medida que juntemos más y más datos el valor de $\bar x$ se aproximará al de $\mu$.

Con lo que ya sabemos de Python, y dado un conjunto de valores, podemos calcular una media como:

In [35]:
media = (1 + 2 + 3 + 4 + 5 + 6) / 6
media

3.5

El código que acabamos de escribir no difiere mucho de lo que podríamos haber realizado con una calculadora, primero tenemos que ingresar los numeros _a mano_ y además tenemos que saber exactamente la cantidad de números que tenemos para saber por que cantidad dividir. Usando un lenguaje de programación podemos hacer algo bastante más cómodo. Pero para ello tenemos que aprender un par de conceptos nuevos.

### Listas

Las listas son _contenedores_, algo así como una bolsa donde podemos meter tantos valores como la memoria de nuestra computadora lo permita. Las listas son muy usadas en Python y gran parte de la programación en Python implica crear y manipular listas.

La sintaxis para crear listas en Python es _[..., ..., ...]_:

In [36]:
lista = [] # crea una lista vacia
lista

[]

In [37]:
num = [1, 2, 3, 4, 5, 6]
num, type(num)

([1, 2, 3, 4, 5, 6], list)

Las listas son mucho más que un simple _contenedor_, por ejemplo podemos averiguar cuantos valores contiene una lista usando la función `len()`

In [38]:
len(lista)

0

In [39]:
len(num)

6

Y podemos sumar todos los valores de una lista usando la función `sum()`

In [40]:
sum(num)

21

Si nuestros datos están contenidos en una lista entonces podemos escibir el cálculo de una media, de la siguiente forma:

In [41]:
media = sum(num) / len(num)
media

3.5

Esta nueva forma de calcular medias tiene varias ventajas. Una de ellas es que resulta más automática que la anterior, cada vez que cambiemos los valores contenidos en la lista `num` podremos ejecutar la celda anterior y obtener el valor de la media. El código de la celda anterior es mucho más general que nuestra primer versión del computo de la media y es un gran avance, pero resulta que podríamos hacer algo incluso mejor.

Es común al escribir código que necesitemos repetir una operación muchas veces, una solución simple sería copiar y pegar el código cada vez que necesitemos calcular una media. El problema con esta aproximación es que es tediosa, y es propensa a cometer errores, piensen que operaciones más complejas podrían requerir de cientos de líneas de código no una sola como el ejemplo de la media. Una forma de resolver nuestro problema sería crear una _función_ que calcule la media, de tal forma que podamos _llamar_ a esa función cada vez que la necesitemos. En Python crear funciones es muy simple, veamos:

In [42]:
def calcular_media(a):
    res = sum(a) / len(a)
    return res

1. En la primer linea podemos ver que para definir una función necesitamos la palabra reservada `def`. Le llamamos _reservada_ por que tiene significado especial para Python y no deberíamos usar ese nombre para otra cosa que no sea definir funciones. 
2. Luego de `def` va el nombre de la función, que puede ser el que más nos guste (siempre que respetemos las reglas para nombrar funciones, que son las mismas que para nombrar variables)
3. Entre paréntesis los nombres de los _argumentos_ de la función
4. Cerramos la primer linea con dos puntos `:`
5. La siguientes lineas contienen las operaciones que realiza la función, potencialmente podrían ser decenas o cientos de líneas.
6. Por último tenemos otra palabra reservada `return` seguida del valor que devuelve la función, es decir del resultado de la función. Esta ultima linea es opcional ya que es posible definir funciones que no devuelvan valor álguno (ya veremos ejemplos).

Es importante notar un detalle todo el contenido de la función (lineas 2 y 3) está escrito usando una sangría de 4 espacios, la sangría es obligatoria ya que le indica a Python cual es el _cuerpo_ de la función, mientras que los 4 espacios es convención. Podrían ser 2, 3, 8, etc, lo importante es respetar la misma cantidad.

Una vez definida una función se la puede _llamar_ usando su nombre

In [43]:
calcular_media(num)

3.5

Una detalle importante a notar es que el nombre de la variable que le pasamos a nuestra función no tiene nada que ver con el nombre del argumento de la función. Es decir nosotros le pasamos a la función un objeto llamado `num`, internamente `calcular_media` le asigna a ese objeto el alias: `a`. Técnicamente decimos que `a` es una variable local de la función `calcular_media`. `a` solo existe dentro de esta función, fuera de ella `a` podría no existir o refererise a cualquier otro valor.

In [44]:
calcular_media([1, 3, 4]), a # dentro de la función `a` contiene una lista, fuera el valor '42'

(2.6666666666666665, '42')

Otra convención en Python es escribir las funciones incluyendo un `docstring`. Que no es más que un `string` que se escribe a partir de la segunda línea de la función y que Python ignora por completo al ejecutar la función. La información contenida en el `docstring` no es para Python, es para los humanos que lo usan! El `docstring` consiste en una explicación sobre qué hace la función, qué valores espera la función como entrada y qué valores devuelve (si es que devuelve algo). Los docstring se escriben usando comillas triples `"""` esto permite que el docstring tenga varias lineas. El estilo exacto de los docstring varia, pero la mayoría de las funciones en Python tratan de mantener un mismo estilo para sus docstrings. Un ejemplo de docstring sería:

In [47]:
def calcular_media(a):
    """
    Calcula la media partir de una lista.
    
    Parametros
    ----------
    a : lista
        Contiene los valores a promediar
    
    Resultado
    ----------
    res : float
        La media de los valores contenidos en a
    """
    res = sum(a) / len(a)
    return res

Entonces, la forma general de un docstring sería:

In [None]:
    """
    Descripción, ¿para qué srve la función? ¿qué tarea realiza?

    Parametros
    ----------
    nombre : tipo 
        descripción

    Resultados
    ----------
    nombre : tipo
        descripción
    """

El docstring no solo puede ser leído directamente del código, si no que puede ser usado por Python y por varias herramientas externas. Por ejemplo la función `help()` de Python ofrece ayuda sobre una función al usuario "mostrando el docstring". Por ejemplo, si quisieramos ver qué hace la función `len()`

In [None]:
help(len) 

Esto no solo sirve para funciones que ya vienen con Python, si no que el mismo mecanismo es usado para funciones definidas por los usuarios.

In [None]:
help(calcular_media)

Jupyter (lo que estamos usando para mostrar este documento y ejecutar el código), también permite acceder al docstring usando `shift + TAB`

In [None]:
calcular_media  # seleccioná esta celda y presioná shift + tab

Dentro de Jupyter también se puede acceder a la ayuda escribiendo `?` o  `??` luego de la función y presionado `enter`. Podés decir cual es la diferencia entre usar una u otra forma?

Todo muy bien hasta ahora, pero ¿Qué pasaría si inadvertidamente le pasáramos una lista vacía a nuestra función?

In [None]:
calcular_media([])

Obtenemos un error! Antes de seguir leyendo intentemos entender cual es la causa del error y en que parte del código se encuentra.

Como se puede ver el problema se debe a que la división por 0 no está definida. Este es un tipo de error que no se debe a que metimos la pata al programar el cálculo de la media, se debe a una imposibilidad matemática. Es, si lo pensamos, un error esperado algo que es razonable que ocurra, en la jerga _pythónica_ decimos que es una _excepción_. Python permite lidiar con las excepciones de forma elegante (en vez de dejar que el programa falle horriblemente). Veamos primero el código y luego la explicación.

In [None]:
def calcular_media2(a):
    """
    Calcula la media partir de una lista.
    
    Parametros
    ----------
    a : lista
        lista que contiene los valores a promediar
    
    Resultado
    ----------
    res : float
        La media de los valores contenidos en a.
        Devuelve una advertencia si a está vacía.
    """
    try:
        res = sum(a) / len(a)
        return res
    except ZeroDivisionError:
        print('por favor pase una lista que no esté vacía')

In [None]:
calcular_media2([])

Ahora la función en vez de fallar devuelve un mensaje.
La novedad es que usamos el bloque `try-except`. Lo que hace esto es intentar correr lo que está dentro de cuerpo de `try`, si llegara a ocurrir un error del tipo `ZeroDivisionError` entonces se ejecuta lo que sea que esté dentro de `except` en este caso un mensaje, pero podría ser cualquier cosa. Si hubieramos escrito solo `except:` (sin especificar `ZeroDivisionError`) entonces el bloque `except` se ejecutaría sin importar el tipo de error, esto si bien es legal no se recomienda ya que puede llegar a ocultar _bugs_. Por ejemplo `sum()` (y también`len()`) devuelven un error si lo usáramos con un entero en vez de una lista.

In [None]:
calcular_media2(1)

### Mediana

La media es una buena descripción si los datos que estamos midiendo son más o menos similares, pero puede ofrecer una visión muy distorsionada si los datos no son muy similares entre si, por ejemplo como puede suceder con los ingresos, algunas personas apenas ganan unos pocos pesos mientras que otras acumulan millones por mes.

La mediana es el número que separa un conjunto de datos en una mitad superior y otra inferior. La mediana es una medida más robusta que la media a valores extremos. Veamos un ejemplo para el conjunto $\mathcal{D} = \{1,2,3,4,5\}$, la media y la mediana es igual a 3. Si ahora agregaramos a este conjunto un nuevo valor, por ejemplo 100. La media pasará a ser $\eqsim 19,16$ mientras que la mediana apenas cambiará a 3.5 $\left ( \frac{3 + 4}{2} \right )$.

Para calcular la mediana necesitamos algunos conceptos nuevos. Una caracterísitca de las listas de Python es que es posible acceder a los elementos contenidos en ellas mediante índices. Los índices deben ser enteros, empiezan en 0 y terminan `len() - 1` y pueden ser negativos.

In [None]:
lista = [5, 4, 3, 2, 1]
lista[0]  # el cero-ésimo elemento de la lista

In [None]:
lista[2]

In [None]:
lista[5] # este índice no existe en este caso y Python nos lo indica con un error

In [None]:
lista[-5]  # devuelve el último elemento, que devolverá -2 y -6?

No solo es posible acceder a elementos individuales de una lista, también se puede acceder a rebanadas (`slices`).

In [None]:
lista[1:]  # del elemento 1 al final

In [None]:
lista[1:4]  # del elemento 1 al 4

In [None]:
lista[::2]  # del primer elemento al último "de a 2"

In [None]:
lista[::-1]  # del primer elemento al último "de a -1", invierte el orden!

In [None]:
lista[:]  # un caso trivial, del primer al último elemento (equivale a no usar un slice!)

Ya estamos un poco más cerca de calcular la mediana, pero nos falta aprender lo que se conoce como control de flujo. Es común que al escribir un programa necesitemos ejecutar una acción de forma condicional, algo del estilo si pasa A entonces X y sino B entonces Y. Esto se consigue en Python con el bloque `if-else`.

In [None]:
if 2 > 1: # esto es cierto
    print('hola')
else:
    print('chau')

Si la condición a la derecha de `if` evalua como verdadero se ejecuta el cuerpo dentro de `if`, de lo contrario se ejecuta el bloque `else`. Veamos el siguiente ejemplo:

In [None]:
if 1 > 2: # esto es falso
    print('hola')
else:
    print('chau')

El bloque `else` es opcional

In [None]:
if True: # esto es siempre cierto
    print('hola')

Es posible revisar más de una condición, en el siguiente ejemplo debido a que la expresión a la derecha de `if` evalua como falso se evalua la siguiente condición, que en este caso evalua como verdadera.

In [None]:
if 1 > 2: # esto es falso
    print('hola')
elif 2 > 1: # esto es cierto, solo se ejecuta si if evalua falso
    print('hello')
else:
    print('chau')

El bloque `if-else` es algo similar al bloque `try-except`, pero ese bloque está restringido a manejar posibles errores. En cambio el bloque `if-else` sirve para tomar decisiones que no tiene que ver con errores (o excepciones) si no con el funcionamiento _normal_ de un programa. 

Las listas vacias y otros contenedores vacíos (que veremos luego), el numero 0, evaluan como `False`. Listas (u otros contenedores) con elementos, y números distintos de 0 evaluan como `True`.

In [None]:
if []:  # esto es falso
    print('hola')

Todavía faltan un par de detalles, pero los vamos a ver directamente en la función. Es común al aprender una lenguaje encontrarse con código que contiene elementos desconocidos o "frases" que no sabiamos que eran posibles o legales.

In [None]:
def mediana(lista):
    """
    ejercicio escribir docstring!
    """
    lista_ordenada = sorted(lista)
    lista_len = len(lista_ordenada)
    idx = int((lista_len - 1) / 2)

    if lista_len % 2:
        return lista_ordenada[idx]
    else:
        return (lista_ordenada[idx] + lista_ordenada[idx + 1]) / 2

Esta es una función bastante más compleja que `calcular_media()`. Veamos línea por línea qué es lo que hace.

1. La primer línea (luego del docstring) ordena de menor a mayor los elementos dentro de "lista"
2. La segunda computa la longitud de `lista`
3. La tercera calcula un índice, usamos `int` para asegurarnos que el resultado es un entero
4. Esta línea evalua `True` solo si `lista_len` es impar. Podés darte cuenta por qué? (tip: probá ese bloque de código en una celda separada). 
5. Si `lista_len` es par entonces se ejecutará el bloque `else`. La razón de tener este bloque es que si la cantidad de elementos es par NO es posible obtener el valor "del medio", entonces la mediana la computamos como un promedio de los dos valores "del medio".

In [None]:
mediana([1, 2, 3, 4, 5])

Además de la media y la mediana existen otras medidas de centralidad como la moda. La moda es simplemente el valor más frecuente en un conjunto de datos.

###  Varianza

Mide la dispersión de un conjunto de valores. Es cero para un conjunto de valores idénticos.

$$V(X) = E[(x - \mu)^2] = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2$$

Donde $\mu$ es la media de $X$,

Al igual que pasa con la media, se suele distinguir entre la varianza de la población $\sigma^2$ y la varianza de una muestra $S^2$. Pero a diferencia de la media se puede probar que la formula anterior para $S^2$ subestima el valor de $\sigma^2$. Un _mejor_ estimador se puede obtener con una ligera modificación para el cálculo de la varianza y es dividir por $n-1$ en vez de $n$. En la práctica esta _corrección_ solo es importante para cuando se tienen _pocos_ datos, a medida que los datos aumentan no hay mucha diferencia entre usar una u otra formula. Esto es facil de ver intuitivamente, para $n=2$ la diferencia entre $n$ y $n-1$ es relativamente grande, mientras que para $n=100$ esta diferencia es mucho más pequeña.

Para poder calcular la varianza usando Python tenemos todos los elementos necesarios. Veamos un posible algoritmo:

In [None]:
def varianza(valores):
    """
    ejercicio escribir docstring!
    """
    media = calcular_media2(valores)
    var = []
    for i in valores:
        var.append((media - i) ** 2)
    return calcular_media2(var)

In [None]:
varianza([0, 1, 2.72, 3.14])

El siguiente patrón, donde iteramos a la largo de una lista de enteros es tan común en Python (y otros lenguajes) que existe varias funciones que facilitan esta tarea. Una de ellas es `range`. 

In [None]:
d = []
for i in [0, 1, 2, 3, 4, 5, 6, 7, 8]:
    d.append(i ** 2)
d

`range` usa la sintaxis [start:stop:step] a fin de generar enteros desde `start`, hasta `stop` (sin incluirlo) y opcionalente de a `step` pasos (por defecto 1). `start` es también opcional en cuyo caso empezará en 0. Como pueden ver la sintaxis es similar a lo que ya vimos con la rebanadas de una lista. La diferencia es que las rebanadas operan sobre una lista existente y la función de `range` es la de generar un objeto que _contiene_ enteros. 

In [None]:
d = []
for i in range(0, 9):
    d.append(i ** 2)
d

En Python2 `range` devolvía una lista, en Python3 `range` es un objeto que contiene las reglas para devolver valores, pero no los valores en si. Esto es un truco que permite ocupar menos memoria. Intuitivamente se puede ver que se requiere menos memoria para especificar la regla, "devuelva todos los enteros de 0 a 1 millón", que para escribir un millón de enteros.

En el siguiente ejemplo vemos una diferencia entre el objeto `range` y una lista generada a partir de convertir `range` usando el comando `list`.

In [None]:
range(9), list(range(9))

Como veníamos diciendo al trabajar con Python es común repetir una _frase_ como la siguiente:

* Creamos una lista vacía
* Iteramos a largo de algún _iterable_ como un lista o un _rango_.
* Guardamos valores en la lista originalmente vacía.

Este patrón es tan común que Python ofrece una versión alternativa, la cual es considerada por la mayoría de Pythonistas como más simple y clara, aunque al principio puede que no se vea como simple y clara :-( Esta versión alternativa se llama _list comprehension_, o comprensión por listas. Y luce de la siguiente forma

In [None]:
d = [i ** 2 for i in range(9)]

En palabras podríamos leerla como, "tome la variable i elevela al cuadrado y repita esto para todos los valores de i en el rango de 0 a 9, a la vez que se guardan los resultados en una lista, ya que toda la operación ocurre entre []". Usando _list compreherions_ podemos calcular la varianza de la siguiente forma.

In [None]:
def varianza(valores):
    """
    ejercicio escribir docstring!
    """
    media = calcular_media2(valores)
    var = [(media - i) ** 2 for i in valores]
    return calcular_media2(var)

## Bibliotecas

En los ejemplos anteriores hemos visto como calcular la media, mediana y la varianza. Vimos además que es posible _encapsular_ código dentro de funciones y así reutilizarlo. El principal motivo de estos ejemplos fue motivar el aprendizaje de Python. En la práctica el cálculo de las funciones como la media o la varianza son tan comunes que resulta muy conveniente poder acceder a estas funciones sin necesidad de que debamos escribirlas nosotros. Es por esto que en Python (y otros lenguajes) existen las _bibliotecas_, que permiten extender el lenguaje. En el fondo estás bibliotecas (llamadas también _librerías_, por una transliteración del ingles _library_) no son otra cosa que un conjunto de funciones del estilo que aprendimos a escribir en este capítulo. En general las bibliotecas contienen funciones optimizadas, es decir funciones que corren rápido o que reducen la posibilidad de errores numéricos. Por lo que la ganancia al usarlas no es solo que nos ahorran tiempo si no que en general nos ahorran dolores de cabeza!

Python posee un extenso _ecosistema_ de bibliotecas, muchas de ellas específicas para hacer ciencia. Algunas de esas bibliotecas más usadas son:


* [Numpy:](http://numpy.scipy.org)  Cálculo numerico y algebra lineal
* [Scipy:](http://www.scipy.org) -  Funciones comunmente usadas en ciencias
* [Matplotlib:](http://www.matplotlib.org) - Gráficas científicas
* [Seaborn:](http://web.stanford.edu/~mwaskom/software/seaborn/) - Gráficas cientificas _atractivas_.
* [Jupyter:](http://jupyter.org/) - Computación interactiva
* [Pandas:](http://pandas.pydata.org/) - Procesamiento de datos
* [Scikit-learn:](http://scikit-learn.org/) - Machine Learning 
* [Statsmodels:](http://statsmodels.sourceforge.net/) Estadística _"clásica"_
* [PyMC3:](http://pymc-devs.github.io/pymc3/) - Estadística Bayesiana
* [SymPy](http://www.sympy.org/en/index.html) - Matemática simbólica
* [Sage](http://sagemath.org/) - Es un entorno matemática basado en Python y varias de las bibliotecas arriba mencionadas
* _agregá tu paquete favorito acá_

Incluso algunas bibliotecas se construyen sobre otras bibliotecas. En el siguiente esquema se ve parte del ecosistema de Python ordenado (radialmente). Donde un nivel se apoya sobre los inferiores como en un cebolla.

<a href="https://www.youtube.com/watch?v=5GlNDD7qbP4">
<img src='imagenes/Python_Stack.png' width=500 >
</a>

Además de estas bibliotecas _externas_ Python se distribuye con algunas bibliotecas _estándar_, por ejemplo `math` tiene varias funciones matemáticas. Para poder usarla necesitamos importarla de la siguiente forma.

In [None]:
import math

Ahora que la importamos podemos usarla por ejemplo para calcular un logaritmo.

In [None]:
math.log(10)

Qué otras funciones están disponibles dentro de `math`? Una forma de averiguarlo es usando la ayuda que nos ofrece jupyter. Recordá que basta escribir `math.` seguido de `Tab` para que Jupyter nos haga recomendaciones!

## Para seguir leyendo

Hasta este momento hemos visto algunos de los elementos básicos de Python. Python es un lenguaje muy rico y expresivo que cuenta con muchas otras características útiles que hemos omitido y que son necesarias para lograr un manejo fluido de este lenguaje. Lo que hemos visto hasta ahora son los elementos más importantes para el resto de este curso y seguiremos practicando Python en resto del curso. Recomiendo enfaticamente complementar este capítulo con material extra:

* [Breve introducción a Python científico](https://github.com/aloctavodia/Intro_Python)
* [Think Python](http://greenteapress.com/wp/think-python/) Muy buen libro introducctorio de Python.

## Ejercicios

* comparar la media y mediana para varios conjunto de datos usando las funciones lalala
* escribir una función para calcular la moda de un conjunto de valores discretos. ¿Cuán facil sería generalizar esa función para valores continuos?
* 

cosas que están faltando:

* Seguro: diccionarios, tuplas
* no-muy-seguro: while, operaciones sobre strings, más operadores, clases
* Seguro que no: sets, generadores, 