# Estadística, ciencia de datos y análisis de datos

El objetivo de este primer capítulo es introducir algunos términos y conceptos generales de estadística, que nos serán de utilidad para discutir todos los tópicos de este curso. La introducción es bastante general, por lo que a lo largo del texto se proveen de enlaces para seguir leyendo y profundizando en el tema.

## Estadística y ciencia de datos ¿Dos nombres para lo mismo?

La [estadística](https://es.wikipedia.org/wiki/Estad%C3%ADstica) es el estudio de la recolección, análisis, interpretación y organización de datos. El corolario de esta definición podría ser que además de ser una disciplina científica en si misma, la estadística es una disciplina auxiliar de todas las demás ciencias.

La estadística suele tener el mote de ser una disciplina obscura en el mejor de los casos y de una forma sofisticada de mentir en el peor de ellos. Sin embargo, en los últimos años ha comenzado a emerger una disciplina llamada ciencia de datos (_data science_ en inglés), para muchos no es más que un nuevo y [sexy](https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/) nombre para llamar a la vieja estadística, algo así como una campaña mediática de mejoramiento de imagen. Para otros la ciencia de datos es un aporte valioso que si bien no es exactamente estadística, está contribuyendo a esta con nuevos métodos, aproximaciones, preguntas, recursos ($$) y por supuesto mucha gente interesada en estos temas.

Una posible definición de la ciencia de datos y su relación con la estadística se muestra en el siguiente diagrama de Venn. 

<a href="http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram">
<img src='imagenes/DS.png' width=300 >
</a>

Según el diagrama, la estadística es una de las partes de la ciencia de datos. La gran diferencia entre la investigación tradicional y la ciencia de datos radica no en los conocimientos estadísticos (que ambas requieren) si no en las habilidades de _hacking_. En esto contexto _hacking_ no hace referencia a la capacidad de vulnerar la seguridad de computadoras ajenas, si no a _la capacidad técnica y creativa para encontrar soluciones mediante el uso de código_. 

Entonces, para hacer empezar a hacer ciencia de datos necesitamos (además de un problema!):

* Nociones básicas de programación.
* Nociones básicas de estadística.

En este curso aprenderemos ambas en paralelo. Esto puede sonar complicado, pero en realidad ambos aprendizajes se acompañan y apuntalan mutuamente. La mejor forma de probar que esto es cierto es hacer el curso, pero como adelanto les puede decir que esto funciona debido a que:

* Aprender a programar sin tener un problema que resolver puede ser, para la mayoría de las personas, una tarea demasiado abstracta y poco placentera. El aprendizaje de la estadística nos proveerá de estos problemas.

* La conceptos estadísticos tienen una fundamentación matemática que suele requerir de cierta formación matemática que no es común a la mayoría de los científicos. El manejo de un lenguaje de programación provee una ruta alternativa (o complementaria), ya que nos permite comprender conceptos vía la simulación/experimentación.

Como complemente de este curso está disponible [este material](https://github.com/aloctavodia/EBAD/tree/master/00_intro_python) que es algo así como una breve guía de la sintaxis y conceptos necesarios para programar en Python. Recomiendo consultarlo a medida que vayamos avanzando en el curso.

En la mayoría de los cursos de estadística y en el imaginario de muchos estudiantes y científicos la estadística consiste en una serie de recetas que involucran ir a la alacena de métodos estadísticos, elegir uno de ellos, agregar datos a gusto y revolver hasta obtener unos p-valores con la consistencia adecuada (generalmente algo por debajo de 0.05). En este curso tomaremos una aproximación algo diferente. También veremos recetas, pero serán platos caseros y no métodos enlatados, veremos como mezclar ingredientes frescos para preparar modelos al gusto de cada uno. Esta aproximación a la estadística como una forma de modelado científico-computacional es aun más clara en un curso de [estadística Bayesiana](https://github.com/aloctavodia/EBAD) que puede considerarse como la continuación de este.

Volviendo al diagrama de Venn, tanto la investigación tradicional como la ciencia de datos necesitan ir acompañadas de _conocimiento sustantivo_, esto hace referencia al conocimiento de una área particular del saber. La estadística puede ser de ayuda para estudiar genomas o partículas elementales, pero para poder hacer preguntas relevantes (y entender las respuestas) primero hay que comprender que son los genomas y que las partículas elementales.
La estadística NO es una máquina auto-mágica por donde entran datos en crudo por un lado y sale información por el otro (aunque a veces se publicite de esa forma). La estadística es una herramienta que nos ayuda a pensar y tomar decisiones de forma adecuada, pero requiere del conocimiento, el criterio y la responsabilidad de quien la usa.

## Análisis exploratorio de datos

Para poder empezar a analizar datos lo que primero que hay que tener es...datos! Estos datos provienen de experimentos, simulaciones, encuestas, observaciones, búsquedas en base de datos, etc. Rara vez los datos se nos presentan de forma inmaculada y lista para usar, por lo general hay que limpiarlos, procesarlos, combinarlos con datos de otras fuentes etc. Para sorpresa y frustración (sobre todo frustración) de quienes se inician en el análisis de datos esta etapa suele ser la que más tiempo involucra. En este curso veremos algunos rudimentos básicos de como hacer estas tareas.

Suponiendo que ya tenemos nuestros datos, lo recomendable intentar _ganar intuición_ sobre los datos que tenemos enfrente, tratar de ver _que dicen_ de nuestro problema, si es que dicen algo. Para ello se han desarrollado una colección de métricas y métodos colectivamente llamados [Análisis exploratorio de datos](https://en.wikipedia.org/wiki/Exploratory_data_analysis) (EDA por sus siglas en inglés), la cual se compone basicamente de dos herramientas complementarias:

1. La estadística descriptiva 
1. La visualización de datos

La primera se ocupa de describir de forma cuantitativa un conjunto de datos. Para ello se recurre a un conjunto de medidas que nos ayudan a resumir los datos en unos pocos números. En general se habla de medidas de centralidad, de dispersión y con menor frecuencia se suele hablar de medidas de forma.
La segunda se encarga de mostrar los datos de forma que sea más facil interpretarlos. Los seres humanos tenemos un sistema visual muy poderoso y la visualización de datos intenta aprovechar sus virtudes a la vez que mitigar sus defectos.

## Tipos de variables en estadística: Métricas, ordinales y categóricas

Tanto en análisis de datos como en programación hablamos de variables, aunque esto quiere decir cosas ligeramente distintas.

En estadística las variables se suelen clasificar de la siguiente manera (hay otras clasificaciones):

* Métricas o cuantitativas: Son variables con las cuales es posible establecer un orden y computar distancias. Cuando en la escala existe un cero es posible además calcular proporciones, por ejemplo 1 hora es la mitad de 2 horas (por que 0 horas implica la ausencia de tiempo transcurrido). En cambio $40 ^\circ \text{C}$ no es el doble de $20 ^\circ \text{C}$, por que el cero de la escala Celcius es un punto totalmente arbitrario (contrario al cero de la escala Kelvin).
    * Continuas: Se describen usando el conjunto de los reales, algunos ejemplos son la temperatura, altura, peso, etc.
    * Discretas: Se describen usando el conjunto de los enteros, cantidad de hijos, de aviones de una aerolínea, etc.

* Cualitativas: Son el tipo de variables que indican cualidades, o atributos.
    * Categóricas o nominal: Son variables que indican pertenencia a categorías mutuamente excluyentes, como cara o ceca en una moneda. Aún cuando se usen números como 1 y 0 para representar este tipo de variables no se puede establecer orden alguno, "cara" no es más o menos que "ceca", ni "ceca" viene antes que "cara". Las variables categóricas no tienen por que ser dos pueden ser millones, como los colores.
    * Ordinales: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque el intervalo no tiene por que ser uniforme, por ej en una carrera de bicicletas, la distancia entre la primer y segunda competidora no tiene por que ser la misma que entre la segunda y la tercera.
  
  


## Tipos de variables en Python

En programación se le llama variable a un espacio en la memoria de la computadora que almacena un valor determinado y que tiene asociado un identificador (o nombre). Existen distintos "tipos" de variable en Python. Las más comunes que encontraremos son:

* int : que corresponde a los numeros enteros. Por ej 42, 1, -4.
* float : son un aproximación de los números reales por ej 3.14, 1.0, -0.124.
* string : que corresponde a "letras" y "palabras". Se escriben usando comillas dobles "" o simples ''. Por ej 'hola', '42', 's'.
* bool : Se corresponde con los booleanos. Solo hay dos, True y False.
* None : El valor nulo, representa a la nada misma. Se utiliza para indicar que hay algo que no tiene asignado ningún valor.

In [1]:
type(42)

int

In [2]:
type(42.0)

float

In [3]:
type("42")

str

In [4]:
type(True)

bool

In [5]:
type(None) # None es el único objeto de tipo NoneType

NoneType

Existen muchos otros "tipos" de variables en Python, incluso usuarios avanzados pueden crear sus propios tipos de variables. Pero por ahora estos nos bastan. 

## Conversión entre tipos de variables

In [6]:
str(42)

'42'

In [7]:
str(None)

'None'

In [8]:
int(42.0)

42

In [9]:
int(3.14)

3

In [10]:
float(42)

42.0

In [11]:
float("42")

42.0

### Ejercicios

1. Cual es el resultado de convertir un string como "hola" a float? Justifique
1. Y de convertir un Booleano a int? Justifique

## Función Print

Una particularidad de trabajar con Jupyter es que cada vez que ejecutamos una celda esta devuelve el valor correspondiente a la operación o variable que aparece en la última linea. Esto facilita el trabajar de forma interactiva, algo que quizá se volverá más claro a medida que avancemos. 

In [12]:
"42.0"
True
1

1

Si no estuvieramos trabajando con Jupyter y quisieramos "imprimir" el valor de alguna variable u operación o para "imprimir" un valor que no sea el de la última linea podemos usar la función `print`

In [13]:
print("42.0")
print(True)
1

42.0
True


1

## Operaciones

Tener variables es útil por que con ellas podemos hacer operaciones, por ejemplo operaciones matemáticas.

In [14]:
1 + 1  # esto devuelve un entero

2

In [15]:
1. + 1  # esto devuelve un float

2.0

In [16]:
2 / 1  # Una división siempre devuelve floats

2.0

In [17]:
"42" + 1  # esta operación no tiene sentido y por lo tanto Python devuelve un error!

TypeError: can only concatenate str (not "int") to str

In [None]:
'4' * 4  # esta operación SI tiene sentido en Python, es lo que esperabas?

In [18]:
1 > 2  # acá comparamos variables y obtenemos un booleano

False

In [19]:
2 == 2  # ojo que el operador "igualdad" es "==" y no "="

True

Tener variables y poder hacer operaciones entre ellas está bueno, pero no nos lleva muy lejos. Puede no ser obvio al principio pero para poder hacer tareas más complejas es necesario poder guardar variables y ponerles nombres. De esa forma podemos una operación por ejemplo `2 + 2` y usarla luego.

Los nombres de las variables en Python pueden contener los caracteres `a-z`, `A-Z`, `0-9` y algunos caracteres especiales como `_`. Los nombres de las variables NO pueden empezar con números. Por convención, los nombres de las variables y funciones comienzan con una letra minúscula, mientras que los nombres de las _clases_ (ver más adelante) comienzan con una letra mayúscula. También es posible usar caracteres Unicode de lenguas humanas como por ejemplo letras griegas "α, β, γ", la "ñ" y "ラ", pero no 😭 

Para asignar una variable en Python se usa el símbolo `=`

In [20]:
a = 2 + 3

Al escribir esto le estamos diciendo a Python tome el valor `2` sumele el valor `3` y guardelo en la variable de nombre `a`. Esto lo podemos comprobar de la siguiente forma.

In [21]:
a

5

No solo es posible usar variables para guardar valores, también podemos operar con ellas!

In [22]:
a > 2

True

In [23]:
a - 1

4

incluso podemos actualizar el valor de las variables, por ej.

In [24]:
a = a + 1
a

6

el ejemplo anterior muestra que el signo `=` no es el operador igualdad (que como vimos es `==`).

Si tuvieramos que leer la celda anterior en voz alta diríamos; tome el valor de la variable `a` súmele `1` y guarde el resultado en la variable `a`. Aunque coloquialmente es más probable que digamos algo como "`a` es igual a `a` más  1".

Si tratamos de usar una variable que no ha sido definida previamente obtendremos un mensaje de error:

In [25]:
z

NameError: name 'z' is not defined

Los errores son parte central de la programación y hay que acostumbrarse a cometerlos ya que así es como se avanza en la escritura de un programa. Al producirse errores Python entrega mensajes que son muy informativos y por lo tanto útiles para solucionar el error, por lo que es muy beneficioso aprender a interpretarlos y prestarles **mucha** atención cuando ocurren, salvo que uno tenga como hobby perder el tiempo.  

El proceso de corrección de errores de un programa se llama _debugging_ y es quizá una de las tareas más demandantes al escribir código. Python fue pensado como un lenguaje fácil de leer debido a que en general uno pasa más tiempo leyendo código (para arreglar los errores) que escribiéndolo. Mitad broma, mitad en serio se dice que si el _debugging_ es el proceso por el cual se eliminan errores la _programación_ debe ser el proceso por el cual se introducen los errores.

Nota: en muchos lenguajes de programación (como C/C++ o Fortran) antes de poder asignar valores a variables es necesario declararlas. Declarar variables, quiere decir que tenemos que indicar que nuestro programa usará una variable de nombre _tal_ que será del tipo _cual_. Recién una vez declarada la variable podemos asignarle valores concretos. En Python esto no es necesario, esto es lo que permite que en Python sea legal re-asignar un valor a una variable (técnicamente esto se llama _tipado dinámico_).

In [26]:
a = "42"
a = 0.1
a

0.1

## Medidas de  centralidad

### Media

Uno de los computos más elementales en estadística consisten en calcular la media, también conocido como promedio o valor esperado. Matemáticamente tenemos:

$$E[x] = \int_{-\infty}^{\infty} x d(x) = \frac{1}{n} \sum_{i=1}^n{x_i} = \sum x P(x) $$

El primer término es usado comúnmente en estadística y probabilidad como una notación breve para indicar la media, se lee como el valor esperado de _x_. El segundo término muestra que la media es la integral (área bajo la curva) de una distribución de valores. El tercer término es quizá la forma más familiar y el cuarto término indica que podemos calcular un promedio si sabemos los pesos relativos de cada valor que promediamos.


### Ejercicio

Con los elementos de Python vistos hasta el momento calcule la media para el conjunto de valores 1,2,3,4,5,6

In [27]:
# hay forma de ocultar esta celda?
media = (1 + 2 + 3 + 4 + 5 + 6) / 6
media

3.5

El codigo que acabamos de escribir no difiere mucho de usar una calculadora, primero tenemos que ingresar los numeros _a mano_ y además tenemos que saber exactamente la cantidad de números ingreasados para usar como divisor. Usando un lenguaje de programación podemos hacer algo bastante más cómodo. Pero antes tenemos que aprender un par de conceptos nuevos.

### Listas

Las listas son _contenedores_, algo así como un recipiente donde depositar objetos diversos. En una lista podemos alojar tantos valores como la memoria de nuestra computadora lo permita. Las listas son muy usadas en Python y gran parte de la programación en Python implica crear y manipular listas.

La sintaxis para crear listas en Python es _[..., ..., ...]_:

In [28]:
lista = [] # crea una lista vacia
lista

[]

In [29]:
num = [1, 2, 3, 4, 5, 6]
num

[1, 2, 3, 4, 5, 6]

In [30]:
type(num)

list

Las listas no solo permiten contener objetos, además podemos realizar varias operaciones con las ellas. Por ejemplo podemos preguntar cuantos valores contiene una lista usando la función `len()`

In [31]:
len(lista)

0

In [32]:
len(num)

6

Y podemos sumar todos los valores de una lista usando la función `sum()`

In [33]:
sum(num)

21

Ahora podemos calcular la media como:

In [34]:
media = sum(num) / len(num)
media

3.5

### Ejercicios

Estos métodos son aplicables a listas. Elija 2, y para cada uno de ellos explique su funcionamiento y ejemplifique.

    append, clear, copy, count, extend, index, insert, pop, remove, reverse, sort

## Funciones

Como vimos anteriormente usando listas y las funciones `sum` y `len` podemos automatizar el cálculos de las medias . La principal ventaja del ejemplo es que si cambiamos el contenido de la lista `num` podremos calcular una media sin necesidad de hacer ningún otro cambio. Si bien esto es muy útil, todavía podemos hacer algo incluso mejor.

Es común al escribir código que necesitemos repetir una operación muchas veces. Una solución simple sería copiar y pegar el código cada vez que lo necesitemos. El problema con esta aproximación es que es tediosa, y es facil cometer errores, piensen que operaciones más complejas podrían requerir de cientos de lineas de código no una sola como el ejemplo de la media. Una forma de resolver este problema es crear una _función_ que calcule la media y _llamarla_ cada vez que la necesitemos. En Python crear funciones es muy simple. Veamos:

In [35]:
def calcular_media(valores):
    media = sum(valores) / len(valores)
    return media

En la primer linea podemos ver que para definir una función necesitamos la palabra reservada `def` (una palabra que tiene significado especial para Python) luego el nombre de la función y entre paréntesis los nombres de los argumentos de la función y cerramos la linea con dos puntos. La siguientes linea contienen las operaciones que realiza la función, potencialmente podrían ser decenas de lineas. Por último tenemos otra palabra reservada `return` seguida del valor que devuelve la función. Esta linea es opcional ya que es posible definir funciones que no devuelvan valor álguno (ya veremos ejemplos).

Es importante notar un detalle todo el contenido de la función está escrito usando una sangría de 4 espacios, la sangría es obligatoria ya que le indica a Python cual es el cuerpo de la función, mientras que los 4 espacios es convención. Podrían ser 2, 3, 8, etc, lo importante es respetar la misma cantidad.

una vez definida una función se la puede _llamar_ usando la sintaxis `nombre_función()` más los argumentos requeridos por la función, en nuestro caso una lista con los valores a los cuales queremos calcular la media.

In [36]:
calcular_media(num)

3.5

Una detalle importante a notar es que el nombre de la variable que le pasamos a nuestra función no tiene nada que ver con el nombre del argumento de la función. Es decir nosotros le pasamos `num` a la función e internamente `calcular_media` le llama `valores`. Técnicamente decimo que `valores` es una variable local (respecto de nuestra función), `valores` solo existe dentro de la función `calcular_media`. Fuera de esa función `valores` podría no existir o refererise a otro valor.

In [37]:
calcular_media([1, 3, 4]), valores # dentro de la función `valores` refiere a una lista, fuera no existe

NameError: name 'valores' is not defined

### Ejercicio

Modifique la función `calcular_media` para que imprima la variable `valores`

Otra convención en Python es escribir las funciones incluyendo un _docstring_. Que no es más que una porción de texto que Python ignora, pero que es útil para los humanos ya que contiene una descripción de la función sus argumentos y sus salidas. Los docstring se escriben usando comillas triples `"""` esto permite que el docstring se desarrolle en varias lineas. El estilo exacto y la cantidad de información de los docstring varia, lo importante es tratar de mantener una linea al menos dentro de un mismo proyecto. Un ejemplo de docstring sería:

In [38]:
def calcular_media(valores):
    """
    Calcula la media partir de una lista.

    Parametros
    ----------
    valores : lista
        lista con los valores a promediar

    Resultado
    ----------
    res : float
        La media de los valores contenidos en `valores`
    """
    valores = sum(valores) / len(valores)
    return valores

El docstring no solo puede ser leido directamente del código, si no que puede ser usado por Python y por varias herramientas externas. Por ejemplo la función `help()` de Python ofrece ayuda al usuario "leyendo el docstring". Por ejemplo si quisieramos ver que hace la función `len()`

In [39]:
help(len)

Help on built-in function len in module builtins:

len(obj, /)
    Return the number of items in a container.



Esto no solo sirve para funciones que ya vienen con Python, si no que el mismo mecanismo es usado para funciones definidas por los usuarios.

In [40]:
help(calcular_media)

Help on function calcular_media in module __main__:

calcular_media(valores)
    Calcula la media partir de una lista.
    
    Parametros
    ----------
    valores : lista
        lista con los valores a promediar
    
    Resultado
    ----------
    res : float
        La media de los valores contenidos en `valores`



Jupyter (lo que estamos usando para mostrar este documento y ejecutar el código), también permite acceder al docstring usando `shift + TAB`

In [41]:
calcular_media  # seleccioná esta celda y presioná shift + tab

<function __main__.calcular_media(valores)>

Dentro de Jupyter también se puede acceder a la ayuda escribiendo `?` o  `??` luego de la función y presionado `enter`. Podés decir cual es la diferencia entre usar una u otra forma?

Todo muy bien hasta ahora, pero ¿Qué pasaría si inadvertidamente le pasáramos una lista vacía?

In [42]:
calcular_media([])

ZeroDivisionError: division by zero

La función `calcular_media` falla por que la división por 0 no está definida y Python nos lo indica amablemente.

In [43]:
num = []  # ahora num está vacia
media = sum(num) / len(num)
media

ZeroDivisionError: division by zero

## Errores y excepciones



In [44]:
def calcular_media2(a):
    """
    Calcula la media partir de una lista.
    
    Parametros
    ----------
    a : lista
        lista que contiene los valores a promediar
    
    Resultado
    ----------
    res : float
        La media de los valores contenidos en a.
        Devuelve una advertencia si a está vacía.
    """
    try:
        res = sum(a) / len(a)
        return res
    except ZeroDivisionError:
        print('por favor pase una lista que no esté vacía')

In [45]:
calcular_media2([])

por favor pase una lista que no esté vacía


Ahora la función en vez de fallar devuelve un mensaje.
La novedad es que usamos el bloque `try-except`. Lo que hace esto es intentar correr lo que está dentro de cuerpo de `try`, si llegara a ocurrir un error del tipo `ZeroDivisionError` entonces se ejecuta lo que sea que esté dentro de `except` en este caso un mensaje, pero podría ser cualquier cosa. Si hubieramos escrito solo `except:` entonces el bloque `except` se ejecutaría sin importar el tipo de error, esto si bien es posible no se recomienda ya que puede llegar a ocultar _bugs_. Por ejemplo `sum()` (y también`len()`) devuelven un error si por ejemplo lo usáramos con un entero en vez de una lista.

In [46]:
calcular_media2(1)

TypeError: 'int' object is not iterable

### Mediana

La media es una buena descripción si los datos que estamos midiendo son más o menos similares, pero puede ofrecer una visión muy distorsionada si los datos no son muy simialres entre si, por ejemplo como puede suceder con los ingresos, algunas personas apenas ganan unos pesos al menos y otras pueden llegar a ganar millones por mes.

La mediana es el número que separa un conjunto de datos en una mitad superior y otra inferior. Como veremos más adelante es una medida más robusta que la media a valores extremos.

### Indexado

Para calcular la mediana necesitamos algunos conceptos nuevos. Una caracterísitca de las listas de Python es que es posible acceder a los elementos contenidos en ellas mediante indices. Los índices deben ser enteros, empiezan en 0 y terminan `len() - 1` y pueden ser negativos.

In [47]:
lista = [5, 4, 3, 2, 1]
lista[0]  # el cero-ésimo elemento de la lista

5

In [48]:
lista[2]

3

In [49]:
lista[5] # este índice no existe en este caso y Python nos lo indica con un error

IndexError: list index out of range

In [50]:
lista[-5]  # devuelve el último elemento, que devolverá -2 y -6?

5

No solo es posible acceder a elementos individuales de una lista, también se puede acceder a rebanadas (`slices`).

In [51]:
lista[1:]  # del elemento 1 al final

[4, 3, 2, 1]

In [52]:
lista[1:4]  # del elemento 1 al 4

[4, 3, 2]

In [53]:
lista[::2]  # del primer elemento al último "de a 2"

[5, 3, 1]

In [54]:
lista[::-1]  # del primer elemento al último "de a -1", invierte el orden!

[1, 2, 3, 4, 5]

In [55]:
lista[:]  # un caso trivial, del primer al último elemento (equivale a no usar un slice!)

[5, 4, 3, 2, 1]

### control de flujo

Ya estamos un poco más cerca de calcular la mediana, pero nos falta aprender lo que se conoce como control de flujo. Es común que al escribir un programa necesitemos ejecutar una acción de forma condicional, algo del estilo si pasa A entonces X si no entonces Y. Esto se consigue en Python con el bloque `if-else`.

In [56]:
if 2 > 1: # esto es cierto
    print('hola')
else:
    print('chau')

hola


si la condición a la derecha de `if` evalua como verdadero se ejecuta el cuerpo dentro de `if`, de lo contrario el bloque `else`. Veamos el siguiente ejemplo.

In [57]:
if 1 > 2: # esto es falso
    print('hola')
else:
    print('chau')

chau


El bloque `else` es opcional

In [58]:
if True: # esto es cierto
    print('hola')

hola


Es posible revisar más de una condición, en el siguiente ejemplo debido a que la expresión a la derecha de `if` evalua como falso se evalua la siguiente condición, que en este caso evalua como verdadera.

In [59]:
if 1 > 2: # esto es falso
    print('hola')
elif 2 > 1: # esto es cierto, solo se ejecuta si if evalua falso
    print('hello')
else:
    print('chau')

hello


El bloque `if-else` es algo similar al bloque `try-except`, pero este último está restringido a manejar posibles errores. En cambio el bloque `if-else` sirve para tomar decisiones que no tiene que ver con errores si no con el funcionamiento _normal_ de un programa. 

Las lista vacias, otros contenedores vacíos (que veremos luego), el numero 0, evaluan como `False`. Listas (u otros contenedores) con elementos, números distintos de 0 evaluan como `True`. 

In [60]:
if []:  # esto es falso
    print('hola')

In [61]:
if [7]:  # esto es verdadero
    print('hola')

hola


Todavía faltan un par de detalles, pero los vamos a ver directamente en la función. Es común al aprender una lenguaje encontrarse con codigo que contiene elementos desconocidos o "frases" que no sabiamos que eran posibles o legales.

In [62]:
def mediana(lista):
    """
    ejercicio escribir docstring!
    """
    lista_ordenada = sorted(lista)
    lista_len = len(lista_ordenada)
    idx = int((lista_len - 1) / 2)

    if lista_len % 2:
        return lista_ordenada[idx]
    else:
        return (lista_ordenada[idx] + lista_ordenada[idx + 1]) / 2

Esta es una función bastante más compleja que `calcular_media()`. La estudiemos linea por linea.

1. La primer linea (luego del docstring) ordena de menor a mayor los elementos dentro de "lista"
2. La segunda computa la longitud de `lista`
3. La tercera calcula un número y se asegura que sea un entero, para que sea un índice válido. 
4. Esta linea evalua `True` solo si `lista_len` es impar. Podés darte cuenta por qué? (tip: probá ese bloque de código en una celda separada). 
5. Si `lista_len` es par entonces se ejecutará el bloque `else`. La razón de tener este bloque es que si la cantidad de elementos es par NO es posible obtener el valor "del medio", entonces la mediana la computamos como un promedio de los "dos valores medios".

In [63]:
mediana([1, 2, 3, 4, 5])

3

###  Varianza

Mide la dispersión de un conjunto de valores. Es cero para un conjunto de valores idénticos.

$$V(x) = E[(x - \mu)^2] = \int_{-\infty}^{\infty} (x-\mu)^2 d(x) = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2$$

Donde $\mu$ es la media de $x$

Para poder calcular la varianza usando Python tenemos todos los elementos necesarios. Veamos un posible algoritmo:

In [64]:
def varianza(valores):
    """
    ejercicio escribir docstring!
    """
    media = calcular_media2(valores)
    diff_sq = []
    for i in valores:
        diff_sq.append((media - i) ** 2)
    return calcular_media2(diff_sq)

In [65]:
varianza([0, 1, 2.72, 3.14])

1.623275

### rango

Al trabajar con Python es común repetir una _frase_ como la siguiente

In [66]:
d = []
for i in [0, 1, 2, 3, 4, 5, 6, 7, 8]:
    d.append(i ** 2)
d

[0, 1, 4, 9, 16, 25, 36, 49, 64]

Este Patrón en donde iteramos a lo largo de una lista de enteros es tan común en Python (y otros lenguajes) que existe varias funciones que facilitan esta tarea. Una de ellas es `range`. 

`range` usa la sintaxis [start:stop:step] a fin de generar enteros desde `start`, hasta `stop` (sin incluirlo) y opcionalente de a `step` pasos (por defecto 1). `start` es también opcional en cuyo caso empezará en 0. Como pueden ver la sintaxis es similar a lo que ya vimos con la rebanadas de una lista. La diferencia es que las rebanadas operan sobre una lista existente y la función de `range` es la de generar un objeto que _contiene_ enteros. 

In [67]:
d = []
for i in range(0, 9):
    d.append(i ** 2)
d

[0, 1, 4, 9, 16, 25, 36, 49, 64]

`range` es un objeto que contiene las reglas para devolver valores, pero no los valores en si. Esto es un truco que permite ocupar menos memoria. Se requiere menos memoria para especificar la regla, "devuelva todos los enteros de 0 a 1 millón", que para escribir un millón de enteros.

En el siguiente vemor una diferencia entre el objeto `range` y una lista generada a partir de convertir `range` usando el comando `list`.

In [68]:
range(9), list(range(9))

(range(0, 9), [0, 1, 2, 3, 4, 5, 6, 7, 8])

### Listas por comprensión

Otro patrón común en Python es el siguiente:

* Creamos una lista vacía
* Iteramos a largo de algún _iterable_ como un lista o un _rango_.
* Guardamos valores en la lista originalmente vacía.

Este patrón es tan común que Python ofrece una versión alternativa, la cual es considerada por la mayoría de Pythonistas como más simple y clara. Esta versión alternativa se llama _list comprehension_, o listas por comprensión. Y sigue la logica de la definición de conjuntos matemáticos por [comprensión](https://es.wikipedia.org/wiki/Conjunto#Notaci%C3%B3n) (en oposición a la definición por extensión) y luce de la siguiente forma.

In [69]:
d = [i ** 2 for i in range(9)]

En palabras podríamos leerla como, "tome la variable i elevela al cuadrado y repita para todos los valores de i en el rango de 0 a 9". Usando listas por comprensión podemos calcular la varianza de la siguietne forma.

In [70]:
def varianza(valores):
    """
    ejercicio escribir docstring!
    """
    media = calcular_media2(valores)
    diff_sq = [(media - i) ** 2 for i in valores]
    return calcular_media2(diff_sq)

## Bibliotecas o librerías

En los ejemplos anteriores hemos visto como calcular la media, mediana y la varianza. Vimos además que es posible usar listas para almacenar y operar con valores y además es posible _encapsular_ código dentro de funciones y así reutilizarlo. El principal motivo de estos ejemplos fue motivar el aprendizaje de Python. En la práctica el cálculo de las funciones como la media o la varianza son tan comunes que resulta muy conveniente poder acceder a estas funciones sin necesidad de que debamos escribirlas nosotros. Es por esto que en Python (y otros lenguajes) existen las _bibliotecas_, que permiten extender el lenguaje. En el fondo estás bibliotecas (llamadas también _librerías_) no son otra cosa que un conjunto de funciones del estilo que aprendimos a escribir en este capítulo. En general las bibliotecas contienen funciones optimizadas, es decir funciones que corren rápido o que reducen la posibilidad de errores numéricos o que soporta diversidad de entradas. Por lo que la ganancia al usarlas no es solo que nos ahorran tiempo si no que en general nos ahorran dolores de cabeza!

Uno de los puntos fuertes de Python es su extenso _ecosistema_. Algunas de las librerías más usadas en ciencia, y en particular anĺisis de datos son:


* [Numpy:](http://numpy.scipy.org)  Cálculo numerico y algebra lineal
* [Scipy:](http://www.scipy.org) -  Funciones comunmente usadas en ciencias
* [Matplotlib:](http://www.matplotlib.org) - Gráficas científicas
* [Seaborn:](http://web.stanford.edu/~mwaskom/software/seaborn/) - Gráficas cientificas _atractivas_.
* [Jupyter:](http://jupyter.org/) - Computación interactiva
* [Pandas:](http://pandas.pydata.org/) - Procesamiento de datos
* [Scikit-learn:](http://scikit-learn.org/) - Machine Learning 
* [Statsmodels:](http://statsmodels.sourceforge.net/) Estadística _"clásica"_
* [PyMC:](https://www.pymc.io/) - Estadística Bayesiana
* [SymPy](http://www.sympy.org/en/index.html) - Matemática simbólica
* [Sage](http://sagemath.org/) - Es un entorno matemática basado en Python y varias de las bibliotecas arriba mencionadas
* _agregá tu paquete favorito acá_

En general las librerías se construyen sobre otras librerías. En el siguiente esquema se ve parte del ecosistema de Python ordenado (radialmente). Donde un nivel se construye sobre los inferiores.

<img src='imagenes/Python_Stack.png' width=500>

Además de estas bibliotecas _externas_ Python se distribuye con algunas bibliotecas _estándard_, por ejemplo `math` tiene varias funciones matemáticas. Para poder usarla necesitamos importarla de la siguiente forma.

In [71]:
import math

Ahora que la importamos podemos usarla por ejemplo para calcular un logaritmo (base e).

In [72]:
math.log(10)

2.302585092994046

Qué otras funciones están disponibles dentro de `math`? Una forma de averiguarlo es usando la ayuda que nos ofrece jupyter. Recordá que basta escribir `math.` seguido de `Tab` para que Jupyter nos haga recomendaciones!

## Para seguir leyendo

Hasta este momento hemos visto algunos de los elementos básicos de Python. Python es un lenguaje muy rico y expresivo que cuenta con muchas otras características útiles que hemos omitido y que son necesarias para lograr un manejo fluido de este lenguaje. Lo que hemos visto hasta ahora son los elementos más importantes para el resto de este curso y seguiremos practicando Python en resto del curso. Recomiendo enfaticamente complementar este capítulo con material extra:

* [Breve introducción a Python científico](https://github.com/aloctavodia/Intro_Python)
* [Think Python](http://greenteapress.com/wp/think-python/) Muy buen libro introducctorio de Python.