## Statistical Thinking

Fundamentos:

1. Tener una perspectiva de **procesos** (interconectados)
2. Entender y reconocer la **variabilidad** en esos procesos
3. Entender y usar las herramientas **estadísticas** apropiadamente


![](resources/process.png)

### Sin una perspectiva de procesos
* Difícil definir problemas
* Difícil encontrar causas
* La responsabilidad (culpa) pasa a las personas
* Las personas no pueden definir su rol


### Sin entender variabilidad
* Lo último es lo importante
* Mucho bomberazo
* Tendencia al micromanejo
* Difícil entender el proceso

### Sin datos
* Las opiniones cuentan, todos son expertos
* Mala memoria histórica
* Difícil definir éxito y fracaso
* Difícil (o imposible) medir


### Perspectiva de procesos
* Definir entradas y salidas
* El nivel de detalle depende de la importancia del proceso
* Herramientas útiles: Diagrama de flujo, diagrama causal


### Teoría Estadística y de Probabilidad

Establece un marco formal para abordar los fundamentos 2 y 3. Abarca desde nociones de probabilidad (verosimilitud, chance) hasta cómo tomar decisiones basadas en observaciones (datos). Su objetivo es brindar herramientas formales para razonar ante la presencia de incertidumbre y variabilidad.

Veremos, a muy grandes rasgos, algunos de los puntos más importantes de ambas teorías. 



### ¿Qué es probabilidad?


Supongamos que tenemos un proceso que presenta variabilidad, y lo repetimos una gran cantidad de veces. La probabilidad de un evento (salida de este proceso) se define como la frecuencia con la que ocurre este evento

Ejemplo: Un volado. Evento: Que caiga sol.

Por ser una frecuencia, la probabilidad siempre es un número entre 0 y 1. Un evento (casi) seguro tendrá probabilidad de 1, mientras que un evento (casi) imposible, tendrá probabilidad de 0.


****
Otra manera de ver la probabilidad es simplemente como una manera de incertidumbre subjetiva. Si nuestro proceso es irrepetible, esta es una definición más útil de probabilidad. A menudo se denomina esta definición como **Bayesiana**.

### Frecuencia relativa

Para procesos repetibles, la definición frecuentista sugiere una manera directa de estimar la probabilidad de un evento. Si lanzamos una moneda $100$ veces, y en $55$ cae sol, podemos estimar directamente la probabilidad de que la moneda caiga sol como $55/100 = 0.55$.

Nótese que esto difiere de la probabilidad teórica para una moneda justa, pero conforme lanzamos más veces, encontraremos que nuestra estimación se aerca más a la teoría


![](resources/coin_flip.png)

A esta estimación también se le llama **frecuencia relativa** (relativa al número de repeticiones de proceso).

### Notación

Si tenemos un proceso $E$ y dos eventos resultados de este proceso, $A$ y $B$. 

* La probabilidad de $A$ se escribe $P(A)$
* La probabilidad de que pase $A$ ó pase $B$ (o ambos) se escribe $P(A \cup B)$
* La probabilidad de que pase $A$ y pase $B$ se escribe $P(A \cap B)$
* La probabilidad de que **no** pase $A$ se escribe $P(\neg A)$, $P(A^c)$ o $P(A')$ (aquí usaremos $P(\neg A)$)

### Reglas de probabilidad
* Dos eventos son **disjuntos** o **ajenos** si es imposible que puedan suceder juntos (ej: tener águila y sol en un 
volado). ($P(A \cap B) = 0$)
* Es seguro que, o pasa A, o no pasa A: $P(A) + P(\neg A) = 1$
* De lo anterior, $P(\neg A) = 1 - P(A)$
* La probabilidad de que pase $A$ o $B$ (o ambos), es la suma de cada una de sus probabilidades, menos la probabilidad de que sucedan juntos $P(A \cup B) = P(A) + P(B) - P(A \cap B)$
* Si dos eventos son disjuntos, tenemos que $P(A \cup B) = P(A) + P(B)$

### Caso contraintuitivo: Problema del cumpleaños

Consideremos un grupo de personas, (digamos, 24) ¿Cuál es la probabilidad de que al menos dos personas tengan exactamente el mismo cumpleaños?

* Simplifiquemos: años de 365 días, equiprobables
* $A = $ dos personas compartan cumpleaños
* $\neg A = $ nadie comparte cumpleaños, sólo cumpleaños únicos
* $P(\neg A) = (365/365)*(364/365)* \ldots *(342/365)$
* $P(\neg A) \approx 0.46$
* $P(A) = 1 - P(\neg A) \approx 0.54$ 
* Con sólo 24 personas, lo más probable es que dos personas compartan cumpleaños

¿Por qué falla la intuición en este caso? ¿Qué proceso estamos considerando?


### Probabilidad condicional

Una de las herramientas más útiles para razonar usando probabilidades es la **probabilidad condicional**. Si tenemos dos eventos (no necesariamente resultado del mismo proceso), la probabilidad condicional $P(A | B)$ es la probabilidad de que ocurra $A$ dado que observamos $B$. En el siguiente ejemplo, ¿cual sería la probabilidad de que una persona sea hombre, dado que tiene el cabello largo? 

![](resources/100people.png)

### Probabilidad condicional

* Se rife por la siguiente fórmula:  $P(A | B) = P(A \cap B)/P(B)$
* O bien $P(A \cap B) = P(A | B)P(B)$
* Si $P(A | B) = P(A)$, decimos que $A$ y $B$ son **independientes**. Esto es, observar $B$ no tiene ningun efecto sobre
la probabilidad de $A$
* Esto implica que: $P(A \cap B) = P(A)P(B)$ si y sólo si $A$ y $B$ son independientes

### Caso contraintuitivo: La catafixia

Supongamos que estamos en "En familia con Chabelo", y nos dan a escoger una de tres puertas: Sabemos que detrás de una está un comedor nuevo de Muebles Troncoso, y detrás de las otras dos, un calcetín. Escogemos una puerta, digamos, la #1. A continuación, Chabelo abre otra puerta, digamos la #3 y nos muestra el calcetín que hay dentro, y nos pregunta si deseamos cambiar de elección. ¿Qué debemos hacer?

![](resources/catafixia.png)

¿Por qué falla la intuición en este caso? ¿Cómo es la probabilidad condicional entre escoger una puerta y que Chabelo abra otra?.

### La regla de Bayes

Utilizando la fórmula de probabilidad condicional, es trivial derivar la regla de Bayes:

$ P(A | B) = P(A \cap B)/P(B) = P(B | A)*P(A)/P(B)$

Lo que nos indica esta fórmula es una manera de razonar probabilidades "posteriores" a partir de probabilidades "anteriores". e.g. relaciona la pregunta "¿Cuál es la probabilidad de que el comedor este detrás de la puerta que escogí dado que Chabelo abrió la puerta 2?" con la pregunta "¿Cuál es la probabilidad de que Chabelo abra la puerta 2, dado que el comedor está detrás de la puerta que escogí?"

### Valor esperado

Consideremos el siguiente juego: Lanzamos un dado, y obtenemos el número de pesos que indica la cara del dado. Sin embargo, lanzar el dado tiene un costo.

¿Cuál sería el costo máximo que deberíamos de aceptar para jugar, suponiendo que nos da lo mismo ganar o perder? En otras palabras ¿Cuánto deberíamos esperar obtener?

Esta cantidad se conoce como valor esperado, y es el promedio ponderado de los resultados por la probabilidad de cada uno de ellos, en el caso del dado:

$E = 1*(1/6) + 2*(1/6) + \ldots + 6*(1/6) = 3.5$

Conforme repetimos el experimento, podemos observar que lo que obtenemos en promedio se acerca más y más al valor esperado teórico. Este resultado se conoce como **ley de los grandes números** y es uno de los pilares de la teoría estadística.

![](resources/expected.png)


### Distribución de probabilidad

**Experimento** (Proceso): Lanzar 10 volados de una moneda justa
**Variable aleatoria** (Conjunto de eventos que se refieren a la misma cantidad): Número de soles

* ¿Cuál es la probabilidad de obtener cero soles ($S = 0$)?
* ¿$P(S = 1)$?
* ¿Qué pasa si la moneda no es justa, y la probabilidad de obtener sol en un volado es 0.25?

Para evitar la fatiga al intentar contestar este tipo de preguntas, en problemas conocidos, podemos usar distribuciones (o leyes) de probabilidad. Estas indican, para cierto tipo de variables aleatorias, como se comporta la probabilidad en casos generales


![](resources/binom.png)



### Distribución de probabilidad

Otros ejemplos son la distribución **Poisson**, que nos ayuda a calcular la probabilidad de que sucedan eventos "raros" (e.g. llegada de autobuses), o la **exponencial**, que nos indica como se comporta la probabilidad de tiempos de espera (e.g. esperar un taxi)

![](resources/poisson.png) ![](resources/expon.png)


### ¿Qué es Estadística?

Podemos pensar en la estadística como una teoría **deductiva**, complemento de la teoría de la probabilidad, que por su naturaleza es **inductiva**. Esto quiere decir que a partir de observaciones de un fenómeno variable (datos), intentaremos encontrar leyes o distribuciones de probabilidad para este fenómeno.

En general, el objetivo es **describir el fenómeno** a partir de estas observaciones. Eso puede implicar calcular algunas estadísticas (resúmenes), modelarlo como una distribución (estadística parámetrica) o intentar predecir lo que sucederá en el futuro (series de tiempo, análisis predictivo).

El **aprendizaje estadístico** (conocido como aprendizaje de máquina en ciencias de la computación) es una teoría que puede ser derivada de la teoría estadística.

### Estadísticas (resúmenes)

**Medidas de centralidad**
* Promedio: el promedio aritmético de observaciones de una variable aleatoria (e.g. la estatura promedio en un grupo). Como vimos, la ley de los grandes números nos permite asegurar que esta cantidad aproxima el valor esperado.
* Mediana: en una serie de observaciones de una v.a., la mediana es aquella cantidad tal que la mitad de las observaciones están debajo de ella (y la mitad por encima).
* Moda: la observación más común

**Medidas de dispersión**
* Varianza: la suma de las desviaciones cuadráticas de las observaciones con respecto al promedio
* Kurtosis: una medida de la "simetría" de las desviaciones con respecto al promedio





### Típico vs promedio

Es importante escoger la medida de centralidad adecuada para describir el fenómeno presentado. Consideremos, por ejemplo, datos de salario. La primera línea representa la mediana, y la segunda línea el promedio.

![](resources/salary_dist.png)

¿Cuál resulta más descriptivo?