# Introducción a la inferencia estadística
#IE02 Distribuciones discretas



Nota: Parte de los contenios de este notebook están basados en el trabajo de Raúl E. López Briega. El contenido esta bajo la licencia BSD de Raúl E. López Briega.

##<font color='blue'>Variables aleatorias</font>
Una __variable aleatoria__ es una función que asigna un valor numérico, al resultado de un experimento aleatorio. Una variable aleatoria puede ser __discreta__ o __continua__. Las __variables aleatorias discretas__ son aquellas que presentan un número contable de valores; por ejemplo, el número de personas que viven en una casa (pueden ser 3, 5 o 9). Las __variables aleatorias continuas__ son aquellas que presentan un número incontable de valores; por ejemplo, el peso de las vacas en una granja (una vaca puede pesar 632,12 kg, otra puede pesar 583,12312 kg, otra 253,12012 kg, otra 198,0876 kg y nunca terminaríamos de enumerar todos los posibles valores). 

<img alt="Tipos de variables" title="Tipos de variables" src="https://drive.google.com/uc?export=view&id=1sZCANZ4yLJxNpCO0wa7Xk1RSe6NC_HxN" high=550px width=650px>




Las [variables aleatorias](https://es.wikipedia.org/wiki/Variable_aleatoria) han llegado a desempeñar un papel importante en casi todos los campos de estudio: en la Física, la Química y la Ingeniería; y especialmente en las ciencias biológicas y sociales. Estas variables aleatorias son medidas y analizadas en términos de sus propiedades estadísticas y probabilísticas, de las cuales una característica subyacente es su __función de distribución__. A pesar de que el número potencial de [distribuciones](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_probabilidad) puede ser muy grande, en la práctica, un número relativamente pequeño se utilizan; ya sea porque tienen características matemáticas que las hace fáciles de usar o porque se asemejan bastante bien a una porción de la realidad, o por ambas razones combinadas.


<img alt="Distribuciones estadísticas" title="Distribuciones estadísticas" src="https://relopezbriega.github.io/images/distribution.png" high=650px width=600px>

### ¿Por qué es importante conocer las distribuciones?

Muchos resultados en las ciencias se basan en conclusiones que se extraen sobre una población general a partir del estudio de una [**muestra**](https://es.wikipedia.org/wiki/Muestra_estad%C3%ADstica) de esta población. Este proceso se conoce como [**inferencia estadística**](https://es.wikipedia.org/wiki/Estad%C3%ADstica_inferencial); y este tipo de *inferencia* con frecuencia se basa en hacer suposiciones acerca de la forma en que los datos se distribuyen, o requiere realizar alguna transformación de los datos para que se ajusten mejor a alguna de las  [distribuciones](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_probabilidad) conocidas y estudiadas en profundidad.

Las distribuciones de probabilidad teóricas son útiles en la inferencia estadística porque sus propiedades y características son conocidas. Si la distribución real de un conjunto de datos dado es razonablemente cercana a la de una distribución de probabilidad teórica, muchos de los cálculos se pueden realizar en los datos reales utilizando hipótesis extraídas de la distribución teórica.
    


## <font color='blue'>Base teórica de las distribuciones</font>

### **Si la variable es discreta**
Dado un experimento aleatorio finito o infinito numerable, y su correspondiente espacio muestral, se denomina __variable aleatoria discreta__, a la __función__ que asigna a cada elemento del espacio muestral un número real.

$$ X: \Omega \rightarrow R; X(w) 0 x$$

Veamos el ejemplo del lanzamiento de un dado:

$\Omega$: lanzamiento de un dado</br>
$X$: Número de la cara

<img alt="v.a. discreta" title="V.A. Discretas" src="https://drive.google.com/uc?export=view&id=1BsmFw-R9pug1UlYUQHR7gdSuj2p64qZG" high=550px width=450px>

###Función de Distribución de Probabilidad
Es un modelo teórico que describe la forma en que varían los resultados de un experimento aleatorio, es decir, nos da todas las probabilidades de todos los posibles resultados que podrían obtenerse cuando se realiza el experimento aleatorio.

Se define como

$$f(x) = P(X = x)$$

<img alt="FDP Discreta" title="FDP Discreta" src="https://drive.google.com/uc?export=view&id=1V7vcuzYid3Zxk5Bzhw5FVsvisZO1oljm" high=650px width=650px>

Propiedades de Distribución de Probabilidad de una v.a. discreta

$$P(X = x) \gt 0$$

$$ \sum_{i=1}^{n} P(X = x) = 1$$

Nota: Si alguna de estas dos proposiciones no se cumple, la variable NO es una función de probabilidad.

### Distribución de Probabilidad
La forma de representar la distribución de probabilidad es a través de una tabla de frecuencias o una gráfica.

<img alt="Distribución de Probabilidad" title="Distribución de Probabilidad" src="https://drive.google.com/uc?export=view&id=1YrzQkLDQx30z67TTuNYR3BD-eneY929C" high=650px width=650px>

### Función de Distribución Acumulada
Lamaremos función de distribución acumulada de la variable aleatoria x a:

$$F(x_i) = P(X \le x_i) $$

donde $0 \le F(x) \le 1$

<img alt="Función de Distribución Acumulada" title="Función de Distribución Acumulada" src="https://drive.google.com/uc?export=view&id=1PMB5r2ztFEhrfJ73VMIHCp9c7Spo5Csi" high=650px width=650px>

### Medida de centro y dispersión

__Media probablística__

$$\mu_x = E(X) = \sum_{i=1}^n x_i * p_i $$

__Dispersión probabilística__

$$\sigma_x^2 = V(X) = \sum_{i=1}^n [x_i^2 * p_i] - \mu^2$$



## <font color='green'>**Actividad 1**</font>

Sea X el número de clientes que visitan una tienda por día. Calcule $\mu_x$ y $\sigma_x^2$ a partir de su función de probabilidad y utilizando list comprehension.

|      x     | 0   |  1  |  2  |  3  |
|:----------:|:---:|:---:|:---:|:---:|
|   _f(x)_   |   0.6  | 0.25    | 0.10 | 0.05  |

In [9]:
#Tu código aquí ...
x = [0, 1, 2, 3]
fx = [0.6, 0.25, 0.10, 0.05]

mux = 0
Ex2 = 0

for i in range(len(x)):
    mux += x[i]*fx[i]
    Ex2 += (x[i]**2)*fx[i]

mu_x = mux
sigma_x = Ex2 - (mux**2)
print(f"mu = {mu_x:.2f}, sigma = {sigma_x:.2f}")

mu = 0.60, sigma = 0.74


<font color='green'>Fin actividad 1</font>

### **Si la variable es continua**
Una variable aleatoria continua es aquella que puede tomar infinitos valores en $\mathbb{R}$.

Ejemplos: 
* X: Tiempo registrado al recorrer una maratón.
* Y: La Estatura del alumno.
* Z: El Peso del alumno.
* W: Nivel de colesterol en sangre del paciente.

### Función de Densidad de Probabilidad
Sea X una variable aleatoria continua y f(x) su Función de Densidad de Probabilidad.

$$P(a \le x \le b) = \int_{a}^{b} f(x)dx$$

es decir, es el área bajo la curva entre $a$ y $b$.

<img alt="FDP continua" title="FDP continua" src="https://drive.google.com/uc?export=view&id=1XsgptaSrO_huA4rgbtnNqPAS4lB2V3YP" high=650px width=650px>

Propiedades de Densidad de Probabilidad de una v.a. continua

$$f(x) \ge 0$$

$$ \int_{-\infty}^{\infty} f(x)dx = 1$$

### Función de Distribución de Probabilidad

Sea X una variable aleatoria continua con función de densidad $f(x)$, se define la función de distribución $F(X)$, como:

$$F(x) = P(X \le x) = \int_{a}^{b} f(x)dx$$

Con las siguientes propiedades:

$$F(x) \ge 0$$

$$ \int_{-\infty}^{\infty} f(x)dx = 1$$

$$P(a \le x \le b) = \int_{a}^{b} f(x)dx = F(a) - F(b)$$

$$f(x) = F'(x)$$

### Distribución acumulada
<img alt="Distribución acumulada" title="Distribución acumulada" src="https://drive.google.com/uc?export=view&id=1hOVnHR8FC5GcIaeG0NyMhFrYfA4f3RCl" high=650px width=500px>
