---
### Universidad de Costa Rica
#### IE0405 - Modelos Probabilísticos de Señales y Sistemas
---

# `Py4` - *Introducción al módulo de funciones estadísticas*

> El módulo **stats** de SciPy ofrece herramientas de manipulación de distribuciones estadísticas, entre ellas: identificación de parámetros de ajuste para datos, cálculo de probabilidades en un intervalo, graficación de funciones de distribución, generación de datos aleatorios con una distribución particular, etc.

---

## Módulo `stats`

```python
from scipy import stats
```

> Este módulo contiene una gran cantidad de distribuciones de probabilidad, así como una creciente biblioteca de funciones estadísticas.

Con más de 100 distribuciones estadísticas diferentes, muy posiblemente la que necesitamos está ahí. Tiene una variedad de:

* Distribuciones continuas
* Distribuciones multivariadas
* Distribuciones discretas
* Descriptores estadísticos (*summary statistics*)
* ...

La documentación oficial está en [Statistical functions (scipy.stats)](https://docs.scipy.org/doc/scipy/reference/stats.html).

---
## 4.1 - Creación de un "objeto aleatorio"

Para iniciar la manipulación de las distribuciones, existen *clases* generales de variables aleatorias (`rv` viene de *random variable*) que son:

* `rv_continuous`: Una clase de variable aleatoria **continua** genérica.
* `rv_discrete`: Una clase de variable aleatoria **discreta** genérica.
* `rv_histogram`: Genera una distribución dada por un histograma.

A su vez, existen **subclases** de estas categorías que representan las distribuciones en sí. Por ejemplo:

```python
from scipy import stats

W = stats.uniform(0,1)  # distribución uniforme
X = stats.expon(0,1)    # distribución exponencial
Y = stats.norm(0,1)     # distribución normal
Z = stats.rayleigh(0,1) # distribución Rayleigh
```

Aquí, `W`, `X`, `Y` y `Z` son objetos que heredan las propiedades de las distribuciones indicadas. También se dice que son una versión "congelada" (*frozen*) de la variable aleatoria.

La lista completa está en [Statistical functions (scipy.stats)](https://docs.scipy.org/doc/scipy/reference/stats.html).

In [None]:
from scipy import stats

X = stats.uniform(0,1)

print(type(X))

---
## 4.2 - Generación de datos aleatorios

Si es necesario generar datos aleatorios con una distribución específica, el primer *método* por conocer es `rvs` (de *random variates*).

In [None]:
from scipy import stats

X = stats.uniform(0,1)

a = X.rvs()
b = X.rvs(5)
print(a)
print(b)

---
## 4.3 - Funciones de distribución

Los objetos aleatorios ponen a disposición 

#### Función de densidad de probabilidad

El método `pdf` entrega la *probability density function* $f_X(x)$, que puede evaluarse para cualquier valor $x$ particular.

#### Función de probabilidad acumulativa

El método `cdf` entrega la *cumulative distribution function* $F_X(x)$, que puede evaluarse para cualquier valor $x$ particular.

In [None]:
from scipy import stats

X = stats.norm(0,1)

a = X.pdf(0)
b = X.cdf(0)

print(a, b)

---
## 4.4 - Gráficas de las funciones de distribución

Con la ayuda de Matplotlib es posible y deseable graficar la forma de las funciones de distribución. Por ejemplo con la función normal recordar que su distribución está dada por:

$${\displaystyle f_X(x) = {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}}$$

In [None]:
import numpy as np 
from scipy import stats 
import matplotlib.pyplot as plt

# Parámetros gaussianos: media y desviación estándar
mu = 0
sigma = 1

# Crear "objeto" gaussiano (normal) de parámetros dados
gaussiana = stats.norm(mu, sigma)

# Crear un rango de valores de x en "todo el rango porcentual" (ppf, percent point function)
x = np.linspace(gaussiana.ppf(0.01), gaussiana.ppf(0.99), 100)

# Crear gráfica de función de densidad de probabilidad
plt.plot(x, gaussiana.pdf(x))

# Configurar área del gráfico
plt.title('Distribución normal')
plt.ylabel('$f_X(x)$')
plt.xlabel('$x$')

# Mostrar la gráfica
plt.show()

---
## 4.5 - Modificación de parámetros de la distribución

Todas las variables aleatorias están definidas por parámetros que tienen símbolos distintos ($\lambda$, $\mu$, $\alpha$, etc.). En el módulo `stats`, sin embargo, los parámetros están especificados generalmente como "ubicación" y "escala". Sin cambiar ninguno de estos parámetros, las distribuciones están **normalizadas** o **estandarizadas**. El efecto que tienen los parámetros es:

* `loc` (*location*) va a desplazar la media de la distribución.
* `scale` va a "dispersar" la distribución.

#### Ejemplo con la distribución de Rayleigh

La función de densidad de probabilidad de Rayleigh es

$${\displaystyle f_X(x) = {\frac {x}{\sigma ^{2}}}e^{-x^{2}/\left(2\sigma ^{2}\right)}}$$

Para $x \geq 0$. Y normalizada ($\sigma = 1$) es

$${\displaystyle f_X(x) = {{x}}e^{-x^{2}/2}}$$

Para modificarlo en `stats` se hace 

* `rayleigh.pdf(x, loc, scale)`, que es equivalente a 
* `rayleigh.pdf(y) / scale` con `y = (x - loc) / scale`

Es decir,

$${ \displaystyle f_X(x) = {\frac {(x - \mathsf{loc})}{\mathsf{scale}^2}} e^{\frac{-(x - \mathsf{loc})^{2}}{(2~\cdot~ \mathsf{scale}^2)}} }$$

Y corresponde entonces que $\sigma$ = `scale`. En ocasiones se utiliza como notación `shift` = `loc` pues es, en efecto, un desplazamiento a $x_0$.

In [None]:
import numpy as np 
from scipy import stats 
import matplotlib.pyplot as plt

# Rango de valores de ubicación y escala
locs = range(1,6)
scales = range(1,6)

# Gráfica para varios parámetros de escala
plt.figure()
plt.title('Distribución de Rayleigh con varios parámetros de escala')
plt.ylabel('$f_X(x)$')
plt.xlabel('$x$')
for scale in scales:
    R = stats.rayleigh(0, scale)
    x = np.linspace(0, 16, 100)
    plt.plot(x, R.pdf(x), label='$\sigma$ = ' + str(scale))
    plt.legend()

# Gráfica para varios parámetros de ubicación
plt.figure()
plt.title('Distribución de Rayleigh con varios parámetros de ubicación')
plt.ylabel('$f_X(x)$')
plt.xlabel('$x$')
for loc in locs:
    R = stats.rayleigh(loc, 4)
    x = np.linspace(loc, 20, 100)
    plt.plot(x, R.pdf(x), label='$x_0$ = ' + str(loc))
    plt.legend()

---
## 4.6 - Cálculo de probabilidades mediante integración

En Python, la asignación de...

---
## 4.7 - Cálculo de probabilidades por `stats`

En Python, la asignación de...

In [None]:
help(np.linspace)

---
### Más información

* [Página web](https://www.google.com/)
* Libro o algo
* Tutorial [w3schools](https://www.w3schools.com/python/)
---

---

**Universidad de Costa Rica**

Facultad de Ingeniería

Escuela de Ingeniería Eléctrica

---