# **Inferencia estadística**
#IE03.1 Deconstrucción Graficando distribuciones de probabilidades



## <font color='blue'>__Bibliografía__</font>
* Estadística para Administración y Economía. Paul Newbold, William L. Carlson y Betty Thorne, 2013.

* Estadística Aplicada a los Negocios y la Economía. Allen L. Webster, 2000.

* Fundamentos de Estadística. Peña Sánchez de Rivera, Daniel, 2008.

## <font color='blue'>__Lecturas__</font>

* López-Briega, R. (2016). Distribuciones de probabilidad con Python.

Nota: Los contenios de este notebook están basados en el trabajo de Raúl E. López Briega. El contenido esta bajo la licencia BSD de Raúl E. López Briega.

## <font color='blue'>Graficando distribuciones</font>

###__Histogramas__

Una de las mejores maneras de describir una variable discreta es representar los valores que aparecen en el conjunto de datos y el número de veces que aparece cada valor. La representación más común de una distribución es un [histograma](https://es.wikipedia.org/wiki/Histograma), el cual es un gráfico que muestra la frecuencia de cada valor.

En Python, podemos graficar fácilmente un histograma con la ayuda de la función `hist` de `matplotlib`, simplemente debemos pasarle los datos y la cantidad de *contenedores* (_bins_) en los que queremos dividirlos. Por ejemplo, podríamos graficar el histograma de una distribución normal del siguiente modo.

In [None]:
# importando módulos necesarios
%matplotlib inline

import matplotlib.pyplot as plt
import numpy as np
from scipy import stats
import seaborn as sns

np.random.seed(2016) # replicar random

# parametros estéticos de seaborn
sns.set_palette("Reds", desat=.6)
sns.set_context(rc={"figure.figsize": (8, 4)})

In [None]:
# Graficando histograma
mu, sigma = 0, 0.2 # media y desviación estándar
datos = np.random.normal(mu, sigma, 100) #creando muestra de datos
datos2 = np.random.normal(mu, sigma, 100_000) #creando muestra de datos

fig,ax = plt.subplots(1,2, figsize=(13,5))
# histograma de distribución normal.
frecuencias, bins, ignorar = ax[0].hist(datos, 30, alpha=0.2, color='r' )
ax[1].hist(datos2, 30, alpha=0.2, color='b' )

plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma')
plt.show()

In [None]:
print(frecuencias)
print(bins)
print(type(ignorar))

###__Función de Masa de Probabilidad__

Otra forma de representar a las distribuciones discretas es utilizando su [Función de Masa de Probabilidad](https://es.wikipedia.org/wiki/Funci%C3%B3n_de_probabilidad) o FMP (**pmf**, *probability mass function*, en inglés), la cual relaciona cada valor con su **probabilidad** en lugar de su **frecuencia** como vimos anteriormente. Esta función es *normalizada* de forma tal que el valor total de probabilidad sea 1.

<br>
<img src="https://drive.google.com/uc?export=view&id=1wVwyAICBtSH_nnQzhQ7_fIf5Ng-Wl_Vr" width="450">
<br>

Créditos:  Oleg Alexandrov - Trabajo propio, [Dominio público](https://commons.wikimedia.org/w/index.php?curid=2073424).

La ventaja que nos ofrece utilizar la FMP es que podemos comparar dos distribuciones sin necesidad de ser confundidos por las diferencias en el tamaño de las muestras. También debemos tener en cuenta que FMP funciona bien si el número de valores es pequeño; pero a medida que el número de valores aumenta, la probabilidad asociada a cada valor se hace cada vez más pequeña y el efecto del **ruido aleatorio** aumenta.
Veamos un ejemplo.

In [None]:
# Graficando FMP
n, p = 30, 0.4 # parametros de forma de la distribución binomial
n_1, p_1 = 20, 0.3 # parametros de forma de la distribución binomial
x = np.arange(stats.binom.ppf(0.00001, n, p),
              stats.binom.ppf(0.99999, n, p))
x_1 = np.arange(stats.binom.ppf(0.01, n_1, p_1),
              stats.binom.ppf(0.99, n_1, p_1))
fmp = stats.binom.pmf(x, n, p) # Función de Masa de Probabilidad
fmp_1 = stats.binom.pmf(x_1, n_1, p_1) # Función de Masa de Probabilidad
plt.plot(x, fmp, '--')
plt.plot(x_1, fmp_1)
plt.vlines(x, 0, fmp, colors='b', lw=5, alpha=0.5)
plt.vlines(x_1, 0, fmp_1, colors='g', lw=5, alpha=0.5)
plt.title('Función de Masa de Probabilidad')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

In [None]:
# Veamos que contiene fmp
fmp

In [None]:
# Si sumamos la fmp nos debe dar 1
# Pero atención con el valor. Por qué no alcanza a ser 1?
sum(fmp)

Si aumentamos la "resolución" del espacio lineal `arange`, nos acercaremos a 1. Para ello buscaremos los __ppf__ (percent point function) más cercanos a 0 y a 1 posibles.

In [None]:
# Graficando FMP

# Aumentamos la resolución
x = np.arange(stats.binom.ppf(0.0001, n, p),
              stats.binom.ppf(0.9999, n, p))
x_1 = np.arange(stats.binom.ppf(0.01, n_1, p_1),
              stats.binom.ppf(0.99, n_1, p_1))
fmp = stats.binom.pmf(x, n, p) # Función de Masa de Probabilidad
fmp_1 = stats.binom.pmf(x_1, n_1, p_1) # Función de Masa de Probabilidad
plt.plot(x, fmp, '--')
plt.plot(x_1, fmp_1)
plt.vlines(x, 0, fmp, colors='b', lw=5, alpha=0.5)
plt.vlines(x_1, 0, fmp_1, colors='g', lw=5, alpha=0.5)
plt.title('Función de Masa de Probabilidad')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

Si se fijan, tenemos más valores en nuestra __fmp__ (más barritas). Veamos cuanto suman ahora:

In [None]:
sum(fmp)

###__Función de Distribución Acumulada__

Si queremos evitar los problemas que se generan con la FMP cuando el número de valores es muy grande, podemos recurrir a utilizar la [Función de Distribución Acumulada](https://es.wikipedia.org/wiki/Funci%C3%B3n_de_distribuci%C3%B3n) o **FDA** (**cdf**, *cumulative distribution function*, en inglés), para representar a nuestras distribuciones, tanto **discretas** como **continuas**. Esta función relaciona los valores con su correspondiente [percentil](https://es.wikipedia.org/wiki/Percentil); es decir, que va a describir la probabilidad de que una variable aleatoria $X$ sujeta a cierta ley de distribución de probabilidad se sitúe en la zona de valores menores o iguales a x.

In [None]:
# Graficando Función de Distribución Acumulada con Python
x_1 = np.linspace(stats.norm(10, 1.2).ppf(0.01),
                  stats.norm(10, 1.2).ppf(0.99), 100)
fda_binom = stats.binom.cdf(x, n, p) # Función de Distribución Acumulada
fda_normal = stats.norm(10, 1.2).cdf(x_1) # Función de Distribución Acumulada
plt.plot(x, fda_binom, color='r', label='FDA binomial')
plt.plot(x_1, fda_normal, color='b', label='FDA nomal')
plt.title('Función de Distribución Acumulada')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.legend(loc=4)
plt.show()

###__Función de Densidad de Probabilidad__

Por último, el equivalente a la __FMP__ para distribuciones __continuas__ es la [Función de Densidad de Probabilidad](https://es.wikipedia.org/wiki/Funci%C3%B3n_de_densidad_de_probabilidad) o __FDP__ (**pdf**, *probability density function*, en inglés). Esta función es la derivada de la Función de Distribución Acumulada.

Por ejemplo, para la distribución normal que graficamos anteriormente, su FDP es la típica forma de campana que caracteriza a esta distribución.

<br>
<img src="https://drive.google.com/uc?export=view&id=1mxVTXd2QYYqDhZ5nbSJg7bnIJXS0lniv" width='500'>
<br>

Créditos imágen: De Ainali - Trabajo propio, [CC BY-SA 3.0](https://commons.wikimedia.org/w/index.php?curid=3141713)


In [None]:
# Graficando Función de Densidad de Probibilidad con Python
FDP_normal = stats.norm(10, 1.2).pdf(x_1) # FDP
plt.plot(x_1, FDP_normal, color='r', label='FDP nomal')
plt.title('Función de Densidad de Probabilidad')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()


##__Deconstrución__

Veamos como graficar distribuciones paso a paso.


###__Caso discreto__

In [None]:
from scipy import stats

import numpy as np
import matplotlib.pyplot as plt

In [None]:
# deconstrucción

# 1. definimos los parametros
k, p = 20, 0.6

# 2. definimos una instancia de la clase de la distribución
binomial = stats.binom(k, p)
type(binomial)

In [None]:
help(binomial)

In [None]:
# rv_frozen es una instancia de la clase, la cual conoce su forma
# y los métodos propios de las distribuciones: pmf, cdf, etc.

# 3. Generamos un espacio lineal en el eje x.
#    Usamos
#       np.arange para uno discreto, o
#       np.linspace para uno continuo

x = np.arange(binomial.ppf(0.01),
              binomial.ppf(0.99))
x

In [None]:
binomial.ppf(0.5)

In [None]:
# arange genera un rango de valores espaciados equidistantemente en un rango
np.arange(5, 18)

In [None]:
# se pueden usar valores float, y el paso por defecto es 1
np.arange(1, 7.1, 0.1)

In [None]:
 # pero en nuestro caso el rango esta dado por la función que
 # hemos creado
 print(binomial.ppf(0.001))
 print(binomial.ppf(0.999))

 # ppf (percent point function) retorna el valor en el eje x para un valor
 # de probabilidad acumulada dado.
 # por eso usamos casi 0 y casi 1

In [None]:
# Observen como usamos la instancia y como lo hacemos desde el constructor
binomial.ppf(0.5) == stats.binom.ppf(0.5, k, p)

In [None]:
# 4. Tenemos que "subir" por el eje y ahora. Las alturas que tenga cada
# posición en X nos configurarán la Función de Masa de Probabilidad (pmf)
# para el caso de dsitribuciones discretas, o
# la Función de Densidad de Probabilidad (fdp) para las continuas

fmp = binomial.pmf(x)
fmp

In [None]:
# 5. Graficamos la FMP en ese caso
plt.plot(x, fmp, '--')
plt.vlines(x, 0, fmp, colors='r', lw=2, alpha=0.5)
plt.title('Distribución Binomial')
plt.ylabel('Probabilidad')
plt.xlabel('Valores')
plt.show()

In [None]:
# Podemos generar valores aleatorios con rvs
# rvs:: Random VariateS
r = binomial.rvs(size=1)[0]
print(f'{r:3.2f}')

In [None]:
# Construyamos un histograma
bh = binomial.rvs(size=10_000)
plt.hist(bh, 50, cumulative=False)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma')
plt.show()

In [None]:
# Calcular la probabilidad acumulada con cdf
# cdf:: Cumulative Distribution Function
# Entrega el valor de las probabilidades acumuladas desde la izquierda
# hasta el valor de x0
print(binomial.cdf(4))
print(binomial.cdf(12))
print(binomial.cdf(14))
print(binomial.cdf(19))

###__Caso continuo__

In [None]:
# 1. Parámetros
mu, sigma = 0, 0.2 # media y desviación estandar

In [None]:
# 2. Definimos la instancia, en este caso de una Normal
normal = stats.norm(mu, sigma)
type(normal)

In [None]:
np.linspace(0, 1, 100)

In [None]:
# 3. Creamos el espacio lineal en x
#    En este caso es continuo y (más) denso
x = np.linspace(normal.ppf(0.001),
                normal.ppf(0.999), num=100)
x[0:20]

In [None]:
# 4. Veamos los valores en y
fdp = normal.pdf(x) # Función de Probabilidad
fdp[0:20]

In [None]:
# 5. Graficamos la FDP
plt.plot(x, fdp)
plt.title('Distribución Normal')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

In [None]:
# Podemos obtener valores aleatorios desde la distribución
normal.rvs(size=1)[0]

In [None]:
# Y plotearlos en un histograma
nh = normal.rvs(size=1000)
plt.hist(nh, 30, cumulative=False)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma')
plt.show()

In [None]:
# Veamos la cdf
# en 0 nos debería dar 0.5
normal.cdf(0)

In [None]:
# Veamos la sf (survival function)
# sf:: nos entrega el (1 - cdf)
normal.sf(0)

In [None]:
# veamos los momentos
mean, variance, skew, kurtosis = normal.stats(moments='mvsk')
print(mean)
print(variance)
print(skew)
print(kurtosis)