[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/jhermosillo/diplomado_CDD2019/blob/master/Estadistica%20de%20Datos/notebook/Probabilidad_Estadistica_con_Python.ipynb)

# 2.5. Probabilidad y Estadística con Python
---

Python se lleva muy bien con las matemáticas. Además, la comunidad python es tan amplia que solemos encontrar una librería para cualquier problema al que nos enfrentemos. En este caso, los principales módulos que Python nos ofrece para trabajar con probabilidad y estadística, son:



   * **numpy**: El popular paquete matemático de Python, se utiliza tanto que mucha gente ya lo considera parte integral del lenguaje. Nos proporciona algunas funciones estadísticas que podemos aplicar fácilmente sobre los arrays de Numpy.

   * **scipy.stats**:*Este submodulo del paquete científico Scipy es el complemento perfecto para Numpy, las funciones estadisticas que no encontremos en uno, las podemos encontrar en el otro.

   * **statsmodels**: Esta librería nos brinda un gran número de herramientas para explorar datos, estimar modelos estadísticos, realizar pruebas estadísticas y muchas cosas más.

   * **matplotlib**: Es la librería más popular en Python para visualizaciones y gráficos. Ella nos va a permitir realizar los gráficos de las distintas distribuciones de datos.

   * **seaborn**: Esta librería es un complemento ideal de matplotlib para realizar gráficos estadísticos.

   * **pandas**: Esta es la librería más popular para análisis de datos y financieros. Posee algunas funciones muy útiles para realizar estadística descriptiva sobre nuestros datos y nos facilita sobremanera el trabajar con series de tiempo.

   * **pyMC**: pyMC es un módulo de Python que implementa modelos estadísticos bayesianos, incluyendo la cadena de Markov Monte Carlo(MCMC). pyMC ofrece funcionalidades para hacer el análisis bayesiano lo mas simple posible.


## 2.5.1. Ejemplos en Python
---
Como ya hemos visto hasta ahora, calcular los principales indicadores de la estadística descriptiva con Python es muy fácil!.


In [None]:
# Ejemplos de estadistica descriptiva con python

import numpy as np # importando numpy
from scipy import stats # importando scipy.stats
import pandas as pd # importando pandas

np.random.seed(2131982) # para poder replicar el random

datos = np.random.randn(5, 4) # datos normalmente distribuidos
datos

In [None]:
# media arítmetica
datos.mean() # Calcula la media aritmetica de

In [None]:
np.mean(datos) # Mismo resultado desde la funcion de numpy

In [None]:
datos.mean(axis=1) # media aritmetica de cada fila

In [None]:
datos.mean(axis=0) # media aritmetica de cada columna

In [None]:
# mediana
np.median(datos) 

In [None]:
np.median(datos, 0) # media aritmetica de cada columna

In [None]:
# Desviación típica (standard)
np.std(datos)

In [None]:
np.std(datos, 0) # Desviación típica de cada columna

In [None]:
np.var(datos)

In [None]:
np.var(datos, 0) # Varianza de cada columna

In [None]:
# moda
stats.mode(datos) # Calcula la moda de cada columna
# el 2do array devuelve la frecuencia.

In [None]:
datos2 = np.array([1, 2, 3, 6, 6, 1, 2, 4, 2, 2, 6, 6, 8, 10, 6])
stats.mode(datos2) # aqui la moda es el 6 porque aparece 5 veces en el vector.

In [None]:
# correlacion
np.corrcoef(datos) # Crea matriz de correlación.

In [None]:
# calculando la correlación entre dos vectores.
np.corrcoef(datos[0], datos[1])

In [None]:
# covarianza
np.cov(datos) # calcula matriz de covarianza

In [None]:
# covarianza de dos vectores
np.cov(datos[0], datos[1])

In [None]:
# usando pandas
dataframe = pd.DataFrame(datos, index=['a', 'b', 'c', 'd', 'e'], columns=['col1', 'col2', 'col3', 'col4'])
dataframe

In [None]:
# resumen estadistadistico con pandas
dataframe.describe()

In [None]:
# sumando las columnas
dataframe.sum()

In [None]:
# sumando filas
dataframe.sum(axis=1)

In [None]:
# media aritmetica de cada columna con pandas
dataframe.mean()

---
## 2.5.2. Histogramas y Distribuciones
---

Muchas veces los indicadores de la estadística descriptiva no nos proporcionan una imagen clara de nuestros datos. 

Por esta razón, siempre es útil complementarlos con gráficos de las distribuciones de los datos, que describan con qué frecuencia aparece cada valor. 


* La representación más común de una distribución es un histograma, que es un gráfico que muestra la frecuencia o probabilidad de cada valor. 

* El histograma muestra las frecuencias como un gráfico de barras que indica cuan frecuente un determinado valor ocurre en el conjunto de datos. 

* El eje horizontal representa los valores del conjunto de datos y el eje vertical representa la frecuencia con que esos valores ocurren.

---
Las distribuciones se pueden clasificar en dos grandes grupos:

* Distribuciones Continuas: son aquellas que presentan un número infinito de posibles soluciones. Dentro de este grupo vamos a encontrar a las distribuciones:
    1. Normal (o Gaussiana)
    2. Log-Normal
    3. Exponencial
    4. Chi Cuadrada
    5. t - Student
    6. etc...
* Distribuciones Discretas: son aquellas en las que la variable puede tomar un número determinado de valores. Los principales exponentes de este grupo son las distribuciones:
    1. Poisson
    2. Binomial
    3. Geométrica
    4. Hipergeométrica
    5. Bernoulli
    6. etc...
    
### Veamos algunos ejemplos graficados con la ayuda de Python.

### 2.5.2.1. Distribución normal
---
La distribución normal es una de las principales distribuciones, ya que es la que con más frecuencia aparece aproximada en los fenómenos reales. 

Tiene una forma acampanada y es simétrica respecto de un determinado parámetro estadístico. Con la ayuda de Python la podemos graficar de la siguiente manera:

In [None]:
# Graficos embebidos.
%matplotlib inline 
import matplotlib.pyplot as plt # importando matplotlib
import seaborn as sns # importando seaborn

# parametros esteticos de seaborn
sns.set_palette("deep", desat=.6)
sns.set_context(rc={"figure.figsize": (8, 4)})

In [None]:
mu, sigma = 0, 0.1 # media y desvio estandar
s = np.random.normal(mu, sigma, 1000) #creando muestra de datos

In [None]:
# histograma de distribución normal.
cuenta, cajas, ignorar = plt.hist(s, 30, density=True)
normal = plt.plot(cajas, 1/(sigma * np.sqrt(2 * np.pi)) *
         np.exp( - (cajas - mu)**2 / (2 * sigma**2) ),
         linewidth=2, color='r')

## 2.5.2.2. Distribuciones simetricas y asimetricas
---
Una distribución es simétrica cuando moda, mediana y media coinciden aproximadamente en sus valores. Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de la media, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo.

Una distribución tiene asimetria positiva (o a la derecha) si la "cola" a la derecha de la media es más larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha. De la misma forma una distribución tiene asimetria negativa (o a la izquierda) si la "cola" a la izquierda de la media es más larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda.

Las distribuciones asimétricas suelen ser problemáticas, ya que la mayoría de los métodos estadísticos suelen estar desarrollados para distribuciones del tipo normal. Para salvar estos problemas se suelen realizar transformaciones a los datos para hacer a estas distribuciones más simétricas y acercarse a la distribución normal.

In [None]:
# Dibujando la distribucion Gamma
x = stats.gamma(3).rvs(5000)
gamma = plt.hist(x, 70, histtype="stepfilled", alpha=.7)

En este ejemplo podemos ver que la distribución gamma que dibujamos tiene una asimetria positiva.

In [None]:
# Calculando la simetria con scipy
stats.skew(x)

## 2.5.2.3. Cuartiles y diagramas de cajas
---
Los cuartiles son los tres valores de la variable estadística que dividen a un conjunto de datos ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.

Los diagramas de cajas son una presentación visual que describe varias características importantes al mismo tiempo, tales como la dispersión y simetría. Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente. Estos gráficos nos proporcionan abundante información y son sumamente útiles para encontrar valores atípicos y comparar dos conjunto de datos.

![alt text](https://es.justexw.com/wp-content/uploads/sites/2/diagrama-de-caja-ejemplo.jpg)

In [None]:
# Ejemplo de grafico de cajas en python

datos_1 = np.random.normal(100, 10, 200)
datos_2 = np.random.normal(80, 30, 200)
datos_3 = np.random.normal(90, 20, 200)
datos_4 = np.random.normal(70, 25, 200)

datos_graf = [datos_1, datos_2, datos_3, datos_4]

# Creando el objeto figura
fig = plt.figure(1, figsize=(9, 6))

# Creando el subgrafico
ax = fig.add_subplot(111)

# creando el grafico de cajas
bp = ax.boxplot(datos_graf)

# visualizar mas facile los atípicos
for flier in bp['fliers']:
    flier.set(marker='o', color='red', alpha=0.5)
# los puntos aislados son valores atípicos

## 2.5.3. Regresiones
---
Las regresiones es una de las herramientas principales de la estadistica inferencial. El objetivo del análisis de regresión es describir la relación entre un conjunto de variables, llamadas variables dependientes, y otro conjunto de variables, llamadas variables independientes o explicativas. 

Más específicamente, el análisis de regresión ayuda a entender cómo el valor típico de la variable dependiente cambia cuando cualquiera de las variables independientes es cambiada, mientras que se mantienen las otras variables independientes fijas.

El producto final del análisis de regresión es la estimación de una función de las variables independientes llamada la función de regresión. 

**La idea es que en base a esta función de regresión podamos hacer estimaciones sobre eventos futuros**.

---
La regresión lineal es una de las técnicas más simples y mayormente utilizadas en los análisis de regresiones. Hace suposiciones muy rígidas sobre la relación entre la variable dependiente y y variable independiente x. Asume que la relación va a tomar la forma: $y=β0+β1∗x$

---
Uno de los métodos más populares para realizar regresiones lineales es el de mínimos cuadrados ordinarios (OLS, por sus siglas en inglés), este método es el estimador más simple y común en la que los dos βs se eligen para minimizar el cuadrado de la distancia entre los valores estimados y los valores reales.

Veamos un pequeño ejemplo utilizando el dataset longley, el cual es ideal para realizar regresiones:

In [None]:
# importando la api de statsmodels
import statsmodels.formula.api as smf
import statsmodels.api as sm

# Creando un DataFrame de pandas.
df = pd.read_csv('https://vincentarelbundock.github.io/Rdatasets/csv/datasets/longley.csv', index_col=0)
df.head() # longley dataset

In [None]:
# utilizando la api de formula de statsmodels
est = smf.ols(formula='Employed ~ GNP', data=df).fit()
est.summary() # Employed se estima en base a GNP.

Como podemos ver, el resumen que nos brinda statsmodels sobre nuestro modelo de regresión contiene bastante información sobre como se ajuste el modelo a los datos. Pasemos a explicar algunos de estos valores:


   * Dep. Variable: es la variable que estamos estimasdo.
   * Model: es el modelo que estamos utilizando.
   * R-squared: es el coeficiente de determinación, el cual mide cuan bien nuestra recta de regresion se aproxima a los datos reales.
   * Adj. R-squared: es el coeficiente anterior ajustado según el número de observaciones.
   * [95.0% Conf. Int.]: Los valores inferior y superior del intervalo de confianza del 95%.
   * coef: el valor estimado del coeficiente.
   * std err: el error estándar de la estimación del coeficiente.
   * Skew: una medida de la asimetria de los datos sobre la media.
   * Kurtosis: Una medida de la forma de la distribución. La curtosis compara la cantidad de datos cerca de la media con los que están más lejos de la media(en las colas).


In [None]:
# grafico de regresion. que tanto se ajusta el modelo a los datos.
y = df.Employed  # Respuesta
X = df.GNP  # Predictor
X = sm.add_constant(X) # agrega constante

X_1 = pd.DataFrame({'GNP': np.linspace(X.GNP.min(), X.GNP.max(), 100)})
X_1 = sm.add_constant(X_1) 

y_reg = est.predict(X_1) # estimacion

plt.scatter(X.GNP, y, alpha=0.3)  # grafica los puntos de datos
plt.ylim(30, 100)  # limite de eje y
plt.xlabel("Producto bruto") # leyenda eje x
plt.ylabel("Empleo") # leyenda eje y
plt.title("Ajuste de regresion") # titulo del grafico
reg = plt.plot(X_1.GNP, y_reg, 'r', alpha=0.9)  # linea de regresion

In [None]:
# grafico de influencia
from statsmodels.graphics.regressionplots import influence_plot
inf =influence_plot(est)

Este último gráfico nos muestra el apalancamiento y la influencia de cada caso.

---
---
---
# 2.6. Distribuciones de probabilidad con Python
---
Las variables aleatorias han llegado a desempeñar un papel importante en casi todos los campos de estudio: en la Física, la Química y la Ingeniería; y especialmente en las ciencias biológicas y sociales. 

Estas variables aleatorias son medidas y analizadas en términos de sus propiedades estadísticas y probabilísticas, de las cuales una característica subyacente es su función de distribución. 

* A pesar de que el número potencial de distribuciones puede ser muy grande, en la práctica, un número relativamente pequeño se utilizan; ya sea porque tienen características matemáticas que las hace fáciles de usar o porque se asemejan bastante bien a una porción de la realidad, o por ambas razones combinadas.

---
### 2.6.1. ¿Por qué es importante conocer las distribuciones?
---
Muchos resultados en las ciencias se basan en conclusiones que se extraen sobre una población general a partir del estudio de una muestra de esta población. Este proceso se conoce como inferencia estadística; y este tipo de inferencia con frecuencia se basa en hacer suposiciones acerca de la forma en que los datos se distribuyen, o requiere realizar alguna transformación de los datos para que se ajusten mejor a alguna de las distribuciones conocidas y estudiadas en profundidad.

Las distribuciones de probabilidad teóricas son útiles en la inferencia estadística porque sus propiedades y características son conocidas. Si la distribución real de un conjunto de datos dado es razonablemente cercana a la de una distribución de probabilidad teórica, muchos de los cálculos se pueden realizar en los datos reales utilizando hipótesis extraídas de la distribución teórica.

---
### 2.6.2. Graficando distribuciones
---
Una de las mejores maneras de describir una variable es representar los valores que aparecen en el conjunto de datos y el número de veces que aparece cada valor. La representación más común de una distribución es un histograma, que es un gráfico que muestra la frecuencia de cada valor.

In [None]:
# importando modulos necesarios
%matplotlib inline

import matplotlib.pyplot as plt
import numpy as np 
from scipy import stats 
import seaborn as sns 

np.random.seed(2016) # replicar random

# parametros esteticos de seaborn
sns.set_palette("deep", desat=.6)
sns.set_context(rc={"figure.figsize": (8, 4)})

In [None]:
# Graficando histograma
mu, sigma = 0, 0.2 # media y desvio estandar
datos = np.random.normal(mu, sigma, 1000) #creando muestra de datos

# histograma de distribución normal.
cuenta, cajas, ignorar = plt.hist(datos, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma')
plt.show()

Ahora que ya conocemos como podemos hacer para representar a las distribuciones; pasemos a analizar cada una de ellas en más detalle para conocer su forma, sus principales aplicaciones y sus propiedades. Comencemos por las distribuciones discretas.

---
## 2.7. Distribuciones Discretas

### 2.7.1. Distribución Poisson
---
La Distribución Poisson esta dada por la formula:  $p(r;μ)=μ^{r}e^{−μ}/r!$


En dónde $r$ es un entero $(r≥0)$ y $μ$ es un número real positivo. La Distribución Poisson describe la probabilidad de encontrar exactamente $r$ eventos en un lapso de tiempo si los acontecimientos se producen de forma independiente a una velocidad constante $μ$. 

* Es una de las distribuciones más utilizadas en estadística con varias aplicaciones; como por ejemplo describir el número de fallos en un lote de materiales o la cantidad de llegadas por hora a un centro de servicios.
---
En Python la podemos generar fácilmente con la ayuda de scipy.stats, paquete que utilizaremos para representar a todas las restantes distribuciones a lo largo de todo el bloque.

In [None]:
# Graficando Poisson
mu =  3.6 # parametro de forma 
poisson = stats.poisson(mu) # Distribución
x = np.arange(poisson.ppf(0.01),
              poisson.ppf(0.99))
fmp = poisson.pmf(x) # Función de Masa de Probabilidad
plt.plot(x, fmp, '--')
plt.vlines(x, 0, fmp, colors='b', lw=5, alpha=0.5)
plt.title('Distribución Poisson')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

In [None]:
# histograma
aleatorios = poisson.rvs(1000)  # genera aleatorios
cuenta, cajas, ignorar = plt.hist(aleatorios, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma Poisson')
plt.show()

### 2.7.2. Distribución Binomial
---
La Distribución Binomial esta dada por la formula:
$p(r;N,p)=\binom{N}{r}p^r(1−p)N−r$

En dónde $r$ con la condición $0≤r≤N$ y el parámetro $N$ $(N>0)$ son enteros; y el parámetro $p$ $(0≤p≤1)$ es un número real. La Distribución Binomial describe la probabilidad de exactamente $r$ éxitos en $N$ pruebas si la probabilidad de éxito en una sola prueba es $p$.

In [None]:
# Graficando Binomial
N, p = 30, 0.4 # parametros de forma 
binomial = stats.binom(N, p) # Distribución
x = np.arange(binomial.ppf(0.01),
              binomial.ppf(0.99))
fmp = binomial.pmf(x) # Función de Masa de Probabilidad
plt.plot(x, fmp, '--')
plt.vlines(x, 0, fmp, colors='b', lw=5, alpha=0.5)
plt.title('Distribución Binomial')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

In [None]:
# histograma
aleatorios = binomial.rvs(1000)  # genera aleatorios
cuenta, cajas, ignorar = plt.hist(aleatorios, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma Binomial')
plt.show()

### 2.7.3. Distribución Geométrica
---
La Distribución Geométrica esta dada por la formula:
$p(r;p)=p(1−p)^{r−1}$

En dónde $r≥1$ y el parámetro $p$ $(0≤p≤1)$ es un número real. La Distribución Geométrica expresa la probabilidad de tener que esperar exactamente $r$ pruebas hasta encontrar el primer éxito si la probabilidad de éxito en una sola prueba es $p$. Por ejemplo, en un proceso de selección, podría definir el número de entrevistas que deberíamos realizar antes de encontrar al primer candidato aceptable.

In [None]:
# Graficando Geométrica
p =  0.3 # parametro de forma 
geometrica = stats.geom(p) # Distribución
x = np.arange(geometrica.ppf(0.01),
              geometrica.ppf(0.99))
fmp = geometrica.pmf(x) # Función de Masa de Probabilidad
plt.plot(x, fmp, '--')
plt.vlines(x, 0, fmp, colors='b', lw=5, alpha=0.5)
plt.title('Distribución Geométrica')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

In [None]:
# histograma
aleatorios = geometrica.rvs(1000)  # genera aleatorios
cuenta, cajas, ignorar = plt.hist(aleatorios, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma Geométrica')
plt.show()

### 2.7.4. Distribución HiperGeométrica
---
La Distribución Hipergeométrica esta dada por la formula:
$p(r;n,N,M)= \binom{M}{r}\binom{N-M}{n-r}/ \binom{N}{n}$

En dónde el valor de $r$
esta limitado por $max(0,n−N+M)$ y $min(n,M)$ inclusive; y los parámetros $n$ $(1≤n≤N)$, $N$ $(N≥1)$ y $M$ $(M≥1)$ son todos números enteros. 

La Distribución Hipergeométrica describe experimentos en donde se seleccionan los elementos al azar sin reemplazo (se evita seleccionar el mismo elemento más de una vez). Más precisamente, supongamos que tenemos $N$ elementos de los cuales $M$ tienen un cierto atributo (y $N−M$ no tiene). Si escogemos $n$ elementos al azar sin reemplazo, $p(r)$ es la probabilidad de que exactamente $r$ de los elementos seleccionados provienen del grupo con el atributo.

In [None]:
# Graficando Hipergeométrica
M, n, N = 30, 10, 12 # parametros de forma 
hipergeometrica = stats.hypergeom(M, n, N) # Distribución
x = np.arange(0, n+1)
fmp = hipergeometrica.pmf(x) # Función de Masa de Probabilidad
plt.plot(x, fmp, '--')
plt.vlines(x, 0, fmp, colors='b', lw=5, alpha=0.5)
plt.title('Distribución Hipergeométrica')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

In [None]:
# histograma
aleatorios = hipergeometrica.rvs(1000)  # genera aleatorios
cuenta, cajas, ignorar = plt.hist(aleatorios, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma Hipergeométrica')
plt.show()

### 2.7.5. Distribución Bernoulli
---
La Distribución de Bernoulli esta dada por la formula:
$p(r;p)$=$\left \{ \begin{matrix} 1−p = q & \mbox{si }r\mbox{ = 0 ( fracaso )}
\\ p & \mbox{si }r\mbox{ = 1 (éxito)}\end{matrix}\right. $

En dónde el parámetro $p$ es la probabilidad de éxito en un solo ensayo, la probabilidad de fracaso por lo tanto va a ser $1−p$ (muchas veces expresada como $q$). Tanto $p$ como $q$ van a estar limitados al intervalo de cero a uno. La Distribución de Bernoulli describe un experimento probabilístico en donde el ensayo tiene dos posibles resultados, éxito o fracaso. Desde esta distribución se pueden deducir varias Funciones de Densidad de Probabilidad de otras distribuciones que se basen en una serie de ensayos independientes.

In [None]:
# Graficando Bernoulli
p =  0.5 # parametro de forma 
bernoulli = stats.bernoulli(p)
x = np.arange(-1, 3)
fmp = bernoulli.pmf(x) # Función de Masa de Probabilidad
fig, ax = plt.subplots()
ax.plot(x, fmp, 'bo')
ax.vlines(x, 0, fmp, colors='b', lw=5, alpha=0.5)
ax.set_yticks([0., 0.2, 0.4, 0.6])
plt.title('Distribución Bernoulli')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

In [None]:
# histograma
aleatorios = bernoulli.rvs(1000)  # genera aleatorios
cuenta, cajas, ignorar = plt.hist(aleatorios, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma Bernoulli')
plt.show()

---
## 2.8. Distribuciones Continuas

### 2.8.1. Distribución Normal (Gaussiana)
---
La Distribución Normal, o también llamada Distribución de Gauss, es aplicable a un amplio rango de problemas, lo que la convierte en la distribución más utilizada en estadística; esta dada por la formula:  $p(x;μ,σ^{2})=(1/{σ√2π})e^{−1/2} (\displaystyle\frac{x−μ}{σ})^2$


En dónde $μ$ es el parámetro de ubicación, y va a ser igual a la media aritmética y $σ^{2}$ es la desviación estándar. Algunos ejemplos de variables asociadas a fenómenos naturales que siguen el modelo de la Distribución Normal son:

   * características morfológicas de individuos, como la estatura;
   * características sociológicas, como el consumo de cierto producto por un mismo grupo de individuos;
   * características psicológicas, como el cociente intelectual;
   * nivel de ruido en telecomunicaciones;
   * errores cometidos al medir ciertas magnitudes;
   * etc.


In [None]:
# Graficando Normal
mu, sigma = 0, 0.2 # media y desvio estandar
normal = stats.norm(mu, sigma)
x = np.linspace(normal.ppf(0.01),
                normal.ppf(0.99), 100)
fp = normal.pdf(x) # Función de Probabilidad
plt.plot(x, fp)
plt.title('Distribución Normal')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

In [None]:
# histograma
aleatorios = normal.rvs(1000) # genera aleatorios
cuenta, cajas, ignorar = plt.hist(aleatorios, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma Normal')
plt.show()

### 2.8.2. Distribución Log-Normal
---
La Distribución Log-normal esta dada por la formula:  $p(x;μ,σ)=(1/{xσ√2π})e^{−1/2} (\displaystyle\frac{ln(x−μ)}{σ})^2$


En dónde la variable $x>0$ y los parámetros $μ$ y $σ>0$ son todos números reales. La Distribución Log-normal es aplicable a variables aleatorias que están limitadas por cero, pero tienen pocos valores grandes. Es una distribución con asimetría positiva. Algunos de los ejemplos en que la solemos encontrar son:

   * El peso de los adultos.
   * La concentración de los minerales en depósitos.
   * Duración de licencia por enfermedad.
   * Distribución de riqueza
   * Tiempos muertos de maquinarias.


In [None]:
# Graficando Log-Normal
sigma = 0.6 # parametro
lognormal = stats.lognorm(sigma)
x = np.linspace(lognormal.ppf(0.01),
                lognormal.ppf(0.99), 100)
fp = lognormal.pdf(x) # Función de Probabilidad
plt.plot(x, fp)
plt.title('Distribución Log-normal')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

In [None]:
# histograma
aleatorios = lognormal.rvs(1000) # genera aleatorios
cuenta, cajas, ignorar = plt.hist(aleatorios, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma Log-normal')
plt.show()

### 2.8.3. Distribución Exponencial
---
La Distribución Exponencial esta dada por la formula:
$p(x;α)= \displaystyle\frac{1}{α}e^{\displaystyle\frac{-x}{α}}$

En dónde tanto la variable $x$ como el parámetro $α$ son números reales positivos. La Distribución Exponencial tiene bastantes aplicaciones, tales como la desintegración de un átomo radioactivo o el tiempo entre eventos en un proceso de Poisson donde los acontecimientos suceden a una velocidad constante.

In [None]:
# Graficando Exponencial
exponencial = stats.expon()
x = np.linspace(exponencial.ppf(0.01),
                exponencial.ppf(0.99), 100)
fp = exponencial.pdf(x) # Función de Probabilidad
plt.plot(x, fp)
plt.title('Distribución Exponencial')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

In [None]:
# histograma
aleatorios = exponencial.rvs(1000) # genera aleatorios
cuenta, cajas, ignorar = plt.hist(aleatorios, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma Exponencial')
plt.show()

### 2.8.4. Distribución Chi Cuadrada
---
La Distribución Chi cuadrado esta dada por la función:
$p(x;n)= \displaystyle\frac{(\displaystyle\frac{x}{n})^{{\displaystyle\frac{n}{2}}-1}\epsilon^(\displaystyle\frac{-x}{2})}
{2\Gamma(\displaystyle\frac{n}{2})}$

En dónde la variable $x≥0$ y el parámetro $n$, el número de grados de libertad, es un número entero positivo. Una importante aplicación de la Distribución Chi cuadrado es que cuando un conjunto de datos es representado por un modelo teórico, esta distribución puede ser utilizada para controlar cuan bien se ajustan los valores predichos por el modelo, y los datos realmente observados.

In [None]:
# Graficando Chi cuadrado
df = 34 # parametro de forma.
chi2 = stats.chi2(df)
x = np.linspace(chi2.ppf(0.01),
                chi2.ppf(0.99), 100)
fp = chi2.pdf(x) # Función de Probabilidad
plt.plot(x, fp)
plt.title('Distribución Chi cuadrado')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

In [None]:
# histograma
aleatorios = chi2.rvs(1000) # genera aleatorios
cuenta, cajas, ignorar = plt.hist(aleatorios, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma Chi cuadrado')
plt.show()

### 2.8.4. Distribución T de Student
---
La Distribución t de Student es utilizada para probar si la diferencia entre las medias de dos muestras de observaciones es estadísticamente significativa. 

Por ejemplo, las alturas de una muestra aleatoria de los jugadores de baloncesto podría compararse con las alturas de una muestra aleatoria de jugadores de fútbol; esta distribución nos podría ayudar a determinar si un grupo es significativamente más alto que el otro.

In [None]:
# Graficando t de Student
df = 50 # parametro de forma.
t = stats.t(df)
x = np.linspace(t.ppf(0.01),
                t.ppf(0.99), 100)
fp = t.pdf(x) # Función de Probabilidad
plt.plot(x, fp)
plt.title('Distribución t de Student')
plt.ylabel('probabilidad')
plt.xlabel('valores')
plt.show()

In [None]:
# histograma
aleatorios = t.rvs(1000) # genera aleatorios
cuenta, cajas, ignorar = plt.hist(aleatorios, 20)
plt.ylabel('frequencia')
plt.xlabel('valores')
plt.title('Histograma t de Student')
plt.show()

# ¿Cómo elegir la distribución que mejor se ajusta a mis datos?
---
Ahora ya tenemos un conocimiento general de las principales distribuciones con que nos podemos encontrar; pero **¿cómo determinamos que distribución debemos utilizar?**

Un modelo que podemos seguir cuando nos encontramos con datos que necesitamos ajustar a una distribución, es comenzar con los datos **sin procesar** y responder a cuatro preguntas básicas acerca de los mismos, que nos pueden ayudar a caracterizarlos. 

   * La primer pregunta se refiere a si los datos pueden tomar valores discretos o continuos. 
   * La segunda pregunta que nos debemos hacer, hace referencia a la simetría de los datos y si hay asimetría, en qué dirección se encuentra; en otras palabras, son los valores atípicos positivos y negativos igualmente probables o es uno más probable que el otro. 
   * La tercer pregunta abarca los límites superiores e inferiores en los datos; hay algunos datos, como los ingresos, que no pueden ser inferiores a cero, mientras que hay otros, como los márgenes de operación que no puede exceder de un valor (100%). 
   * La última pregunta se refiere a la posibilidad de observar valores extremos en la distribución; en algunos casos, los valores extremos ocurren con muy poca frecuencia, mientras que en otros, se producen con mayor frecuencia. Este proceso, lo podemos resumir en el siguiente gráfico:

![alt text](https://2.bp.blogspot.com/-SpjgitfNMb0/TteevRR_Y2I/AAAAAAAAAFQ/IZgd32z2AI8/s1600/distributions.png)

## Analizando las estadísticas del desempleo a nivel mundial
Ejecuta la siguiente celda para cargar el conjunto de datos desde el repositorio en github a la máquina en colab.

In [None]:
# Fetch the dataset using the raw GitHub URL.
!curl --remote-name \
     -H 'Accept: application/vnd.github.v3.raw' \
     --location https://raw.githubusercontent.com/jhermosillo/diplomado_CDD2019/master/Estadistica%20de%20Datos/data/desempleo_mundial.csv

Veamos las primeras líneas del archivo usando un comando de linux en la celda de colab:

In [None]:
!head -n 5 desempleo_mundial.csv

In [None]:
# leer el dataframe usando read_csv
desempleo_df = pd.read_csv("desempleo_mundial.csv", sep=',', header=0)
# mostrar los primeros elementos con head
desempleo_df.head()

# Características del dataset

¿Qué tipos de datos contiene nuestro dataframe?


In [None]:
for name, t in zip(desempleo_df.columns, desempleo_df.dtypes):
  print(name, t)

¿Qué tamaño tiene nuestro dataset?

Utiliza el método shape para conocer el número de filas y columnas en el dataframe.


In [None]:
m,n = desempleo_df.shape
print("Filas:", m)
print("Columnas:", n)

# Estadísticas generales del dataset.

Usa describre() para mostrar las estadísticas generales de las columnas numéricas en el dataframe.


In [None]:
desempleo_df.describe()


## Tratamiento de datos
### Datos faltantes

Antes de poder hacer transformaciones y operaciones en los datos, es importante identificar la posible existencia de datos faltantes. El método isna() de pandas, permite obtener un dataframe booleano que identifica entradas faltantes.

Usémos isna(), sum(axis=0) y to_frame().T para resumir el resultado de datos faltantes como un conteo por columnas:


In [None]:
desempleo_df.isna().sum(axis=0).to_frame().T

### Desechar aquellos renglones (o filas) con valores NaN con Pandas


In [None]:
desempleo_df = desempleo_df.dropna()
desempleo_df


## Graficando el contenido del dataframe

Empecemos en graficar de forma abrupta los datos con el método .plot(). 


In [None]:
desempleo_df.plot(figsize=(15,4))
desempleo_df.plot(subplots=True, figsize=(15,6))

In [None]:
test = desempleo_df.melt(id_vars=["Country Name", "Country Code"], var_name="Date", value_name="Value")
test

In [None]:
test["Date"] = pd.to_numeric(test["Date"])
test.plot.scatter(x="Value", y="Date")
desempleo_df.describe()

In [None]:
desempleo_df.mean().plot()

In [None]:
arr = desempleo_df.to_numpy()
arr
arr[:, [2, 3, 4]].mean(axis=0)