# Todo sobre la Distribución Normal

Es una distribución icónica en la estadística que se presenta en muchos fenómenos naturales y procesos aleatorios como encuestas. El término Normal indica que es una de las más frecuentes y útiles en la estadística, no que sea la única o la más correcta.

Veamos un ejemplo para ir comprendiendo de qué se trata

### *Tenemos un grupo de personas de una ciudad y queremos estudiar la distribución de la altura y la media de toda la población*

Vamos midiendo cada persona y los resultados los vamos organizando en un histograma

![image.png](attachment:image.png)

La grafica anterior se ajusta a una curva de distribución normal

![image-2.png](attachment:image-2.png)

Esta curva tiene algunas características importantes:

> - La altura media es también la más frecuente. La media es igual a la moda.
> - La distribución es simétrica respecto a la media. Hay tanta gente que mide mas de la media, como gente que mide menos de la media.
> - Muchas encuestas o parámetros a estudiar se ajustan a esta curva
> - La media poblacional se representa por $\mu$
> - La desviación típica, que se representa por $\sigma$, es una medida de qué tan cerca o lejos están los datos de la media $\mu$. Para una población heterogénea, $\sigma$ es muy alta; para una población homogénea, $\sigma$ es muy baja

## Función de Distribución Normal

Carl Friedrich Gauss, se propuso a encontrar una función matemática que se ajuste a la curva de la distribución normal y dedujo la siguiente fórmula:

$$f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{1}{2}\left ( \frac{x - \mu}{\sigma} \right )^{2}}$$

Las características de esta función son las siguientes:
- Considera la media ($\mu$) y la desviación típica ($\sigma$).
- Es simétrica respecto a la media, al igual que la distribución.
- Tiene una asíntota horizontal que es el eje x.
- El área entre la función y el eje horizontal es igual a 1. Recordemos que para calcular áreas bajo una curva, en matemáticas, utlizamos integrales:

$$Area = \int_{-\infty}^{\infty}\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{1}{2}\left ( \frac{x - \mu}{\sigma} \right )^{2}} dx = 1$$

Al valer toda el área 1, podemos extrapolar a que es el 100% de la población ya que toda la población esta englobada bajo esa función.

Veamos un ejemplo

### *Supongamos que en un determinado país la estatura de la población adultas sigue una distribución normal de media 170 cm y desviación típica igual a 12 cm*

La distribución normal, para el ejemplo, se representa de la siguiente forma:

$$N(\mu, \sigma)\rightarrow N(170, 12)$$

La función, para los valores de $\mu$ y $\sigma$ dados se representa como sigue:

$$ f(x)= \frac{1}{12 \sqrt{2\pi}}e^{-\frac{1}{2}\left ( \frac{x - 170}{12} \right )^{2}}$$

Si evaluamos la función para un rango contínuo entre 130 y 210 obtenemos la siguiente distribución:

![image-2.png](attachment:image-2.png)

Claramente vemos que en el centro esta el valor de 170, como indicaba la media dada y vemos como a medida que nos acercamos a estaturas extremas como 130 cm y 210 cm, el porcentaje de la población es cada vez mas pequeño.

### *Que porcentaje de esa población mide más de 170 cm?*

Este porcentaje de la población viene representado por lo que estan a la derecha de 170 que es la media

![image.png](attachment:image.png)

Entonces, para caclularlo debemos integrar la funcion desde 170 hasta infinito como sigue:

$$Poblacion(X > 170 ) = \int_{170}^{\infty}\frac{1}{12 \sqrt{2\pi}}e^{-\frac{1}{2}\left ( \frac{x - 170}{12} \right )^{2}} dx$$

Vamos a calcular la integral con la libreria Sympy de Python

In [18]:
# libreria para calculo de integrales
import sympy as sp

# definimos la funcion
f = (1/(12*sp.sqrt(2*sp.pi)))*sp.exp(-0.5*((x-170)/12)**2)

# calculo de la integral
result_integral = sp.integrate(f,(x, 170, sp.oo))

# mostrar resultado
result_integral

0.353553390593274*sqrt(2)

In [23]:
# difnimos la libreria numpy
import numpy as np

# multiplicamos el numero decimal por la raiz cuadrada de 2
result = 0.35355339*np.sqrt(2)
result = result.round(2)
result

0.5

> El 50% de la poblacion mide mas de 170 cm

### *Que porcentaje de  esa poblacion mide menos de 180 cm?*

En este caso, el porcentaje viene dado por el area que va desde menos infinito hasta 180. 

![image.png](attachment:image.png)

calculemos la integral con Python

In [24]:
# definimos la funcion
f = (1/(12*sp.sqrt(2*sp.pi)))*sp.exp(-0.5*((x-170)/12)**2)

# calculo de la integral
result_integral = sp.integrate(f,(x, -sp.oo, 180))

# mostrar resultado
result_integral

0.56403901098066*sqrt(2)

In [26]:
# multiplicamos el numero decimal por la raiz cuadrada de 2
result = 0.564039*np.sqrt(2)
result = result.round(3)
result

0.798

> El 79% de la poblacion mide menos de 180 cm

### *Que porcentaje de esa poblacion mide entre 165 y 190 cm?*

El porcentaje viene dado por el calculo del area en el rango entre 165 y 190 cm

![image.png](attachment:image.png)

Calculemos dicha integral

In [27]:
# definimos la funcion
f = (1/(12*sp.sqrt(2*sp.pi)))*sp.exp(-0.5*((x-170)/12)**2)

# calculo de la integral
result_integral = sp.integrate(f,(x, 165, 190))

# mostrar resultado
result_integral

0.433985746245147*sqrt(2)

In [28]:
# multiplicamos el numero decimal por la raiz cuadrada de 2
result = 0.4339857*np.sqrt(2)
result = result.round(3)
result

0.614

> El porcentaje de la poblacion que mide entre 165 y 190 cm es de 61.4%

## Distribucion Normal Estandar

Es una distribucion normal con media de 0 y desviacion estandar 1, valores que hacen que la formula se simplifique considerablemente quedando de la siguiente forma:

$$f(x) = \frac{1}{\sqrt{2\pi}}e^{-\left ( \frac{x}{2} \right )^{2}}$$

Ayuda a que el calculo de area se simplifique al utilizar la tabla Z, la cual contiene tabulado los valores del area bajo la curva para un rango definido entre 0 y 3.90. Su forma es la siguiente:

![image.png](attachment:image.png)

De esta manera, ya no tenemos que acudir a integrales tediosas para calcular el area hasta un valor dado, sino que vamos a la tabla y ubicamos los valores de area asociados a dicho valor.

En lo que sigue vamos a crear la tabla Z con Python y calcular el area para ciertos valores

### *Tabla Z*

In [1]:
import pandas as pd
import numpy as np
from scipy.stats import norm

tabla_estandarizada = pd.DataFrame(
    [], 
    index=["{0:0.2f}".format(i / 100) for i in range(0, 400, 10)],
    columns = ["{0:0.2f}".format(i / 100) for i in range(0, 10)])

for index in tabla_estandarizada.index:
    for column in tabla_estandarizada.columns:
        Z = np.round(float(index) + float(column), 2)
        tabla_estandarizada.loc[index, column] = "{0:0.4f}".format(norm.cdf(Z))

tabla_estandarizada.rename_axis('Z', axis = 'columns', inplace = True)
tabla_estandarizada

Z,0.00,0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09
0.0,0.5,0.504,0.508,0.512,0.516,0.5199,0.5239,0.5279,0.5319,0.5359
0.1,0.5398,0.5438,0.5478,0.5517,0.5557,0.5596,0.5636,0.5675,0.5714,0.5753
0.2,0.5793,0.5832,0.5871,0.591,0.5948,0.5987,0.6026,0.6064,0.6103,0.6141
0.3,0.6179,0.6217,0.6255,0.6293,0.6331,0.6368,0.6406,0.6443,0.648,0.6517
0.4,0.6554,0.6591,0.6628,0.6664,0.67,0.6736,0.6772,0.6808,0.6844,0.6879
0.5,0.6915,0.695,0.6985,0.7019,0.7054,0.7088,0.7123,0.7157,0.719,0.7224
0.6,0.7257,0.7291,0.7324,0.7357,0.7389,0.7422,0.7454,0.7486,0.7517,0.7549
0.7,0.758,0.7611,0.7642,0.7673,0.7704,0.7734,0.7764,0.7794,0.7823,0.7852
0.8,0.7881,0.791,0.7939,0.7967,0.7995,0.8023,0.8051,0.8078,0.8106,0.8133
0.9,0.8159,0.8186,0.8212,0.8238,0.8264,0.8289,0.8315,0.834,0.8365,0.8389


### *Qué porcentaje queda por debajo del valor 1?*
Para calcularlo, debemos integrar la formula de la distribucion normal estandar desde - infinito hasta 1. Sin embargo, como ya tenemos la tabla Z, podemos apoyarnos de ella para realizar el calculo. El area a calcular es la siguiente:

![image.png](attachment:image.png)

Los valores de Z se encuentran en la primera fila y columna. Alli ubicamos el valor hasta donde se desea calcular el area. Al encontrarlo, ubicamos el respectivo valor de area. Para este caso obtenemos:

$$P(X < 1) = 0.8413$$

El resultado indica que el 84.13% de la poblacion esta por debajo de 1 en esta distribucion.

### *Que porcentaje queda por enciam del valor 0.5?*
En este caso, debemos calcular el area que se encuentra entre 0.5 e infinito. 

![image.png](attachment:image.png)

Procedemos como sigue:

1.- Calculamos el valor de area de - infinito hasta 0.5, mediante la tabla Z

$$P(X \leq 0.5) = 	0.6915$$

2.- Ahora, restamos al area total, que es de 1, el area calculada anteriormente

$$P(X > 0.5) = 1 - P(X \leq 0.5) = 1 - 0.6915 = 0.3085$$

El resultado indica que el 30.85% de la poblacion esta por encima de 0.5 en esta distribucion.

### *Qué porcentaje queda entre -2 y 1?*
El area que debemos calcular va entre -2 y 1 y se representa como sigue:

![image.png](attachment:image.png)

Procedemos como sigue:

1.- Calculamos el area desde -infinito hasta 1.

$$P(X \leq 1) = 0.8413$$

2.- Calculamos el area desde -infinito hasta -2. Aqui se presenta un problema y es que **la tabla Z no contiene el area para valores negativos**. Sin embargo, podemos apoyarnos de la simetria de la distribucion para hacer el calculo. Si calculamos el area desde -infinito hasta 2 y restamos dicho valor al area total encontraremos el area de -infinito hasta -2, por simetria.

$$P(X \leq 2) = 0.9772$$

$$P(X \leq -2) = 1 - P(\leq 2) = 1 - 0.9772 = 0.0228$$

3.- Restamos a $P(X \leq 1)$ el area de $P(X \leq -2)$

$$P(-2 \leq X \leq 1) = P(X \leq 1) - P(X \leq -2) = 0.8413 - 0.0228 = 0.8185$$

El resultado indica que el 81.85% de la poblacion se encuentra entre -2 y 1.