# Intervalo de Confianza
Un intervalo de confianza es un rango de valores que estima d칩nde se encuentra el verdadero par치metro de una poblaci칩n (como la media) con una cierta probabilidad o nivel de confianza.

A continuacion vemos una simulacion para poder explicar de manera practica que es el intervalo de confianza.
En la figura se puede apreciar una distribuci칩n normal y se puede concluir lo siguiente:
* Putos naranja: De un conjunto de datos se coje x muestras de por ejemplo podriamos decir 30 individuos (n).
* Puntos verdes: Se saca el promedio de cada una de estas muestras, y ademas de calcular su intervalo de confianza (lazo), este lazo al tocar la linea miu (la media de la normal) nos indica que puede estimar o capturar justamente esa miu.
* En cambio el punto rojo no podra capturar a miu por el lazo que tiene
* ***Este lazo es el intervalo de confianza***

![image.png](attachment:image.png)

* El objetivo del intervalo de confianza es obtener un rango de valores admisibles (un lazo) para poder capturar un objetivo, como por ejemplo la media de una distribucion normal (miu).
* El intervalo de confinza es aleatorio, no siempre tengo el mismo intervalo de confianza, dependera de cada muestra. 

#### Percentiles
* P25: El 25% de los datos se encuentra al lado izquierdo
* P50: El 50% de los datos se encuentra al lado izquierdo
* P75: El 75% de los datos se encuentran al lado izquierdo

Si tenemos los salarios de una poblacion y se distribuye de manera normal, y tenemos un percentil 25 con 10 dolares por dia, entonces podriamos interpretar que el 25% de la poblacion tiene un salario inferior a 10 dolares por d칤a.

### PPF (Percent Point Function) - inversa de cdf - es decir halla los percentiles:
Aprendido sobre los percentiles, pongamos un ejemplo en una  variable que se distribuye de manera normal con media 0 y dstd 1, y es que deseamos hallar un punto b en el eje x. Para esto utilizamos la inversa de CDF, por ejemplo podriamos hallar el valor b que deja el 95% de los datos al lado izquierdo.

* ![image.png](attachment:image.png)

In [15]:
# como ejemplo para una variable con distribucion normal est치ndar, queremos hallar el punto z tal que el 95% de la distribuci칩n
# se encuentra al lado izquierdo de ese punto.
from scipy.stats import norm
norm.ppf(0.95)

np.float64(1.6448536269514722)

Entonces podriamos decir para este caso que 1.64 es el valor que deja el 95% de los datos a la izquierda

### Ahora construyamos un lazo que pueda capturar el 95% de los datos, fijando un limite inferior (a) y limite superior (b)


![image.png](attachment:image.png)

### Nivel de significancia:
* El nivel de signficancia "alfa" comprende entre 0 y 1, este indica cuanto se deja por fuera y "1 - alfa" es cuanto de deja por dentro.
* alfa = Es lo que queda fuera
* 1 - alfa = Es lo que dejas dentro
* En la grafica anterior podemos ver que el nivel de significia de alfa es de 5%. Es lo que queda fuera. Y lo que queda dentro es el 95% de los datos.
* ***saber esto nos ayudara a construir el lazo***

$$
LI = \bar{X} - Z_{1 - \alpha/2}\left( \frac{\sigma}{\sqrt{n}} \right)
$$

$$
LS = \bar{X} + Z_{1 - \alpha/2}\left( \frac{\sigma}{\sqrt{n}} \right)
$$


Donde:

* $\bar{X}$ : media **muestral**
* $\sigma$ : desviaci칩n est치ndar **poblacional**
* $\sqrt{n}$ : ra칤z cuadrada del tama침o de la muestra
* $Z_{1 - \alpha/2}$ : valor cr칤tico Z (1.96 para 95%)


##### Realicemos lo anterior con un ejemplo y definamos el intervalo de confianza con LI y LS

In [16]:
import numpy as np
from scipy.stats import norm

In [17]:
#Definimos el comportamiento normal de nuestro datos 
mu = 78
sigma = 7.5
pop = np.random.normal(mu, sigma, 4123)

In [18]:
#Sacamos las muestras
n = 31 # Tama침o de la muestra
sample = np.random.choice(pop, n)
sample

array([63.54545293, 72.87376431, 94.60715032, 64.83503157, 68.61660103,
       82.37815299, 83.67161206, 73.90008336, 76.11300613, 79.95559404,
       85.74751477, 91.59130654, 76.78316798, 65.93636263, 70.06889032,
       80.21096368, 78.84365947, 74.95016241, 77.39447963, 68.35513723,
       83.89463199, 77.13616494, 74.08816708, 66.61636926, 79.77921049,
       74.92851844, 76.65962848, 78.68624139, 81.07312474, 83.94847821,
       73.83408451])

In [19]:
#Calculamos la media de las muestras
media = sample.mean()
media

np.float64(76.80718428852389)

In [20]:
desv = sample.std()
desv

np.float64(7.238302216968698)

In [26]:
#Tenemos un nivel de confianza del 95%
alpha = 0.05 #con esto calculamos el z, que es el valor que dejamos fuera del intervalo de confianza

#Tambien aqui estamos indicando que esperamos que por ejemplo de 100 lazos generados, 95 de ellos capturen la media poblacional

In [22]:
Z_alpha = norm.ppf(1 - alpha/2)
Z_alpha 

np.float64(1.959963984540054)

In [25]:
li = media - Z_alpha * (desv/(n)**0.5)
ls = media + Z_alpha * (desv/(n)**0.5)
print(f"El intervalo de confianza es: ({li}, {ls})")

El intervalo de confianza es: (74.25915769652492, 79.35521088052285)


Como definimos en un inicio a miu como 78, podemos ver que con este intervalo de confianza (lazo) lo capturamos.