# Intervalos de confianza

Un **parámetro poblacional** es una característica que deseamos conocer en una población. Usualmente ese parámetro poblacional es desconocido y, a través de ciertas técnicas estadísticas, lo estimamos mediante una muestra. 

Frecuentemente los parámetros poblacionales que nos interesa medir es el valor promedio de una característica en una población; o la proporcición en la que la característica se presenta, o la desviación poblacional de cierta característica.

De esta manera, si $\theta$ es un parámetro poblacional, entonces $\theta$ puede ser, por ejemplo, el promedio del número de delitos que sufrieron las víctimas de delito en México durante 2022, la proporción de mujeres estudiantes de ciencias que ejercerán sus carreras o el tiempo promedio de recuperación de un enfermo cuando recibe un tratamiento médico

Una estimación por intervalos de confianza de un parámetro poblacional es una regla para calcular, a partir de nuestra muestra, un intervalo en el que, con una cierta probabilidad, se encuentra el valor verdadero del parámetro poblacional.

Así, si $\theta$ es un parámetro poblacional, se dice que el intervalo $(A,B)$ es un **intervalo de confianza para $\theta$** con nivel de significancia $\alpha$ si $P(A<\theta<B)=1-\alpha$

<img src="im013.png">

Al nivel de significancia $\alpha$ se le asocia el número $1-\alpha$, y se dice que el intervalo tiene una confianza del $(1-\alpha)*100$ *por ciento*. En la práctica se toma $\alpha$ como $0.01$, $0.05$ y $0.1$, por lo cual tenemos intervalos de confianza del 99%, 95% y 90%, respectivamente.

## Interpretación 

La interpretación de los intervalos de confianza puede resumirse de la siguiente manera: *Supongamos que nos interesa estimar el parámetro poblacional $\theta$ de una población. Si tomamos muestras y muestras de una población y se calcula el valor del parámetro en cada una de las muestras, entonces el intervalo de confianza con significancia $\alpha$ que construyas en cada muestra contendrá al valor verdadero del parámetro muestral un $1-\alpha$ por ciento de las veces*.


si quieres mucha confianza el intervalo debe ser grande 

# SUMAMENTE IMPORTANTE PARA ENTENDER LA INTERPRETACION

Imagina que repetimos el experimento muchas veces (idealmente infinitas veces) y tomamos distintas muestras de la población. Cada muestra será un poco diferente porque cada vez estaremos observando diferentes datos.

Para cada muestra, calculamos un intervalo de confianza basándonos en esos datos.
Lo que esta interpretación dice es que, si repitiéramos este proceso de tomar muestras y calcular intervalos muchas veces, el 95% de los intervalos (para un nivel de confianza del 95%) contendrán al verdadero parámetro poblacional.


## Importante: selección de muestras en Python

```python

tabla = pd.DataFrame(data)

# Definir el tamaño de la muestra
n = 3
(
# Tomar una muestra aleatoria; random_state es para establecer reproductibilidad (QUE TRAIGA LAS MISMAS MUESTRAS)
muestra = tabla.sample(n=n, random_state=42) 
```

## Intervalo de confianza para la media poblacional con varianza conocida (<span style="color: red;">población normal</span>)

Supongamos que queremos medir el valor promedio de la característica $X$ de cierta población, donde $X$ es **una gaussiana con media $\mu$ desconocida pero varianza poblacional $\sigma$ conocida.** Es decir, queremos hallar $\mu$.

Tomemos una muestra de tamaño $n$. Sean $X_1$, $X_2$,...,$X_n$ los valores de la característica $X$ en esa muestra. Un intervalo de confianza con significancia $\alpha$ para la media $\mu$, conociendo la desviación poblacional $\sigma$, es $$\left(\overline{X_n}-Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X_n}+Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right),$$

donde $Z_{1-\frac{\alpha}{2}}$ tiene los siguientes valores:

$\alpha$|1-$\alpha$|$Z_{1-\alpha/2}$
--|--|--
0.1|0.90|1.645
0.05|0.95|1.96
0.01|0.99|2.575

Como has podido ver, el cálculo del intervalo de confianza puede ser algo tedioso:

```python
import numpy as np
from scipy.stats import norm

# Parámetros
media_muestral = 50  # media muestral
sigma = 10           # desviación estándar de la población
n = 30               # tamaño de la muestra
alpha = 0.05         # nivel de significancia para el 95% de confianza

# Cálculo del valor crítico Z
Z = norm.ppf(1 - alpha / 2)

# Cálculo del margen de error
margen_error = Z * (sigma / np.sqrt(n))

# Cálculo del intervalo de confianza
IC_inferior = media_muestral - margen_error
IC_superior = media_muestral + margen_error

# Mostrar los resultados
print(f"Intervalo de confianza para la media: ({IC_inferior:.2f}, {IC_superior:.2f})")
```

**Sustento teórico.**

El sustento teorico del por qué el intervalo de confianza tiene la forma que se mostró en el caso de población gaussiana con desviación conocida y media desconocida es el siguiente resultado que vimos en la sección de variables aleatorias gaussianas:

Si $X_1,X_2,...,X_n$ son gaussianas independientes, todas con media $\mu$ y desviación $\sigma$, y $\overline{X}=(X_1+X_2+...+X_n)/n$, entonces $$\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$$

**Problema 1 (simulación).**

La tabla [tabla_poblacion_simulada.csv](https://github.com/scidatmath2020/Inferencia_Estadistica_2024/blob/main/data/tabla_poblacion_simulada.csv) es un dataframe de dos columnas, ambas de una característica de tipo gaussiana tomadas de una población de tamaño 10,000 y de las cuales desconocemos el valor de la media de la población. 

En el caso de la desviación estándar de la columna *sd_4*, el valor es 4.

1. Toma una muestra de tamaño 25 y calcula el intervalo de confianza al 95% de la media poblacional.

2. El valor verdadero de la media poblacional es 20. Toma 1000 muestras de tamaño 25; construye el intervalo de confianza al 99% para cada una de esas muestras y verifica que aproximadamente en el 99% de los casos la media poblacional se encuentra en el intervalo de confianza.

In [1]:
import pandas as pd
import numpy as np
from plotnine import *
import matplotlib.pyplot as plt
from scipy.stats import norm

In [2]:
tabla=pd.read_csv("C:\\Users\\VING0AK\Desktop\\AnalisisDeDatos\\Estadistica\\tabla_poblacion_simulada.csv")
tabla.head()



Unnamed: 0.1,Unnamed: 0,sd_4,sd_desconocido
0,1,21.483702,32.176926
1,2,15.757847,30.108064
2,3,18.790874,30.896517
3,4,23.801582,15.84998
4,5,25.260813,38.318724


In [3]:
#definir tamanio y seleccionar muestra
n=25
# Tomar una muestra aleatoria; random_state es para establecer reproductibilidad (QUE TRAIGA LAS MISMAS MUESTRAS)
muestra = tabla.sample(n=n, random_state=2024) 

muestra.head()

Unnamed: 0.1,Unnamed: 0,sd_4,sd_desconocido
8374,8375,29.938531,33.246307
6935,6936,20.133938,33.831967
5103,5104,18.271207,39.257117
8963,8964,15.951384,31.579372
4993,4994,25.044611,36.058013


In [4]:
media_muestral=muestra["sd_4"].mean()
media_muestral

20.83586906496635

In [5]:
sigma=4
alpha=0.05

# Cálculo del valor crítico Z
Z = norm.ppf(1 - alpha / 2)

# Cálculo del margen de error
margen_error = Z * (sigma / np.sqrt(n))

# Cálculo del intervalo de confianza
IC_inferior = media_muestral - margen_error
IC_superior = media_muestral + margen_error

# Mostrar los resultados
print(f"Intervalo de confianza para la media: ({IC_inferior:.2f}, {IC_superior:.2f})")

Intervalo de confianza para la media: (19.27, 22.40)


In [6]:
#INTERPRETACION 
# EJERCICIO 1.2
def selecciones():
    n=25
    sigma=4
    alpha=0.01
    
    muestra = tabla.sample(n=n) 
    media_muestral=muestra["sd_4"].mean()

    # Cálculo del valor crítico Z
    Z = norm.ppf(1 - alpha / 2)

    # Cálculo del margen de error
    margen_error = Z * (sigma / np.sqrt(n))

    # Cálculo del intervalo de confianza
    IC_inferior = media_muestral - margen_error
    IC_superior = media_muestral + margen_error
    
    return(IC_inferior,IC_superior)


 

In [7]:
#lista por comprension 
CI=[selecciones() for i in range (1000)]
print(CI[:5])
    

[(17.74061377407994, 21.861940659758183), (17.783178058317763, 21.904504943996006), (17.826730360719033, 21.948057246397276), (17.045417999043348, 21.16674488472159), (17.506274265623972, 21.627601151302215)]


In [8]:
#EL VALOR VERDADERO DE LA MEDIA POBLACIONAL ES 20
# deberia ser proximo a 990 ya que el intervalo de confianza es a 99% de confianza

resultados=len([1 for x in CI if x[0]<20 and 20<x[1]])
resultados


987

In [12]:
resultados=[1 if x[0]<20 and 20<x[1] else 0 for x in CI]
# intervalos es un df de los limites inferior y superio que toma de CI
intervalos=pd.DataFrame({"int_inf":[x[0] for x in CI],"int_sup":[x[1] for x in CI]})
intervalos["le_atine"]=resultados 
print(intervalos["le_atine"].sum())
print(intervalos )

987
       int_inf    int_sup  le_atine
0    17.740614  21.861941         1
1    17.783178  21.904505         1
2    17.826730  21.948057         1
3    17.045418  21.166745         1
4    17.506274  21.627601         1
..         ...        ...       ...
995  18.222126  22.343453         1
996  16.354957  20.476284         1
997  18.431344  22.552671         1
998  17.838379  21.959706         1
999  17.686841  21.808168         1

[1000 rows x 3 columns]


## Intervalo de confianza para la media poblacional con varianza y media desconocida (<span style="color: red;">población normal</span>)

Supongamos que queremos medir el valor promedio de la característica $X$ de cierta población, donde $X$ es **una gaussiana con media $\mu$ desconocida y varianza poblacional $\sigma$ también desconocida.** Es decir, queremos hallar $\mu$ sin conocer $\sigma$. Este es el caso mas común en la práctica.

Tomemos una muestra de tamaño $n$. Sean $X_1$, $X_2$,...,$X_n$ los valores de la característica $X$ en esa muestra. Un intervalo de confianza con significancia $\alpha$ para la media $\mu$, desconociendo la desviación poblacional $\sigma$, es $$\left(\overline{X_n}-t_{n-1,1-\frac{\alpha}{2}}\frac{S}{\sqrt{n}},\overline{X_n}+t_{n-1,1-\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\right),$$ donde $$S=\sqrt{\frac{(X_1-\overline{X})^2+(X_2-\overline{X})^2+...+(X_n-\overline{X})^2}{n-1}}$$

```python
import numpy as np
from scipy.stats import t

# Parámetros
media_muestral = 50  # media muestral
s = 10               # desviación estándar muestral (desconocida)
n = 30               # tamaño de la muestra
alpha = 0.05         # nivel de significancia para el 95% de confianza

# Cálculo del valor crítico t (con n-1 grados de libertad)
t_critico = t.ppf(1 - alpha / 2, df=n - 1)

# Cálculo del margen de error
margen_error = t_critico * (s / np.sqrt(n))

# Cálculo del intervalo de confianza
IC_inferior = media_muestral - margen_error
IC_superior = media_muestral + margen_error

# Mostrar los resultados
print(f"Intervalo de confianza para la media: ({IC_inferior:.2f}, {IC_superior:.2f})")
```

**Sustento teórico.**

El sustento teorico del por qué el intervalo de confianza tiene la forma que se mostró en el caso de población gaussiana con desviación desconocida y media desconocida es el siguiente resultado que vimos en la sección de variables aleatorias gaussianas:

Si $X_1,X_2,...,X_n$ son gaussianas independientes, todas con media $\mu$ y desviación $\sigma$, y $\overline{X}=(X_1+X_2+...+X_n)/n$, entonces $$\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t_{n-1}\mbox{ ($t$ de Student con $n-1$ grados de libertad) }$$


**Problema 2 (simulación).**

De la tabla [tabla_poblacion_simulada.csv](https://github.com/scidatmath2020/Inferencia_Estadistica_2024/blob/main/data/tabla_poblacion_simulada.csv) del Problema 1, se desconoce la desviación poblacional de la columna *sd_desconocida*.

Toma una muestra de tamaño 25 y calcula el intervalo de confianza al 95% de la media poblacional.



In [16]:
from scipy.stats import t
import numpy as np

In [14]:
poblacion=pd.read_csv("C:\\Users\\VING0AK\Desktop\\AnalisisDeDatos\\Estadistica\\tabla_poblacion_simulada.csv")
poblacion.head()



Unnamed: 0.1,Unnamed: 0,sd_4,sd_desconocido
0,1,21.483702,32.176926
1,2,15.757847,30.108064
2,3,18.790874,30.896517
3,4,23.801582,15.84998
4,5,25.260813,38.318724


In [18]:
n=25
muestra = poblacion.sample(n=n, random_state=2024) 
media_muestral=muestra["sd_desconocido"].mean()

#calcula la desviacion muestral si ddof=1 en caso contrario (ddof=0) saca la poblacional
s=np.std(muestra["sd_desconocido"],ddof=1)

alpha = 0.05
# Cálculo del valor crítico t (con n-1 grados de libertad)
t_critico = t.ppf(1 - alpha / 2, df=n - 1)

# Cálculo del margen de error
margen_error = t_critico * (s / np.sqrt(n))

# Cálculo del intervalo de confianza
IC_inferior = media_muestral - margen_error
IC_superior = media_muestral + margen_error

# Mostrar los resultados
print(f"Intervalo de confianza para la media: ({IC_inferior:.2f}, {IC_superior:.2f})")

Intervalo de confianza para la media: (28.02, 33.41)


## Intervalo de confianza para la media poblacional con varianza conocida o desconocida y <span style="color: red;">población cualquiera</span> , con muestra grande ($n\ge30$) o pequeña ($n<30$)

Hasta este momento hemos hecho un supuesto muy fuerte en los dos casos anteriores: la característica $X$ de la población sigue una distribución gaussiana.

El caso en que esto no sea necesariamente cierto se divide en dos: cuando tu muestra es grande ($n\ge30$) o cuando es pequeña ($n<30$).

Cuando $n$ es grande, el Teorema del Límite Central garantiza que los sustentos teóricos de los dos casos anteriores se cumplen aproximadamente, por lo cual los intervalos de confianza son los mismos que se utilizaron.

En el caso en que $n$ es pequeño y la desviación es desconocida, siempre que la distribución tenga forma de "montaña", un buen intervalo de confianza es $$\left(\overline{X_n}-t_{n-1,1-\frac{\alpha}{2}}\frac{S}{\sqrt{n}},\overline{X_n}+t_{n-1,1-\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\right),$$ donde $$S=\sqrt{\frac{(X_1-\overline{X})^2+(X_2-\overline{X})^2+...+(X_n-\overline{X})^2}{n-1}}$$

Notemos que es el mismo intervalo de confianza para el caso en que la población es gaussiana con desviación desconocida.

```python
import numpy as np
from scipy.stats import t

# Parámetros
media_muestral = 50  # media muestral
s = 10               # desviación estándar muestral (desconocida)
n = 30               # tamaño de la muestra
alpha = 0.05         # nivel de significancia para el 95% de confianza

# Cálculo del valor crítico t (con n-1 grados de libertad)
t_critico = t.ppf(1 - alpha / 2, df=n - 1)

# Cálculo del margen de error
margen_error = t_critico * (s / np.sqrt(n))

# Cálculo del intervalo de confianza
IC_inferior = media_muestral - margen_error
IC_superior = media_muestral + margen_error

# Mostrar los resultados
print(f"Intervalo de confianza para la media: ({IC_inferior:.2f}, {IC_superior:.2f})")
```

## Ejemplos.

1. Un científico interesado en vigilar contaminantes químicos en alimentos y, por lo tanto, la acumulación de contaminantes en la dieta humana, seleccionó una muestra aleatoria de 50 adultos hombres. Se encontró que el promedio de ingesta diaria de productos lácteos fue de 756gr por día, con una desviación estándar de 35gr por día. Use esta información muestral para construir un intervalo de confianza de 95% para la ingesta diaria media de productos lácteos para hombres.

**Respuesta:** (746.30,765.70)




In [54]:
import numpy as np
from scipy.stats import norm


media_muestral = 756  # media muestral
sigma = 35           # desviación estándar de la población
n = 50               # tamaño de la muestra
alpha = 0.05         # nivel de significancia para el 95% de confianza

# Cálculo del valor crítico Z
Z = norm.ppf(1 - alpha / 2)

# Cálculo del margen de error
margen_error = Z * (sigma / np.sqrt(n))

# Cálculo del intervalo de confianza
IC_inferior = media_muestral - margen_error
IC_superior = media_muestral + margen_error

# Mostrar los resultados
print(f"Intervalo de confianza para la media: ({IC_inferior:.2f}, {IC_superior:.2f})")

Intervalo de confianza para la media: (746.30, 765.70)



2. La tabla [mtcars.csv](https://github.com/scidatmath2020/Inferencia_Estadistica_2024/blob/main/data/mtcars.csv) contiene datos sobre 32 modelos de automóviles estadounidenses  producidos durante 1973. Con esa información, calcula un intervalo de confianza al 95% de las millas por galón que son capaces de recorrer todos los automóviles estadounidenses de 1973.

**Respuesta:** (17.91,22.26)



In [53]:
#muestra pequeña sin que sea normal y muestra grande o pequeña normal sin conocer nada
import pandas as pd 
import numpy as np
from scipy.stats import t 


In [22]:
#el truco es poner la r al principio (raw string)
tabla1=pd.read_csv(r"C:\Users\VING0AK\Desktop\AnalisisDeDatos\Estadistica\mtcars.csv")
tabla1.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [50]:
alpha=0.05
media_muestral=tabla1.mpg.mean()
#s =np.std(tabla1["mpg"],ddof=1)
s=np.sqrt(np.var(tabla1.mpg,ddof=1))
n=tabla1.shape[0]


In [51]:
# Cálculo del valor crítico t (con n-1 grados de libertad)
t_critico = t.ppf(1 - alpha / 2, df=n - 1)

# Cálculo del margen de error
margen_error = t_critico * (s / np.sqrt(n))

# Cálculo del intervalo de confianza
IC_inferior = media_muestral - margen_error
IC_superior = media_muestral + margen_error

# Mostrar los resultados
print(f"Intervalo de confianza para la media: ({IC_inferior:.2f}, {IC_superior:.2f})")

Intervalo de confianza para la media: (17.92, 22.26)


3. En un experimento de electrólisis, un grupo de 17 estudiantes midió la cantidad de cobre precipitado de una solución saturada de sulfato de cobre en un periodo de 45 minutos. Los 17 estudiantes obtuvieron los siguientes datos: 0.1357482, 0.1548600, 0.1941724, 0.1779920, 0.1591776, 0.1399671, 0.1390927, 0.1258081, 0.1388490, 0.1137399, 0.1154759, 0.1341601, 0.1856994, 0.1603131, 0.1227789, 0.1259683, 0.1065922. 

Encuentre un intervalo de confianza de 90% para la cantidad media de cobre precipitado de la
solución en un periodo de 45 minutos.

**Respuesta:** (0.13,0.15)

In [55]:
#muestra pequeña sin que sea normal y muestra grande o pequeña normal sin conocer nada
import pandas as pd 
import numpy as np
from scipy.stats import t 


In [59]:
#el truco es poner la r al principio (raw string)
estudiantes =pd.read_csv(r"C:\Users\VING0AK\Desktop\AnalisisDeDatos\Estadistica\estudiantes.csv")
estudiantes.head()

Unnamed: 0,valor
0,0.135748
1,0.15486
2,0.194172
3,0.177992
4,0.159178


In [60]:
alpha=0.1
media_muestral=estudiantes.valor.mean()
#s =np.std(tabla1["mpg"],ddof=1)
s=np.sqrt(np.var(estudiantes.valor,ddof=1))
n=tabla1.shape[0]

In [62]:
t_critico = t.ppf(1 - alpha / 2, df=n - 1)

# Cálculo del margen de error
margen_error = t_critico * (s / np.sqrt(n))

# Cálculo del intervalo de confianza
IC_inferior = media_muestral - margen_error
IC_superior = media_muestral + margen_error

# Mostrar los resultados
print(f"Intervalo de confianza para la media: ({IC_inferior:.2f}, {IC_superior:.2f})")

Intervalo de confianza para la media: (0.14, 0.15)


## Intervalo de confianza para una proporción.

Muchos experimentos de investigación o estudios muestrales tienen como objetivo la estimación de la proporción de personas u objetos de un grupo grande, que posean cierta característica. Veamos algunos ejemplos:

• La proporción de ventas que se puede esperar en un gran número de contactos de
clientes

• La proporción de semillas que germinan

• La proporción de votantes "probables" que planean votar para un candidato político particular

En este sentido, existen muchas maneras de armar intervalos de confianza para la proporción dependiendo del tamaño de la muestra. Sin embargo, para tamaños grandes, estos métodos son aproximaciones (tal como sucede en el caso de medias para muestras grandes no gaussianas).

No obstante, con el uso de computadoras hoy en día puede aplicarse el mismo método a pequeñas o grandes muestras, con la ventaja de que no es un método aproximativo sino **exacto:**

**Intervalo de confianza para la proporción por el método exacto.**

Supongamos que tienes una característica $X$ de una población que únicamente toma dos valores: 1 si la característica está presente en el individuo y 0 si no lo está (es decir, $X$ es v.a. Bernoulli y queremos hallar el parámetro $p$). Toma una muestra de tamaño $n$ y llama $x$ al total de individuos que presentan la característica $X$ en la muestra.

Un intervalo de confianza $(p_0,p_1)$ con confianza $(1-\alpha)*100$ por ciento para la proporción que presenta la característica $X$ en toda la población se obtiene encontrando el $p_0$ mas grande y el $p_1$ mas pequeño tales que $$\max\left\{\sum_{k=x}^n\binom{n}{k}p_0^k(1-p_0)^{n-k},\sum_{k=0}^x\binom{n}{k}p_1^k(1-p_1)^{n-k}\right\}\le\frac{\alpha}{2}.$$


Observa que en el problema anterior la muestra afecta al intervalo de confianza únicamente a través de su tamaño $n$ y del número de éxitos obtenidos $x$, y no directamente de la proporción $x/n$.

Como te puedes imaginar, hacer los cálculos anteriores es bastante tedioso. 

## Ejemplo

- Una muestra de tamaño $n = 100$ individuos.
- En esta muestra, $x = 30$ individuos tienen la característica $X$ (es decir, $x = 30$ éxitos).
- Queremos calcular el intervalo de confianza al 95% para la proporción de individuos que tienen la característica $X$ en la población.

Esto significa que el nivel de significancia $\alpha$ es 0.05 (ya que $1 - \alpha = 0.95$).

- Estimamos la proporción muestral:

$$\hat{p} = \frac{x}{n} = \frac{30}{100} = 0.3$$

- Queremos encontrar los valores $p_0$ y $p_1$ tales que:

$$\sum_{k=x}^{n} \binom{n}{k} p_0^k (1 - p_0)^{n-k} \leq \frac{\alpha}{2}$$

y

$$\sum_{k=0}^{x} \binom{n}{k} p_1^k (1 - p_1)^{n-k} \leq \frac{\alpha}{2}$$

Donde $p_0$ y $p_1$ son las estimaciones de la proporción que corresponden a los límites inferior y superior del intervalo de confianza.

- Para un intervalo de confianza del 95%, buscamos los valores $p_0$ y $p_1$ tal que la suma de probabilidades binomiales de cada lado del intervalo sea menor o igual a $\alpha/2$ (que en nuestro caso es 0.025).

- Para calcular los límites exactos del intervalo, necesitamos usar la **distribución binomial acumulada inversa**, que nos dice cuál es el valor de $p_0$ y $p_1$ que satisface la condición de probabilidad.



## Cálculo en Python

Usando Python, podemos hacer este cálculo con la librería `scipy` y su función `binom.ppf`, que nos permite calcular los percentiles (cuantiles) de una distribución binomial.

### Código en Python:

```python
from scipy.stats import binom

# Parámetros
n = 100  # Tamaño de la muestra
x = 30  # Número de éxitos
alpha = 0.05  # Nivel de significancia para el intervalo de confianza del 95%

# Cálculo del intervalo de confianza exacto utilizando la distribución binomial inversa
p0_lower = binom.ppf(alpha / 2, n, x / n) / n
p1_upper = binom.ppf(1 - alpha / 2, n, x / n) / n

# Mostrar los límites del intervalo
print(f"Intervalo de confianza exacto: ({p0_lower:.4f}, {p1_upper:.4f})")


**Ejercicios.**

1. Una muestra aleatoria de 985 “probables” electores, o sea los que probablemente voten en la próxima elección, fueron encuestados durante un maratón telefónico realizado por cierto Partido. De ellos, 592 indicaron que tenían la intención de votar por ese partido. Construya un intervalo de confianza de 90% para la proporción de electores probables de la población que tienen la intención de votar por el candidato. Con base en esta información, ¿se puede concluir que el candidato ganará la elección?

**Respuesta.** (0.57,0.62)

2. Basados en la tabla [envipe_2022.csv](https://github.com/scidatmath2020/Inferencia_Estadistica_2024/blob/main/data/envipe_2022.csv), hallar los intervalos al 90%, 95% y 99% de confianza de la proporcición de víctimas de delito en México durante 2021.
