<a href="https://colab.research.google.com/github/abxda/python-stats/blob/main/STAT_Semana_9.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Inferencia Estadística para Sistemas de Control y Medición

Esta sección sirve como guía para realizar inferencia estadística en diferentes sistemas de control y medición. Se abordará el escenario del control del funcionamiento de una cadena logística de distribución, utilizando la distribución de Poisson. Exploraremos cómo calcular intervalos de confianza y realizar pruebas de hipótesis.

## 1. Control del funcionamiento de una cadena logística de distribución

### Distribución: Poisson

#### Justificación:

La distribución de Poisson es apropiada para modelar eventos discretos que ocurren en un intervalo continuo de tiempo o espacio, como en una cadena logística de distribución. Es adecuada porque:
1. Los eventos (llegadas de pedidos) son independientes entre sí.
2. La tasa promedio de eventos (λ) es constante en el intervalo considerado.
3. La probabilidad de dos eventos simultáneos es prácticamente nula.

#### Simulación de Datos

Primero, simulamos los datos usando la distribución de Poisson.

In [2]:
import numpy as np

# Parámetros de la distribución
lambda_param = 10  # tasa promedio de pedidos por hora

# Simulación de la muestra
tamaño_muestra = 50
muestra_poisson = np.random.poisson(lambda_param, tamaño_muestra)

print("Muestra simulada para la cadena logística de distribución (Poisson):")
print(muestra_poisson)

Muestra simulada para la cadena logística de distribución (Poisson):
[11 13  8 10 12 11 10  8 12 10 18 11 10 11 13 10 10  7 10 10  9  8  9  9
 12 10  7 10  8 11 17  9  6  7  7  8 11 10  8  8  9 10 11 12  6  8 13  9
 13 14]


Los números generados en el código representan la cantidad de pedidos que se espera recibir por hora en una cadena logística de distribución, según una distribución de Poisson.

La distribución de Poisson se utiliza para modelar el número de eventos que ocurren en un intervalo de tiempo fijo, dado que estos eventos ocurren con una tasa promedio constante y de manera independiente unos de otros.

El código, `lambda_param = 10` indica que, en promedio, se esperan 10 pedidos por hora. La simulación genera 50 muestras (`tamaño_muestra = 50`), cada una representando el número de pedidos recibidos en una hora específica.

Segun el ejemplo, en la salida:

```
[13 10  9 10 13 14 11  7  8  9  2 10  6 11  5  8 19  8  7 10 11 14 10  7  9 14  2  5 10 16  5 12  7  9  4 16 10]
```

El primer número (13) indica que en la primera hora se recibieron 13 pedidos, el segundo número (10) indica que en la segunda hora se recibieron 10 pedidos, y así sucesivamente para las 50 horas simuladas.


### Intervalos de Confianza: Explicación Detallada y Ejemplos

#### ¿Qué son los intervalos de confianza?

Un intervalo de confianza es un rango de valores que probablemente contiene un parámetro poblacional desconocido. En lugar de estimar el parámetro con un solo valor (estimación puntual), proporcionamos un intervalo de valores plausibles.

#### ¿Para qué sirven los intervalos de confianza?

1. **Estimación de parámetros**: Proporcionan un rango de valores probables para un parámetro poblacional.
2. **Medición de precisión**: Indican la precisión de nuestra estimación.
3. **Toma de decisiones**: Ayudan en la toma de decisiones al proporcionar un rango de valores probables.
4. **Comparaciones**: Permiten comparar diferentes grupos o poblaciones.

#### Relación con la Distribución de Poisson

Para la distribución de Poisson, el intervalo de confianza se calcula para el parámetro λ (lambda), que representa la tasa media de ocurrencia de eventos.

**Fórmula aproximada**:
$ \hat{\lambda} \pm z \cdot \sqrt{\frac{\hat{\lambda}}{n}} $

Donde:
- $ \hat{\lambda} $ es la media muestral.
- $ z $ es el valor crítico de la distribución normal (por ejemplo, 1.96 para un 95% de confianza).
- $ n $ es el tamaño de la muestra.

#Ejemplo Práctico (hipotético): Tasa de pedidos por hora en una cadena logística

Supongamos que queremos estimar la media poblacional del número de pedidos por hora en una cadena logística. A partir de una muestra de 50 horas, obtenemos los siguientes datos (número de pedidos por hora):

```
[13 10  9 10 13 14 11  7  8  9  2 10  6 11  5  8 19  8  7 10 11 14 10  7  9 14  2  5 10 16  5 12  7  9  4 16 10]
```

Primero, calculamos la media muestral ($\hat{\lambda}$) de los datos generados:

$$ \hat{\lambda} = \frac{13 + 10 + 9 + \cdots + 10}{50} $$

Suponiendo que la media muestral resultante es aproximadamente 10 (esto es un valor hipotético para simplificar el cálculo):

Para calcular el intervalo de confianza del 95%, utilizamos el valor crítico de 1.96 (que corresponde a un nivel de confianza del 95%) y aplicamos la fórmula:

$$ \hat{\lambda} \pm z \cdot \sqrt{\frac{\hat{\lambda}}{n}} $$
$$ 10 \pm 1.96 \cdot \sqrt{\frac{10}{50}} $$

Calculamos el error estándar:

$$ \sqrt{\frac{10}{50}} = \sqrt{0.2} \approx 0.447 $$

Luego multiplicamos por el valor crítico:

$$ 1.96 \cdot 0.447 \approx 0.876 $$

Finalmente, obtenemos el intervalo de confianza:

$$ 10 \pm 0.876 $$

Esto nos da un intervalo de confianza de:

$$ (9.124, 10.876) $$

Por lo tanto, podemos decir que, con un 95% de confianza, la media poblacional del número de pedidos por hora está entre 9.124 y 10.876. Este intervalo proporciona una estimación más informada y precisa que una simple media puntual, permitiéndonos tener una mejor comprensión de la variabilidad y confiabilidad de los datos en la cadena logística.


#Decisión basada solo en intuición o estimación puntual:

Imaginemos que un gerente de logística decide planificar sus recursos basándose únicamente en la estimación puntual de 10 pedidos por hora, sin considerar la variabilidad inherente a los datos.

1. Escenario optimista: Si la demanda real se mantiene cercana a los 10 pedidos por hora, el gerente podría sentirse satisfecho con su decisión intuitiva. Sin embargo, esta aparente precisión podría ser más producto de la suerte que de una planificación adecuada.

2. Escenario pesimista: Si la demanda real fluctúa significativamente, por ejemplo, alcanzando picos de 12-13 pedidos por hora, el gerente se enfrentaría a:
   - Escasez de personal para manejar el aumento de pedidos
   - Posibles retrasos en las entregas y insatisfacción de los clientes
   - Estrés adicional para los empleados y posible disminución de la calidad del servicio
   - Costos adicionales por horas extras o contrataciones de emergencia

3. Consecuencias a largo plazo:
   - Pérdida de confianza en la capacidad de planificación del gerente
   - Posible pérdida de clientes debido a un servicio inconsistente
   - Dificultad para optimizar costos y recursos a largo plazo

Decisión basada en intervalos de confianza:

Ahora, consideremos cómo cambia la situación cuando el gerente utiliza el intervalo de confianza de 9.124 a 10.876 pedidos por hora (con 95% de confianza):

1. Planificación más robusta: El gerente puede desarrollar planes escalonados para manejar diferentes niveles de demanda dentro del intervalo.

2. Optimización de recursos:
   - Personal: Puede establecer un equipo base para manejar el límite inferior del intervalo (9.124 pedidos/hora) y tener personal adicional en espera o con horarios flexibles para cubrir aumentos hasta el límite superior (10.876 pedidos/hora).
   - Equipamiento: Puede asegurarse de tener capacidad suficiente para manejar el límite superior del intervalo, evitando cuellos de botella.

3. Gestión de expectativas: Puede comunicar a los stakeholders (jefes, clientes, empleados) que la demanda puede variar dentro de este rango, preparándolos para posibles fluctuaciones.

4. Análisis de riesgos: Puede evaluar el impacto financiero y operativo de operar en diferentes puntos del intervalo, desarrollando estrategias de mitigación para escenarios extremos.

5. Mejora continua: Al monitorear dónde cae la demanda real dentro del intervalo a lo largo del tiempo, puede refinar sus modelos y estrechar el intervalo de confianza, mejorando la precisión de futuras predicciones.

6. Toma de decisiones estratégicas:
   - Si la demanda consistentemente se acerca al límite superior, podría justificar inversiones en expansión.
   - Si tiende al límite inferior, podría enfocarse en estrategias de crecimiento o diversificación.

7. Consecuencias a largo plazo:
   - Mayor confianza en la capacidad de planificación del gerente
   - Servicio más consistente y satisfacción del cliente
   - Optimización de costos y recursos a largo plazo
   - Capacidad para adaptarse rápidamente a cambios en la demanda

En resumen, mientras que la decisión basada en intuición o en una estimación puntual puede llevar a problemas significativos y pérdida de oportunidades, el uso de intervalos de confianza permite una planificación más flexible, robusta y estratégica. Esto no solo mitiga riesgos, sino que también posiciona a la empresa para capitalizar oportunidades y mantener un alto nivel de servicio incluso frente a la variabilidad inherente en los datos.

#### Cálculo del Intervalo de Confianza

In [None]:
import scipy.stats as stats

def intervalo_confianza_poisson(muestra, confianza=0.95):
    media_muestral = np.mean(muestra)
    n = len(muestra)
    error_estandar = np.sqrt(media_muestral / n)
    z = stats.norm.ppf((1 + confianza) / 2)
    margen_error = z * error_estandar
    return media_muestral - margen_error, media_muestral + margen_error

# Calcular el intervalo de confianza para nuestra muestra
ic_poisson = intervalo_confianza_poisson(muestra_poisson)
print(f"Intervalo de confianza del 95% para la tasa de pedidos: {ic_poisson}")

Intervalo de confianza del 95% para la tasa de pedidos: (8.492896400842458, 10.187103599157542)


### Pruebas de Hipótesis: Explicación Detallada y Ejemplos

#### ¿Qué es una prueba de hipótesis?

Una prueba de hipótesis es un procedimiento estadístico utilizado para tomar decisiones o inferencias sobre un parámetro poblacional basándose en una muestra de datos. La prueba evalúa si la evidencia de la muestra es suficiente para rechazar una hipótesis nula predefinida en favor de una hipótesis alternativa.

#### Contexto Actual: Cadena Logística de Pedidos

En el contexto de la cadena logística de pedidos, podríamos estar interesados en evaluar si la tasa media de pedidos por hora ha cambiado debido a un nuevo sistema de gestión implementado. Supongamos que antes de la implementación, la tasa promedio de pedidos por hora era de 10.

#### Planteamiento de la Prueba de Hipótesis

El planteamiento de una prueba de hipótesis sigue estos pasos:

1. **Definición de las hipótesis**:
   - **Hipótesis nula ($H_0$)**: Es la afirmación que se busca poner a prueba. Generalmente, se plantea como una afirmación de igualdad. En este caso, $H_0$: La tasa media de pedidos por hora es 10.
   - **Hipótesis alternativa ($H_1$)**: Es la afirmación que se considera verdadera si se rechaza la hipótesis nula. Puede ser una afirmación de diferencia o desigualdad. En este caso, $H_1$: La tasa media de pedidos por hora no es 10.

2. **Selección del nivel de significancia ($\alpha$)**: Es la probabilidad de rechazar la hipótesis nula cuando es verdadera. Un valor comúnmente utilizado es $\alpha = 0.05$ (5%).

3. **Recolección de datos**: Se obtiene una muestra representativa de los datos. En nuestro ejemplo, supongamos que recolectamos datos de 50 horas de pedidos después de implementar el nuevo sistema.

4. **Cálculo del estadístico de prueba**: Utilizando la muestra, se calcula un valor que ayudará a determinar si se rechaza o no la hipótesis nula. En el caso de una prueba de hipótesis para la media, este estadístico puede ser una $z$ o $t$.

5. **Determinación del valor p**: El valor p es la probabilidad de observar un resultado tan extremo como el de la muestra, bajo la suposición de que la hipótesis nula es verdadera. Si el valor p es menor que $\alpha$, se rechaza $H_0$.

6. **Decisión**: Basado en el valor p y el nivel de significancia, se decide si se rechaza o no la hipótesis nula.

#### Motivación para Generar una Prueba de Hipótesis

Una prueba de hipótesis se genera cuando existe una necesidad de tomar decisiones informadas sobre un parámetro poblacional basado en datos muestrales. En el contexto de la cadena logística, esto podría ser motivado por varios factores:
- **Evaluar cambios**: Verificar si la implementación de un nuevo sistema de gestión ha alterado significativamente la tasa de pedidos por hora.
- **Validar suposiciones**: Comprobar si las suposiciones operativas actuales (por ejemplo, una tasa de pedidos constante) siguen siendo válidas.
- **Tomar decisiones estratégicas**: Basar decisiones operativas y estratégicas en evidencia estadística sólida, en lugar de intuiciones o suposiciones no verificadas.

#### Beneficios de Realizar una Prueba de Hipótesis

Realizar una prueba de hipótesis proporciona varios beneficios importantes:
- **Rigor estadístico**: Ofrece un marco formal y riguroso para evaluar afirmaciones sobre un parámetro poblacional.
- **Reducción de riesgos**: Ayuda a mitigar el riesgo de tomar decisiones basadas en suposiciones incorrectas o en variaciones aleatorias en los datos.
- **Justificación basada en datos**: Permite justificar decisiones estratégicas y operativas con evidencia cuantitativa, aumentando la credibilidad y confiabilidad de las decisiones tomadas.
- **Identificación de cambios significativos**: Facilita la detección de cambios significativos en los procesos, permitiendo una respuesta oportuna y adecuada a las nuevas condiciones operativas.

Entonces, las pruebas de hipótesis son herramientas fundamentales en el análisis de datos, permitiendo a las organizaciones tomar decisiones informadas y basadas en evidencia, mejorando así la eficiencia y efectividad de sus operaciones.

#Profundicemos en el punto 4

### Pruebas de Hipótesis: Cálculo del Estadístico de Prueba

#### Cálculo del Estadístico de Prueba

4. **Cálculo del estadístico de prueba**: Utilizando la muestra, se calcula un valor que ayudará a determinar si se rechaza o no la hipótesis nula. En el caso de una prueba de hipótesis para la media, este estadístico puede ser una $z$ o $t$.

#### ¿Qué es el estadístico $z$?

El estadístico $z$ se utiliza cuando la muestra es grande (n > 30) y se conoce la desviación estándar de la población ($\sigma$). El estadístico $z$ se calcula utilizando la siguiente fórmula:

$$ z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}} $$

Donde:
- $\bar{x}$ es la media muestral.
- $\mu$ es la media poblacional bajo la hipótesis nula.
- $\sigma$ es la desviación estándar de la población.
- $n$ es el tamaño de la muestra.

El valor $z$ nos indica cuántas desviaciones estándar está la media muestral ($\bar{x}$) de la media poblacional supuesta ($\mu$). Si $|z|$ es grande, esto sugiere que la media muestral está lejos de lo que se esperaría si la hipótesis nula fuera verdadera.

#### ¿Qué es el estadístico $t$?

El estadístico $t$ se utiliza cuando la muestra es pequeña (n ≤ 30) o cuando la desviación estándar de la población ($\sigma$) es desconocida. En este caso, utilizamos la desviación estándar muestral ($s$) en lugar de $\sigma$. El estadístico $t$ se calcula utilizando la siguiente fórmula:

$$ t = \frac{\bar{x} - \mu}{s / \sqrt{n}} $$

Donde:
- $\bar{x}$ es la media muestral.
- $\mu$ es la media poblacional bajo la hipótesis nula.
- $s$ es la desviación estándar muestral.
- $n$ es el tamaño de la muestra.

El valor $t$ es similar al valor $z$ en su interpretación, pero toma en cuenta la variabilidad adicional debida al uso de $s$ en lugar de $\sigma$. Por lo tanto, las distribuciones $t$ tienen colas más gruesas que la distribución normal, lo que refleja la mayor incertidumbre.

#### ¿Cuándo se elige $z$ o $t$?

- Elegir $z$: Se elige el estadístico $z$ cuando la muestra es grande y la desviación estándar de la población es conocida. En estos casos, la distribución de la media muestral se aproxima a una distribución normal.
- Elegir $t$: Se elige el estadístico $t$ cuando la muestra es pequeña o la desviación estándar de la población es desconocida. La distribución $t$ se ajusta mejor a muestras pequeñas y refleja la mayor incertidumbre cuando se estima la desviación estándar a partir de la muestra.

### Interpretación:
- Un valor $z$ de 1 significa que la media muestral está a una desviación estándar de la media poblacional supuesta.
- Un valor $z$ de 2 significa que está a dos desviaciones estándar, y así sucesivamente.
- Cuanto mayor sea $|z|$, más evidencia tenemos contra la hipótesis nula.


****

### De $\alpha$ al Valor Crítico

Para comprender cómo se establece la decisión de rechazar o no una hipótesis nula en una prueba de hipótesis, es fundamental entender los conceptos de $\alpha$ (alfa) y el valor crítico.

### $\alpha$ (alfa):
- Es el **nivel de significancia**, que representa la probabilidad de cometer un error Tipo I, es decir, rechazar la hipótesis nula cuando en realidad es verdadera.
- Comúnmente, se utiliza α = 0.05 o α = 0.01. Un α más pequeño indica una menor probabilidad de cometer un error Tipo I, pero también puede hacer que la prueba sea menos sensible.
- α determina qué tan estrictos somos al decidir rechazar la hipótesis nula. Un nivel de significancia más bajo significa que necesitamos evidencia más fuerte para rechazar la hipótesis nula.

### Valor Crítico:
- Es el punto de corte en la distribución de la estadística de prueba que separa la **región de rechazo** de la **región de no rechazo**.
- Se determina utilizando α y la distribución apropiada (z para distribuciones normales y t para distribuciones t de Student).

### Cómo se Obtiene el Valor Crítico:

1. **Para una prueba de dos colas con α = 0.05**:
   - Dividimos α entre 2 porque hay dos colas: 0.05/2 = 0.025.
   - Buscamos en la tabla z el valor que deja un área de 0.025 en cada cola: z ≈ ±1.96.

2. **Para una prueba de una cola con α = 0.05**:
   - Buscamos en la tabla z el valor que deja un área de 0.05 en una cola: z ≈ 1.645 (para cola derecha).


### Prueba de Hipótesis

#### Concepto Clave

Para una prueba de hipótesis sobre la media de una distribución de Poisson, podemos usar una aproximación normal si la media es suficientemente grande.

**Fórmula del Estadístico de Prueba**:
$ Z = \frac{\bar{X} - \lambda_0}{\sqrt{\frac{\lambda_0}{n}}} $

Donde:
- $ \bar{X} $ es la media muestral.
- $ \lambda_0 $ es el valor hipotético de la media.
- $ n $ es el tamaño de la muestra.

#### Ejemplo Práctico

import scipy.stats as stats
# Formulación de Hipótesis para la Prueba de Poisson en Cadena Logística

## Contexto

Recordemos que estamos analizando una cadena logística de distribución, donde la tasa de pedidos por hora se modela mediante una distribución de Poisson. La empresa cree que la tasa media de pedidos es de 9 por hora, y queremos verificar esta afirmación estadísticamente.

## Formulación de Hipótesis

Para este escenario, las hipótesis se formulan de la siguiente manera:

1. **Hipótesis Nula (H0)**:
   λ = 9

   En palabras: "La tasa media de pedidos por hora en la cadena logística es igual a 9 pedidos por hora."

2. **Hipótesis Alternativa (H1)**:
   λ ≠ 9

   En palabras: "La tasa media de pedidos por hora en la cadena logística es diferente de 9 pedidos por hora."

## Explicación

- La hipótesis nula (H0) representa la afirmación que estamos poniendo a prueba. En este caso, es la creencia actual de la empresa de que la tasa media es de 9 pedidos por hora.

- La hipótesis alternativa (H1) representa la afirmación que aceptaremos si encontramos suficiente evidencia para rechazar la hipótesis nula. En este caso, sugiere que la tasa media es significativamente diferente de 9 pedidos por hora.

- Nota: Esta es una prueba de dos colas porque estamos interesados en detectar diferencias en ambas direcciones (mayor o menor que 9).

## Implicaciones

1. Si no rechazamos H0, concluimos que no hay evidencia suficiente para afirmar que la tasa media de pedidos sea diferente de 9 por hora.

2. Si hubiéramos rechazado H0, concluiríamos que hay evidencia estadística significativa de que la tasa media de pedidos es diferente de 9 por hora, aunque no sabríamos específicamente si es mayor o menor sin un análisis adicional.



In [10]:
import scipy.stats as stats

def prueba_hipotesis_poisson(muestra, lambda_0, alpha=0.05):
    media_muestral = np.mean(muestra)
    n = len(muestra)
    z = (media_muestral - lambda_0) / np.sqrt(lambda_0 / n)
    p_valor = 2 * (1 - stats.norm.cdf(abs(z)))
    return p_valor < alpha, p_valor

# Parámetros de la prueba de hipótesis
lambda_0 = 9  # Valor hipotético de lambda

# Realizar la prueba de hipótesis
rechazo, p_valor = prueba_hipotesis_poisson(muestra_poisson, lambda_0)
print(f"Resultado de la prueba de hipótesis (H0: λ = {lambda_0}):")
print(f"Se rechaza H0: {rechazo}, p-valor: {p_valor}")

Resultado de la prueba de hipótesis (H0: λ = 9):
Se rechaza H0: True, p-valor: 0.010909498364269243


# Explicación

## La Función `prueba_hipotesis_poisson`

Vamos a desglosar la función y explicar cada parte:

```python
def prueba_hipotesis_poisson(muestra, lambda_0, alpha=0.05):
    media_muestral = np.mean(muestra)
    n = len(muestra)
    z = (media_muestral - lambda_0) / np.sqrt(lambda_0 / n)
    p_valor = 2 * (1 - stats.norm.cdf(abs(z)))
    return p_valor < alpha, p_valor
```

### Parámetros de entrada

1. `muestra`: Es nuestra lista de observaciones, en este caso, el número de pedidos por hora para varios períodos.
2. `lambda_0`: Es el valor hipotético de la tasa media de pedidos por hora según nuestra hipótesis nula.
3. `alpha`: Es nuestro nivel de significancia, por defecto 0.05 (5%).

### Cálculos internos

#### 1. Media muestral
```python
media_muestral = np.mean(muestra)
```
Calculamos la media de nuestra muestra. En el contexto de pedidos, esto sería la tasa promedio observada de pedidos por hora en nuestra muestra.

#### 2. Tamaño de la muestra
```python
n = len(muestra)
```
Contamos cuántas observaciones tenemos. Esto podría ser, por ejemplo, el número de horas que hemos estado registrando pedidos.

#### 3. Estadístico Z
```python
z = (media_muestral - lambda_0) / np.sqrt(lambda_0 / n)
```
Este es el corazón de nuestra prueba. Recordemos que el valor z nos indica cuántas desviaciones estándar está nuestra media muestral del valor hipotético `lambda_0`.

- `(media_muestral - lambda_0)` es la diferencia entre lo que observamos y lo que esperaríamos bajo la hipótesis nula.
- `np.sqrt(lambda_0 / n)` es el error estándar. En una distribución Poisson, la varianza es igual a la media, por lo que usamos `lambda_0` en lugar de una varianza estimada.

#### 4. Cálculo del p-valor
```python
p_valor = 2 * (1 - stats.norm.cdf(abs(z)))
```
Aquí calculamos el p-valor para una prueba de dos colas. Recordemos que el p-valor es la probabilidad de obtener un resultado tan extremo como el observado, asumiendo que la hipótesis nula es verdadera.

- `stats.norm.cdf(abs(z))` nos da la probabilidad acumulada hasta `|z|` en una distribución normal estándar.
- `1 - stats.norm.cdf(abs(z))` nos da la probabilidad en una cola.
- Multiplicamos por 2 para obtener la probabilidad en ambas colas (prueba de dos colas).

### Decisión y retorno

```python
return p_valor < alpha, p_valor
```
La función retorna dos valores:

1. Un booleano que indica si rechazamos (`True`) o no rechazamos (`False`) la hipótesis nula.
2. El p-valor calculado.

## Conexión con Conceptos Previos

1. **Hipótesis nula y alternativa**:
   - H₀: La tasa real de pedidos es igual a `lambda_0`
   - H₁: La tasa real de pedidos es diferente de `lambda_0`

2. **Nivel de significancia (α)**:
   Establecemos α = 0.05 por defecto, lo que significa que estamos dispuestos a tener un 5% de probabilidad de rechazar la hipótesis nula cuando es verdadera.

3. **Estadístico Z**:
   Similar a lo que discutimos antes, este valor nos dice cuán lejos está nuestra media muestral de `lambda_0` en términos de desviaciones estándar.

4. **P-valor vs. α**:
   Comparamos el p-valor con α para tomar nuestra decisión. Si p-valor < α, rechazamos la hipótesis nula.

5. **Interpretación**:
   - Si rechazamos H₀, concluimos que hay evidencia estadística suficiente para decir que la tasa real de pedidos es significativamente diferente de `lambda_0`.
   - Si no rechazamos H₀, no tenemos evidencia suficiente para decir que la tasa real es diferente de `lambda_0`.


### Interpretación si se Rechaza la Hipótesis Nula

En el contexto de la función `prueba_hipotesis_poisson`, interpretamos los resultados de la prueba de hipótesis cuando se rechaza la hipótesis nula.

#### Interpretación de los Resultados

1. **Se rechaza la hipótesis nula (H0)**:
   - El resultado "Se rechaza H0: True" indica que tenemos suficiente evidencia estadística para rechazar la hipótesis nula. Esto significa que podemos concluir que la tasa media de pedidos por hora en la cadena logística es significativamente diferente de 9 pedidos por hora.

2. **P-valor**:
   - El p-valor de 0.0109 es menor que el nivel de significancia típico de 0.05. Este valor nos dice que, si la hipótesis nula fuera cierta (es decir, si la verdadera tasa media de pedidos fuera realmente 9 por hora), la probabilidad de observar una diferencia tan grande o más grande que la que observamos en nuestra muestra sería de aproximadamente 1.09%.

3. **Interpretación práctica**:
   - Hay evidencia suficiente para sugerir que la tasa real de pedidos es diferente de 9 por hora.
   - Las diferencias observadas en la muestra son significativas y no pueden atribuirse únicamente a la variabilidad aleatoria normal en el proceso de pedidos.

### Implicaciones para la Cadena Logística

1. **Reevaluación del modelo actual**:
   - La empresa debe reconsiderar su estimación de 9 pedidos por hora como la tasa media de pedidos, ya que la evidencia sugiere que la tasa real es diferente.

2. **Planificación de recursos**:
   - Los planes de capacidad y recursos basados en una tasa de 9 pedidos por hora pueden no ser adecuados y pueden necesitar ajustes significativos para reflejar la nueva tasa estimada.

3. **Monitoreo continuo**:
   - Es crucial continuar monitoreando la tasa de pedidos para confirmar esta diferencia y ajustar las estrategias operativas en consecuencia.

4. **Investigación adicional**:
   - La empresa debería investigar otros factores que podrían estar afectando la tasa de pedidos, como cambios en la demanda del mercado, modificaciones en los procesos internos o la implementación de nuevas tecnologías.

***
***
## Interpretación sí no se rechaza

1. **No se rechaza la hipótesis nula (H0)**:
   El resultado "Se rechaza H0: False" indica que no tenemos suficiente evidencia estadística para rechazar la hipótesis nula. Esto significa que no podemos concluir que la tasa media de pedidos por hora en la cadena logística sea significativamente diferente de 9 pedidos por hora.

2. **P-valor**:
   El p-valor de 0.4229 es considerablemente mayor que el nivel de significancia típico de 0.05. Este valor nos dice que, si la hipótesis nula fuera cierta (es decir, si la verdadera tasa media de pedidos fuera realmente 9 por hora), la probabilidad de observar una diferencia tan grande o más grande que la que observamos en nuestra muestra sería de aproximadamente 42.29%.

3. **Interpretación práctica**:
   - No hay evidencia suficiente para sugerir que la tasa real de pedidos sea diferente de 9 por hora.
   - Las diferencias observadas en la muestra son probablemente debido a la variabilidad aleatoria normal en el proceso de pedidos, más que a una diferencia real en la tasa media.

## Implicaciones para la cadena logística

1. **Validación del modelo actual**:
   La empresa puede seguir confiando en su estimación de 9 pedidos por hora como una representación razonable de la tasa real de pedidos.

2. **Planificación de recursos**:
   Los planes de capacidad y recursos basados en una tasa de 9 pedidos por hora siguen siendo válidos y no necesitan ajustes significativos basados en esta evidencia.

3. **Monitoreo continuo**:
   Aunque no se encontró una diferencia significativa, es importante continuar monitoreando la tasa de pedidos. Cambios futuros podrían llevar a resultados diferentes.

4. **Consideración de otros factores**:
   Si la empresa sospecha que hay cambios en la tasa de pedidos basados en otras observaciones o datos, podría ser útil investigar otros factores que podrían estar afectando el proceso pero que no son capturados por esta prueba estadística.

## Conclusión de la sección

Este resultado sugiere que la tasa media de pedidos por hora en la cadena logística es consistente con la hipótesis de 9 pedidos por hora. La empresa puede continuar operando bajo este supuesto con un grado razonable de confianza. Sin embargo, es importante recordar que "no rechazar" la hipótesis nula no es lo mismo que "probar" que la hipótesis nula es verdadera. Simplemente significa que no tenemos suficiente evidencia para concluir que es falsa.

Esta interpretación proporciona una base sólida para la toma de decisiones en la gestión de la cadena logística, permitiendo a la empresa mantener sus estrategias actuales mientras permanece alerta a posibles cambios futuros en la tasa de pedidos.

In [None]:
#*****

# Inferencia Estadística para Sistemas de Control y Medición (Binomial)

En esta sección, abordaremos el escenario del control estadístico del funcionamiento de un centro de producción utilizando la distribución binomial. Exploraremos cómo calcular intervalos de confianza y realizar pruebas de hipótesis.

## 2. Control estadístico del funcionamiento de un centro de producción

### Distribución: Binomial

#### Justificación:
La distribución binomial es adecuada para modelar procesos de calidad en un centro de producción porque:
1. Cada pieza producida tiene dos posibles resultados: defectuosa o no defectuosa.
2. Hay un número fijo de ensayos (piezas producidas).
3. La probabilidad de producir una pieza defectuosa se mantiene constante.
4. Los resultados de cada pieza son independientes entre sí.

#### Simulación de Datos

Primero, simulamos los datos usando la distribución binomial.

In [None]:
import numpy as np

# Parámetros de la distribución
n = 100  # número de piezas producidas
p = 0.05  # probabilidad de producir una pieza defectuosa

# Simulación de la muestra
tamaño_muestra = 50
muestra_binomial = np.random.binomial(n, p, tamaño_muestra)

print("Muestra simulada para el centro de producción (Binomial):")
print(muestra_binomial)

Muestra simulada para el centro de producción (Binomial):
[5 8 5 7 4 4 5 5 5 4 4 3 5 2 5 4 4 7 4 4 4 3 7 9 5 5 8 3 5 4 4 3 5 7 7 1 3
 6 4 3 6 7 5 7 4 2 5 5 5 5]


### Intervalos de Confianza: Explicación Detallada y Ejemplos

#### ¿Qué son los intervalos de confianza?

Un intervalo de confianza es un rango de valores que probablemente contiene un parámetro poblacional desconocido. En lugar de estimar el parámetro con un solo valor (estimación puntual), proporcionamos un intervalo de valores plausibles.

#### ¿Para qué sirven los intervalos de confianza?

1. **Estimación de parámetros**: Proporcionan un rango de valores probables para un parámetro poblacional.
2. **Medición de precisión**: Indican la precisión de nuestra estimación.
3. **Toma de decisiones**: Ayudan en la toma de decisiones al proporcionar un rango de valores probables.
4. **Comparaciones**: Permiten comparar diferentes grupos o poblaciones.

#### Relación con la Distribución Binomial

Para estimar la proporción de piezas defectuosas, utilizamos el intervalo de confianza para una proporción.

**Fórmula**:
$ IC = \left( \hat{p} - z \cdot \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}, \hat{p} + z \cdot \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}} \right) $

Donde:
- $ \hat{p} $ es la proporción muestral.
- $ z $ es el valor crítico de la distribución normal para el nivel de confianza deseado.
- $ n $ es el tamaño de la muestra.

#### Cálculo del Intervalo de Confianza


In [None]:
import scipy.stats as stats

def intervalo_confianza_binomial(muestra, n, confianza=0.95):
    p_estimado = np.mean(muestra) / n
    z = stats.norm.ppf((1 + confianza) / 2)
    margen_error = z * np.sqrt((p_estimado * (1 - p_estimado)) / len(muestra))
    return (p_estimado - margen_error, p_estimado + margen_error)

# Calcular el intervalo de confianza para nuestra muestra
ic_binomial = intervalo_confianza_binomial(muestra_binomial, n)
print(f"Intervalo de confianza del 95% para la proporción de piezas defectuosas: {ic_binomial}")

Intervalo de confianza del 95% para la proporción de piezas defectuosas: (-0.011168962323232057, 0.10756896232323206)


**Interpretación del Intervalo de Confianza**:

1. **Significado**:
   - **Intervalo de Confianza**: Este intervalo indica que, con un 95% de confianza, la proporción verdadera de piezas defectuosas en el centro de producción se encuentra entre -0.0112 y 0.1076.
   
2. **Proporciones Negativas**:
   - En un contexto real, una proporción negativa no tiene sentido porque las proporciones deben estar entre 0 y 1. Esto puede ocurrir debido a la aproximación normal utilizada en el cálculo del intervalo de confianza. En la práctica, simplemente se ajusta el límite inferior a 0 si se obtiene un valor negativo.
   - Ajustado: El intervalo de confianza sería (0, 0.1076).

3. **Precisión y Decisiones**:
   - **Precisión**: El intervalo de confianza proporciona una idea sobre la precisión de la estimación de la proporción de piezas defectuosas. Un intervalo más estrecho indica una estimación más precisa.
   - **Toma de Decisiones**: Si la proporción de piezas defectuosas esperada es muy baja, un intervalo de confianza que incluye valores bajos puede ser aceptable. Sin embargo, si el límite superior del intervalo de confianza es demasiado alto, podría ser un indicador de que se necesita mejorar el control de calidad.

### Explicación Intuitiva

El intervalo de confianza nos ayuda a entender la variabilidad en nuestras estimaciones y proporciona un rango dentro del cual esperamos que se encuentre el verdadero valor de la proporción de piezas defectuosas. En este caso, el intervalo de confianza nos dice que, basándonos en nuestra muestra, estamos 95% seguros de que la proporción verdadera de piezas defectuosas está entre 0 y aproximadamente 10.76%.

### Consideraciones Prácticas

1. **Tamaño de la Muestra**: El tamaño de la muestra influye en el margen de error. Muestras más grandes tienden a proporcionar estimaciones más precisas (intervalos de confianza más estrechos).
2. **Mejora Continua**: Si el intervalo de confianza sugiere que la proporción de defectos podría ser inaceptablemente alta, se deben tomar medidas para mejorar el proceso de producción y reducir la tasa de defectos.

### Prueba de Hipótesis

#### Concepto Clave

Para probar si la proporción de piezas defectuosas es diferente de un valor específico, utilizamos el estadístico $ Z $ para proporciones.

**Fórmula del Estadístico de Prueba**:
$ Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}} $

Donde:
- $ \hat{p} $ es la proporción muestral.
- $ p_0 $ es el valor hipotético de la proporción.
- $ n $ es el tamaño de la muestra.

#### Ejemplo Práctico


In [None]:
def prueba_hipotesis_binomial(muestra, n, p_0, alpha=0.05):
    p_estimado = np.mean(muestra) / n
    se = np.sqrt(p_0 * (1 - p_0) / len(muestra))
    z = (p_estimado - p_0) / se
    p_valor = 2 * (1 - stats.norm.cdf(abs(z)))
    return p_valor < alpha, p_valor

# Parámetros de la prueba de hipótesis
p_0 = 0.06  # Valor hipotético de la proporción de piezas defectuosas

# Realizar la prueba de hipótesis
rechazo, p_valor = prueba_hipotesis_binomial(muestra_binomial, n, p_0)
print(f"Resultado de la prueba de hipótesis (H0: p = {p_0}):")
print(f"Se rechaza H0: {rechazo}, p-valor: {p_valor}")

Resultado de la prueba de hipótesis (H0: p = 0.06):
Se rechaza H0: False, p-valor: 0.7253333742483985


### Explicación Intuitiva

#### Intervalos de Confianza

El intervalo de confianza nos proporciona un rango de valores en el que esperamos que se encuentre la verdadera proporción de piezas defectuosas en el centro de producción. Por ejemplo, si calculamos un intervalo de confianza del 95%, estamos diciendo que tenemos un 95% de confianza en que la verdadera proporción de piezas defectuosas se encuentra dentro de este rango.

#### Prueba de Hipótesis

La prueba de hipótesis nos permite tomar decisiones basadas en los datos. En este caso, estamos probando si la proporción de piezas defectuosas es igual a un valor específico (p = 0.06). Si el valor p es menor que el nivel de significancia (α = 0.05), rechazamos la hipótesis nula, indicando que la proporción de piezas defectuosas es significativamente diferente de 0.06.

#### Resultados del Código

```
Resultado de la prueba de hipótesis (H0: p = 0.06):
Se rechaza H0: False, p-valor:  0.7253333742483985
```

**Interpretación**:
- **Hipótesis Nula (H0)**: La proporción de piezas defectuosas (p) es igual a 0.06.
- **Hipótesis Alternativa (H1)**: La proporción de piezas defectuosas (p) es diferente de 0.06.
- **p-valor**: El p-valor es 0.7253, lo que significa que hay una probabilidad del 72.53% de observar una diferencia tan grande o más grande que la observada en nuestra muestra, bajo la hipótesis nula de que p = 0.06.

#### Conclusión
- **No se rechaza H0**: Dado que el p-valor (0.7253) es mayor que el nivel de significancia ($ \alpha = 0.05 $), no tenemos suficiente evidencia para rechazar la hipótesis nula.
- **Interpretación Intuitiva**: La proporción de piezas defectuosas en nuestra muestra no es suficientemente diferente de 0.06 como para concluir que la verdadera proporción de piezas defectuosas no es 0.06. Es decir, cualquier diferencia observada puede ser simplemente debida al azar.

In [None]:
#*******

## 3. Medición del nivel de servicio de entregas a clientes

### Distribución: Normal

#### Justificación:
La distribución normal es adecuada para modelar tiempos de entrega porque:
1. Los tiempos de entrega son el resultado de muchos factores independientes (Teorema del Límite Central).
2. La mayoría de los valores se agrupan alrededor de la media.
3. La distribución es simétrica, reflejando que los retrasos y adelantos tienden a equilibrarse.
4. El tiempo es una variable continua.

### Simulación de Datos

Primero, simulamos los datos usando la distribución normal.

In [None]:
import numpy as np

# Parámetros de la distribución
media = 5  # tiempo promedio de entrega en días
desviacion_estandar = 1  # desviación estándar de los tiempos de entrega

# Simulación de la muestra
tamaño_muestra = 50
muestra_normal = np.random.normal(media, desviacion_estandar, tamaño_muestra)

print("Muestra simulada para el nivel de servicio de entregas (Normal):")
print(muestra_normal)

Muestra simulada para el nivel de servicio de entregas (Normal):
[5.85091196 5.19168869 6.67043357 3.74372539 6.43134436 4.93183312
 4.35793092 5.71631498 3.52162148 4.05685988 5.24516109 4.71877261
 4.88441295 5.07030624 4.01342265 3.31663794 3.55882049 6.69705315
 6.08937409 5.31109198 3.96154412 6.14765103 6.0877404  5.37588132
 5.56559215 3.38447357 4.54674001 5.6229136  4.42016435 4.2621339
 4.20116965 5.05717761 3.72946035 4.85261572 5.71543273 4.70922641
 4.91746217 4.53450231 4.42650829 6.68833272 5.77151058 4.76328748
 5.39011778 5.228272   7.2430996  5.42866712 5.60301138 4.12185788
 3.18375931 5.76147562]


### Intervalo de Confianza: Explicación Detallada y Ejemplos

#### ¿Qué son los intervalos de confianza?

Un intervalo de confianza es un rango de valores que probablemente contiene un parámetro poblacional desconocido. En lugar de estimar el parámetro con un solo valor (estimación puntual), proporcionamos un intervalo de valores plausibles.

#### ¿Para qué sirven los intervalos de confianza?

1. **Estimación de parámetros**: Proporcionan un rango de valores probables para un parámetro poblacional.
2. **Medición de precisión**: Indican la precisión de nuestra estimación.
3. **Toma de decisiones**: Ayudan en la toma de decisiones al proporcionar un rango de valores probables.
4. **Comparaciones**: Permiten comparar diferentes grupos o poblaciones.

#### Relación con la Distribución Normal

El intervalo de confianza para la media de una distribución normal se calcula utilizando el estadístico $ t $ de Student cuando la varianza poblacional no es conocida.

**Fórmula**:
$ IC = \left( \bar{X} - t \cdot \frac{s}{\sqrt{n}}, \bar{X} + t \cdot \frac{s}{\sqrt{n}} \right) $

Donde:
- $ \bar{X} $ es la media muestral.
- $ t $ es el valor crítico de la distribución t de Student.
- $ s $ es la desviación estándar muestral.
- $ n $ es el tamaño de la muestra.

#### Cálculo del Intervalo de Confianza


In [None]:
def intervalo_confianza_normal(muestra, confianza=0.95):
    media_muestra = np.mean(muestra)
    error_estandar = stats.sem(muestra)
    return stats.t.interval(confianza, len(muestra)-1, loc=media_muestra, scale=error_estandar)

ic_normal = intervalo_confianza_normal(muestra_normal)
print(f"Intervalo de confianza del 95% para el tiempo medio de entrega: {ic_normal}")

Intervalo de confianza del 95% para el tiempo medio de entrega: (4.723630239273144, 5.279549708818153)


### Resultados del Intervalo de Confianza

```
Intervalo de confianza del 95% para el tiempo medio de entrega: (4.723630239273144, 5.279549708818153)
```

**Interpretación**:
- **Intervalo de Confianza**: Este intervalo indica que, con un 95% de confianza, el verdadero tiempo medio de entrega se encuentra entre 4.72 y 5.28 días.
- **Precisión**: El intervalo de confianza proporciona una estimación de la precisión de nuestra media muestral. Un intervalo más estrecho indica una estimación más precisa.


### Uso de $ t $ vs. $ z $

#### Distribución Normal $ z $

El valor crítico de la distribución normal $ z $ se utiliza cuando conocemos la desviación estándar de la población ($ \sigma $) o cuando el tamaño de la muestra es suficientemente grande (generalmente $ n > 30 $), lo que permite aplicar el Teorema Central del Límite. En estos casos, la distribución de la media muestral se aproxima a una distribución normal.

#### Distribución $ t $ de Student

El valor crítico de la distribución $ t $ de Student se utiliza cuando no conocemos la desviación estándar de la población y, en su lugar, estimamos la desviación estándar de la muestra ($ s $). La distribución $ t $ también se usa cuando el tamaño de la muestra es pequeño ($ n \leq 30 $). La distribución $ t $ tiene colas más pesadas que la distribución normal, lo que toma en cuenta la mayor variabilidad que se introduce al estimar la desviación estándar de la población a partir de una muestra pequeña.

### Diferencias Clave

1. **Desviación Estándar Conocida vs. Estimada**:
   - **Normal $ z $**: Usamos $ z $ cuando conocemos la desviación estándar poblacional ($ \sigma $).
   - **$ t $ de Student**: Usamos $ t $ cuando estimamos la desviación estándar a partir de la muestra ($ s $).

2. **Tamaño de la Muestra**:
   - **Normal $ z $**: Se utiliza para muestras grandes (generalmente $ n > 30 $).
   - **$ t $ de Student**: Se utiliza para muestras pequeñas (generalmente $ n \leq 30 $).

   

### Prueba de Hipótesis

#### Concepto Clave

Para probar si el tiempo medio de entrega es diferente de un valor específico, utilizamos la prueba t de una muestra.

**Fórmula del Estadístico de Prueba**:
$ t = \frac{\bar{X} - \mu_0}{s / \sqrt{n}} $

Donde:
- $ \bar{X} $ es la media muestral.
- $ \mu_0 $ es el valor hipotético de la media.
- $ s $ es la desviación estándar muestral.
- $ n $ es el tamaño de la muestra.

#### Ejemplo Práctico

In [None]:
def prueba_hipotesis_normal(muestra, mu_0, alpha=0.05):
    t_stat, p_valor = stats.ttest_1samp(muestra, mu_0)
    return p_valor < alpha, p_valor

mu_0 = 5.5  # Valor hipotético del tiempo medio de entrega
rechazo, p_valor = prueba_hipotesis_normal(muestra_normal, mu_0)
print(f"Resultado de la prueba de hipótesis (H0: μ = {mu_0}):")
print(f"Se rechaza H0: {rechazo}, p-valor: {p_valor}")

Resultado de la prueba de hipótesis (H0: μ = 5.5):
Se rechaza H0: True, p-valor: 0.0007331176914951663



### Resultados de la Prueba de Hipótesis

```
Resultado de la prueba de hipótesis (H0: μ = 5.5):
Se rechaza H0: True, p-valor: 0.0007331176914951663
```

**Interpretación**:
- **Hipótesis Nula (H0)**: El tiempo medio de entrega (μ) es igual a 5.5 días.
- **Hipótesis Alternativa (H1)**: El tiempo medio de entrega (μ) es diferente de 5.5 días.
- **p-valor**: El p-valor es 0.0007, lo que significa que hay una probabilidad del 0.07% de observar una diferencia tan grande o más grande que la observada en nuestra muestra, bajo la hipótesis nula de que μ = 5.5.

#### Conclusión
- **Se rechaza H0**: Dado que el p-valor (0.0007) es menor que el nivel de significancia ($ \alpha = 0.05 $), rechazamos la hipótesis nula.
- **Interpretación Intuitiva**: La media de nuestra muestra es suficientemente diferente de 5.5 como para concluir que el verdadero tiempo medio de entrega no es 5.5 días. Es decir, la diferencia observada no es simplemente debida al azar.


In [None]:
#****

## 4. Medición del nivel de satisfacción de clientes

### Distribución: Binomial

#### Justificación:
La distribución binomial es apropiada para medir niveles de satisfacción porque:
1. Cada cliente encuestado tiene dos posibles resultados: satisfecho o no satisfecho.
2. El número de clientes encuestados es fijo.
3. Se asume que la probabilidad de satisfacción es constante para todos los clientes.
4. Las respuestas de los clientes son independientes entre sí.

### Simulación de Datos

Primero, simulamos los datos usando la distribución binomial.


In [None]:
import numpy as np

# Parámetros de la distribución
n = 1  # cada encuesta es un ensayo
p = 0.8  # probabilidad de que un cliente esté satisfecho

# Simulación de la muestra
tamaño_muestra = 50
muestra_satisfaccion = np.random.binomial(n, p, tamaño_muestra)

print("Muestra simulada para el nivel de satisfacción de clientes (Binomial):")
print(muestra_satisfaccion)

Muestra simulada para el nivel de satisfacción de clientes (Binomial):
[1 1 1 1 1 1 0 1 0 1 1 0 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1
 1 1 0 1 1 1 0 1 1 1 1 1 1]



### Intervalo de Confianza: Explicación Detallada y Ejemplos

#### ¿Qué son los intervalos de confianza?

Un intervalo de confianza es un rango de valores que probablemente contiene un parámetro poblacional desconocido. En lugar de estimar el parámetro con un solo valor (estimación puntual), proporcionamos un intervalo de valores plausibles.

#### ¿Para qué sirven los intervalos de confianza?

1. **Estimación de parámetros**: Proporcionan un rango de valores probables para un parámetro poblacional.
2. **Medición de precisión**: Indican la precisión de nuestra estimación.
3. **Toma de decisiones**: Ayudan en la toma de decisiones al proporcionar un rango de valores probables.
4. **Comparaciones**: Permiten comparar diferentes grupos o poblaciones.

#### Relación con la Distribución Binomial

Para estimar la proporción de clientes satisfechos, utilizamos el intervalo de confianza para una proporción.

**Fórmula**:
$ IC = \left( \hat{p} - z \cdot \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}, \hat{p} + z \cdot \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}} \right) $

Donde:
- $ \hat{p} $ es la proporción muestral.
- $ z $ es el valor crítico de la distribución normal para el nivel de confianza deseado.
- $ n $ es el tamaño de la muestra.

#### Cálculo del Intervalo de Confianza


In [None]:
def intervalo_confianza_satisfaccion(muestra, confianza=0.95):
    p_estimado = np.mean(muestra)
    n = len(muestra)
    z = stats.norm.ppf((1 + confianza) / 2)
    margen_error = z * np.sqrt((p_estimado * (1 - p_estimado)) / n)
    return (p_estimado - margen_error, p_estimado + margen_error)

ic_satisfaccion = intervalo_confianza_satisfaccion(muestra_satisfaccion)
print(f"Intervalo de confianza del 95% para la proporción de clientes satisfechos: {ic_satisfaccion}")

Intervalo de confianza del 95% para la proporción de clientes satisfechos: (0.738383853103821, 0.9416161468961789)



### Resultados del Intervalo de Confianza

```
Intervalo de confianza del 95% para la proporción de clientes satisfechos: (0.738383853103821, 0.9416161468961789)
```

**Interpretación**:
- **Intervalo de Confianza**: Este intervalo indica que, con un 95% de confianza, la verdadera proporción de clientes satisfechos se encuentra entre 73.84% y 94.16%.
- **Precisión**: El intervalo de confianza proporciona una idea sobre la precisión de nuestra estimación de la proporción de clientes satisfechos. Un intervalo más estrecho indica una estimación más precisa.

### Prueba de Hipótesis

#### Concepto Clave

Para probar si la proporción de clientes satisfechos es diferente de un valor específico, utilizamos el estadístico $ Z $ para proporciones.

**Fórmula del Estadístico de Prueba**:
$ Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}} $

Donde:
- $ \hat{p} $ es la proporción muestral.
- $ p_0 $ es el valor hipotético de la proporción.
- $ n $ es el tamaño de la muestra.

#### Ejemplo Práctico


In [None]:
def prueba_hipotesis_satisfaccion(muestra, p_0, alpha=0.05):
    p_estimado = np.mean(muestra)
    n = len(muestra)
    se = np.sqrt(p_0 * (1 - p_0) / n)
    z = (p_estimado - p_0) / se
    p_valor = 2 * (1 - stats.norm.cdf(abs(z)))
    return p_valor < alpha, p_valor

p_0 = 0.75  # Valor hipotético de la proporción de clientes satisfechos
rechazo, p_valor = prueba_hipotesis_satisfaccion(muestra_satisfaccion, p_0)
print(f"Resultado de la prueba de hipótesis (H0: p = {p_0}):")
print(f"Se rechaza H0: {rechazo}, p-valor: {p_valor}")

Resultado de la prueba de hipótesis (H0: p = 0.75):
Se rechaza H0: False, p-valor: 0.1416446902951367



### Resultados de la Prueba de Hipótesis

```
Resultado de la prueba de hipótesis (H0: p = 0.75):
Se rechaza H0: False, p-valor: 0.1416446902951367
```

**Interpretación**:
- **Hipótesis Nula (H0)**: La proporción de clientes satisfechos (p) es igual a 75%.
- **Hipótesis Alternativa (H1)**: La proporción de clientes satisfechos (p) es diferente de 75%.
- **p-valor**: El p-valor es 0.1416, lo que significa que hay una probabilidad del 14.16% de observar una diferencia tan grande o más grande que la observada en nuestra muestra, bajo la hipótesis nula de que p = 0.75.

#### Conclusión
- **No se rechaza H0**: Dado que el p-valor (0.1416) es mayor que el nivel de significancia ($ \alpha = 0.05 $), no tenemos suficiente evidencia para rechazar la hipótesis nula.
- **Interpretación Intuitiva**: La proporción de clientes satisfechos en nuestra muestra no es suficientemente diferente de 75% como para concluir que la verdadera proporción de clientes satisfechos no es 75%. Es decir, cualquier diferencia observada puede ser simplemente debida al azar.

