<a href="https://colab.research.google.com/github/GustavoBD-Dev/AnalyticalModelsWithPythonCourse/blob/Session-3/09_HypothesisTesting.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Pruebas de hipótesis**

Las pruebas de hipótesis son una herramienta estadística utilizada para tomar decisiones basadas en datos. Estas pruebas permiten evaluar si una afirmación sobre una población es consistente con la evidencia proporcionada por una muestra de datos.

####**Conceptos Clave**

1. **Hipótesis Nula (H0):** Es la hipótesis que se quiere probar. Generalmente, es una afirmación de "no efecto" o "no diferencia".
2. **Hipótesis Alternativa (H1):** Es la hipótesis que se acepta si se rechaza la hipótesis nula. Indica la presencia de un efecto o una diferencia.
3. **Nivel de Significancia (α):** Es la probabilidad de rechazar la hipótesis nula cuando es verdadera. Comúnmente se usa 0.05.
4. **Valor p:** Es la probabilidad de obtener un resultado al menos tan extremo como el observado, asumiendo que la hipótesis nula es verdadera. Si el valor p es menor que α, se rechaza la hipótesis nula.
5. **Estadístico de Prueba:** Es una medida calculada a partir de los datos de la muestra que se utiliza para tomar la decisión sobre la hipótesis.

####**Tipos de Pruebas de Hipótesis**

1. **Prueba z (para medias)**
- **Fórmula:** z = (X̄ - μ0) / (σ / √n)
- Donde X̄ es la media muestral, μ0 es la media poblacional bajo H0, σ es la desviación estándar poblacional, y n es el tamaño de la muestra.
- **Ejemplo:**
     ```python
     import numpy as np
     from scipy import stats

     datos = [12, 15, 14, 10, 13, 14, 15, 12, 14, 13]
     media_muestral = np.mean(datos)
     media_poblacional = 12
     desviacion_estandar = 2
     n = len(datos)

     z = (media_muestral - media_poblacional) / (desviacion_estandar / np.sqrt(n))
     valor_p = stats.norm.sf(abs(z)) * 2  # Doble del valor de una cola

     print("Estadístico z:", z)
     print("Valor p:", valor_p)
     ```
- **Interpretación:** Si el valor p es menor que el nivel de significancia (por ejemplo, 0.05), se rechaza la hipótesis nula y se concluye que hay suficiente evidencia para afirmar que la media poblacional es diferente de 12.
- **Consideración:** La prueba z es adecuada cuando se conoce la desviación estándar poblacional y la muestra es suficientemente grande (n > 30).

2. **Prueba t (para medias)**
- **Fórmula:** t = (X̄ - μ0) / (s / √n)
- Donde X̄ es la media muestral, μ0 es la media poblacional bajo H0, s es la desviación estándar muestral, y n es el tamaño de la muestra.
- **Ejemplo:**
     ```python
     s = np.std(datos, ddof=1)
     t = (media_muestral - media_poblacional) / (s / np.sqrt(n))
     valor_p = stats.t.sf(abs(t), df=n-1) * 2  # Doble del valor de una cola

     print("Estadístico t:", t)
     print("Valor p:", valor_p)
     ```
- **Interpretación:** Similar a la prueba z, se rechaza la hipótesis nula si el valor p es menor que el nivel de significancia.
- **Consideración:** La prueba t es adecuada cuando no se conoce la desviación estándar poblacional y/o la muestra es pequeña (n <= 30).

3. **Prueba chi-cuadrado (para varianzas)**
- **Fórmula:** χ² = (n - 1) * s² / σ0²
- Donde s² es la varianza muestral, σ0² es la varianza poblacional bajo H0, y n es el tamaño de la muestra.
- **Ejemplo:**
     ```python
     varianza_muestral = np.var(datos, ddof=1)
     varianza_poblacional = 4

     chi2 = (n - 1) * varianza_muestral / varianza_poblacional
     valor_p = stats.chi2.sf(chi2, df=n-1)

     print("Estadístico chi-cuadrado:", chi2)
     print("Valor p:", valor_p)
     ```
- **Interpretación:** Si el valor p es menor que el nivel de significancia, se rechaza la hipótesis nula y se concluye que la varianza poblacional es diferente de 4.
- **Consideración:** La prueba chi-cuadrado es adecuada para datos categóricos y cuando se analiza la varianza.

4. **Prueba ANOVA (para comparar medias de varios grupos)**
- **Fórmula:** F = (SST / k - 1) / (SSE / n - k)
- Donde SST es la suma de cuadrados total, SSE es la suma de cuadrados del error, k es el número de grupos, y n es el número total de observaciones.
- **Ejemplo:**
     ```python
     datos_grupos = [np.random.normal(10, 2, 30),
                     np.random.normal(12, 2, 30),
                     np.random.normal(11, 2, 30)]

     F, valor_p = stats.f_oneway(*datos_grupos)

     print("Estadístico F:", F)
     print("Valor p:", valor_p)
     ```
- **Interpretación:** Si el valor p es menor que el nivel de significancia, se rechaza la hipótesis nula y se concluye que al menos una de las medias de los grupos es diferente.
- **Consideración:** ANOVA es adecuada para comparar más de dos grupos y asume que las varianzas de los grupos son iguales y las observaciones son independientes.

### Ejemplo Práctico Completo

Imaginemos que un banco quiere saber si la media del monto de transacciones es diferente de un valor específico ($2000). Se toma una muestra de 30 transacciones.

```python
import numpy as np
from scipy import stats

# Generar muestra de datos
np.random.seed(0)
muestra = np.random.normal(2000, 500, 30)

# Calcular estadísticas descriptivas
media_muestral = np.mean(muestra)
desviacion_estandar = np.std(muestra, ddof=1)
n = len(muestra)

# Prueba t
media_poblacional = 2000
t = (media_muestral - media_poblacional) / (desviacion_estandar / np.sqrt(n))
valor_p = stats.t.sf(abs(t), df=n-1) * 2

print("Estadístico t:", t)
print("Valor p:", valor_p)

# Interpretación
if valor_p < 0.05:
    print("Rechazamos la hipótesis nula: la media del monto de transacciones es diferente de $2000")
else:
    print("No rechazamos la hipótesis nula: no hay evidencia suficiente para afirmar que la media del monto de transacciones es diferente de $2000")
```

###**Consideraciones:**

- **Asumir Normalidad:** Muchas pruebas de hipótesis asumen que los datos siguen una distribución normal. Es crucial verificar esta suposición o utilizar pruebas no paramétricas si no se cumple.
- **Tamaño de la Muestra:** El tamaño de la muestra influye en la potencia de la prueba. Muestras pequeñas pueden no detectar diferencias significativas.
- **Valor p:** Un valor p bajo no necesariamente implica un efecto grande; solo indica que el efecto es estadísticamente significativo.
- **Errores Tipo I y II:** Rechazar una hipótesis nula verdadera (Error Tipo I) y no rechazar una hipótesis nula falsa (Error Tipo II) son riesgos siempre presentes en pruebas de hipótesis.

##**Ejercicios**

###**Ejercicio 1: Prueba T para la Media de una Muestra**
**Objetivo:** Supón que deseas determinar si la tasa de margen bruto operativo (Operating Gross Margin) en el dataset es significativamente diferente de 0.5.

###**Ejercicio 2: Prueba T para la Media de Dos Muestras Independientes**
**Objetivo:** Compara si el margen bruto operativo (Operating Gross Margin) difiere entre empresas que están en bancarrota y las que no.

###**Ejercicio 3: Prueba de Normalidad (Shapiro-Wilk)**
**Objetivo:** Verifica si la tasa de crecimiento de ganancias después de impuestos (After-tax Net Profit Growth Rate) sigue una distribución normal.

###**Ejercicio 4: Prueba de Chi-Cuadrado para Independencia**
**Objetivo:** Determina si hay una relación significativa entre la quiebra (Bankrupt?) y la tasa de margen bruto operativo (Operating Gross Margin), considerando categorías de margen bruto operativo.

###**Ejercicio 5: Prueba de Kolmogorov-Smirnov**
**Objetivo:** Comprueba si la tasa de retorno de activos (ROA(A) before interest and % after tax) se distribuye de la misma manera que una distribución normal.

###**Ejercicio 6: Prueba de Wilcoxon para Dos Muestras**
**Objetivo:** Compara la tasa de crecimiento de ganancias operativas (Operating Profit Growth Rate) antes y después de un cambio en las políticas de inversión.

###**Ejercicio 7: Prueba de Mann-Whitney U**
**Objetivo:** Verifica si la tasa de gasto en investigación y desarrollo (Research and development expense rate) difiere entre empresas en bancarrota y no en bancarrota usando la prueba de Mann-Whitney U.

###**Ejercicio 8: Prueba de Levene para Igualdad de Varianzas**
**Objetivo:** Compara las varianzas de la tasa de retorno de activos (ROA(B) before interest and depreciation after tax) entre empresas en bancarrota y no en bancarrota.

###**Ejercicio 9: Prueba de Kruskal-Wallis**
**Objetivo:** Determina si la tasa de crecimiento de los activos totales (Total Asset Growth Rate) difiere entre tres categorías de empresas basadas en el margen bruto operativo.