## Hipotesis

La prueba de hipótesis es una herramienta estadística. Con esta herramienta, puedes realizar `estimaciones sobre poblaciones grandes utilizando muestras pequeñas`. La lógica de realizar una prueba estadística de una hipótesis es ligeramente diferente
En primer lugar, sacaremos conclusiones sobre un gran dataset, o población estadística, basadas en las muestras. Una muestra es una parte pequeña pero representativa de los datos que refleja el comportamiento de toda la población estadística

## Teorema del límite central

El teorema del límite central menciona que cuando hay un número suficiente de observaciones en una muestra, la distribución muestral de las medias muestrales de cualquier población estadística `tiende a seguir una distribución normal` alrededor de la media de dicha población.Puedes estimar la media de una población estadística utilizando la media de una muestra. Cuanto mayor sea la muestra, más precisa será la media de la población y esto funciona para poblaciones estadísticas con cualquier distribución.
<br>
<br>
¿Cuál será su varianza? Eso depende del tamaño de la muestra. Cuanto mayor sea, menor será la desviación estándar de la media de la muestra. Cuanto mayor sea la muestra que tomemos, más precisa será la media de toda la población.
<br>
<br>
La desviación estándar de la media de la muestra del promedio de la población estadística se llama error estándar y se encuentra usando la siguiente fórmula:

$$E.S.E = \frac {S}{ \sqrt {n}} $$

- E.S.E. = Estimated Standard Error
- S = Standard deviation (muestra)
- n = tamaño de la muestra

Estos analálisis ya vienen precargados en los metodos de python, pero era importante conocerlos

## Hipotesis de dos colas

La hipótesis de dos colas es un concepto estadístico que se utiliza en pruebas de hipótesis para evaluar afirmaciones sobre parámetros de una población. Una prueba de hipótesis de dos colas está diseñada para mostrar si la media de la muestra es considerablemente mayor y considerablemente menor que la media de una población

Para su funcionamiento es necesario formular dos hipotesis dentro de ella:

- Hipótesis nula (H0): Afirma que no hay diferencia significativa o efecto.
- Hipótesis alternativa (H1): Afirma que hay una diferencia significativa o efecto.

Ejemplo: Si se esta probando la media de una población las hipotesis Nula y Alternativa serían.

- Hipotesis Nula = No hay diferencia entre la media significativa y la variable analizada `H0: μ = X` (donde μ es la media poblacional y μ0 es un valor específico) 
- Hipotesis Alternativa = La media poblacional es diferente de la variable analizada `H1: μ ≠ X` (dos colas implican "no igual a")

Además es necesario asignar un valor de significancia denominado alpha(α) que será el nivel de probabilidad que estás dispuesto a aceptar como evidencia suficiente para rechazar la hipótesis nula. Comúnmente se usa un nivel de significancia del 5% (α = 0.05). En otras palabras es el umbral o `treshold` que podemos aceptar. Esto se debe a que en 1980 un cientifico llamado Ronald establecio que 1 de cada 20 casos representaba un evento inusual, dando así 1/2 = 0.05 o 5%

Vamos a ilustrarlo en python

In [1]:
import numpy as np
from scipy import stats

# Paso 1: Formulación de hipótesis
# H0: μ = μ0 (media poblacional es igual a un valor específico)
# H1: μ ≠ μ0 (media poblacional es diferente a un valor específico)

# Paso 2: Nivel de significancia (α)
alpha = 0.05

# Paso 3: Datos de muestra
muestra = np.array([23, 25, 22, 27, 18, 30, 28, 21, 24, 20])

# Paso 4: Estadístico de prueba (usaremos la prueba t de Student)
# La variable o valor que queremos analizar será
valor_especifico = 25

#Ttest nos arroja dos resultados el estadistico_prueba y el p_valor
estadistico_prueba, p_valor = stats.ttest_1samp(muestra, valor_especifico)

# Paso 5: Toma de decisión
if p_valor < alpha:
    print(f"Rechazamos la hipótesis nula. Hay evidencia significativa para decir que la media es diferente de {valor_especifico}.")
else:
    print("No hay suficiente evidencia para rechazar la hipótesis nula.")

# Paso 6: Imprimir resultados
print(f"Estadístico de prueba: {estadistico_prueba}")
print(f"P-valor: {p_valor}")


No hay suficiente evidencia para rechazar la hipótesis nula.
Estadístico de prueba: -1.007806519720537
P-valor: 0.33987292518613166


Como observamos, se obtuvieron dos valores clave; El P Valor y el estadístico de prueba. `El p-value es la propabilidad de que ocurra un evento de forma al azar tomando una hipotesis nula como cierta`. El p-valor es la probabilidad de obtener un resultado tan extremo como el observado, asumiendo que la hipótesis nula es verdadera

Se lanza una moneda.

- H<sub>0</sub> = El resultado del tiro no sera difernte de cara
- H<sub>1</sub> = El resultado del tiro no será difernte de cara (cruz)

La probabilidad de que ocurra un evento de forma al azar si la premisa (H<sub>0</sub>) es cierta.

El p-value será 0.50



In [5]:
import numpy as np
from scipy import stats

alpha = 0.05
muestra = np.array([0,1])
valor_especifico = 0

estadistico_prueba, p_valor = stats.ttest_1samp(muestra, valor_especifico)

if p_valor < alpha:
    print(f"Rechazamos la hipótesis nula. Hay evidencia significativa para decir que la media es diferente de {valor_especifico}.")
else:
    print("No hay suficiente evidencia para rechazar la hipótesis nula.")

print(f"Estadístico de prueba: {estadistico_prueba}")
print(f"P-valor: {p_valor}")

No hay suficiente evidencia para rechazar la hipótesis nula.
Estadístico de prueba: 1.0
P-valor: 0.49999999999999956


Tal como lo habíamos analizado el p.value será igual al 0.4999999 redondeado 0.50. Cabe destacar que nunca podrémos obtener el 100% de la probabilidad debido a la naturaleza infinita de la distribución normal

El estadístico de prueba es una medida que indica cuánto se alejan los datos observados de lo que se esperaría bajo la hipótesis nula. En este caso, un valor positivo indica que la media de la muestra está por encima del valor específico que estás probando.

Conclusion = Con la hipotesis de dos colas podemos crear hipotesis de valores que son iguales o diferentes al valor propuesto, pero ¿que pasa si necesitamos crear hipotesis donde el resultado es mayor o menor del que nosotros queremos evaluar? para eso existe la hipotesis de una cola

## Hipotesis de una cola

La hipótesis de una cola se utiliza en pruebas estadísticas cuando estamos interesados en detectar si una muestra es significativamente mayor o menor que un valor específico.

| Si la hipotesis nula establece | Entonces la hipotesis alternativa establece|
|-------------------------------------------|-------------------------------------------|
| La media es `menor` al valor especifico | La media es `mayor` o igual al valor específico |
| La media es `mayor` al valor específico |La media es `menor` o igual al valor especifico  |

 Hay dos tipos de hipótesis de una cola: la hipótesis de cola izquierda y la hipótesis de cola derecha.

El procedimiento general para una prueba de hipótesis de cola es similar al de una prueba de dos colas, pero la región crítica se encuentra solo en un extremo de la distribución. La decisión de rechazar la hipótesis nula se basa en si el estadístico de prueba cae en la región crítica correspondiente.


#### Hipotesis de una cola (Prueba Unilateral Izquierda)

Tu garantizas que tu proyecto online generará al menos $800 por día, quizás más, en solo un mes. Utiliza un dataset con los ingresos diarios del último mes para probar tu hipótesis. La hipótesis es que tus ingresos diarios promedio igualaron o superaron los $800.


In [1]:
from scipy import stats as st
import pandas as pd

ganancias = pd.Series([727, 678, 685, 669, 661, 705, 701, 717, 
                     655,643, 660, 709, 701, 681, 716, 655, 
                     716, 695, 684, 687, 669,647, 721, 681, 
                     674, 641, 704, 717, 656, 725, 684, 665])

valor_especifico = 800  # número promedio de bloques vistos
alpha = 0.05  # nivel de significación

estadistico_prueba,p_valor = st.ttest_1samp(ganancias, valor_especifico)

# Imprimir resultados
print(f"Estadístico de prueba: {estadistico_prueba}")
print(f"P-valor: {p_valor/2}")

# Prueba unilateral a la izquierda
if (p_valor / 2 < alpha) and (ganancias.mean() > valor_especifico):
    print("Rechazamos la hipótesis nula")
else:
    print("No podemos rechazar la hipótesis nula")


Estadístico de prueba: -25.124015568981104
P-valor: 1.7869152078905524e-22
No podemos rechazar la hipótesis nula


#### Hipotesis de una cola (Prueba Unilateral Derecha)

Tomemos el mismo ejercicio, ahora una persona llega y asegura que nuestro negocio genera menos de 800 mensuales, ¿como lo formularíamos?

In [27]:
from scipy import stats as st
import pandas as pd

ganancias = pd.Series([727, 678, 685, 669, 661, 705, 701, 717, 
                     655,643, 660, 709, 701, 681, 716, 655, 
                     716, 695, 684, 687, 669,647, 721, 681, 
                     674, 641, 704, 717, 656, 725, 684, 665])

valor_especifico = 800  # número promedio de bloques vistos
alpha = 0.05  # nivel de significación

estadistico_prueba,p_valor = st.ttest_1samp(ganancias, valor_especifico)

# Imprimir resultados
print(f"Estadístico de prueba: {estadistico_prueba}")
print(f"P-valor: {p_valor/2}")

# Prueba unilateral a la izquierda
if (p_valor / 2 < alpha) and (ganancias.mean() < valor_especifico):  #Solo cambiaria el valor mayor que a menor que después de ganancias.mean()
    print("Rechazamos la hipótesis nula")
else:
    print("No podemos rechazar la hipótesis nula")

Estadístico de prueba: -25.124015568981104
P-valor: 1.7869152078905524e-22
Rechazamos la hipótesis nula


fue muy simple, solo cambiamos el simbolo '<' por '>'después en la segunda condición `(ganancias.mean() < valor_especifico)`

Con esto podemos asegurarle a ese difamador que se equivoca.

## Hipotesis de igualdad
Cuando formulamos hipótesis sobre la igualdad de las medias de dos poblaciones, estamos generalmente interesados en comparar las medias de dos grupos diferentes para determinar si hay evidencia suficiente para sugerir que las medias son diferentes o si podemos asumir que son iguales. Este tipo de prueba es comúnmente conocida como la "prueba de dos muestras".
<br>
<br>

| Si la hipótesis nula establece                     | Entonces la hipótesis alternativa establece | Tipo de Hipótesis |
|---------------------------------------------------|--------------------------------------------|-------------------|
| Las medias de las dos poblaciones 'son iguales'.   | Las medias de las dos poblaciones 'son diferentes'. | Dos colas |
| La media de la primera población 'es mayor o igual' a la segunda. | La media de la primera población 'es menor' a la segunda. | Una cola (derecha) |
| La media de la primera población 'es menor o igual' a la segunda. | La media de la primera población 'es mayor' a la segunda. | Una cola (izquierda) |


En resumen, `la hipotesis de igualdad en vez de basar su comparación solo en los promedios, usa los datasets para realizar una prueba estadística.`

Vamos a plasmarlo en python con el siguiente ejemplo:

Hay dos conjuntos de datos sobre el tiempo promedio que pasan en un sitio web sobre:
1. Los usuarios que inician sesión con nombre de usuario y contraseña.
2. Los usuarios que inician sesión a través de las redes sociales. 

Prueba la hipótesis de que ambos grupos de usuarios pasan la misma cantidad de tiempo en el sitio web.

In [37]:
from scipy import stats as st
import numpy as np

pages_per_session_autumn = [7.1, 7.3, 9.8, 7.3, 6.4, 10.5, 8.7, 
                            17.5, 3.3, 15.5, 16.2, 0.4, 8.3, 
                            8.1, 3.0, 6.1, 4.4, 18.8, 14.7, 16.4, 
                            13.6, 4.4, 7.4, 12.4, 3.9, 13.6, 
                            8.8, 8.1, 13.6, 12.2]
pages_per_session_summer = [12.1, 24.3, 6.4, 19.9, 19.7, 12.5, 17.6, 
                            5.0, 22.4, 13.5, 10.8, 23.4, 9.4, 3.7, 
                            2.5, 19.8, 4.8, 29.0, 1.7, 28.6, 16.7, 
                            14.2, 10.6, 18.2, 14.7, 23.8, 15.9, 16.2, 
                            12.1, 14.5]


statistic, p_valor = st.levene()
# Para poder delimitar equal_var a True las varianzas tendrían que ser iguales, se puede usar el metodo fisher o el metodo levene.


#print(np.var(pages_per_session_autumn))
#print(np.var(pages_per_session_summer))

alpha= 0.05

t_statistic,p_value= st.ttest_ind(pages_per_session_autumn,pages_per_session_summer,equal_var=False)

print(f'El p-value es {p_value}')
print(f'El estadistico t es {t_statistic}')

if p_value<alpha :
    print('La hipotesis nula "las dos poblaciones son iguales" es rechazada')
else:
    print('La hipotesis nula "las dos poblaciones son iguales" no puede ser rechazada')

El p-value es 0.002200163165401993
El estadistico t es -3.229638265767524
La hipotesis nula "las dos poblaciones son iguales" es rechazada


## Hipótesis sobre la igualdad de medias de muestras emparejadas

Cuando trabajamos con muestras emparejadas, estamos comparando dos conjuntos de observaciones que están relacionadas entre sí de alguna manera. Un ejemplo común de muestras emparejadas es cuando las observaciones en el segundo conjunto están relacionadas o corresponden directamente con las observaciones en el primer conjunto, como mediciones repetidas en los mismos sujetos antes y después de una intervención.

| Si la hipótesis nula establece                     | Entonces la hipótesis alternativa establece | Tipo de Hipótesis |
|----------------------------------------------------------------|---------------------------------------------------------|-------------------|
| Las medias de las `diferencias` entre las muestras `'son iguales a cero'`. | Las medias de las diferencias entre las muestras `'son diferentes de cero`'. | Dos colas |
| La media de las diferencias entre las muestras` 'es menor o igual a cero'`. | La media de las diferencias entre las muestras `'es mayor que cero'`. | Una cola (derecha) |
| La media de las diferencias entre las muestras `'es mayor o igual a cero'`. | La media de las diferencias entre las muestras `'es menor que cero'`. | Una cola (izquierda) |

Solo necesita dos parámetros: matrices con datos del antes y después. Las matrices deben ser del mismo tamaño.

Tenemos dos datasets: el peso del paquete en gramos antes de cambiar el método de cálculo del precio de envío y el peso después (para los mismos clientes habituales). Vamos a probar la hipótesis de que el peso del paquete no cambió, aunque sí lo hizo el método para calcular el precio de envío.


In [35]:
from scipy import stats as st
import numpy as np

before = [157, 114, 152, 355, 155, 513, 299, 268, 164, 320, 
                    192, 262, 506, 240, 364, 179, 246, 427, 187, 431, 
                    320, 193, 313, 347, 312, 92, 177, 225, 242, 312]

after = [282, 220, 162, 226, 296, 479, 248, 322, 298, 418, 
                 552, 246, 251, 404, 368, 484, 358, 264, 359, 410, 
                 382, 350, 406, 416, 438, 364, 283, 314, 420, 218]

alpha = 0.05  # el nivel de significancia estadística crítica

t_statistic,p_value = st.ttest_rel(before, after)  #Aqui es donde cambia realmente el código, llamando el metodo ttest_rel()

print('valor p: ', p_value)

if p_value/2 < alpha:
    print("Rechazamos la hipótesis nula")
else:
    print("No podemos rechazar la hipótesis nula") 

valor p:  0.005825972457958989
Rechazamos la hipótesis nula


Los datos proporcionan evidencia suficiente, dado el nivel de significación que seleccionamos, para rechazar la hipótesis nula. Por lo tanto, podemos concluir que ha habido un cambio en los pesos de los paquetes.

https://lucid.app/lucidspark/556c8f81-4781-40d7-b928-a1971cc40eb6/edit?viewport_loc=-859%2C3026%2C3240%2C5253%2C0_0&invitationId=inv_ee874fdd-c64f-4acb-976f-c6697ba744fe