# Tipo de pruebas de hipotesis

In [1]:
import numpy as np
import pandas as pd
import scipy.stats as st
from scipy.stats import f_oneway
from scipy.stats import ttest_ind
from sklearn import datasets

## Se usara la bas de datos iris

In [2]:
csv_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
# using the attribute information as the column names
col_names = ['Sepal_Length','Sepal_Width','Petal_Length','Petal_Width','Class']
iris =  pd.read_csv(csv_url, names = col_names)

# Hipotesis 
- H0: La distribucion de Sepal_Length, Sepal_Width son muy similares
- H1: La distribucion de Sepal_Length, Sepal_Width son muy diferentes

## Tipos de pruebas
### A. Distribucion t de Student
#### Ecuacion
$$ t=\frac{(x_1-x_2)}{\sqrt{\frac{(S_1^2)}{n_1} + \frac{(S_2^2)}{n_2} }}$$

#### Paso 1

$$SE = \frac{\sigma}{\sqrt{N}} = \frac{(S_1^2)}{n_1}$$

In [3]:
se_leg = iris.std()['Sepal_Length']/np.sqrt(10)
se_wid = iris.std()['Sepal_Width']/np.sqrt(10)

  se_leg = iris.std()['Sepal_Length']/np.sqrt(10)
  se_wid = iris.std()['Sepal_Width']/np.sqrt(10)


#### Paso 2: Standar Error Desviation
$$ SED = \sqrt{ \frac{\sigma_1^2}{N_1} + \frac{\sigma_1^2}{N_2} } = \sqrt{\frac{(S_1^2)}{n_1} + \frac{(S_2^2)}{n_2} }$$

In [4]:
sed = np.sqrt(se_leg**2 + se_wid**2)

#### Paso 3

$$ t=\frac{(\overline{x_1}-\overline{x_2})}{ SED } = \frac{(x_1-x_2)}{\sqrt{\frac{(S_1^2)}{n_1} + \frac{(S_2^2)}{n_2} }}$$

In [5]:
t = (iris["Sepal_Length"].mean()-iris["Sepal_Width"].mean())/sed
t

9.436693738890318

In [11]:
p = ttest_ind(iris["Sepal_Length"], iris["Sepal_Width"])
p

Ttest_indResult(statistic=36.548157693982006, pvalue=3.987838114848222e-112)

#### `Conclusion`
nuestro valor absoluto t (9.4366) es mayor a p (pvalue=3.987e-112) las distribuciones son muy diferentes, estamos rechazando nuestra H0 (hipotesis nula) de nuestra teoria inicial que era la distribucion de ambas eran muy similares, como no sucede se rechaza la H0 y se va a H1 que indica la distribucion de ambas son muy diferentes

Si t < pvalue, se aceptaria H0

#### La función ttest_ind de la biblioteca SciPy
Se utiliza para realizar una prueba t de dos muestras independientes. La prueba t es una prueba estadística que determina si hay una diferencia significativa entre las medias de dos grupos o muestras independientes.

La función devuelve dos valores:

- `t_statistic:` el valor de la estadística t calculado.
- `p_value:` el valor p asociado a la prueba t.

El valor de `t_statistic` se utiliza para determinar la magnitud de la diferencia entre las medias de las dos muestras, mientras que `el p_value` indica la probabilidad de obtener una diferencia tan extrema (o más extrema) entre las medias si la hipótesis nula (que no hay diferencia significativa) es cierta.

La `estadística t` es un valor que indica la magnitud de la diferencia entre las medias de las dos muestras y cómo se compara con la variabilidad dentro de las muestras.

El `valor p` es la probabilidad de obtener una diferencia igual o más extrema que la observada en las muestras si la hipótesis nula (que las medias son iguales) fuera verdadera. Un valor p bajo (generalmente, por debajo de un umbral de significancia predeterminado, como 0.05) indica que hay evidencia suficiente para rechazar la hipótesis nula y concluir que hay una diferencia significativa entre las medias de las muestras.

#### `Explicacion`
En la prueba t de Student, se calcula un valor de t que representa la diferencia entre las medias de las dos muestras en relación con la variabilidad dentro de las muestras. Cuanto mayor sea el valor de t, mayor será la evidencia en contra de la hipótesis nula.

En tu caso, has obtenido un valor de t igual a 9.436693738890318, lo cual es un valor relativamente alto. Además, al aplicar la prueba de t-student utilizando el código p = ttest_ind(iris["Sepal_Length"], iris["Sepal_Width"]), obtuviste un valor de p-value igual a 3.987838114848222e-112.

<u>El p-value es una medida que indica la probabilidad de observar los datos actuales o más extremos bajo la suposición de que la hipótesis nula es verdadera</u>. Un p-value muy pequeño sugiere una fuerte evidencia en contra de la hipótesis nula.

En este caso, el valor de p-value es extremadamente pequeño (3.987838114848222e-112), lo que indica que la probabilidad de observar los datos actuales o más extremos asumiendo que las distribuciones son muy similares es prácticamente nula. lo que significa que la probabilidad de obtener los resultados observados (o incluso resultados más extremos) asumiendo que las distribuciones de Sepal_Length y Sepal_Width son muy similares (H0 es verdadera) es extremadamente baja.

Por lo tanto, dado que el valor de p-value es muy pequeño, se descarta la hipótesis nula (H0) y se acepta la hipótesis alternativa (H1). 

### B. Correlacion y coeficiente de Pearson

In [7]:
iris["Sepal_Length"].corr(iris["Sepal_Width"])

-0.10936924995064935

In [9]:
st.pearsonr(iris["Sepal_Length"], iris["Sepal_Width"])

PearsonRResult(statistic=-0.10936924995064937, pvalue=0.1827652152713699)

#### `Explicacion`
- Un valor de -1 indica una correlación negativa perfecta
- Un valor de 1 indica una correlación positiva perfecta 
- Un valor de 0 indica una falta de correlación lineal.

El valor del coeficiente de correlación de Pearson obtenido es -0.10936924995064935. Este valor está cerca de cero y es negativo, lo que indica una correlación débil y negativa entre las variables Sepal_Length y Sepal_Width. Sin embargo, el valor de correlación por sí solo no es suficiente para tomar una decisión sobre las hipótesis.

El p-value representa la probabilidad de obtener una correlación igual o más extrema que la observada si la hipótesis nula (H0) fuera verdadera. Al observar el p-value asociado, que es 0.1827652152713699, podemos interpretar que hay una probabilidad del 18.3% de obtener un valor de correlación igual o más extremo que el observado si la hipótesis nula (H0) de que las distribuciones de Sepal_Length y Sepal_Width son muy similares fuera verdadera.

Dado que el p-value obtenido es mayor que el nivel de significancia típicamente utilizado (como 0.05 o 0.01), no hay suficiente evidencia estadística para rechazar la hipótesis nula (H0) y concluir que las distribuciones de Sepal_Length y Sepal_Width son diferentes. 

### C. Analisis de la varianza (ANOVA)

In [10]:
f_oneway(iris["Sepal_Length"], iris["Sepal_Width"])

F_onewayResult(statistic=1335.7678308241748, pvalue=3.9878381148486907e-112)

#### `Explicacion`

En tu caso, el valor del estadístico F obtenido (1335.7678308241748) es bastante alto. Esto sugiere que la variabilidad entre las distribuciones de Sepal_Length y Sepal_Width es significativamente mayor que la variabilidad dentro de las distribuciones.
El valor del estadístico (statistic) obtenido indica la diferencia entre las medias de los grupos. En este caso, <u>un valor alto del estadístico sugiere una mayor diferencia entre las distribuciones</u> de Sepal_Length y Sepal_Width.

El p-value obtenido representa la probabilidad de obtener una diferencia entre las distribuciones igual o más extrema que la observada si la hipótesis nula (H0) fuera verdadera. 
El p-value obtenido (3.9878381148486907e-112) es extremadamente bajo, indicando una probabilidad extremadamente baja de obtener el estadístico F observado (o incluso uno más extremo) si asumimos que las distribuciones son muy similares (H0 es verdadera).

Dado que el p-value es mucho menor que un nivel de significancia típicamente utilizado (como 0.05 o 0.01), hay suficiente evidencia estadística para rechazar la hipótesis nula (H0) en este caso.

## Video de P-valu
https://www.youtube.com/watch?v=pUPGolV2AE0