# Tipo de pruebas de hipotesis

In [2]:
import numpy as np
import pandas as pd
import scipy.stats as st
from scipy.stats import f_oneway
from scipy.stats import ttest_ind
from sklearn import datasets

## Se usara la bas de datos iris

In [5]:
csv_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
# using the attribute information as the column names
col_names = ['Sepal_Length','Sepal_Width','Petal_Length','Petal_Width','Class']
iris =  pd.read_csv(csv_url, names = col_names)

Unnamed: 0,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


# Hipotesis 
- H0: La distribucion de Sepal_Length, Sepal_Width son muy similares
- H1: La distribucion de Sepal_Length, Sepal_Width son muy diferentes

## Tipos de pruebas
### A. Distribucion t de Student
#### Ecuacion
$$ t=\frac{(x_1-x_2)}{\sqrt{\frac{(S_1^2)}{n_1} + \frac{(S_2^2)}{n_2} }}$$

#### Paso 1

$$SE = \frac{\sigma}{\sqrt{N}} = \frac{(S_1^2)}{n_1}$$

In [6]:
se_leg = iris.std()['Sepal_Length']/np.sqrt(10)
se_wid = iris.std()['Sepal_Width']/np.sqrt(10)

  se_leg = iris.std()['Sepal_Length']/np.sqrt(10)
  se_wid = iris.std()['Sepal_Width']/np.sqrt(10)


#### Paso 2: Standar Error Desviation
$$ SED = \sqrt{ \frac{\sigma_1^2}{N_1} + \frac{\sigma_1^2}{N_2} } = \sqrt{\frac{(S_1^2)}{n_1} + \frac{(S_2^2)}{n_2} }$$

In [7]:
sed = np.sqrt(se_leg**2 + se_wid**2)

#### Paso 3

$$ t=\frac{(\overline{x_1}-\overline{x_2})}{ SED } = \frac{(x_1-x_2)}{\sqrt{\frac{(S_1^2)}{n_1} + \frac{(S_2^2)}{n_2} }}$$

In [10]:
t = (iris["Sepal_Length"].mean()-iris["Sepal_Width"].mean())/sed
t

9.436693738890318

In [12]:
p = ttest_ind(iris["Sepal_Length"],iris["Sepal_Width"])
p

Ttest_indResult(statistic=36.548157693982006, pvalue=3.987838114848222e-112)

## Conclusion
nuestro valor absoluto t (9.4366) es mayor a p (pvalue=3.987e-112) las distribuciones son muy diferentes, estamos rechazando nuestra H0 (hipotesis nula) de nuestra teoria inicial que era la distribucion de ambas eran muy similares, como no sucede se rechaza la H0 y se va a H1 que indica la distribucion de ambas son muy diferentes

Si t < pvalue, se aceptaria H0

## La función ttest_ind de la biblioteca SciPy
Se utiliza para realizar una prueba t de dos muestras independientes. La prueba t es una prueba estadística que determina si hay una diferencia significativa entre las medias de dos grupos o muestras independientes.

La función devuelve dos valores:

- `t_statistic:` el valor de la estadística t calculado.
- `p_value:` el valor p asociado a la prueba t.

El valor de `t_statistic` se utiliza para determinar la magnitud de la diferencia entre las medias de las dos muestras, mientras que `el p_value` indica la probabilidad de obtener una diferencia tan extrema (o más extrema) entre las medias si la hipótesis nula (que no hay diferencia significativa) es cierta.

La `estadística t` es un valor que indica la magnitud de la diferencia entre las medias de las dos muestras y cómo se compara con la variabilidad dentro de las muestras.

El `valor p` es la probabilidad de obtener una diferencia igual o más extrema que la observada en las muestras si la hipótesis nula (que las medias son iguales) fuera verdadera. Un valor p bajo (generalmente, por debajo de un umbral de significancia predeterminado, como 0.05) indica que hay evidencia suficiente para rechazar la hipótesis nula y concluir que hay una diferencia significativa entre las medias de las muestras.