<a href="https://colab.research.google.com/github/Naren8520/Python/blob/main/Prueba_t_student.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Prueba $t$ de una muestra**
* La prueba $t$ de una muestra se utiliza para comparar la media muestral (una muestra aleatoria de una población) con el valor específico (media hipotética o conocida de la población).
* Por ejemplo, una bola tiene un diámetro de 5 cm y queremos comprobar si el diámetro medio de la bola de la muestra aleatoria (por ejemplo, 50 bolas) recogida de la línea de producción difiere del tamaño conocido.

# **Supuestos**
* La variable dependiente debe tener una distribución aproximadamente normal (prueba de Shapiro-Wilks)
* Las observaciones son independientes entre sí

# **Hipótesis**
* **Hipótesis nula :** la media de la muestra es igual a la media de la población hipotética o conocida
* **Hipótesis alternativa :** la media de la muestra no es igual a la media de la población hipotética o conocida (de dos colas o de dos lados)
* **Hipótesis alternativa :** la media de la muestra es mayor o menor que la media de la población hipotetizada o conocida ( unilateral o unilateral )

# **Fórmula**
$$\it{t} = \frac{ \bar{x} - \mu }{ s / \sqrt{n} }$$

Sigue aproximadamente $t$-distribución con $n-1$ grados de libertad

Dónde, 

$X=$ media muestral; \
$\mu=$ media poblacional hipotética o conocida; \
$s=$ desviación estándar de la muestra y \
$n=$ es el tamaño de la muestra

# **¿Cómo realizar una prueba t de muestra en Python?**

In [None]:
!pip install bioinfokit

In [None]:
from bioinfokit.analys import get_data, stat
# load dataset as pandas dataframe
# the dataset should not have missing (NaN) values. If it has, it will omitted
df = get_data('t_one_samp').data
df.head()

Unnamed: 0,size
0,5.739987
1,5.254042
2,5.152388
3,4.870819
4,3.536251


In [None]:
res = stat()
res.ttest(df=df, test_type=1, res='size', mu=5)
print(res.summary)


One Sample t-test 

------------------  --------
Sample size         50
Mean                 5.05128
t                    0.36789
Df                  49
P-value (one-tail)   0.35727
P-value (two-tail)   0.71454
Lower 95.0%          4.77116
Upper 95.0%          5.3314
------------------  --------


# **Interpretación**
El valor $p$ obtenido de la prueba $t$ de una muestra no es significativo $(p> 0.05)$, y por lo tanto, concluimos que el diámetro promedio de las bolas en una muestra aleatoria es igual a 5 cm.

# **Prueba t de dos muestras (prueba t independiente o no apareada )**
* Prueba $t$ independiente de dos muestras Se utiliza para comparar las medias de dos grupos independientes
* Por ejemplo, tenemos dos genotipos de plantas diferentes (genotipo A y genotipo B) y nos gustaría comparar si el rendimiento del genotipo A es significativamente diferente del genotipo B

# **Dos hipótesis de prueba t de muestra**
* **Hipótesis nula :** las medias de dos grupos son iguales
* **Hipótesis alternativa :** las medias de dos grupos son diferentes (de dos colas o de dos caras)
* **Hipótesis alternativa :** media de un grupo mayor o menor que otro grupo (unilateral o unilateral)

# **Supuestos de prueba t de muestra**
* Las observaciones en dos grupos tienen una distribución aproximadamente normal (prueba de Shapiro-Wilks)
* Homogeneidad de varianzas (las varianzas son iguales entre los grupos de tratamiento) (prueba de Levene o Bartlett)
* Los dos grupos se muestrean de forma independiente entre sí de la misma población

# **Fórmula**
$$\it{t} = \frac{ \bar{x_1} - \bar{x_2} }{   \sqrt{s^2 (\frac{1}{n_1} + \frac{1}{n_2}) } }$$

Sigue aproximadamente $t$- distribución con $n_1+n_2-1$
 grados de libertad

Dónde,
 
$\bar x_1$ y $\bar x_2=$ medias para dos muestras independientes; \
$s^2=$ varianza de la muestra combinada (estimación de la varianza de la \población desconocida $\sigma^2$), y \
$n_1$ y $n_2=$ son el tamaño de la muestra para dos muestras independientes

$s^2$ es calculado como:
$$\it{s^2}  = \frac{ (n_1-1) s_{x_1}^2 + (n_2-1) s_{x_2}^2  }{ n_1+n_2-2 }$$
donde
$s_{x_1}^2$ y $s_{x_2}^2$ varianzas muestrales (estimación de varianzas poblacionales desconocidas $\sigma_{x_1}^2$ y $\sigma_{x_2}^2$

Para la prueba de Welch (donde las variaciones de grupo no son iguales)

$$\it{t} = \frac{ \mid \bar{x_1} - \bar{x_2} \mid }{   \sqrt{ \frac{s_{x_1}^2}{n_1} + \frac{s_{x_2}^2}{n_2} } }$$

Sigue aproximadamente $t$- distribución con $v$ grados de libertad

$$\nu  = \frac{ (s_{x_1}^2/n_1 + s_{x_2}^2/n_2)^2  }{ \frac{ (s_{x_1}^2/n_1)^2 }{n_1-1} + \frac{ (s_{x_2}^2/n_2)^2 }{n_2-1} }$$

# **¿Cómo realizar dos pruebas t de muestra en Python?**

In [None]:
from bioinfokit.analys import get_data, stat
# Cargamos la data con pandas dataframe
# el conjunto de datos no debe tener valores perdidos (NaN). Si lo ha hecho, se omitirá
df = get_data('t_ind_samp').data
df.head()

Unnamed: 0,Genotype,yield
0,A,78.0
1,A,84.3
2,A,81.0
3,B,88.0
4,B,92.0


In [None]:
res = stat()
# para la prueba t de varianza desigual (prueba t de Welch), establezca evar = Falso
res.ttest(df=df, xfac="Genotype", res="yield", test_type=2)
print(res.summary)


Two sample t-test with equal variance

------------------  -------------
Mean diff           -10.3
t                    -5.40709
Std Error             1.90491
df                   10
P-value (one-tail)    0.000149204
P-value (two-tail)    0.000298408
Lower 95.0%         -14.5444
Upper 95.0%          -6.05561
------------------  -------------

Parameter estimates

Level      Number    Mean    Std Dev    Std Error    Lower 95.0%    Upper 95.0%
-------  --------  ------  ---------  -----------  -------------  -------------
A               6    79.1    3.30817      1.35056        75.6283        82.5717
B               6    89.4    3.29059      1.34338        85.9467        92.8533



**Nota :** Aunque puede realizar una prueba t cuando el tamaño de la muestra es desigual entre dos grupos, es más eficiente tener un tamaño de muestra igual en dos grupos para aumentar la potencia de la prueba t .

**Interpretación**
El valor de p obtenido de la prueba t es significativo ( p <0.05), por lo que concluimos que el rendimiento del genotipo A es significativamente diferente al del genotipo B.

# **Prueba $t$ pareada ( prueba t dependiente )**
* Prueba t pareada utilizada para comparar las diferencias entre el par de variables dependientes para el mismo sujeto
* Por ejemplo, tenemos la variedad de planta A y nos gustaría comparar el rendimiento de A antes y después de la aplicación de algún fertilizante.
* Nota : Paired $t -test$ es una muestra de un $t -test$ sobre las diferencias entre las dos variables dependientes

# **Prueba de hipótesis de t-Pariada**
* **Hipótesis nula :** no hay diferencia entre las dos variables dependientes (diferencia = 0)
* **Hipótesis alternativa :** hay una diferencia entre las dos variables dependientes (de dos colas o de dos caras)
* **Hipótesis alternativa :** diferencia entre dos variables de respuesta mayor o menor que cero ( unilateral o unilateral )

# **Emparejado t Supuestos**
* Las diferencias entre las dos variables dependientes siguen una distribución aproximadamente normal (prueba de Shapiro-Wilks)
* La variable independiente debe tener un par de variables dependientes
* Las diferencias entre las dos variables dependientes no deben tener valores atípicos
* Las observaciones se muestrean independientemente unas de otras.

# **Fórmula**

$$\it{t} = \frac{ \bar{d} }{ s_d / \sqrt{n} }$$

Sigue aproximadamente $t$ -distribución con $n-1$ grados de libertad

Dónde, 

$\bar d=$ media de las diferencias muestrales; \
$s_d=$ desviación estándar de las diferencias muestrales y \
$n=$ es el tamaño de la muestra

In [None]:
from bioinfokit.analys import get_data, stat
# Cargamo la data con pandas dataframe
# el conjunto de datos no debe tener valores perdidos (NaN). Si lo ha hecho, se omitirá
df = get_data('t_pair').data
df.head()

Unnamed: 0,BF,AF
0,44.41,47.99
1,46.29,56.64
2,45.98,48.9
3,43.35,49.01
4,45.75,48.41


In [None]:
res = stat()
res.ttest(df=df, res=['AF', 'BF'], test_type=3)
print(res.summary)


Paired t-test 

------------------  ------------
Sample size         65
Difference Mean      5.55262
t                   14.2173
Df                  64
P-value (one-tail)   8.87966e-22
P-value (two-tail)   1.77593e-21
Lower 95.0%          4.7724
Upper 95.0%          6.33283
------------------  ------------


# **Interpretación**
El valor $p$ obtenido a partir de la prueba $t$ es significativo $( p <0.05)$, por lo que concluimos que el rendimiento de la variedad vegetal A aumentó significativamente con la aplicación de fertilizante.