# Desafío 1 - T-test

En estadística, la prueba t se utiliza para verificar si dos muestras de datos tienen una diferencia significativa entre sus medias. Hay dos tipos de t-test:

* **T-test de Student** (también conocida como prueba t independiente o no correlacionada). Este tipo de prueba t se utiliza para comparar las muestras de dos poblaciones independientes (por ejemplo, los puntajes de pruebas de estudiantes en dos clases diferentes). `scipy` proporciona el método [`ttest_ind`](https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.ttest_ind.html) para realizar la prueba t de Student.

* **T-test pareada** (también conocida como prueba t dependiente o correlacionada). Este tipo de prueba t se utiliza para comparar las muestras de **la misma población** (por ejemplo, los puntajes de diferentes pruebas de estudiantes en la misma clase). `scipy` proporciona el método [`ttest_re`](https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.ttest_rel.html) para realizar la prueba t pareada.

Ambos tipos de pruebas t devuelven un número llamado **valor p** (**p-value**). Si el valor p está por debajo de 0.05, podemos declarar con confianza que se rechaza la hipótesis nula y que la diferencia es significativa. Si el valor p está entre 0.05 y 0.1, también podemos declarar que se rechaza la hipótesis nula, pero no con alta confianza. Si el valor p está por encima de 0.1, no rechazamos la hipótesis nula.

Lee más sobre la t-test en [este artículo](https://researchbasics.education.uconn.edu/t-test/) and [esta página de Quora](https://www.quora.com/What-is-the-difference-between-a-paired-and-unpaired-t-test). Asegúrate de entender cuándo usar cada tipo de t-test. 

In [24]:
# Import libraries

import pandas as pd
import numpy as np
from statsmodels.stats.weightstats import ztest as ztest
from scipy.stats import ttest_ind, ttest_rel


#### Importar conjunto de datos

En este desafío, trabajaremos con el conjunto de datos de Pokémon que utilizaste la semana pasada. El objetivo es probar si diferentes grupos de Pokémon (por ejemplo, Legendarios vs. Normales, Generación 1 vs. Generación 2, tipo único vs. tipo dual) tienen diferentes estadísticas (por ejemplo, HP, Ataque, Defensa, etc.).

In [25]:
df = pd.read_csv('../data/Pokemon.csv')
df.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


#### Primero queremos definir una función con la cual podamos probar las medias de un conjunto de características de dos muestras.

En la siguiente celda verás las anotaciones de la función de Python que explican qué hace esta función, sus argumentos y el valor devuelto. Este tipo de anotación se llama **docstring**, que es una convención utilizada entre los desarrolladores de Python. La convención de docstring permite a los desarrolladores escribir documentaciones técnicas consistentes para sus códigos para que otros puedan leerlas. También permite que algunos sitios web analicen automáticamente las docstrings y muestren documentaciones amigables para el usuario.

Sigue las especificaciones del docstring y completa la función.

In [26]:
columnas_numericas = ['Total', 'HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed']

#### Usando la función `t_test_features`, realiza la prueba t para los Pokémon Legendarios vs no Legendarios.

*Pista: tu resultado debería verse como el siguiente:*

```
{'HP': 1.0026911708035284e-13,
 'Attack': 2.520372449236646e-16,
 'Defense': 4.8269984949193316e-11,
 'Sp. Atk': 1.5514614112239812e-21,
 'Sp. Def': 2.2949327864052826e-15,
 'Speed': 1.049016311882451e-18,
 'Total': 9.357954335957446e-47}
 ```

In [27]:
# Función para realizar la prueba t para cada columna numérica
def t_test_features(df, feature, group_col='Legendary'):
    legendary = df[df[group_col]]
    non_legendary = df[~df[group_col]]
    
    t_stat, p_val = ttest_ind(legendary[feature], non_legendary[feature])
    return p_val

# Realizamos la prueba t para cada característica numérica
results = {feature: t_test_features(df, feature) for feature in columnas_numericas}

print(results)

{'Total': 3.0952457469652825e-52, 'HP': 3.3306476848461913e-15, 'Attack': 7.827253003205333e-24, 'Defense': 1.5842226094427259e-12, 'Sp. Atk': 6.314915770427265e-41, 'Sp. Def': 1.8439809580409597e-26, 'Speed': 2.3540754436898437e-21}


#### A partir de los resultados de la prueba anterior, ¿qué conclusión puedes sacar? ¿Tienen los Pokémon Legendarios y no Legendarios estadísticas significativamente diferentes en cada característica?

Debido a que los resultados son muy cercanos a 0 poodemos afirmar que hay diferencias significativas en todas las caracteristicas entre los pokemon Legendarios y los no Legendarios. Por algo son legendarios.

#### A continuación, realiza la prueba t (t-test) para los Pokémon de la Generación 1 (Generation 1) y la Generación 2 (Generation 2).

In [28]:
# Función para realizar la prueba t para cada columna numérica
def t_test_features(df, feature, group_col='Generation'):
    gen1 = df[df[group_col] == 1]
    gen2 = df[df[group_col] == 2]
    
    t_stat, p_val = ttest_ind(gen1[feature], gen2[feature])
    return p_val

# Realizamos la prueba t para cada característica numérica
results = {feature: t_test_features(df, feature) for feature in columnas_numericas}

print(results)

{'Total': 0.5599140649014442, 'HP': 0.13791881412813622, 'Attack': 0.24050968418101454, 'Defense': 0.5407630349194362, 'Sp. Atk': 0.14119788176331508, 'Sp. Def': 0.16781226231606386, 'Speed': 0.00283569548125787}


#### ¿Qué conclusiones puedes sacar?

En general los valores son altos, por lo tanto podriamos decir que no hay diferencias significativas entre los pokemon de generacion 1 y los de generacion 2. Excepto para la variable 'speed', que el valor es muy pequeño e indica que si hay una diferencia significativa.

#### Compara los Pokémon que tienen un solo tipo vs aquellos que tienen dos tipos.

In [29]:
# Función para realizar la prueba t para cada columna numérica
def t_test_features(df, feature, type_col='Type 2'):
    single_type = df[df[type_col].isna()]
    dual_type = df[~df[type_col].isna()]
    
    t_stat, p_val = ttest_ind(single_type[feature], dual_type[feature])
    return p_val

# Realizamos la prueba t para cada característica numérica
results = {feature: t_test_features(df, feature) for feature in columnas_numericas}

print(results)


{'Total': 1.1749035008828753e-07, 'HP': 0.11060643144431842, 'Attack': 0.00015741395666164396, 'Defense': 3.250594205757004e-08, 'Sp. Atk': 0.0001454917404035147, 'Sp. Def': 0.00010893304795534394, 'Speed': 0.024051410794037463}


#### ¿Qué conclusiones puedes sacar?

Los valores son muy pequeños (>0.05) que indica que si hay una diferencia significativa. Excepto para la variable 'HP' que el valor es mayor e indica que no hay diferencia significativa.

#### Ahora, queremos comparar si hay diferencias significativas entre `Attack` vs `Defense` y `Sp. Atk` vs `Sp. Def` de todos los Pokémon. Por favor, escribe tu código a continuación.

*Pista: ¿estás comparando diferentes poblaciones o la misma población?*

In [30]:
# Función para realizar la prueba t de muestras pareadas
def paired_t_test(df, feature1, feature2):
    t_stat, p_val = ttest_rel(df[feature1], df[feature2])
    return p_val

# Realizamos la prueba t para cada par de características
pares = [('Attack', 'Defense'), ('Sp. Atk', 'Sp. Def')]
results = {par: paired_t_test(df, par[0], par[1]) for par in pares}

print(results)

{('Attack', 'Defense'): 1.7140303479358558e-05, ('Sp. Atk', 'Sp. Def'): 0.3933685997548122}


#### ¿Qué conclusiones puedes sacar?

La relacion entre 'Attack' y 'Defense' da un valor muy bajo, cosa que indica que si hay una diferencia significativa entre estos dos valores. Mientras que el par 'Sp. Atk', 'Sp. Def', muestra un valor muy superior, indicando que no hay diferencia significativa.