# Desafío 1 - T-test

En estadística, la prueba t se utiliza para verificar si dos muestras de datos tienen una diferencia significativa entre sus medias. Hay dos tipos de t-test:

* **T-test de Student** (también conocida como prueba t independiente o no correlacionada). Este tipo de prueba t se utiliza para comparar las muestras de dos poblaciones independientes (por ejemplo, los puntajes de pruebas de estudiantes en dos clases diferentes). `scipy` proporciona el método [`ttest_ind`](https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.ttest_ind.html) para realizar la prueba t de Student.

* **T-test pareada** (también conocida como prueba t dependiente o correlacionada). Este tipo de prueba t se utiliza para comparar las muestras de **la misma población** (por ejemplo, los puntajes de diferentes pruebas de estudiantes en la misma clase). `scipy` proporciona el método [`ttest_re`](https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.ttest_rel.html) para realizar la prueba t pareada.

Ambos tipos de pruebas t devuelven un número llamado **valor p** (**p-value**). Si el valor p está por debajo de 0.05, podemos declarar con confianza que se rechaza la hipótesis nula y que la diferencia es significativa. Si el valor p está entre 0.05 y 0.1, también podemos declarar que se rechaza la hipótesis nula, pero no con alta confianza. Si el valor p está por encima de 0.1, no rechazamos la hipótesis nula.

Lee más sobre la t-test en [este artículo](https://researchbasics.education.uconn.edu/t-test/) and [esta página de Quora](https://www.quora.com/What-is-the-difference-between-a-paired-and-unpaired-t-test). Asegúrate de entender cuándo usar cada tipo de t-test. 

In [105]:
from scipy.stats import ttest_ind, ttest_rel 
import pandas as pd

#### Importar conjunto de datos

En este desafío, trabajaremos con el conjunto de datos de Pokémon que utilizaste la semana pasada. El objetivo es probar si diferentes grupos de Pokémon (por ejemplo, Legendarios vs. Normales, Generación 1 vs. Generación 2, tipo único vs. tipo dual) tienen diferentes estadísticas (por ejemplo, HP, Ataque, Defensa, etc.).

In [8]:
pokemon = pd.read_csv(r'C:\Users\ievav\OneDrive\Documents\Ironhack\Assignments\ironhack-lab-hypothesis-testing\data\Pokemon.csv')

In [45]:
pokemon.head(20)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,405,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,534,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,634,78,130,111,130,85,100,1,False
8,6,CharizardMega Charizard Y,Fire,Flying,634,78,104,78,159,115,100,1,False
9,7,Squirtle,Water,,314,44,48,65,50,64,43,1,False


In [64]:
def t_test_features(x, y):
    mean_x = x.mean()
    mean_y = y.mean()
    t_stat, p_value = ttest_ind(x, y, equal_var=False)
    return t_stat, p_value 

#### Usando la función `t_test_features`, realiza la prueba t para los Pokémon Legendarios vs no Legendarios.

*Pista: tu resultado debería verse como el siguiente:*

```
{'HP': 1.0026911708035284e-13,
 'Attack': 2.520372449236646e-16,
 'Defense': 4.8269984949193316e-11,
 'Sp. Atk': 1.5514614112239812e-21,
 'Sp. Def': 2.2949327864052826e-15,
 'Speed': 1.049016311882451e-18,
 'Total': 9.357954335957446e-47}
 ```

In [88]:
legendary = pokemon[pokemon['Legendary'] == True].dropna(subset=['Total'])
not_legendary = pokemon[pokemon['Legendary'] == False].dropna(subset=['Total'])

x = legendary['Total']
y = not_legendary['Total']


t_test_features(x,y)



(25.8335743895517, 9.357954335957446e-47)

#### A partir de los resultados de la prueba anterior, ¿qué conclusión puedes sacar? ¿Tienen los Pokémon Legendarios y no Legendarios estadísticas significativamente diferentes en cada característica?

In [None]:
# Podemos declarar con confianza que se rechaza la hipótesis nula.
# Los Pokémon Legendarios y no Legendarios son significativamente diferentes.

#### A continuación, realiza la prueba t (t-test) para los Pokémon de la Generación 1 (Generation 1) y la Generación 2 (Generation 2).

In [90]:
gen_1 = pokemon[pokemon['Generation'] == 1].dropna(subset=['Total'])
gen_2 = pokemon[pokemon['Generation'] == 2].dropna(subset=['Total'])

x = gen_1['Total']
y = gen_2['Total']


t_test_features(x,y)


(0.579073329450271, 0.5631377907941676)

#### ¿Qué conclusiones puedes sacar?

In [None]:
# No podemos declarar con confianza que se rechaza la hipótesis nula .
# Los Pokémon de Generacion 1 y Generacion 2 no son significativamente diferentes.

#### Compara los Pokémon que tienen un solo tipo vs aquellos que tienen dos tipos.

In [96]:
single_type = pokemon[pokemon['Type 2'].isna()]
not_single_type = pokemon[pokemon['Type 2'].notna()]

x = single_type['Total']
y = not_single_type['Total']

t_test_features(x,y)

(-5.355678438759113, 1.1157056505229961e-07)

#### ¿Qué conclusiones puedes sacar?

In [None]:
# Podemos declarar con confianza que se rechaza la hipótesis nula.
# Los Pokémon que tienen un solo tipo vs aquellos que tienen dos tipos son significativamente diferentes.

#### Ahora, queremos comparar si hay diferencias significativas entre `Attack` vs `Defense` y `Sp. Atk` vs `Sp. Def` de todos los Pokémon. Por favor, escribe tu código a continuación.

*Pista: ¿estás comparando diferentes poblaciones o la misma población?*

In [113]:
# Para comparar las muestras de la misma población usamos   ttest_re

ttest_rel(pokemon['Attack'], pokemon['Defense'])


TtestResult(statistic=4.325566393330478, pvalue=1.7140303479358558e-05, df=799)

In [115]:

ttest_rel(pokemon['Sp. Atk'], pokemon['Sp. Def'])

TtestResult(statistic=0.853986188453353, pvalue=0.3933685997548122, df=799)

#### ¿Qué conclusiones puedes sacar?

In [None]:
# Hay diferencias significativas entre Attack vs Defense - podemos declarar con confianza que se rechaza la hipótesis nula.
# No hay diferencias significativas entre Sp. Atk vs Sp. Def - no podemos declarar con confianza que se rechaza la hipótesis nula.