<img src=https://sm.ign.com/ign_es/screenshot/default/blob_wx2q.jpg>

# Desafío 1 - T-test

En estadística, la prueba t se utiliza para verificar si dos muestras de datos tienen una diferencia significativa entre sus medias. Hay dos tipos de t-test:

* **T-test de Student** (también conocida como prueba t independiente o no correlacionada). Este tipo de prueba t se utiliza para comparar las muestras de dos poblaciones independientes (por ejemplo, los puntajes de pruebas de estudiantes en dos clases diferentes). `scipy` proporciona el método [`ttest_ind`](https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.ttest_ind.html) para realizar la prueba t de Student.

* **T-test pareada** (también conocida como prueba t dependiente o correlacionada). Este tipo de prueba t se utiliza para comparar las muestras de **la misma población** (por ejemplo, los puntajes de diferentes pruebas de estudiantes en la misma clase). `scipy` proporciona el método [`ttest_re`](https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.ttest_rel.html) para realizar la prueba t pareada.

Ambos tipos de pruebas t devuelven un número llamado **valor p** (**p-value**). Si el valor p está por debajo de 0.05, podemos declarar con confianza que se rechaza la hipótesis nula y que la diferencia es significativa. Si el valor p está entre 0.05 y 0.1, también podemos declarar que se rechaza la hipótesis nula, pero no con alta confianza. Si el valor p está por encima de 0.1, no rechazamos la hipótesis nula.

Lee más sobre la t-test en [este artículo](https://researchbasics.education.uconn.edu/t-test/) and [esta página de Quora](https://www.quora.com/What-is-the-difference-between-a-paired-and-unpaired-t-test). Asegúrate de entender cuándo usar cada tipo de t-test. 

In [1]:
import pandas as pd

#### Importar conjunto de datos

En este desafío, trabajaremos con el conjunto de datos de Pokémon que utilizaste la semana pasada. El objetivo es probar si diferentes grupos de Pokémon (por ejemplo, Legendarios vs. Normales, Generación 1 vs. Generación 2, tipo único vs. tipo dual) tienen diferentes estadísticas (por ejemplo, HP, Ataque, Defensa, etc.).

In [6]:
pokemon = pd.read_csv('Pokemon.csv')
pokemon.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


#### Primero queremos definir una función con la cual podamos probar las medias de un conjunto de características de dos muestras.

En la siguiente celda verás las anotaciones de la función de Python que explican qué hace esta función, sus argumentos y el valor devuelto. Este tipo de anotación se llama **docstring**, que es una convención utilizada entre los desarrolladores de Python. La convención de docstring permite a los desarrolladores escribir documentaciones técnicas consistentes para sus códigos para que otros puedan leerlas. También permite que algunos sitios web analicen automáticamente las docstrings y muestren documentaciones amigables para el usuario.

Sigue las especificaciones del docstring y completa la función.

In [None]:
# Your code here

#### Usando la función `t_test_features`, realiza la prueba t para los Pokémon Legendarios vs no Legendarios.

*Pista: tu resultado debería verse como el siguiente:*

```
{'HP': 1.0026911708035284e-13,
 'Attack': 2.520372449236646e-16,
 'Defense': 4.8269984949193316e-11,
 'Sp. Atk': 1.5514614112239812e-21,
 'Sp. Def': 2.2949327864052826e-15,
 'Speed': 1.049016311882451e-18,
 'Total': 9.357954335957446e-47}
 ```

In [14]:
def t_test_features(data, feature_list, target_column):
    """
    Perform t-test to compare means of features between two groups.

    Parameters:
    - data (DataFrame): DataFrame containing the data.
    - feature_list (list): List of feature column names to compare.
    - target_column (str): Name of the column specifying the groups.

    Returns:
    - results (dict): Dictionary where keys are feature names and values are p-values from t-test.
    """
    results = {}
    group1 = data[data[target_column] == False]  # Pokémon no Legendarios
    group2 = data[data[target_column] == True]   # Pokémon Legendarios
    
    for feature in feature_list:
        stat, p_value = ttest_ind(group1[feature], group2[feature])
        results[feature] = p_value
        
    return results

# Definir la lista de características a comparar
features_to_compare = ['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed', 'Total']

# Llamar a la función t_test_features
results = t_test_features(pokemon, features_to_compare, 'Legendary')

# Mostrar los resultados
print(results)
    
features_to_compare = ['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed', 'Total']


{'HP': 3.3306476848461913e-15, 'Attack': 7.827253003205333e-24, 'Defense': 1.5842226094427255e-12, 'Sp. Atk': 6.314915770427265e-41, 'Sp. Def': 1.8439809580409597e-26, 'Speed': 2.3540754436898437e-21, 'Total': 3.0952457469652825e-52}


#### A partir de los resultados de la prueba anterior, ¿qué conclusión puedes sacar? ¿Tienen los Pokémon Legendarios y no Legendarios estadísticas significativamente diferentes en cada característica?

Todos estos valores de p son extremadamente pequeños por lo que podemos concluir que los legendarios y no legendarios tienen estadisticas signifcativamente distintas


#### A continuación, realiza la prueba t (t-test) para los Pokémon de la Generación 1 (Generation 1) y la Generación 2 (Generation 2).

In [16]:
gen1_pokemon = pokemon[pokemon['Generation'] == 1]
gen2_pokemon = pokemon[pokemon['Generation'] == 2]

def t_test_features(data1, data2, feature_list):
   
    results = {}
    
    for feature in feature_list:
        stat, p_value = ttest_ind(data1[feature], data2[feature])
        results[feature] = p_value
        
    return results

features_to_compare = ['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed', 'Total']


results_gen1_vs_gen2 = t_test_features(gen1_pokemon, gen2_pokemon, features_to_compare)

print(results_gen1_vs_gen2)


{'HP': 0.13791881412813622, 'Attack': 0.24050968418101454, 'Defense': 0.5407630349194362, 'Sp. Atk': 0.14119788176331508, 'Sp. Def': 0.16781226231606386, 'Speed': 0.0028356954812578704, 'Total': 0.5599140649014442}


#### ¿Qué conclusiones puedes sacar?

In [None]:
El unico stat realmente pèqueño es la velocidad (Speed), por lo que concluimos que de una generacion a la otra si que han cambiado la velocidad

#### Compara los Pokémon que tienen un solo tipo vs aquellos que tienen dos tipos.

In [17]:
#si solo tiene un tipo, el Type 2 sera NaN

single_type_pokemon = pokemon[pokemon['Type 2'].isna()]
dual_type_pokemon = pokemon[~pokemon['Type 2'].isna()]

# Definir la lista de características a comparar
features_to_compare = ['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed', 'Total']

# Realizar la prueba t para las características entre Pokémon de un solo tipo y dos tipos
results_single_vs_dual = t_test_features(single_type_pokemon, dual_type_pokemon, features_to_compare)

# Mostrar los resultados
print(results_single_vs_dual)


{'HP': 0.11060643144431842, 'Attack': 0.00015741395666164396, 'Defense': 3.250594205757004e-08, 'Sp. Atk': 0.0001454917404035147, 'Sp. Def': 0.00010893304795534394, 'Speed': 0.024051410794037463, 'Total': 1.1749035008828753e-07}


#### ¿Qué conclusiones puedes sacar?

In [None]:
El valor p de los stats totales es muy pequeño, pòr lo que concluimos diferencias entre 1 tipo y 2 tipos. Esto es especialmente remarcable si miramos ademas los stats de defensa

#### Ahora, queremos comparar si hay diferencias significativas entre `Attack` vs `Defense` y `Sp. Atk` vs `Sp. Def` de todos los Pokémon. Por favor, escribe tu código a continuación.

*Pista: ¿estás comparando diferentes poblaciones o la misma población?*

In [19]:
from scipy.stats import ttest_rel

pokemon_stats = pokemon[['Attack', 'Defense', 'Sp. Atk', 'Sp. Def']]


def paired_t_test(feature1, feature2):
   
    stat, p_value = ttest_rel(feature1, feature2)
    return p_value


p_value_attack_defense = paired_t_test(pokemon_stats['Attack'], pokemon_stats['Defense'])
print(f'p-value (Attack vs Defense): {p_value_attack_defense}')

p_value_sp_atk_sp_def = paired_t_test(pokemon_stats['Sp. Atk'], pokemon_stats['Sp. Def'])
print(f'p-value (Sp. Atk vs Sp. Def): {p_value_sp_atk_sp_def}')


p-value (Attack vs Defense): 1.7140303479358558e-05
p-value (Sp. Atk vs Sp. Def): 0.3933685997548122


In [None]:
Si que hay diferenciuas entre los stats de defensa y ataque basicos, pero no en los especiales, por lo que al menos en ese sentido estan equilibrados

Aqui estamos cogiendo todos los pokemon como si fueran una sola poblacion

#### ¿Qué conclusiones puedes sacar?

In [None]:
Pero que pasa si comparamos lo mismo entre los legendarios de los no legendarios?
Aqui abajo ya vemos una diferencia abismal, unos valores de p extremadamente bajos que indica la gran diferencia entre estos stats, ataque y defensa basicas como speciales

In [23]:
# Filtrar los datos por Pokémon Legendarios y no Legendarios
legendary_pokemon = pokemon[pokemon['Legendary'] == True]
non_legendary_pokemon = pokemon[pokemon['Legendary'] == False]

def t_test_features_legendary_vs_non_legendary(feature1, feature2):

    stat, p_value = ttest_ind(feature1, feature2)
    return p_value

# Comparar Attack vs Defense para Pokémon Legendarios y no Legendarios
p_value_attack_legendary_vs_non_legendary = t_test_features_legendary_vs_non_legendary(
    legendary_pokemon['Attack'], non_legendary_pokemon['Attack'])
p_value_defense_legendary_vs_non_legendary = t_test_features_legendary_vs_non_legendary(
    legendary_pokemon['Defense'], non_legendary_pokemon['Defense'])

# Comparar Sp. Atk vs Sp. Def para Pokémon Legendarios y no Legendarios
p_value_sp_atk_legendary_vs_non_legendary = t_test_features_legendary_vs_non_legendary(
    legendary_pokemon['Sp. Atk'], non_legendary_pokemon['Sp. Atk'])
p_value_sp_def_legendary_vs_non_legendary = t_test_features_legendary_vs_non_legendary(
    legendary_pokemon['Sp. Def'], non_legendary_pokemon['Sp. Def'])

# Imprimir los resultados
print(f'p-value (Attack Legendario vs No Legendario): {p_value_attack_legendary_vs_non_legendary}')
print(f'p-value (Defense Legendario vs No Legendario): {p_value_defense_legendary_vs_non_legendary}')
print(f'p-value (Sp. Atk Legendario vs No Legendario): {p_value_sp_atk_legendary_vs_non_legendary}')
print(f'p-value (Sp. Def Legendario vs No Legendario): {p_value_sp_def_legendary_vs_non_legendary}')

p-value (Attack Legendario vs No Legendario): 7.827253003205333e-24
p-value (Defense Legendario vs No Legendario): 1.5842226094427255e-12
p-value (Sp. Atk Legendario vs No Legendario): 6.314915770427265e-41
p-value (Sp. Def Legendario vs No Legendario): 1.8439809580409597e-26
