# Desafío 1 - T-test

En estadística, la prueba t se utiliza para verificar si dos muestras de datos tienen una diferencia significativa entre sus medias. Hay dos tipos de t-test:

* **T-test de Student** (también conocida como prueba t independiente o no correlacionada). Este tipo de prueba t se utiliza para comparar las muestras de dos poblaciones independientes (por ejemplo, los puntajes de pruebas de estudiantes en dos clases diferentes). `scipy` proporciona el método [`ttest_ind`](https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.ttest_ind.html) para realizar la prueba t de Student.

* **T-test pareada** (también conocida como prueba t dependiente o correlacionada). Este tipo de prueba t se utiliza para comparar las muestras de **la misma población** (por ejemplo, los puntajes de diferentes pruebas de estudiantes en la misma clase). `scipy` proporciona el método [`ttest_re`](https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.ttest_rel.html) para realizar la prueba t pareada.

Ambos tipos de pruebas t devuelven un número llamado **valor p** (**p-value**). Si el valor p está por debajo de 0.05, podemos declarar con confianza que se rechaza la hipótesis nula y que la diferencia es significativa. Si el valor p está entre 0.05 y 0.1, también podemos declarar que se rechaza la hipótesis nula, pero no con alta confianza. Si el valor p está por encima de 0.1, no rechazamos la hipótesis nula.

Lee más sobre la t-test en [este artículo](https://researchbasics.education.uconn.edu/t-test/) and [esta página de Quora](https://www.quora.com/What-is-the-difference-between-a-paired-and-unpaired-t-test). Asegúrate de entender cuándo usar cada tipo de t-test. 

In [1]:
# Import libraries

import pandas as pd

#### Importar conjunto de datos

En este desafío, trabajaremos con el conjunto de datos de Pokémon que utilizaste la semana pasada. El objetivo es probar si diferentes grupos de Pokémon (por ejemplo, Legendarios vs. Normales, Generación 1 vs. Generación 2, tipo único vs. tipo dual) tienen diferentes estadísticas (por ejemplo, HP, Ataque, Defensa, etc.).

In [2]:
# Import dataset (Pokemon.csv)

pokemon_data = pd.read_csv('../data/Pokemon.csv')

pokemon_data.dtypes

#              int64
Name          object
Type 1        object
Type 2        object
Total          int64
HP             int64
Attack         int64
Defense        int64
Sp. Atk        int64
Sp. Def        int64
Speed          int64
Generation     int64
Legendary       bool
dtype: object

In [3]:
pokemon_data.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


#### Primero queremos definir una función con la cual podamos probar las medias de un conjunto de características de dos muestras.

En la siguiente celda verás las anotaciones de la función de Python que explican qué hace esta función, sus argumentos y el valor devuelto. Este tipo de anotación se llama **docstring**, que es una convención utilizada entre los desarrolladores de Python. La convención de docstring permite a los desarrolladores escribir documentaciones técnicas consistentes para sus códigos para que otros puedan leerlas. También permite que algunos sitios web analicen automáticamente las docstrings y muestren documentaciones amigables para el usuario.

Sigue las especificaciones del docstring y completa la función.

In [4]:
from scipy.stats import ttest_ind

def t_test_features(data, features, field, group1_label, group2_label):
    """
    Realiza una prueba t independiente en las características especificadas para dos grupos dentro de un conjunto de datos.

    Parámetros:
    data (pd.DataFrame): El conjunto de datos que contiene los datos a probar.
    features (list of str): La lista de nombres de características sobre las cuales realizar la prueba t.
    field (str): El nombre de la columna que contiene las etiquetas de los grupos.
    group1_label (str o int): La etiqueta para el primer grupo.
    group2_label (str o int): La etiqueta para el segundo grupo.

    Retorna:
    dict: Un diccionario donde las claves son nombres de características y los valores son los valores p de la prueba t.
    """
    p_values = {}

    for feature in features:
        group1 = data[data[field] == group1_label][feature]
        group2 = data[data[field] == group2_label][feature]

        # Realizando la prueba t independiente
        t_statistic, p_value = ttest_ind(group1, group2, equal_var=False)
        p_values[feature] = p_value
    
    return p_values

#### Usando la función `t_test_features`, realiza la prueba t para los Pokémon Legendarios vs no Legendarios.

*Pista: tu resultado debería verse como el siguiente:*

```
{'HP': 1.0026911708035284e-13,
 'Attack': 2.520372449236646e-16,
 'Defense': 4.8269984949193316e-11,
 'Sp. Atk': 1.5514614112239812e-21,
 'Sp. Def': 2.2949327864052826e-15,
 'Speed': 1.049016311882451e-18,
 'Total': 9.357954335957446e-47}
 ```

In [5]:
# Your code here

features = ['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed', 'Total']
field = 'Legendary'
group1_label = True
group2_label = False

p_values_dict = t_test_features(pokemon_data, features, field, group1_label, group2_label)
p_values_dict

{'HP': 1.0026911708035284e-13,
 'Attack': 2.520372449236646e-16,
 'Defense': 4.8269984949193316e-11,
 'Sp. Atk': 1.5514614112239812e-21,
 'Sp. Def': 2.2949327864052826e-15,
 'Speed': 1.049016311882451e-18,
 'Total': 9.357954335957446e-47}

#### A partir de los resultados de la prueba anterior, ¿qué conclusión puedes sacar? ¿Tienen los Pokémon Legendarios y no Legendarios estadísticas significativamente diferentes en cada característica?

In [6]:
# Your comment here

def analyze_ttest_results(p_values_dict, alpha=0.05):
    """
    Analiza los resultados de las pruebas t de Student y proporciona una conclusión
    sobre si los Pokémon Legendarios y no Legendarios tienen estadísticas significativamente diferentes.

    Parameters:
    - p_values_dict (dict): Un diccionario donde las claves son las características y los valores son los valores p correspondientes.
    - alpha (float): Nivel de significancia para la prueba, por defecto 0.05.

    Returns:
    - dict: Un diccionario donde las claves son las características y los valores son True si la diferencia es significativa (valor p < alpha),
            False si la diferencia no es significativa (valor p >= alpha).
    """
    conclusions = {}

    for feature, p_value in p_values_dict.items():
        if p_value < alpha:
            conclusions[feature] = 'Hay una diferencia significativa'
        else:
            conclusions[feature] = 'No hay una diferencia significativa'
            
    return conclusions


In [7]:
# Analizar los resultados
conclusions = analyze_ttest_results(p_values_dict)
conclusions 

{'HP': 'Hay una diferencia significativa',
 'Attack': 'Hay una diferencia significativa',
 'Defense': 'Hay una diferencia significativa',
 'Sp. Atk': 'Hay una diferencia significativa',
 'Sp. Def': 'Hay una diferencia significativa',
 'Speed': 'Hay una diferencia significativa',
 'Total': 'Hay una diferencia significativa'}

#### A continuación, realiza la prueba t (t-test) para los Pokémon de la Generación 1 (Generation 1) y la Generación 2 (Generation 2).

In [8]:
# Your code here

features = ['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed', 'Total']
field = 'Generation'
group1_label = 1  
group2_label = 2  

p_values_gen1_gen2 = t_test_features(pokemon_data, features, field, group1_label, group2_label)
p_values_gen1_gen2

{'HP': 0.14551697834219623,
 'Attack': 0.24721958967217725,
 'Defense': 0.5677711011725426,
 'Sp. Atk': 0.12332165977104388,
 'Sp. Def': 0.18829872292645752,
 'Speed': 0.00239265937312135,
 'Total': 0.5631377907941676}

#### ¿Qué conclusiones puedes sacar?

In [9]:
# Your comment here

conclusions = analyze_ttest_results(p_values_gen1_gen2)
conclusions

{'HP': 'No hay una diferencia significativa',
 'Attack': 'No hay una diferencia significativa',
 'Defense': 'No hay una diferencia significativa',
 'Sp. Atk': 'No hay una diferencia significativa',
 'Sp. Def': 'No hay una diferencia significativa',
 'Speed': 'Hay una diferencia significativa',
 'Total': 'No hay una diferencia significativa'}

#### Compara los Pokémon que tienen un solo tipo vs aquellos que tienen dos tipos.

In [10]:
# Your code here

def t_test_features_nan(data, features, field, group1_label, group2_label):
    """
    Realiza una prueba t independiente en las características especificadas para dos grupos dentro de un conjunto de datos.

    Parámetros:
    data (pd.DataFrame): El conjunto de datos que contiene los datos a probar.
    features (list of str): La lista de nombres de características sobre las cuales realizar la prueba t.
    field (str): El nombre de la columna que contiene las etiquetas de los grupos.
    group1_label (object): La etiqueta que identifica al primer grupo (en este caso, NaN).
    group2_label (object): La etiqueta que identifica al segundo grupo (en este caso, no NaN).

    Retorna:
    dict: Un diccionario donde las claves son nombres de características y los valores son los valores p de la prueba t.
    """
    p_values = {}

    for feature in features:
        group1 = data[data[field].isna()][feature]  # Pokémon con un solo tipo (NaN en Type 2)
        group2 = data[data[field].notna()][feature]  # Pokémon con dos tipos (no NaN en Type 2)

        # Realizando la prueba t independiente
        t_statistic, p_value = ttest_ind(group1, group2, equal_var=False)
        p_values[feature] = p_value
    
    return p_values

In [11]:

features = ['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed', 'Total']
field = 'Type 2'
group1_label = None  # Etiqueta para Pokémon con un solo tipo (NaN en Type 2)
group2_label = 'Not None'  # Etiqueta para Pokémon con dos tipos (no NaN en Type 2)

p_values_type2 = t_test_features_nan(pokemon_data, features, field, group1_label, group2_label)
p_values_type2

{'HP': 0.11314389855379413,
 'Attack': 0.00014932578145948305,
 'Defense': 2.7978540411514693e-08,
 'Sp. Atk': 0.00013876216585667907,
 'Sp. Def': 0.00010730610934512779,
 'Speed': 0.02421703281819093,
 'Total': 1.1157056505229961e-07}

#### ¿Qué conclusiones puedes sacar?

In [12]:
# Your comment here

conclusions = analyze_ttest_results(p_values_type2)
conclusions

{'HP': 'No hay una diferencia significativa',
 'Attack': 'Hay una diferencia significativa',
 'Defense': 'Hay una diferencia significativa',
 'Sp. Atk': 'Hay una diferencia significativa',
 'Sp. Def': 'Hay una diferencia significativa',
 'Speed': 'Hay una diferencia significativa',
 'Total': 'Hay una diferencia significativa'}

#### Ahora, queremos comparar si hay diferencias significativas entre `Attack` vs `Defense` y `Sp. Atk` vs `Sp. Def` de todos los Pokémon. Por favor, escribe tu código a continuación.

*Pista: ¿estás comparando diferentes poblaciones o la misma población?*

In [16]:
# Your code here

from scipy.stats import ttest_rel


# Definir las características a comparar
features_pairs = [('Attack', 'Defense'), ('Sp. Atk', 'Sp. Def')]

# Inicializar un diccionario para almacenar los valores p
p_values_pairs = {}

# Iterar sobre los pares de características y realizar la prueba t pareada para cada par
for feature1, feature2 in features_pairs:
    # Obtener los valores de las características para cada par
    group1 = pokemon_data[feature1]
    group2 = pokemon_data[feature2]

    # Realizar la prueba t pareada
    t_statistic, p_value = ttest_rel(group1, group2)
    p_values_pairs[(feature1, feature2)] = p_value

# Imprimir los resultados
print("Resultados de la prueba t pareada para comparar las características:")
for (feature1, feature2), p_value in p_values_pairs.items():
    print(f"{feature1} vs {feature2}: p-value = {p_value}")

Resultados de la prueba t pareada para comparar las características:
Attack vs Defense: p-value = 1.7140303479358558e-05
Sp. Atk vs Sp. Def: p-value = 0.3933685997548122


#### ¿Qué conclusiones puedes sacar?

In [20]:
# Your comment here

def analyze_ttest_results(p_values_dict, alpha=0.05):
    conclusions = {}
    for (feature1, feature2), p_value in p_values_dict.items():
        if p_value < alpha:
            conclusions[f"{feature1} vs {feature2}"] = 'Hay una diferencia significativa'
        else:
            conclusions[f"{feature1} vs {feature2}"] = 'No hay una diferencia significativa'
    return conclusions

In [21]:
conclusions = analyze_ttest_results(p_values_pairs)
conclusions

{'Attack vs Defense': 'Hay una diferencia significativa',
 'Sp. Atk vs Sp. Def': 'No hay una diferencia significativa'}