# Desafío 1 - T-test

En estadística, la prueba t se utiliza para verificar si dos muestras de datos tienen una diferencia significativa entre sus medias. Hay dos tipos de t-test:

* **T-test de Student** (también conocida como prueba t independiente o no correlacionada). Este tipo de prueba t se utiliza para comparar las muestras de dos poblaciones independientes (por ejemplo, los puntajes de pruebas de estudiantes en dos clases diferentes). `scipy` proporciona el método [`ttest_ind`](https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.ttest_ind.html) para realizar la prueba t de Student.

* **T-test pareada** (también conocida como prueba t dependiente o correlacionada). Este tipo de prueba t se utiliza para comparar las muestras de **la misma población** (por ejemplo, los puntajes de diferentes pruebas de estudiantes en la misma clase). `scipy` proporciona el método [`ttest_re`](https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.ttest_rel.html) para realizar la prueba t pareada.

Ambos tipos de pruebas t devuelven un número llamado **valor p** (**p-value**). Si el valor p está por debajo de 0.05, podemos declarar con confianza que se rechaza la hipótesis nula y que la diferencia es significativa. Si el valor p está entre 0.05 y 0.1, también podemos declarar que se rechaza la hipótesis nula, pero no con alta confianza. Si el valor p está por encima de 0.1, no rechazamos la hipótesis nula.

Lee más sobre la t-test en [este artículo](https://researchbasics.education.uconn.edu/t-test/) and [esta página de Quora](https://www.quora.com/What-is-the-difference-between-a-paired-and-unpaired-t-test). Asegúrate de entender cuándo usar cada tipo de t-test. 

In [5]:
# Import libraries

# Import libraries
import pandas as pd
import numpy as np
from scipy.stats import ttest_ind, ttest_rel

#### Importar conjunto de datos

En este desafío, trabajaremos con el conjunto de datos de Pokémon que utilizaste la semana pasada. El objetivo es probar si diferentes grupos de Pokémon (por ejemplo, Legendarios vs. Normales, Generación 1 vs. Generación 2, tipo único vs. tipo dual) tienen diferentes estadísticas (por ejemplo, HP, Ataque, Defensa, etc.).

In [6]:
# Import dataset (Pokemon.csv)
pokemon = pd.read_csv('../data/Pokemon.csv')

#### Primero queremos definir una función con la cual podamos probar las medias de un conjunto de características de dos muestras.

En la siguiente celda verás las anotaciones de la función de Python que explican qué hace esta función, sus argumentos y el valor devuelto. Este tipo de anotación se llama **docstring**, que es una convención utilizada entre los desarrolladores de Python. La convención de docstring permite a los desarrolladores escribir documentaciones técnicas consistentes para sus códigos para que otros puedan leerlas. También permite que algunos sitios web analicen automáticamente las docstrings y muestren documentaciones amigables para el usuario.

Sigue las especificaciones del docstring y completa la función.

In [7]:
def t_test_features(df, feature_columns, group_column):
    """
    Realiza pruebas t en un conjunto de características de dos muestras.

    Argumentos:
    df -- DataFrame que contiene los datos
    feature_columns -- Lista de nombres de columnas de características que se probarán
    group_column -- Nombre de la columna que contiene las etiquetas de grupo

    Devuelve:
    Un diccionario que mapea cada característica a su valor p de la prueba t
    """
    group_labels = df[group_column].unique()
    if len(group_labels) != 2:
        raise ValueError("La columna de grupo debe contener exactamente dos grupos para una prueba t.")

    group1 = df[df[group_column] == group_labels[0]]
    group2 = df[df[group_column] == group_labels[1]]
    
    p_values = {}
    for feature in feature_columns:
        t_stat, p_value = ttest_ind(group1[feature].dropna(), group2[feature].dropna())
        p_values[feature] = p_value
        
    return p_values


#### Usando la función `t_test_features`, realiza la prueba t para los Pokémon Legendarios vs no Legendarios.

*Pista: tu resultado debería verse como el siguiente:*

```
{'HP': 1.0026911708035284e-13,
 'Attack': 2.520372449236646e-16,
 'Defense': 4.8269984949193316e-11,
 'Sp. Atk': 1.5514614112239812e-21,
 'Sp. Def': 2.2949327864052826e-15,
 'Speed': 1.049016311882451e-18,
 'Total': 9.357954335957446e-47}
 ```

In [8]:
# Your code here
# Definir las características a probar y la columna de grupo
features = ['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed', 'Total']
group_column = 'Legendary'

# Realizar la prueba t
legendary_vs_nonlegendary = t_test_features(pokemon, features, group_column)
legendary_vs_nonlegendary

{'HP': 3.3306476848461913e-15,
 'Attack': 7.827253003205333e-24,
 'Defense': 1.5842226094427255e-12,
 'Sp. Atk': 6.314915770427265e-41,
 'Sp. Def': 1.8439809580409597e-26,
 'Speed': 2.3540754436898437e-21,
 'Total': 3.0952457469652825e-52}

#### A partir de los resultados de la prueba anterior, ¿qué conclusión puedes sacar? ¿Tienen los Pokémon Legendarios y no Legendarios estadísticas significativamente diferentes en cada característica?

Los valores p para todas las características son extremadamente bajos (muy por debajo de 0.05), lo que indica que hay diferencias significativas en todas las estadísticas entre los Pokémon Legendarios y no Legendarios.

#### A continuación, realiza la prueba t (t-test) para los Pokémon de la Generación 1 (Generation 1) y la Generación 2 (Generation 2).

In [9]:
# Your code here
# Filtrar solo Generación 1 y Generación 2
gen1_vs_gen2 = pokemon[pokemon['Generation'].isin([1, 2])]

# Realizar la prueba t
generation1_vs_generation2 = t_test_features(gen1_vs_gen2, features, 'Generation')
generation1_vs_generation2

{'HP': 0.13791881412813622,
 'Attack': 0.24050968418101448,
 'Defense': 0.5407630349194362,
 'Sp. Atk': 0.14119788176331508,
 'Sp. Def': 0.1678122623160639,
 'Speed': 0.0028356954812578704,
 'Total': 0.5599140649014442}

#### ¿Qué conclusiones puedes sacar?

Los valores p para todas las características, excepto Speed, son mayores que 0.05, lo que indica que no hay diferencias significativas en la mayoría de las estadísticas entre los Pokémon de la Generación 1 y la Generación 2. Sin embargo, hay una diferencia significativa en Speed.

#### Compara los Pokémon que tienen un solo tipo vs aquellos que tienen dos tipos.

In [11]:
# Your code here
# Crear una columna para indicar si el Pokémon tiene un solo tipo o dos tipos
pokemon['Type Count'] = pokemon.apply(lambda x: 2 if pd.notna(x['Type 2']) else 1, axis=1)

# Realizar la prueba t
single_type_vs_dual_type = t_test_features(pokemon, features, 'Type Count')
single_type_vs_dual_type

{'HP': 0.11060643144431842,
 'Attack': 0.00015741395666164396,
 'Defense': 3.250594205757004e-08,
 'Sp. Atk': 0.0001454917404035147,
 'Sp. Def': 0.00010893304795534397,
 'Speed': 0.02405141079403746,
 'Total': 1.1749035008828753e-07}

#### ¿Qué conclusiones puedes sacar?

Los valores p para HP son mayores que 0.05, lo que indica que no hay diferencias significativas en esta característica. Sin embargo, para Attack, Defense, Sp. Atk, Sp. Def, Speed y Total, los valores p son menores que 0.05, indicando diferencias significativas entre los Pokémon de un solo tipo y dos tipos.

#### Ahora, queremos comparar si hay diferencias significativas entre `Attack` vs `Defense` y `Sp. Atk` vs `Sp. Def` de todos los Pokémon. Por favor, escribe tu código a continuación.

*Pista: ¿estás comparando diferentes poblaciones o la misma población?*

In [12]:
# Your code here
# Realizar la prueba t pareada para Attack vs Defense
t_stat_attack_defense, p_value_attack_defense = ttest_rel(pokemon['Attack'], pokemon['Defense'])

# Realizar la prueba t pareada para Sp. Atk vs Sp. Def
t_stat_spatk_spdef, p_value_spatk_spdef = ttest_rel(pokemon['Sp. Atk'], pokemon['Sp. Def'])

p_value_attack_defense, p_value_spatk_spdef


(1.7140303479358558e-05, 0.3933685997548122)

#### ¿Qué conclusiones puedes sacar?

El valor p para Attack vs Defense es muy bajo (mucho menor que 0.05), indicando que hay una diferencia significativa entre Attack y Defense en todos los Pokémon.
</br>
</br>
El valor p para Sp. Atk vs Sp. Def es mayor que 0.05, indicando que no hay una diferencia significativa entre Sp. Atk y Sp. Def en todos los Pokémon.