# Lab | Hypothesis Testing

**Objective**

Welcome to the Hypothesis Testing Lab, where we embark on an enlightening journey through the realm of statistical decision-making! In this laboratory, we delve into various scenarios, applying the powerful tools of hypothesis testing to scrutinize and interpret data.

From testing the mean of a single sample (One Sample T-Test), to investigating differences between independent groups (Two Sample T-Test), and exploring relationships within dependent samples (Paired Sample T-Test), our exploration knows no bounds. Furthermore, we'll venture into the realm of Analysis of Variance (ANOVA), unraveling the complexities of comparing means across multiple groups.

So, grab your statistical tools, prepare your hypotheses, and let's embark on this fascinating journey of exploration and discovery in the world of hypothesis testing!

**Challenge 1**

In this challenge, we will be working with pokemon data. The data can be found here:

- https://raw.githubusercontent.com/data-bootcamp-v4/data/main/pokemon.csv

In [26]:
#libraries
import pandas as pd
import scipy.stats as st
import numpy as np



In [27]:
df = pd.read_csv("https://raw.githubusercontent.com/data-bootcamp-v4/data/main/pokemon.csv")
df

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...
795,Diancie,Rock,Fairy,50,100,150,100,150,50,6,True
796,Mega Diancie,Rock,Fairy,50,160,110,160,110,110,6,True
797,Hoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,True
798,Hoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,True


Suponemos que los Pokémon de tipo Dragón tienen, en promedio, más PS que los de tipo Planta. Elige la prueba adecuada y, con una significancia del 5%, comenta tus hallazgos.

In [28]:
from scipy.stats import ttest_ind

# Filtrar grupos
dragon_hp = df[df["Type 1"] == "Dragon"]["HP"]
plant_hp = df[df["Type 1"] == "Grass"]["HP"]

# T-test (unilateral)
t_stat, p_value_two_tailed = ttest_ind(dragon_hp, plant_hp, equal_var=False)

# Como queremos unilateral:
p_value_one_tailed = p_value_two_tailed / 2

t_stat, p_value_one_tailed



(np.float64(3.3349632905124063), np.float64(0.0007993609745420602))

Realice una prueba t independiente de una cola para comparar la media de PS entre los Pokémon de tipo Dragón y Planta.
Con un nivel de significancia del 5 %, el valor p obtenido (0,000799) es inferior a 0,05.
Por lo tanto, rechazo la hipótesis nula y mi conclucion es que los Pokémon de tipo Dragón tienen un PS medio significativamente mayor que los de tipo Planta.

Suponemos que los Pokémon Legendarios tienen estadísticas diferentes (PS, Ataque, Defensa, Ataque Especial, Defensa Especial, Velocidad) en comparación con los No Legendarios. Elige la prueba adecuada y, con una significancia del 5%, comenta tus hallazgos.


In [30]:
# MANOVA (porque son múltiples variables dependientes)
# Es una prueba bilateral (two-tailed) porque dicen "diferentes", no "mayores"

import pandas as pd
from scipy.stats import ttest_ind

stats_columns = ["HP", "Attack", "Defense", "Sp. Atk", "Sp. Def", "Speed"]

legendary = df[df["Legendary"] == True]
non_legendary = df[df["Legendary"] == False]

rows = []

for col in stats_columns:
    t_stat, p_value = ttest_ind(
        legendary[col],
        non_legendary[col],
        equal_var=False
    )
    
    rows.append({
        "Stat": col,
        "Mean Legendary": legendary[col].mean(),
        "Mean Non-Legendary": non_legendary[col].mean(),
        "t-stat": t_stat,
        "p-value": p_value,
        "Significant (0.05)": p_value < 0.05,
        "Diferencia": legendary[col].mean() - non_legendary[col].mean()
    })

results_df = pd.DataFrame(rows)
results_df


# Usamos bilateral porque la hipótesis dice “diferentes”, no “mayores”

Unnamed: 0,Stat,Mean Legendary,Mean Non-Legendary,t-stat,p-value,Significant (0.05),Diferencia
0,HP,92.738462,67.182313,8.98137,1.002691e-13,True,25.556149
1,Attack,116.676923,75.669388,10.438134,2.520372e-16,True,41.007535
2,Defense,99.661538,71.559184,7.637078,4.826998e-11,True,28.102355
3,Sp. Atk,122.184615,68.454422,13.41745,1.551461e-21,True,53.730194
4,Sp. Def,105.938462,68.892517,10.015697,2.294933e-15,True,37.045945
5,Speed,100.184615,65.455782,11.475044,1.049016e-18,True,34.728833


Realice pruebas t de dos muestras independientes para comparar PS, Ataque, Defensa, Ataque Especial, Defensa Especial y Velocidad entre Pokémon Legendarios y No Legendarios.

Con un nivel de significancia del 5%, todos los valores p fueron muy inferiores a 0,05. Por lo tanto, rechazo la hipótesis nula para todos los estadísticos.

Esto indica que los Pokémon Legendarios tienen estadísticas base estadísticamente significativamente diferentes (y superiores) en comparación con los Pokémon No Legendarios en todos los atributos medidos.

**Challenge 2**

In this challenge, we will be working with california-housing data. The data can be found here:
- https://raw.githubusercontent.com/data-bootcamp-v4/data/main/california_housing.csv

In [31]:
df = pd.read_csv("https://raw.githubusercontent.com/data-bootcamp-v4/data/main/california_housing.csv")
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0


**Suponemos que las casas cercanas a una escuela o un hospital son más caras.**

- Coordenadas de la escuela (-118, 34)
- Coordenadas del hospital (-122, 37)

Consideramos que una casa (barrio) está cerca de una escuela o un hospital si la distancia es inferior a 0,50.

Pista:
- Escribe una función para calcular la distancia euclidiana de cada casa (barrio) a la escuela y al hospital.
- Divide tu conjunto de datos en casas cercanas y alejadas de un hospital o una escuela.
- Elige la prueba de propiedad y, con un 5% de significancia, comenta tus hallazgos.
 

In [32]:
import numpy as np

# Coordenadas
school = (-118, 34)
hospital = (-122, 37)

def euclidean_distance(lon, lat, point):
    return np.sqrt((lon - point[0])**2 + (lat - point[1])**2)

# Calcular distancias
df["dist_school"] = df.apply(lambda row: euclidean_distance(row["longitude"], row["latitude"], school), axis=1)
df["dist_hospital"] = df.apply(lambda row: euclidean_distance(row["longitude"], row["latitude"], hospital), axis=1)

# Crear variable "close"
df["close"] = ((df["dist_school"] < 0.5) | (df["dist_hospital"] < 0.5))


In [33]:
close_houses = df[df["close"] == True]["median_house_value"]
far_houses = df[df["close"] == False]["median_house_value"]


In [34]:
from scipy.stats import ttest_ind

t_stat, p_two_tailed = ttest_ind(close_houses, far_houses, equal_var=False)

p_one_tailed = p_two_tailed / 2

t_stat, p_one_tailed


(np.float64(37.992330214201516), np.float64(1.5032478884295899e-301))

In [35]:
df.groupby("close")["median_house_value"].mean()


close
False    180678.441058
True     246951.982135
Name: median_house_value, dtype: float64

Realizando la prueba t unilateral independiente para comparar la mediana del valor de las viviendas entre las ubicadas cerca de una escuela u hospital y las ubicadas más lejos.

Con un nivel de significancia del 5%, el valor p obtenido (≈ 0) es muy inferior a 0,05. Por lo tanto, rechazamos la hipótesis nula.

Aunque la prueba estadística muestra una diferencia significativa en el valor de las viviendas entre los barrios cercanos a escuelas u hospitales y los más alejados, este efecto podría estar reflejando factores geográficos y socioeconómicos más amplios, ya que las coordenadas seleccionadas corresponden a las principales áreas metropolitanas.