# Lab | Hypothesis Testing

**Objective**

Welcome to the Hypothesis Testing Lab, where we embark on an enlightening journey through the realm of statistical decision-making! In this laboratory, we delve into various scenarios, applying the powerful tools of hypothesis testing to scrutinize and interpret data.

From testing the mean of a single sample (One Sample T-Test), to investigating differences between independent groups (Two Sample T-Test), and exploring relationships within dependent samples (Paired Sample T-Test), our exploration knows no bounds. Furthermore, we'll venture into the realm of Analysis of Variance (ANOVA), unraveling the complexities of comparing means across multiple groups.

So, grab your statistical tools, prepare your hypotheses, and let's embark on this fascinating journey of exploration and discovery in the world of hypothesis testing!

**Challenge 1**

In this challenge, we will be working with pokemon data. The data can be found here:

- https://raw.githubusercontent.com/data-bootcamp-v4/data/main/pokemon.csv

In [1]:
#libraries
import pandas as pd
import scipy.stats as st
import numpy as np



In [2]:
df = pd.read_csv("https://raw.githubusercontent.com/data-bootcamp-v4/data/main/pokemon.csv")
df

Unnamed: 0,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,Charmander,Fire,,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...
795,Diancie,Rock,Fairy,50,100,150,100,150,50,6,True
796,Mega Diancie,Rock,Fairy,50,160,110,160,110,110,6,True
797,Hoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,True
798,Hoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,True


- We posit that Pokemons of type Dragon have, on average, more HP stats than Grass. Choose the propper test and, with 5% significance, comment your findings.

In [1]:
#Para evaluar si los Pokémon de tipo Dragón (Dragon) tienen, en promedio, 
#más puntos de salud (HP) que los Pokémon de tipo Planta (Grass), 
#podemos usar un test estadístico para comparar las medias de dos grupos independientes. 

#Dado que estamos comparando dos grupos diferentes de Pokémon y sus estadísticas de HP, 
#el t-test de muestras independientes es apropiado.

In [None]:
#Set the hypothesis



#H0: mu Pokemon Grass = Pokemon Planta
#H1: mu 1st class_prices!= 65

In [None]:
alpha = 0.05

In [7]:
import pandas as pd
from scipy.stats import ttest_ind

# Supongamos que 'df' es tu DataFrame con los datos de Pokémon
# Filtrar los Pokémon de tipo Dragon y Grass
dragon_hp = df[df['Type 1'] == 'Dragon']['HP']
grass_hp = df[df['Type 1'] == 'Grass']['HP']

# Realizar el t-test de dos muestras independientes
t_stat, p_value = ttest_ind(dragon_hp, grass_hp)

# Imprimir resultados
print(f"T-statistic: {t_stat:.4f}, P-value: {p_value:.4f}")

# Inferencia
if p_value < 0.05:
    print("Rechazar la hipótesis nula. Los Pokémon de tipo Dragón tienen un HP promedio significativamente mayor que los de tipo Planta.")
else:
    print("No se puede rechazar la hipótesis nula. No hay evidencia suficiente para decir que los Pokémon de tipo Dragón tienen un HP promedio mayor que los de tipo Planta.")

T-statistic: 3.5904, P-value: 0.0005
Rechazar la hipótesis nula. Los Pokémon de tipo Dragón tienen un HP promedio significativamente mayor que los de tipo Planta.


In [None]:
#Explicación del Código
#Selección de Datos: df[df['Type 1'] == 'Dragon']['HP'] selecciona los puntos de HP de Pokémon cuyo Type 1 es Dragon, 
#y se hace similarmente para Grass.

#ttest_ind(): Realiza el test t de dos muestras independientes sobre las dos series de HP.

#Interpreta el Valor-p (P-value):

#Si el valor-p es menor que 0.05, rechazas la hipótesis nula, lo que sugiere que hay una diferencia significativa entre los HP promedio de los dos grupos.
#Si el valor-p es mayor o igual a 0.05, no se puede rechazar la hipótesis nula, lo que indica que no hay evidencia suficiente para afirmar que los HP promedio son diferentes.

- We posit that Legendary Pokemons have different stats (HP, Attack, Defense, Sp.Atk, Sp.Def, Speed) when comparing with Non-Legendary. Choose the propper test and, with 5% significance, comment your findings.


In [9]:

# Supón que 'df' es tu DataFrame con las estadísticas de Pokémon
# Filtrar Pokémon Legendarios y No Legendarios
legendary_stats = df[df['Legendary'] == True][['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed']]
non_legendary_stats = df[df['Legendary'] == False][['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed']]

# Resultados de las pruebas t
for stat in legendary_stats.columns:
    t_stat, p_value = ttest_ind(legendary_stats[stat], non_legendary_stats[stat])
    print(f"{stat}: T-statistic = {t_stat:.4f}, P-value = {p_value:.4f}")
    
    if p_value < 0.05:
        print(f"Rechazamos la hipótesis nula para {stat}. Hay una diferencia significativa en {stat} entre Pokémon Legendarios y No-Legendarios.\n")
    else:
        print(f"No podemos rechazar la hipótesis nula para {stat}. No hay evidencia suficiente de una diferencia en {stat} entre estos grupos.\n")

HP: T-statistic = 8.0361, P-value = 0.0000
Rechazamos la hipótesis nula para HP. Hay una diferencia significativa en HP entre Pokémon Legendarios y No-Legendarios.

Attack: T-statistic = 10.3973, P-value = 0.0000
Rechazamos la hipótesis nula para Attack. Hay una diferencia significativa en Attack entre Pokémon Legendarios y No-Legendarios.

Defense: T-statistic = 7.1812, P-value = 0.0000
Rechazamos la hipótesis nula para Defense. Hay una diferencia significativa en Defense entre Pokémon Legendarios y No-Legendarios.

Sp. Atk: T-statistic = 14.1914, P-value = 0.0000
Rechazamos la hipótesis nula para Sp. Atk. Hay una diferencia significativa en Sp. Atk entre Pokémon Legendarios y No-Legendarios.

Sp. Def: T-statistic = 11.0378, P-value = 0.0000
Rechazamos la hipótesis nula para Sp. Def. Hay una diferencia significativa en Sp. Def entre Pokémon Legendarios y No-Legendarios.

Speed: T-statistic = 9.7652, P-value = 0.0000
Rechazamos la hipótesis nula para Speed. Hay una diferencia significa

**Challenge 2**

In this challenge, we will be working with california-housing data. The data can be found here:
- https://raw.githubusercontent.com/data-bootcamp-v4/data/main/california_housing.csv

In [13]:
df = pd.read_csv("https://raw.githubusercontent.com/data-bootcamp-v4/data/main/california_housing.csv")
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0


**We posit that houses close to either a school or a hospital are more expensive.**

- School coordinates (-118, 37)
- Hospital coordinates (-122, 34)

We consider a house (neighborhood) to be close to a school or hospital if the distance is lower than 0.50.

Hint:
- Write a function to calculate euclidean distance from each house (neighborhood) to the school and to the hospital.
- Divide your dataset into houses close and far from either a hospital or school.
- Choose the propper test and, with 5% significance, comment your findings.
 

In [19]:
#Write a function to calculate euclidean distance from each house (neighborhood) to the school and to the hospital.
#Crear funcion
import numpy as np

def euclidean_distance(x1, y1, x2, y2):
    return np.sqrt((x1 - x2)**2 + (y1 - y2)**2)

#Paso 2: Aplicar la Distancia a cada Casa
# Coordenadas de la escuela y el hospital
school_coords = (-118, 37)
hospital_coords = (-122, 34)

# Calcular distancia a la escuela y al hospital
df['distance_to_school'] = df.apply(lambda row: euclidean_distance(row['longitude'], row['latitude'], *school_coords), axis=1)
df['distance_to_hospital'] = df.apply(lambda row: euclidean_distance(row['longitude'], row['latitude'], *hospital_coords), axis=1)

#Paso 3: Determinar las Casas "Cercanas"
#Define una columna booleana que indique si una casa está cerca de la escuela o el hospital con una distancia menor a 0.50.
# Determinar si una casa es 'cercana'
df['close_to_school_or_hospital'] = (df['distance_to_school'] < 0.50) | (df['distance_to_hospital'] < 0.50)
# Comparar precios medios
print(df.groupby('close_to_school_or_hospital')['median_house_value'].mean())


close_to_school_or_hospital
False    207334.699029
True      92460.000000
Name: median_house_value, dtype: float64


In [None]:
#Los resultados que has compartido sugieren que, en promedio, las casas cercanas (clasificadas como True) a una escuela o un hospital tienen un valor de mercado más bajo comparado con aquellas que no están cerca (clasificadas como False). Aquí está una interpretación general de los números que has proporcionado:

#Interpretación de los Promedios
#Casas No Cercanas (close_to_school_or_hospital = False):

#Valor Promedio: 207,334.699029
#Interpretación: Las casas que no están consideradas "cercanas" a una escuela o hospital tienen, en promedio, un valor de mercado mayor que aquellas que sí lo están.
#Casas Cercanas (close_to_school_or_hospital = True):

#Valor Promedio: 92,460.000000
#Interpretación: Las casas que están dentro de la proximidad definida a una escuela o hospital tienen un valor medio significativamente más bajo.
#Consideraciones
#Contexto Local: La diferencia en valores puede estar influenciada por factores específicos del mercado o contexto local, como la percepción de tráfico, ruido, o accesibilidad que influencian de manera diferente los valores del mercado.

#Datos Adicionales: Podría considerarse analizar otros factores que pudieran afectar el valor de las viviendas, tales como accesibilidad, calidad de infraestructuras públicas, factores socioeconómicos, etc.

#Causalidad vs Correlación: Asegúrate de distinguir que los datos muestran correlaciones y 
#no necesariamente implican causalidad directa. Las regiones donde casas valen menos pueden 
#tener más infraestructura pública colocada para ayudar al desarrollo local, no necesariamente 
#que ser vecino a estas instalaciones devalúe la propiedad.

In [21]:
# Suponiendo que la columna 'close_to_school_or_hospital' ya está en el DataFrame
# Dividir el DataFrame en dos partes según la proximidad
houses_close = df[df['close_to_school_or_hospital'] == True]
houses_far = df[df['close_to_school_or_hospital'] == False]

# Mostrar algunos resultados para validación
print("Casas cercanas (primeras 5 filas):")
print(houses_close.head())

print("\nCasas lejos (primeras 5 filas):")
print(houses_far.head())

Casas cercanas (primeras 5 filas):
      longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
4523    -118.05     36.64                34.0       2090.0           478.0   
5596    -118.18     37.35                16.0       3806.0           794.0   
5597    -118.18     36.63                23.0       2311.0           487.0   
6776    -118.30     37.17                22.0       3480.0           673.0   
6904    -118.31     36.94                35.0       2563.0           530.0   

      population  households  median_income  median_house_value  \
4523       896.0       426.0         2.0357             74200.0   
5596      1501.0       714.0         2.1212            108300.0   
5597      1019.0       384.0         2.2574            104700.0   
6776      1541.0       636.0         2.7500             94500.0   
6904       861.0       371.0         2.3250             80600.0   

      distance_to_school  distance_to_hospital  close_to_school_or_hospital  
4523           

In [23]:
# Choose the propper test and, with 5% significance, comment your findings.

In [None]:
#Para elegir un test adecuado y con un nivel de significancia del 5% para investigar 
#si las casas cercanas a escuelas u hospitales son significativamente diferentes en 
#términos de su valor medio en comparación con las casas lejanas, podemos utilizar 
#un t-test de dos muestras independientes. 
#Este test se utiliza cuando queremos comparar las medias de dos grupos independientes 
#y verificar si la diferencia observada es estadísticamente significativa.

In [None]:
#Vamos a comparar la media de median_house_value entre dos grupos:

#Casas Cercanas (houses_close)
#Casas Lejanas (houses_far)
#Procedimiento
#Hipótesis:

#Hipótesis Nula (( H_0 )): No hay diferencia significativa en median_house_value entre casas cercanas y lejanas.
#Hipótesis Alternativa (( H_a )): Hay una diferencia significativa en median_house_value entre casas cercanas y lejanas.

#Nivel de Significancia:

#Usaremos un nivel de significancia ((\alpha)) de 0.05.
#Realizar el T-test usando scipy.stats:

In [25]:

from scipy.stats import ttest_ind

# Filtrado, si no se ha hecho
houses_close = df[df['close_to_school_or_hospital'] == True]
houses_far = df[df['close_to_school_or_hospital'] == False]

# Realizar el t-test de dos muestras independientes
t_stat, p_value = ttest_ind(houses_close['median_house_value'], houses_far['median_house_value'])

# Imprimir resultados
print(f"T-statistic: {t_stat:.4f}, P-value: {p_value:.4f}")

# Inferencia
if p_value < 0.05:
    print("Rechazamos la hipótesis nula. Hay una diferencia significativa en el valor promedio de casas cercanas versus lejanas.")
else:
    print("No se puede rechazar la hipótesis nula. No hay evidencia suficiente para afirmar que hay una diferencia en el valor promedio de casas cercanas versus lejanas.")

T-statistic: -2.2146, P-value: 0.0268
Rechazamos la hipótesis nula. Hay una diferencia significativa en el valor promedio de casas cercanas versus lejanas.


In [None]:
#Interpretación Resultados
#T-statistic y P-value:

#El valor del T-statistic proporciona la magnitud de la diferencia relativa entre las medias de ambos grupos.
#El P-value mide la probabilidad de observar la diferencia entre las medias, suponiendo que no hay diferencia real (hipótesis nula).

In [None]:
#Conclusión basada en P-value:

#Si el P-value es inferior a 0.05, hay evidencia suficiente para rechazar la hipótesis nula y afirmar que las casas cercanas difieren significativamente en su valor medio respecto a aquellas más lejanas.
#Si el P-value es igual o superior a 0.05, no puedes concluir que haya una diferencia significativa.