# **Prueba de hipótesis**

In [1]:
# Librerías
import pandas as pd
from pandas import DataFrame
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

### **Varianza conocida**

In [2]:
# Dataset
salarios = pd.read_csv('D:\Python Scripts & Notebooks\Jupyter Notebooks\Artificial Intelligence\Machine Learning\Templates\salarios.csv')
salarios.head()

Unnamed: 0,salarios
0,117313.0
1,104002.0
2,113038.0
3,101936.0
4,84560.0


### **Regla de decisión**
Rechazar si: valor absoluto de Z > valor crítico positivo (z)

In [3]:
# Estimadores
print('Estimadores')

# Muestra
muestra = len(salarios)
print(f'• Muestra {muestra}')

# Media
media = salarios['salarios'].mean()
print(f'• Media: {media:0.2f}')

# Desviación estándar poblacional
std = 15000
print((f'• Desviacón estándar: {std:0.2f}'))

# Error estándar
standard_error = std / np.sqrt(len(salarios))
print((f'• Error estándar: {standard_error:0.2f}'))

# Hipótesis nula (Salario reportado por Glassdor)
h_0 = 113000
print(f'• Los Data Scientist ganan Hipótesis nula: {h_0:0.2f} dolares anuales')

# Estandarización
Z = (media - h_0) / standard_error
print(f'• Z: {abs(Z):0.2f}')

# Valor crítico
z = 1.96
print(f'• Valor crítico (z): {z}')

# Razonamiento
print('\nRazonamiento')
print(f'En en el nivel significación de un 5% hemos rechazado la hipótesis nula, ya que {abs(Z):0.2f} > {z}')

Estimadores
• Muestra 30
• Media: 100200.37
• Desviacón estándar: 15000.00
• Error estándar: 2738.61
• Los Data Scientist ganan Hipótesis nula: 113000.00 dolares anuales
• Z: 4.67
• Valor crítico (z): 1.96

Razonamiento
En en el nivel significación de un 5% hemos rechazado la hipótesis nula, ya que 4.67 > 1.96


In [4]:
# Estimadores
print('Estimadores')

# Muestra
muestra = len(salarios)
print(f'• Muestra {muestra}')

# Media
media = salarios['salarios'].mean()
print(f'• Media: {media:0.2f}')

# Desviación estándar poblacional
std = 15000
print((f'• Desviacón estándar: {std:0.2f}'))

# Error estándar
standard_error = std / np.sqrt(len(salarios))
print((f'• Error estándar: {standard_error:0.2f}'))

# Hipótesis nula (Salario reportado por Glassdor)
h_0 = 113000
print(f'• Los Data Scientist ganan Hipótesis nula: {h_0:0.2f} dolares anuales')

# Estandarización
Z = (media - h_0) / standard_error
print(f'• Z: {abs(Z):0.2f}')

# Valor crítico
z = 1.65
print(f'• Valor crítico (z): {z}')

# Razonamiento
print('\nRazonamiento')
print(f'En en el nivel significación de un 10% hemos rechazado la hipótesis nula, ya que {abs(Z):0.2f} > {z}')

Estimadores
• Muestra 30
• Media: 100200.37
• Desviacón estándar: 15000.00
• Error estándar: 2738.61
• Los Data Scientist ganan Hipótesis nula: 113000.00 dolares anuales
• Z: 4.67
• Valor crítico (z): 1.65

Razonamiento
En en el nivel significación de un 10% hemos rechazado la hipótesis nula, ya que 4.67 > 1.65


### **Varianza desconocida** (Caso más común)

In [5]:
# Dataset
valores = {
    'Valores': [0.26, 0.23, 0.42, 0.49, 0.23, 0.59, 0.29, 0.29, 0.57, 0.40]
}

ratio = pd.DataFrame(valores)
ratio.head()

Unnamed: 0,Valores
0,0.26
1,0.23
2,0.42
3,0.49
4,0.23


In [6]:
# Estimadores
print('Estimadores')

# Muestra
muestra = len(ratio)
print(f'• Muestra {muestra}')

# Media
media = ratio['Valores'].mean()
print(f'• Media: {media:0.2f}')

# Desviación estándar poblacional
std = ratio['Valores'].std()
print((f'• Desviacón estándar: {std:0.2f}'))

# Error estándar
standard_error = std / np.sqrt(len(ratio))
print((f'• Error estándar: {standard_error:0.2f}'))

# Hipótesis nula (Salario reportado por Glassdor)
h_0 = 0.40
print(f'• Hipótesis nula: {h_0:0.2f}')

# Estandarización
T = (media - h_0) / standard_error
print(f'• T: {(T):0.2f}')

# Valor crítico
t = 1.83
print(f'• Valor crítico (t-Student): {t}')

# p-value
p_value = 0.304

# Razonamiento
print('\nRazonamiento')
print(f'• En en el nivel significación de un 5% hemos aceptado la hipótesis nula, ya que {abs(T):0.2f} < {t}')
print(f'• Dado que el p-value es {p_value} y es mayor a 0.05, aceptamos la hipótesis nula')

Estimadores
• Muestra 10
• Media: 0.38
• Desviacón estándar: 0.14
• Error estándar: 0.04
• Hipótesis nula: 0.40
• T: -0.53
• Valor crítico (t-Student): 1.83

Razonamiento
• En en el nivel significación de un 5% hemos aceptado la hipótesis nula, ya que 0.53 < 1.83
• Dado que el p-value es 0.304 y es mayor a 0.05, aceptamos la hipótesis nula


### **Varianza desconocida**
### **Muestras dependientes**

In [7]:
# Dataset
vals = {
    'Before': [2, 1.4, 1.3, 1.1, 1.8, 1.6, 1.5, 0.7, 0.9, 1.5],
    'After': [1.7, 1.7, 1.8, 1.3, 1.7, 1.5, 1.6, 1.7, 1.7, 2.4],
    'Difference': [0.3, -0.3, -0.5, -0.2, 0.1, 0.1, -0.1, -1, -0.8, -0.9]
}

mg = pd.DataFrame(vals)
mg.head()

Unnamed: 0,Before,After,Difference
0,2.0,1.7,0.3
1,1.4,1.7,-0.3
2,1.3,1.8,-0.5
3,1.1,1.3,-0.2
4,1.8,1.7,0.1


In [8]:
# Estimadores
print('Estimadores')

# Muestra
muestra = len(mg)
print(f'• Muestra {muestra}')

# Media
media = mg['Difference'].mean()
print(f'• Media: {media:0.2f}')

# Desviación estándar poblacional
std = mg['Difference'].std()
print((f'• Desviacón estándar: {std:0.2f}'))

# Error estándar
standard_error = std / np.sqrt(len(mg))
print((f'• Error estándar: {standard_error:0.2f}'))

# Hipótesis nula (Salario reportado por Glassdor)
h_0 = 0
print(f'• Hipótesis nula representa: {h_0:0.2f}')

# p-value
p_value = 0.024

# # Razonamiento
print('\nRazonamiento')
print(f'• Dado que el p-value es {p_value} y es menor al nivel de significación del 5%, rechazamos la hipótesis nula')
print(f'• Dado que el p-value es {p_value} y es mayor al nivel de significación del 1%, aceptamos la hipótesis nula')
print(f'• Es más conveniente trabajar con una muestra más grande para estos casos')

Estimadores
• Muestra 10
• Media: -0.33
• Desviacón estándar: 0.45
• Error estándar: 0.14
• Hipótesis nula representa: 0.00

Razonamiento
• Dado que el p-value es 0.024 y es menor al nivel de significación del 5%, rechazamos la hipótesis nula
• Dado que el p-value es 0.024 y es mayor al nivel de significación del 1%, aceptamos la hipótesis nula
• Es más conveniente trabajar con una muestra más grande para estos casos


### **Varianza conocida**
### **Muestras independientes**

In [9]:
# Estimadores
print('Estimadores')

# Media
media = 15
print(f'• Media: {media:0.2f}')

# Desviación estándar poblacional
std = 6.40
print((f'• Desviacón estándar: {std:0.2f}'))

# Hipótesis nula (Salario reportado por Glassdor)
h_0 = 0
print(f'• Hipótesis nula representa: {h_0:0.2f}')

# Valor crítico
t = 2.34
print(f'• Valor crítico (t-Student): {t}')

# p-value
p_value = 0.010

# # Razonamiento
print('\nRazonamiento')
print(f'• Dado que el p-value es {p_value} y es menor al nivel de significación del 5%, rechazamos la hipótesis nula')
print(f'• Es más conveniente trabajar con una muestra más grande para estos casos')

Estimadores
• Media: 15.00
• Desviacón estándar: 6.40
• Hipótesis nula representa: 0.00
• Valor crítico (t-Student): 2.34

Razonamiento
• Dado que el p-value es 0.01 y es menor al nivel de significación del 5%, rechazamos la hipótesis nula
• Es más conveniente trabajar con una muestra más grande para estos casos


### **Varianza desconocida**
### **Muestra pequeña**

In [10]:
# Estimadores
print('Estimadores')

# Media
ny_media = 3.94
print(f'• Media NY: {ny_media:0.2f}')

la_media = 3.25
print(f'• Media LA: {la_media:0.2f}')
print('-'*50)

# Desviación estándar
ny_std = 0.18
print(f'• Desviación estándar NY: {ny_std:0.2f}')

la_std = 0.27
print(f'• Desviación estándar LA: {la_std:0.2f}')
print('-'*50)

# Error estándar

# Varianza y Desviación combinada
# Función para hallar la varianza muestral combinada
def varianza_muestral_combinada(data:int, data2:int, std:float, std2:float):
    tmp = (data - 1) * std**2 + (data2 - 1) * std2**2
    tmp = tmp / (data + data2 - 2)
    return tmp

vmc = varianza_muestral_combinada(data=10, data2=8, std=ny_std, std2=la_std)

print(f'• Varianza Muestral Combinada: {vmc:0.2f}')
print(f'• Desviacón estándar Muestral Combinada: {np.sqrt(vmc):0.2f}')
print('-'*50)

# Valor Crítico
T = 0.53
print(f'• Valor crítico T: {T}')
print('-'*50)

# p-value
p_value = 0.000001
print(f'• P-value: {p_value:0.2f}')
print('-'*14)

# Razonamiento
print('Razonamiento')
print(f'• Podemos decir que los precios son diferentes sin necesidad de pruebas')

Estimadores
• Media NY: 3.94
• Media LA: 3.25
--------------------------------------------------
• Desviación estándar NY: 0.18
• Desviación estándar LA: 0.27
--------------------------------------------------
• Varianza Muestral Combinada: 0.05
• Desviacón estándar Muestral Combinada: 0.22
--------------------------------------------------
• Valor crítico T: 0.53
--------------------------------------------------
• P-value: 0.00
--------------
Razonamiento
• Podemos decir que los precios son diferentes sin necesidad de pruebas
