<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/a/aa/Logo_DuocUC.svg/2560px-Logo_DuocUC.svg.png' width=50%, height=20%>

# INTRODUCCION

Para este ejemplo, usaremos un grupo de datos de estudiantes ya graduados y trataremos de probar si su grado afecta su salario.

Sea μ el salario medio anual de los graduados.

Supongamos que tenemos 6 categorías de materias de estudio:= Matemáticas y Estadística, Economía y Finanzas, Ciencias Ambientales, Ciencias Políticas, Ciencias Sociales y Biología.

Por lo tanto, hay 6 niveles o grupos de este único factor que afecta la media del salario anual de los graduados.

La idea básica detrás de un ANOVA  es tomar muestras aleatorias independientes de cada grupo y luego calcular las medias de muestra para cada grupo. Después de eso, comparar la variación de las medias muestrales entre los grupos con la variación dentro de los grupos. Finalmente, tomar una decisión basada en una prueba estadística, ya sea que las medias de los grupos sean todas iguales o no.

In [3]:
import pandas as pd
import random
import numpy as np
# Scipy tiene un paquete o módulo scipy.stats que contiene una gran cantidad de funciones estadísticas.
import scipy.stats as stats
import matplotlib.pyplot as plt


In [6]:
!wget https://raw.githubusercontent.com/JaznaLaProfe/Fundamentos-de-Machine-Learning/main/data/Students.csv

--2024-08-24 13:57:28--  https://raw.githubusercontent.com/JaznaLaProfe/Fundamentos-de-Machine-Learning/main/data/Students.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1085084 (1.0M) [text/plain]
Saving to: ‘Students.csv’


2024-08-24 13:57:28 (17.3 MB/s) - ‘Students.csv’ saved [1085084/1085084]



In [7]:
# Cargar archivo ('students.csv')
student_data = pd.read_csv('Students.csv', sep=",")

# Filtrar los estudiantes graduados
graduated_student_df = student_data[student_data['graduated'] == 1]

# Muestra aleatoria de 500 estudiantes
unique_student_id = list(graduated_student_df['stud.id'].unique())
# Establece una semilla para extraer siempre la misma muestra
random.seed(30)
sample_student_id = random.sample(unique_student_id, 500)
sample_df = graduated_student_df[graduated_student_df['stud.id'].isin(sample_student_id)].reset_index(drop=True)

# Dos variables de interes
sample_df = sample_df[['major', 'salary']]
groups = sample_df.groupby('major').count().reset_index()
# Visualiza
groups

Unnamed: 0,major,salary
0,Biology,87
1,Economics and Finance,94
2,Environmental Sciences,97
3,Mathematics and Statistics,75
4,Political Science,84
5,Social Sciences,63


# Planteamiento de Hipótesis

Recordemos el planteamiento de la hipótesis:


H₀: μ₁= μ₂ = μ₃ = … = μ𝒸


H₁: No todos los μᵢ son iguales, donde i = 1, 2, 3, …

Grados de libertad (ya calculados) = α = 0.05

Regla de decisión: se rechaza H₀, cuando F > Fα

In [4]:
# Crea la tabla principal de ANOVA
data = [['Between Groups', '', '', '', '', '', ''], ['Within Groups', '', '', '', '', '', ''], ['Total', '', '', '', '', '', '']]
anova_table = pd.DataFrame(data, columns = ['Source of Variation', 'SS', 'df', 'MS', 'F', 'P-value', 'F crit'])
anova_table.set_index('Source of Variation', inplace = True)

# Calcula ENTRE los grupos
x_bar = sample_df['salary'].mean()
SSTR = sample_df.groupby('major').count() * (sample_df.groupby('major').mean() - x_bar)**2
anova_table['SS']['Between Groups'] = SSTR['salary'].sum()

# Calcula EN los grupos
SSE = (sample_df.groupby('major').count() - 1) * sample_df.groupby('major').std()**2
anova_table['SS']['Within Groups'] = SSE['salary'].sum()

# Calcula el total
SSTR = SSTR['salary'].sum() + SSE['salary'].sum()
anova_table['SS']['Total'] = SSTR

# Actualiza los grados de libertad
anova_table['df']['Between Groups'] = sample_df['major'].nunique() - 1
anova_table['df']['Within Groups'] = sample_df.shape[0] - sample_df['major'].nunique()
anova_table['df']['Total'] = sample_df.shape[0] - 1

# Calcula la media de los cuadrados
anova_table['MS'] = anova_table['SS'] / anova_table['df']

# Calcula F
F = anova_table['MS']['Between Groups'] / anova_table['MS']['Within Groups']
anova_table['F']['Between Groups'] = F

# p-value
anova_table['P-value']['Between Groups'] = 1 - stats.f.cdf(F, anova_table['df']['Between Groups'], anova_table['df']['Within Groups'])

# F critico
alpha = 0.05
#
tail_hypothesis_type = "two-tailed"
if tail_hypothesis_type == "two-tailed":
    alpha /= 2
anova_table['F crit']['Between Groups'] = stats.f.ppf(1-alpha, anova_table['df']['Between Groups'], anova_table['df']['Within Groups'])

# Mostrar tabla ANOVA
anova_table

Unnamed: 0_level_0,SS,df,MS,F,P-value,F crit
Source of Variation,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Between Groups,24184075535.07408,5,4836815107.014815,77.408037,0.0,2.592178
Within Groups,30867423591.21927,494,62484663.14012,,,
Total,55051499126.29335,499,110323645.543674,,,


In [9]:
# Resultado final
print("\n","-"*80)
print("El enfoque del valor crítico para la prueba de hipótesis en la regla de decisión")
conclusion = "No se pudo rechazar la hipótesis nula."
if anova_table['F']['Between Groups'] > anova_table['F crit']['Between Groups']:
    conclusion = "Se rechaza la hipótesis nula."
print("F-score es:", anova_table['F']['Between Groups'], " y valor critico es:", anova_table['F crit']['Between Groups'])
print(conclusion)


 --------------------------------------------------------------------------------
El enfoque del valor crítico para la prueba de hipótesis en la regla de decisión
F-score es: 77.40803685167356  y valor critico es: 2.592178494905
Se rechaza la hipótesis nula.


# Conclusión:
Hay suficiente evidencia de que no todos los salarios promedio son iguales para los egresados de las diferentes materias de estudio, con un 5% de nivel de significancia.

EJERCICIO : INTENTA PROBAR CON DIFERENTES GRADOS DE LIBERTAD (según el valor encontrado de F) Y VE QUE PASA CON LA HIPOTESIS....
