# Edad de los ladrones de guante blanco

Fuente: Statistics in Criminal Justice, David Weisburd, Chester Britt, https://doi.org/10.1007/978-1-4614-9170-5

**Hipótesis nula**: La edad media de los tres delitos es igual

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats

## Datos

Edades por delito

In [None]:
guante_blanco = pd.read_csv("guante_blanco.csv", index_col=0)
print(guante_blanco)

In [None]:
sample_size = guante_blanco.size
sample_size

In [None]:
group_size = len(guante_blanco.index)
group_size

In [None]:
number_of_groups = len(guante_blanco.columns)
number_of_groups

In [None]:
guante_blanco.describe()

In [None]:
fig1, ax1 = plt.subplots()
ax1.set_xlabel("Delito")
ax1.set_ylabel("Edad")
ax1.errorbar(x=guante_blanco.columns, y=guante_blanco.mean(), yerr=guante_blanco.std(), ls='', marker='o')

## Estadístico F crítico

In [None]:
significance = 0.05
ndof_between = number_of_groups - 1
ndof_within = sample_size - number_of_groups
F_distribution = scipy.stats.f(ndof_between, ndof_within)
F_critical = F_distribution.isf(significance)
F_critical

## Estadístico F observado

*Nota*: Las varianzas muestrales usan el denominador n-1 (corrección de Bessel)

In [None]:
age_mean = guante_blanco.mean()
square_sum_between = group_size * (number_of_groups-1) * age_mean.var()
group_var = guante_blanco.var()
square_sum_within = (group_size-1) * group_var.sum()
F_observed = ( square_sum_between / ndof_between ) / (square_sum_within / ndof_within)
F_observed

## Test de Fisher con scipy

In [None]:
print(*guante_blanco.values.T)

In [None]:
F_observed, pvalue = scipy.stats.f_oneway(*guante_blanco.values.T)
print(f"F observado = {F_observed}")
print(f"Pvalor = {pvalue}")

Test de cola superior: rechazamos la hipótesis nula con una significancia de 0.05 (nivel de confianza 95%) porque el estadístico F observado es mayor al crítico. Esta condición es equivalente a que el pvalor observado sea menor a la significancia del test.
La región crítica corresponde a una varianza entre grupos mayor a la variancia dentro de los grupos.

## Plot

In [None]:
fig2, ax2 = plt.subplots()
ax2.set_xlabel("Estadístico F")
ax2.set_ylabel("$PDF")
x = np.linspace(0, 20, 100)
y = scipy.stats.f.pdf(x, ndof_between, ndof_within)
ax2.plot(x,y)
trans = ax2.get_xaxis_transform()
ax2.axvline(F_critical, color='tab:green', ls='--')
plt.text(F_critical, .5, r" $F_{crítico}$", transform=trans)
ax2.axvline(F_observed, color='tab:orange', ls='--')
plt.text(F_observed, .5, r" $F_{observado}$", transform=trans)