In [None]:
# Carga de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import mode, skew, kurtosis, t
from scipy.stats import kstest, norm
from scipy.stats import shapiro

In [None]:
# Lectura archivo xlsx
ruta = "datosejercicioevaluacionanchuras.xlsx"
datos = pd.read_excel(ruta)
print(datos.head())

In [None]:
# Subgrupos 
temprano = datos[datos['Época histórica'] == 1]['Anchura del cráneo']
tardio = datos[datos['Época histórica'] == 2]['Anchura del cráneo']

### Ejercicio 1

##### Apartado a

In [None]:
# Medidas

medidas_temp = temprano.describe()
max_temp = max(temprano)
moda_temp = mode(temprano)
rango_temp = max(temprano) - min(temprano)
var_temp = np.var(temprano)
coef_pearson_temp = np.std(temprano) / np.mean(temprano)
coef_fisher_temp = skew(temprano)
coef_curtosis_temp = kurtosis(temprano)

medidas_tard = tardio.describe()
max_tard = max(tardio)
moda_tard = mode(tardio)
rango_tard = max(tardio) - min(tardio)
var_tard = np.var(tardio)
coef_pearson_tard = np.std(tardio) / np.mean(tardio)
coef_fisher_tard = skew(tardio)
coef_curtosis_tard = kurtosis(tardio)

In [None]:
# Histograma

plt.figure(figsize=(10, 6))
plt.hist(temprano, bins=10, alpha=0.5, label='Predinástico temprano', color='lightcoral')
plt.hist(tardio, bins=10, alpha=0.5, label='Predinástico tardío', color='aquamarine')
plt.title('Histograma de anchura de cráneos por época histórica', fontsize=14)
plt.xlabel('Anchura del cráneo (mm)', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.legend()
plt.show()

In [None]:
# Diagramas de caja y bigotes

# Predinástico temprano

plt.figure(figsize=(8, 6))
sns.boxplot(y=temprano, color='lightcoral', width = 0.5, medianprops=dict(color='red'))
plt.title('Predinástico temprano')
plt.ylabel('Anchura del cráneo (mm)')
plt.show()

# Predinástico tardío

plt.figure(figsize=(8, 6))
sns.boxplot(y=tardio, color='aquamarine', width = 0.5, medianprops=dict(color='red'))
plt.title('Predinástico tardío')
plt.ylabel('Anchura del cráneo (mm)')
plt.show()

##### Apartado b

In [None]:
temp_norm = (temprano - np.mean(temprano)) / np.std(temprano)
tard_norm = (tardio - np.mean(tardio)) / np.std(tardio)


temp_norm = (temprano - np.min(temprano)) / rango_temp
tard_norm = (tardio - np.min(tardio)) / rango_tard

temp_norm = temprano - np.mean(temprano)
tard_norm = tardio - np.mean(tardio)

In [None]:
# test para el subgrupo temprano test kolmogorov smirnov
ks_statistic_temp, p_value_temp = kstest(temp_norm, 'norm')
# pvalor = 0 no se rech la h0, los datos siguen una distribucion normal
# test para el subgrupo tardio
ks_statistic_tard, p_value_tard = kstest(tard_norm, 'norm')
# pvalor = 0  se rech la h0, los datos no siguen una distribucion normal

In [None]:
# test shapiro wilks
sp_statistic_temp, p_value_temp = shapiro(temprano)
sp_statistic_temp, p_value_tard = shapiro(tardio)

### Ejercicio 2

In [None]:
media_temprano = np.mean(temprano)
media_tardio = np.mean(tardio)
std_temprano = np.std(temprano, ddof=1)  # Usamos ddof=1 para calcular la desviación estándar muestral
std_tardio = np.std(tardio, ddof=1)

In [None]:
# Tamaño de las muestras
n_temprano = len(temprano)
n_tardio = len(tardio)

In [None]:
# Calcular la diferencia entre las medias
diff_medias = media_temprano - media_tardio

# Calcular los errores estándar de la diferencia de medias
stderr_diff = np.sqrt((std_temprano**2 / n_temprano) + (std_tardio**2 / n_tardio))

# Definir los grados de libertad
df = n_temprano + n_tardio - 2

In [None]:
# Calcular los valores t críticos para los niveles de confianza especificados (0.9, 0.95, 0.99)
t_critical_90 = t.ppf(0.95, df)  # 0.9 de nivel de confianza (dos colas)
t_critical_95 = t.ppf(0.975, df)  # 0.95 de nivel de confianza (dos colas)
t_critical_99 = t.ppf(0.995, df)  # 0.99 de nivel de confianza (dos colas)

In [None]:
# Calcular los límites inferior y superior para cada nivel de confianza
ci_90_lower = diff_medias - t_critical_90 * stderr_diff
ci_90_upper = diff_medias + t_critical_90 * stderr_diff

ci_95_lower = diff_medias - t_critical_95 * stderr_diff
ci_95_upper = diff_medias + t_critical_95 * stderr_diff

ci_99_lower = diff_medias - t_critical_99 * stderr_diff
ci_99_upper = diff_medias + t_critical_99 * stderr_diff

print("Intervalo de confianza del 90%:", (ci_90_lower, ci_90_upper))
print("Intervalo de confianza del 95%:", (ci_95_lower, ci_95_upper))
print("Intervalo de confianza del 99%:", (ci_99_lower, ci_99_upper))