<a href="https://colab.research.google.com/github/EduardoAcostaC/Simulacion-I/blob/main/Prueba_KS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Prueba de Kolmogorov-Smirnov

La prueba de Kolmogorov-Smirnov (K-S) es una prueba no paramétrica que se utiliza para comparar la distribución de una muestra con una distribución teórica o para comparar las distribuciones de dos muestras.

**Hipótesis:**

* **H0:** La muestra proviene de la distribución teórica especificada.
* **H1:** La muestra no proviene de la distribución teórica especificada.

**Estadístico de prueba:**

El estadístico de prueba de la prueba K-S es la distancia máxima entre la función de distribución acumulativa empírica (ECDF) de la muestra y la función de distribución acumulativa (CDF) de la distribución teórica.

**Valor p:**

El valor p de la prueba K-S es la probabilidad de observar un estadístico de prueba tan grande o mayor que el observado si la hipótesis nula es verdadera.

**Conclusión:**

Si el valor p es menor que el nivel de significancia (generalmente 0.05), se rechaza la hipótesis nula y se concluye que la muestra no proviene de la distribución teórica especificada. Si el valor p es mayor que el nivel de significancia, no se rechaza la hipótesis nula y se concluye que no hay suficiente evidencia para decir que la muestra no proviene de la distribución teórica especificada.

# **Mensaje importante:**
Para ejecutar este código desde tu entorno local, asegúrate de haber guardado el archivo 'numeros.xlsx' en tu Google Drive y de tener la ruta correcta en la variable `ruta_archivo`.

[Archivo 'numeros.xlsx'](https://docs.google.com/spreadsheets/d/1uPltXWInEbWrOJ7kR6DJ0LBKpktbbuAx/edit?usp=sharing&ouid=104707253892789862285&rtpof=true&sd=true)


In [2]:
import pandas as pd
import numpy as np
from scipy import stats
from google.colab import drive

# Monta tu Google Drive
drive.mount('/content/drive')

# Define la ruta del archivo de Excel en tu Drive
ruta_archivo = '/content/drive/MyDrive/numeros.xlsx'  # Reemplaza con la ruta correcta
nombre_hoja = 'Sheet1'  # Reemplaza con el nombre de la hoja

# Lee los datos del archivo de Excel
df = pd.read_excel(ruta_archivo, sheet_name=nombre_hoja, header=None)

# Concatena todas las columnas en una sola serie de datos
todos_los_datos = pd.concat([df[col] for col in df.columns])

# Ordena los datos de menor a mayor
todos_los_datos_ordenados = np.sort(todos_los_datos.values)  # Convierte a NumPy array para usar np.sort

# Número de datos
n = len(todos_los_datos_ordenados)

# Calcula los valores para la tabla
tabla = []
for i in range(n):
    xi = todos_los_datos_ordenados[i]
    i_sobre_n = (i + 1) / n  # i empieza en 1, no en 0
    i_sobre_n_menos_xi = i_sobre_n - xi
    xi_menos_i_menos_1_sobre_n = xi - (i) / n  # i - 1 en la fórmula (i empieza en 0 en Python)

    tabla.append([i + 1, xi, i_sobre_n, i_sobre_n_menos_xi, xi_menos_i_menos_1_sobre_n])

# Crea un DataFrame para la tabla (opcional)
df_tabla = pd.DataFrame(tabla, columns=['i', 'xi', 'i/n', 'i/n - xi', 'xi - (i-1)/n'])

# Define una función para aplicar estilos
df_resultados = df_tabla.style.set_properties(**{'text-align': 'center'}) \
                                   .set_table_styles([{'selector': 'th', 'props': [('background-color', '#a6a6a6')]}]).hide(axis="index")


# Calcula el estadístico D (máximo de las diferencias absolutas
# Encuentra el estadístico D (máximo de las diferencias absolutas)
d_mas = df_tabla['i/n - xi'].abs().max()
d_menos = df_tabla['xi - (i-1)/n'].abs().max()
d = max(d_mas, d_menos)

# Solicitar nivel de confianza al usuario
while True:
    try:
        nivel_confianza = float(input("Ingrese el nivel de confianza (entre 0 y 1): "))
        if 0 < nivel_confianza < 1:
            break
        else:
            print("El nivel de confianza debe estar entre 0 y 1. Intente nuevamente.")
    except ValueError:
        print("Entrada inválida. Ingrese un número entre 0 y 1.")
# Calcular nivel de significancia
alfa = 1 - nivel_confianza

# Obtener valor crítico (usando scipy.stats.ksone.ppf)
# ksone.ppf calcula el inverso de la CDF de la distribución Kolmogorov-Smirnov
valor_critico = stats.ksone.ppf(1 - alfa / 2, n)

# Realizar prueba de hipótesis
print(f"Valor crítico: {valor_critico}")
print("")
print(f"Estadístico D: {d}")
print("")
if d > valor_critico:
    print(f"\033[1;31mSe rechaza H0. Los datos no siguen una distribución uniforme (con un nivel de confianza del {nivel_confianza*100:.2f}%).\033[0m") # Rojo y negrita
else:
    print(f"\033[1;32mNo se rechaza H0. Los datos podrían seguir una distribución uniforme (con un nivel de confianza del {nivel_confianza*100:.2f}%). \033[0m") # Verde y negrita
print("")
display(df_resultados)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Ingrese el nivel de confianza (entre 0 y 1): 13
El nivel de confianza debe estar entre 0 y 1. Intente nuevamente.
Ingrese el nivel de confianza (entre 0 y 1): .95
Valor crítico: 0.26404165128797874

Estadístico D: 0.16900000000000004

[1;32mNo se rechaza H0. Los datos podrían seguir una distribución uniforme (con un nivel de confianza del 95.00%). [0m



i,xi,i/n,i/n - xi,xi - (i-1)/n
1,0.007,0.04,0.033,0.007
2,0.048,0.08,0.032,0.008
3,0.086,0.12,0.034,0.006
4,0.157,0.16,0.003,0.037
5,0.166,0.2,0.034,0.006
6,0.178,0.24,0.062,-0.022
7,0.199,0.28,0.081,-0.041
8,0.298,0.32,0.022,0.018
9,0.362,0.36,-0.002,0.042
10,0.368,0.4,0.032,0.008
