# Ejercicio 1

In [90]:
import numpy as np

# Aleatoriedad

In [13]:
def runs_test(data):
    # Convertir los datos a una secuencia binaria para la prueba de runs
    median = np.median(data)  # Calcula la mediana de los datos. La mediana se usa para separar los datos en dos grupos.
    binary_data = np.where(data > median, 1, 0)  # Convierte los datos en una secuencia binaria: 1 si es mayor que la mediana, 0 si es menor o igual.

    # Contar el número de "runs" (secuencias consecutivas de 0s o 1s)
    runs = np.count_nonzero(np.diff(binary_data) != 0) + 1
    # np.diff(binary_data) calcula la diferencia entre elementos consecutivos de binary_data.
    # np.count_nonzero() cuenta cuántas diferencias son distintas de 0, es decir, cuántos cambios hay entre 0s y 1s.
    # +1 se agrega para incluir el primer run.

    # Número total de 0s y 1s
    n0 = np.sum(binary_data == 0)  # Cuenta el número de 0s en binary_data.
    n1 = np.sum(binary_data == 1)  # Cuenta el número de 1s en binary_data.

    # Calcular la estadística de la prueba y el valor p
    expected_runs = 1 + (2 * n0 * n1) / (n0 + n1)
    # La fórmula para el número esperado de runs en una secuencia binaria es 1 + (2 * n0 * n1) / (n0 + n1).

    variance_runs = (expected_runs - 1) * (expected_runs - 2) / (n0 + n1 - 1)
    # La varianza de los runs se calcula con la fórmula (expected_runs - 1) * (expected_runs - 2) / (n0 + n1 - 1).

    z = (runs - expected_runs) / np.sqrt(variance_runs)
    # La estadística z se calcula como (runs - expected_runs) / sqrt(variance_runs), que mide cuántos errores estándar está el número observado de runs del esperado.

    p_value = 2 * (1 - stats.norm.cdf(np.abs(z)))
    # El valor p se calcula usando la distribución normal estándar. stats.norm.cdf() calcula la función de distribución acumulativa.
    # 2 * (1 - CDF) se usa para obtener el valor p bilateral, que indica la probabilidad de observar un valor z tan extremo como el calculado.

    return runs, expected_runs, variance_runs, z, p_value
    # Devuelve el número observado de runs, el número esperado de runs, la varianza de los runs, la estadística z y el valor p.



In [94]:
u(3,(2**31)-1,7**5,2**32,10)

[0.500003912486136,
 0.5000000006984919,
 3.912486135959625e-06,
 6.984919309616089e-10,
 0.500003912486136,
 0.5000000006984919,
 3.912486135959625e-06,
 6.984919309616089e-10,
 0.500003912486136,
 0.5000000006984919]

In [92]:
#Función que devuelve los números pseudoaleatorios usando glc
def u(X0,a,c,m,n):
    valor = X0 #guardamos en "valor" la semilla
    lista = [] #declaramos una lista vacia
    for i in range(1,n+1): #usamos 5 +1 solo para indicar que el valor máximo de "i"
        valor = (a*valor + c) % m #generamos el segundo valor
        lista.append(valor/m) #guardamos el resultado en la lista
    return lista

In [17]:
# Ejemplo de uso
data = u(3,(2**31)-1,7**5,2**32,100)  # Genera un array de 100 datos aleatorios entre 0 y 1.
runs, expected_runs, variance_runs, z, p_value = runs_test(data)
# Llama a la función runs_test con los datos generados y guarda los resultados en las variables correspondientes.

print(f'Número de runs: {runs}')
print(f'Número esperado de runs: {expected_runs}')
print(f'Varianza de runs: {variance_runs}')
print(f'Estadística z: {z}')
print(f'Valor p: {p_value}')
# Imprime el número de runs observado, el número esperado de runs, la varianza de los runs, la estadística z y el valor p.


Número de runs: 50
Número esperado de runs: 51.0
Varianza de runs: 24.747474747474747
Estadística z: -0.201017818278147
Valor p: 0.8406846414712399


# conclusion

no se rechaza la hipotesis nula, por lo tanto, los datos son aleatoreos

In [18]:
import numpy as np
import scipy.stats as stats

def anderson_darling_uniform_test(data):
    """
    Realiza la prueba de bondad de ajuste de Anderson-Darling para verificar si los datos 
    siguen una distribución uniforme.

    Parameters:
    data (array-like): Muestra de datos a ser probada.

    Returns:
    A2 (float): Estadístico de la prueba de Anderson-Darling.
    p_value (float): Valor p estimado a partir de la simulación.
    """
    # Asegurarse de que los datos estén en el rango [0, 1]
    data = np.clip(data, 0, 1)

    # Ordenar los datos de menor a mayor
    sorted_data = np.sort(data)
    n = len(data)  # Número de datos en la muestra

    # Calcular el estadístico de Anderson-Darling para la distribución uniforme
    # Para la distribución uniforme, F(x) = x (CDF uniforme)
    cdf_values = sorted_data
    # Term1 es la suma de los logaritmos de los valores CDF y su complemento
    term1 = -np.sum((2 * np.arange(1, n + 1) - 1) * (np.log(cdf_values) + np.log(1 - cdf_values)))
    term2 = -n  # Término de ajuste

    # Calcula el estadístico A2
    A2 = (term1 / n) + term2

    # Aproximar el valor p usando simulaciones para crear una distribución de referencia
    num_simulations = 10000  # Número de simulaciones para aproximar la distribución de A2
    simulated_statistics = []

    for _ in range(num_simulations):
        # Generar datos simulados uniformemente distribuidos
        simulated_data = np.random.uniform(0, 1, size=n)
        simulated_sorted_data = np.sort(simulated_data)
        simulated_cdf_values = simulated_sorted_data
        
        # Calcular el estadístico de Anderson-Darling para los datos simulados
        simulated_term1 = -np.sum((2 * np.arange(1, n + 1) - 1) * (np.log(simulated_cdf_values) + np.log(1 - simulated_cdf_values)))
        simulated_term2 = -n
        simulated_A2 = (simulated_term1 / n) + simulated_term2
        
        simulated_statistics.append(simulated_A2)

    simulated_statistics = np.array(simulated_statistics)
    # Calcular el valor p como la proporción de estadísticos simulados que son mayores o iguales a A2
    p_value = np.mean(simulated_statistics >= A2)

    return A2, p_value


In [19]:
# Ejemplo de uso
np.random.seed(42) # Establece una semilla para reproducibilidad de los resultados
data =u(3,(2**31)-1,7**5,2**32,10) # Generar una muestra de 100 números aleator
# Realizar la prueba de Anderson-Darling
A2, p_value = anderson_darling_uniform_test(data)
# Mostrar los resultados
print(f'Estadística de Anderson-Darling: {A2}')
print(f'Valor p: {p_value}')
# Evaluar el resultado basándose en un nivel de significancia del 5%
alpha = 0.05
if p_value < alpha:
 print('La prueba sugiere que los datos no siguen una distribución uniforme.')
else:
 print('La prueba sugiere que los datos siguen una distribución uniforme.')

Estadística de Anderson-Darling: 25.019321379446126
Valor p: 0.002
La prueba sugiere que los datos no siguen una distribución uniforme.


# Ejercicio 2

In [3]:
import numpy as np
u=np.random.random()
p1=0.2
p2=0.15
p3=0.25
p4=0.4
if u<p1:
    xi=p1
    p=1
elif u>=p1 and u<(p1+p2):
    xi=p2
    p=2
elif u>=(p1+p2) and u<(p2+p3):
    xi=p3
    p=3
elif u>=(p2+p3) and u<(p3+p4):
    xi=p4
    p=4
print("la probabilidad es:",xi,"y corresponde a p",p)

la probabilidad es: 0.4 y corresponde a p 4


In [30]:
import numpy as np

u = np.random.random()
p = [0, 0.2, 0.15, 0.25, 0.4]  # Probabilidades


# Convertir las probabilidades en una lista de probabilidades acumuladas
p_acumulada = np.cumsum(p)

# Encontrar el valor de `i` correspondiente al valor aleatorio `u`
for i in range(1, len(p_acumulada)):
    if p_acumulada[i-1] <= u < p_acumulada[i]:
        x = i
        break

2

In [35]:
def ejercicio2(n):
    lista = []
    for a in range(n):
        u = np.random.random()
        p = [0, 0.2, 0.15, 0.25, 0.4]  
        p_acumulada = np.cumsum(p)
        for i in range(1, len(p_acumulada)):
            if p_acumulada[i-1] <= u < p_acumulada[i]:
                x = i
                break
        lista.append(x)
    return np.array(lista)

In [39]:
ejercicio2(10)

array([3, 2, 4, 3, 4, 4, 4, 1, 1, 4])

# Ejercicio 3

## uniforme discreta

In [60]:
u = np.random.random()
n = 8

for i in range(1, n):
    if u >= (i-1)/n and u <= i/n:
        break
x = i

print(x)


5


In [77]:
def ejercicio3ud(m,n1):
    lista = []
    n=n1
    for a in range(m):
        u = np.random.random()
        for i in range(1, n):
            if u >= (i-1)/n and u <= i/n:
                break
        x=i
        lista.append(x)
    return np.array(lista)

In [78]:
# (m,n1) m es el numero de simulaciones y n1 es el numero de fracciones
ejercicio3ud(10,8)

array([6, 5, 2, 4, 5, 7, 7, 5, 2, 2])

## con X=[k*u]+1

In [79]:
k=10
u=np.random.random()
x=int(k*u)+1

In [80]:
def ejercicio3ud(n,k):
    lista = []
    for i in range(1,n):
        u=np.random.random()
        x=int(k*u)+1
        lista.append(x)
    return np.array(lista)

In [81]:
#ejercicio3ud(n,k) n es simulaciones 
ejercicio3ud(10,8)

array([6, 3, 8, 8, 6, 3, 3, 8, 4])

## Geometric

In [82]:
u = np.random.random()
p=1/4
q=1-p
x=((np.log(u))/(np.log(q)))+1 # aca tenia mis duda con el ln ya que unos usa np.log10() y otros solo np.log()
x

1.775585722034701

In [83]:
def ejercicio3g(n,p):
    lista = []
    for i in range(1,n):
        u = np.random.random()
        q=1-p
        x=((np.log(u))/(np.log(q)))+1 # aca tenia mis duda con el ln ya que unos usa np.log10() y otros solo np.log()
        lista.append(x)
    return np.array(lista)

In [87]:
#ejercicio3g(n,p) n simulaciones y p es para la probabilidad
ejercicio3g(10,1/4)

array([8.19216496, 2.12678237, 9.79001671, 5.70085916, 4.5489918 ,
       7.44064513, 6.87495879, 2.24516238, 9.15424018])