![image.png](attachment:5900063d-4ffd-4a03-bc81-6aab70ade9f3.png)

In [1]:
import numpy as np
import pandas as pd
from scipy.stats import norm, chi2

alpha = 0.05 # nivel de singnificancia alpha
# Datos de las calificaciones y sus frecuencias
calificaciones = np.array([75, 80, 85, 90, 95, 100, 105, 110, 115, 120])
frecuencias_observadas = np.array([10, 14, 26, 51, 64, 73, 68, 53, 30, 11])
n_total = 400  # Total de observaciones

# Paso 1: Calcular media (mu) y desviación estándar (sigma)
mu = np.sum(calificaciones * frecuencias_observadas) / n_total
sigma = np.sqrt(np.sum((calificaciones - mu) ** 2 * frecuencias_observadas) / n_total)

# Paso 2 y 3: Calcular frecuencias esperadas bajo la suposición de normalidad
limites_clase = np.append(calificaciones - 2.5, calificaciones[-1] + 2.5)  # Limites de cada intervalo
print("limites_clase", limites_clase)
frecuencias_esperadas = []

for i in range(len(limites_clase) - 1):
    # Convertir los límites del intervalo a valores z
    z1 = (limites_clase[i] - mu) / sigma
    z2 = (limites_clase[i + 1] - mu) / sigma
    # Probabilidad teórica en el intervalo
    probabilidad_intervalo = norm.cdf(z2) - norm.cdf(z1)
    # Frecuencia esperada en el intervalo
    frecuencia_esperada = probabilidad_intervalo * n_total
    frecuencias_esperadas.append(frecuencia_esperada)

# Paso 4: Agrupar intervalos si las frecuencias esperadas son menores a 5
frecuencias_observadas_agrupadas = []
frecuencias_esperadas_agrupadas = []
intervalos_agrupados = []
acum_observadas = 0
acum_esperadas = 0
acum_intervalo = ""

for i, (fo, fe) in enumerate(zip(frecuencias_observadas, frecuencias_esperadas)):
    acum_observadas += fo
    acum_esperadas += fe
    # Acumular el rango de calificaciones para el intervalo actual
    if acum_intervalo == "":
        acum_intervalo = f"{limites_clase[i]:.1f} - {limites_clase[i + 1]:.1f}"
    else:
        acum_intervalo = f"{acum_intervalo.split(' - ')[0]} - {limites_clase[i + 1]:.1f}"

    if acum_esperadas >= 5:
        frecuencias_observadas_agrupadas.append(acum_observadas)
        frecuencias_esperadas_agrupadas.append(acum_esperadas)
        intervalos_agrupados.append(acum_intervalo)
        acum_observadas = 0
        acum_esperadas = 0
        acum_intervalo = ""

# Si queda algún remanente, lo agregamos
if acum_esperadas > 0:
    frecuencias_observadas_agrupadas.append(acum_observadas)
    frecuencias_esperadas_agrupadas.append(acum_esperadas)
    intervalos_agrupados.append(acum_intervalo)

# Paso 5: Calcular el estadístico de chi-cuadrado
chi2_stat = sum((fo - fe) ** 2 / fe for fo, fe in zip(frecuencias_observadas_agrupadas, frecuencias_esperadas_agrupadas))
grados_libertad = len(frecuencias_observadas_agrupadas) - 1 #segun el profe es k-1  #- 2  # -1 por el total y -2 por estimar mu y sigma

chi2_critico = chi2.ppf(1 - alpha, grados_libertad)

# Resultado de la prueba
rechazar_ho = chi2_stat > chi2_critico
resultado = {
    "media (Xbarra)": mu,
    "desviacion_estandar (sigma)": sigma,
    "Varianza (sigma**2)": sigma**2,
    "chi2_stat (Xo**2)": chi2_stat,
    "chi2_critico (X**2)": chi2_critico,
    "grados_libertad": grados_libertad,
    "rechazar_ho": rechazar_ho
}

# Mostrar el resultado principal
display(resultado)

# Paso 6: Crear el DataFrame para visualización
d = {
    'Intervalo': intervalos_agrupados,
    'frecuencias_observadas_agrupadas': frecuencias_observadas_agrupadas,
    'frecuencias_esperadas_agrupadas': frecuencias_esperadas_agrupadas
}
df = pd.DataFrame(data=d)
display(df)
# HECHO COMO EN LAS FILMINAS # OJO LOS GRADOS DE LIBERTAD
# no rechazamos la hipotesis nula

limites_clase [ 72.5  77.5  82.5  87.5  92.5  97.5 102.5 107.5 112.5 117.5 122.5]


{'media (Xbarra)': np.float64(99.475),
 'desviacion_estandar (sigma)': np.float64(10.300455087033775),
 'Varianza (sigma**2)': np.float64(106.09937499999998),
 'chi2_stat (Xo**2)': np.float64(4.952968285428599),
 'chi2_critico (X**2)': np.float64(15.50731305586545),
 'grados_libertad': 8,
 'rechazar_ho': np.False_}

Unnamed: 0,Intervalo,frecuencias_observadas_agrupadas,frecuencias_esperadas_agrupadas
0,72.5 - 82.5,24,18.106423
1,82.5 - 87.5,26,29.12967
2,87.5 - 92.5,51,50.660778
3,92.5 - 97.5,64,69.927735
4,97.5 - 102.5,73,76.609638
5,102.5 - 107.5,68,66.615917
6,107.5 - 112.5,53,45.975524
7,112.5 - 117.5,30,25.183274
8,117.5 - 122.5,11,10.947299


In [2]:
# 2 vamos con el ejercicio 2

import numpy as np
import pandas as pd
from scipy.stats import norm, chi2

alpha = 0.05 # nivel de singnificancia alpha
# Datos de las calificaciones y sus frecuencias
calificaciones = np.array([72.5, 87.5, 102.5, 117.5, 132.5])
frecuencias_observadas = np.array([10, 20, 80, 50, 20])
# n_total = 180  # Total de observaciones
n_total = int(np.sum(frecuencias_observadas))

entre_intervalo = 7.5 #el equivalente al 2.5 anterior de los limites +- 2.5

In [3]:

# Paso 1: Calcular media (mu) y desviación estándar (sigma)
mu = np.sum(calificaciones * frecuencias_observadas) / n_total
sigma = np.sqrt(np.sum((calificaciones - mu) ** 2 * frecuencias_observadas) / n_total)

# Paso 2 y 3: Calcular frecuencias esperadas bajo la suposición de normalidad
limites_clase = np.append(calificaciones - entre_intervalo, calificaciones[-1] + entre_intervalo)  # Limites de cada intervalo
print("limites_clase", limites_clase)
frecuencias_esperadas = []

for i in range(len(limites_clase) - 1):
    # Convertir los límites del intervalo a valores z
    z1 = (limites_clase[i] - mu) / sigma
    z2 = (limites_clase[i + 1] - mu) / sigma
    # Probabilidad teórica en el intervalo
    probabilidad_intervalo = norm.cdf(z2) - norm.cdf(z1)
    # Frecuencia esperada en el intervalo
    frecuencia_esperada = probabilidad_intervalo * n_total
    frecuencias_esperadas.append(frecuencia_esperada)

# Paso 4: Agrupar intervalos si las frecuencias esperadas son menores a 5
frecuencias_observadas_agrupadas = []
frecuencias_esperadas_agrupadas = []
intervalos_agrupados = []
acum_observadas = 0
acum_esperadas = 0
acum_intervalo = ""

for i, (fo, fe) in enumerate(zip(frecuencias_observadas, frecuencias_esperadas)):
    acum_observadas += fo
    acum_esperadas += fe
    # Acumular el rango de calificaciones para el intervalo actual
    if acum_intervalo == "":
        acum_intervalo = f"{limites_clase[i]:.1f} - {limites_clase[i + 1]:.1f}"
    else:
        acum_intervalo = f"{acum_intervalo.split(' - ')[0]} - {limites_clase[i + 1]:.1f}"

    if acum_esperadas >= 5:
        frecuencias_observadas_agrupadas.append(acum_observadas)
        frecuencias_esperadas_agrupadas.append(acum_esperadas)
        intervalos_agrupados.append(acum_intervalo)
        acum_observadas = 0
        acum_esperadas = 0
        acum_intervalo = ""

# Si queda algún remanente, lo agregamos
if acum_esperadas > 0:
    frecuencias_observadas_agrupadas.append(acum_observadas)
    frecuencias_esperadas_agrupadas.append(acum_esperadas)
    intervalos_agrupados.append(acum_intervalo)

# Paso 5: Calcular el estadístico de chi-cuadrado
chi2_stat = sum((fo - fe) ** 2 / fe for fo, fe in zip(frecuencias_observadas_agrupadas, frecuencias_esperadas_agrupadas))
grados_libertad = len(frecuencias_observadas_agrupadas) - 1 #segun el profe es k-1  #- 2  # -1 por el total y -2 por estimar mu y sigma

chi2_critico = chi2.ppf(1 - alpha, grados_libertad)

# Resultado de la prueba
rechazar_ho = chi2_stat > chi2_critico
resultado = {
    "media (Xbarra)": mu,
    "desviacion_estandar (sigma)": sigma,
    "Varianza (sigma**2)": sigma**2,
    "chi2_stat (Xo**2)": chi2_stat,
    "chi2_critico (X**2)": chi2_critico,
    "grados_libertad": grados_libertad,
    "rechazar_ho": rechazar_ho
}

# Mostrar el resultado principal
display(resultado)

# Paso 6: Crear el DataFrame para visualización
d = {
    'Intervalo': intervalos_agrupados,
    'frecuencias_observadas_agrupadas': frecuencias_observadas_agrupadas,
    'frecuencias_esperadas_agrupadas': frecuencias_esperadas_agrupadas
}
df = pd.DataFrame(data=d)
display(df)
# HECHO COMO EN LAS FILMINAS # OJO LOS GRADOS DE LIBERTAD
# no rechazamos la hipotesis nula

limites_clase [ 65.  80.  95. 110. 125. 140.]


{'media (Xbarra)': np.float64(106.66666666666667),
 'desviacion_estandar (sigma)': np.float64(14.837078178970712),
 'Varianza (sigma**2)': np.float64(220.13888888888886),
 'chi2_stat (Xo**2)': np.float64(10.541145328308582),
 'chi2_critico (X**2)': np.float64(9.487729036781154),
 'grados_libertad': 4,
 'rechazar_ho': np.True_}

Unnamed: 0,Intervalo,frecuencias_observadas_agrupadas,frecuencias_esperadas_agrupadas
0,65.0 - 80.0,10,6.057672
1,80.0 - 95.0,20,32.345357
2,95.0 - 110.0,80,67.146935
3,110.0 - 125.0,50,54.508561
4,125.0 - 140.0,20,17.273446


![image.png](attachment:3bd3c81c-321c-48cf-b4d4-c49421569702.png)

Para resolver este ejercicio, primero necesitamos agrupar las calificaciones en intervalos, contar cuántas calificaciones caen en cada intervalo, y luego comparar estas frecuencias observadas con las frecuencias esperadas según una distribución normal con \(\mu = 65\) y \(\sigma = 21\).

Algoritmo en Python que calcula las frecuencias observadas de las calificaciones al agruparlas en intervalos. Además, también obtendremos una tabla con las frecuencias de cada intervalo, que servirá para el análisis posterior:


### Explicación del código
1. **Definimos los intervalos**: Utilizamos `np.arange` para crear los intervalos de 10 en 10, desde el límite inferior (menor calificación) hasta el límite superior (mayor calificación), redondeando hacia abajo o hacia arriba para que cubran todo el rango de las calificaciones.
2. **Contamos las frecuencias observadas**: Con `pd.cut`, clasificamos las calificaciones en los intervalos creados y contamos cuántos valores caen en cada intervalo.
3. **Creamos la tabla**: Organizamos los datos en una tabla que muestra cada intervalo y la frecuencia observada correspondiente.

### Resultado
Al ejecutar este código, obtendrás una tabla con los intervalos y las frecuencias observadas, algo como esto:

```
  Intervalo  Frecuencia Observada
0     0 - 9                    1
1    10 - 19                   3
2    20 - 29                   2
...
9    90 - 99                   4
```

### Paso siguiente
Con esta tabla de frecuencias observadas, podemos proceder a calcular las frecuencias esperadas bajo la suposición de una distribución normal con \(\mu = 65\) y \(\sigma = 21\), y luego realizar la prueba de bondad de ajuste para comparar ambas distribuciones.

In [4]:
import numpy as np
import pandas as pd

# Paso 1: Lista de calificaciones
calificaciones = [
    23, 60, 79, 32, 57, 74, 52, 70, 82, 36, 80, 77, 81, 95, 41, 65, 92, 85,
    55, 76, 52, 10, 64, 75, 78, 25, 80, 98, 81, 67, 41, 71, 83, 54, 64, 72,
    88, 62, 74, 43, 60, 78, 89, 76, 84, 48, 84, 90, 15, 79, 34, 67, 17, 82,
    69, 74, 63, 80, 85, 61
]

# Parámetros de la distribución normal
mu = 65  # media
sigma = 21  # desviación estándar

# Paso 2: Definir los intervalos
# Vamos a dividir las calificaciones en intervalos con un ancho de 10
# por ejemplo, 0-10, 10-20, ..., 90-100
ancho_intervalo = 10
limite_inferior = min(calificaciones) // ancho_intervalo * ancho_intervalo
limite_superior = (max(calificaciones) // ancho_intervalo + 1) * ancho_intervalo
intervalos = np.arange(limite_inferior, limite_superior + ancho_intervalo, ancho_intervalo)

# Paso 3: Contar las frecuencias observadas en cada intervalo
frecuencias_observadas = pd.cut(calificaciones, bins=intervalos, right=False).value_counts().sort_index()

# Crear una tabla para visualizar mejor los resultados
tabla_frecuencias = pd.DataFrame({
    "Intervalo": [f"{int(i.left)} - {int(i.right - 1)}" for i in frecuencias_observadas.index],
    "Frecuencia Observada": frecuencias_observadas.values
})

# Mostrar la tabla
print(tabla_frecuencias)


  Intervalo  Frecuencia Observada
0   10 - 19                     3
1   20 - 29                     2
2   30 - 39                     3
3   40 - 49                     4
4   50 - 59                     5
5   60 - 69                    11
6   70 - 79                    14
7   80 - 89                    14
8   90 - 99                     4


In [5]:
# 3 vamos con el ejercicio 2

import numpy as np
import pandas as pd
from scipy.stats import norm, chi2

alpha = 0.05 # nivel de singnificancia alpha
# Datos de las calificaciones y sus frecuencias
calificaciones = np.array([14.5,24.5,34.5,44.5,54.5,64.5,74.5,84.5,94.5])
frecuencias_observadas = np.array([3,2,3,4,5,11,14,14,4])
# n_total = 180  # Total de observaciones
n_total = int(np.sum(frecuencias_observadas))
print("n_total: ", n_total)

entre_intervalo = 4.5 #el equivalente al 2.5 anterior de los limites +- 2.5

n_total:  60


In [6]:

# Paso 1: Calcular media (mu) y desviación estándar (sigma)
mu = np.sum(calificaciones * frecuencias_observadas) / n_total
sigma = np.sqrt(np.sum((calificaciones - mu) ** 2 * frecuencias_observadas) / n_total)

# Paso 2 y 3: Calcular frecuencias esperadas bajo la suposición de normalidad
limites_clase = np.append(calificaciones - entre_intervalo, calificaciones[-1] + entre_intervalo)  # Limites de cada intervalo
print("limites_clase", limites_clase)
frecuencias_esperadas = []

for i in range(len(limites_clase) - 1):
    # Convertir los límites del intervalo a valores z
    z1 = (limites_clase[i] - mu) / sigma
    z2 = (limites_clase[i + 1] - mu) / sigma
    # Probabilidad teórica en el intervalo
    probabilidad_intervalo = norm.cdf(z2) - norm.cdf(z1)
    # Frecuencia esperada en el intervalo
    frecuencia_esperada = probabilidad_intervalo * n_total
    frecuencias_esperadas.append(frecuencia_esperada)

# Paso 4: Agrupar intervalos si las frecuencias esperadas son menores a 5
frecuencias_observadas_agrupadas = []
frecuencias_esperadas_agrupadas = []
intervalos_agrupados = []
acum_observadas = 0
acum_esperadas = 0
acum_intervalo = ""

for i, (fo, fe) in enumerate(zip(frecuencias_observadas, frecuencias_esperadas)):
    acum_observadas += fo
    acum_esperadas += fe
    # Acumular el rango de calificaciones para el intervalo actual
    if acum_intervalo == "":
        acum_intervalo = f"{limites_clase[i]:.1f} - {limites_clase[i + 1]:.1f}"
    else:
        acum_intervalo = f"{acum_intervalo.split(' - ')[0]} - {limites_clase[i + 1]:.1f}"

    if acum_esperadas >= 5:
        frecuencias_observadas_agrupadas.append(acum_observadas)
        frecuencias_esperadas_agrupadas.append(acum_esperadas)
        intervalos_agrupados.append(acum_intervalo)
        acum_observadas = 0
        acum_esperadas = 0
        acum_intervalo = ""

# Si queda algún remanente, lo agregamos
if acum_esperadas > 0:
    frecuencias_observadas_agrupadas.append(acum_observadas)
    frecuencias_esperadas_agrupadas.append(acum_esperadas)
    intervalos_agrupados.append(acum_intervalo)

# Paso 5: Calcular el estadístico de chi-cuadrado
chi2_stat = sum((fo - fe) ** 2 / fe for fo, fe in zip(frecuencias_observadas_agrupadas, frecuencias_esperadas_agrupadas))
grados_libertad = len(frecuencias_observadas_agrupadas) - 1 #segun el profe es k-1  #- 2  # -1 por el total y -2 por estimar mu y sigma

chi2_critico = chi2.ppf(1 - alpha, grados_libertad)

# Resultado de la prueba
rechazar_ho = chi2_stat > chi2_critico
resultado = {
    "media (Xbarra o mu en este caso)": mu,
    "desviacion_estandar (sigma)": sigma,
    "Varianza (sigma**2)": sigma**2,
    "chi2_stat (Xo**2)": chi2_stat,
    "chi2_critico (X**2)": chi2_critico,
    "grados_libertad": grados_libertad,
    "rechazar_ho": rechazar_ho
}

# Mostrar el resultado principal
display(resultado)

# Paso 6: Crear el DataFrame para visualización
d = {
    'Intervalo': intervalos_agrupados,
    'frecuencias_observadas_agrupadas': frecuencias_observadas_agrupadas,
    'frecuencias_esperadas_agrupadas': frecuencias_esperadas_agrupadas
}
df = pd.DataFrame(data=d)
display(df)
# HECHO COMO EN LAS FILMINAS # OJO LOS GRADOS DE LIBERTAD
# no rechazamos la hipotesis nula

limites_clase [10. 20. 30. 40. 50. 60. 70. 80. 90. 99.]


{'media (Xbarra o mu en este caso)': np.float64(66.0),
 'desviacion_estandar (sigma)': np.float64(20.80264406271472),
 'Varianza (sigma**2)': np.float64(432.75),
 'chi2_stat (Xo**2)': np.float64(10.97732855012931),
 'chi2_critico (X**2)': np.float64(12.591587243743977),
 'grados_libertad': 6,
 'rechazar_ho': np.False_}

Unnamed: 0,Intervalo,frecuencias_observadas_agrupadas,frecuencias_esperadas_agrupadas
0,10.0 - 40.0,8,6.127631
1,40.0 - 50.0,4,6.913703
2,50.0 - 60.0,5,9.936215
3,60.0 - 70.0,11,11.383744
4,70.0 - 80.0,14,10.397027
5,80.0 - 90.0,14,7.569882
6,90.0 - 99.0,4,4.078814


#### Tenemos que Retornar a los puntos  prevois. pero aplicando la prueba de normalidad de geral. Basicamnete si estamos cerca o = a 1 entonces indica normalidad. La hipotesis nula debe ser como la dada en la prueba de distribucion normal previa
![image.png](attachment:cfdc67ac-0943-40aa-95fe-7c5548842953.png)
![image.png](attachment:ce160211-4fa4-4147-a687-560205da6aa2.png)
![image.png](attachment:60fc0eba-373c-41c4-b50c-52cd0d0f4b5b.png)

In [7]:
from scipy.stats import norm
from math import pi, sqrt
import numpy as np

# Lista de datos
# punto 1 

lista = np.array([1, 2, 3, 4, 5, 6, 7, 8, 1234, 12, 343, 412, 34])
alpha = 0.05
def geary(lista = lista, alpha = alpha):
    """lista = lista de numpy
        alpha = (int) un valor estilo 0.05 por poner un ejemplo
    """
    print("lista = ", lista)
    
    # Parámetros
    n = len(lista)
    
    # Cálculos
    x_barra = np.mean(lista)
    casita = sqrt(pi / 2)
    
    # Numerador y denominador para U
    numerador_geary = casita * (np.sum(abs(lista - x_barra)) / n)
    denominador_geary = sqrt(np.sum((lista - x_barra)**2) / n)
    
    u = numerador_geary / denominador_geary
    print("u = numerador_geary / denominador_geary ----> u = ", u)
    # Cálculo de Z usando el valor constante de 0.2661
    z = (u - 1) / (0.2661 / sqrt(n))
    print("z = (u - 1) / (0.2661 / sqrt(n)) --->  z = ", z)
    
    # Valor p para prueba bilateral #  ----------------------- OJO ES PARA BILATERAL. EN EL CASO DE UNILATERAL NO LO MULTIPLICAMOS POR DOS
    p_value = 2 * (1 - norm.cdf(abs(z)))
    
    # Valor crítico Z(alpha/2)
    z_alpha_2 = norm.ppf(1 - (alpha / 2))
    
    # Resultados
    print(f"Z(alpha/2) = {z_alpha_2:.4f}")
    print(f"El valor z calculado debe estar entre -{z_alpha_2:.4f} y +{z_alpha_2:.4f}")
    print(f"Valor de Z calculado: {z:.4f}")
    print(f"Valor p: {p_value:.4f}")
    print(f"alpha: {alpha:.4f}")
    print(f"alpha/2: {(alpha/2):.4f}")
    print(f"\n n: {n:.4f}")
    
    
    # Interpretación
    if p_value > alpha:
        print("\nNo rechazamos la hipótesis de normalidad. (No tenemos evidencia suficiente para rechazar la hipótesis nula)")
        print(f"Por lo tanto, podemos decir que existe normalidad con mu = {x_barra:.4f} y sigma = {np.std(lista, ddof=1):.4f}")
    else:
        print("\nR.H0) Rechazamos la hipótesis de normalidad.")
geary(lista,alpha)


lista =  [   1    2    3    4    5    6    7    8 1234   12  343  412   34]
u = numerador_geary / denominador_geary ----> u =  0.8630198158038721
z = (u - 1) / (0.2661 / sqrt(n)) --->  z =  -1.8560281016221012
Z(alpha/2) = 1.9600
El valor z calculado debe estar entre -1.9600 y +1.9600
Valor de Z calculado: -1.8560
Valor p: 0.0634
alpha: 0.0500
alpha/2: 0.0250

 n: 13.0000

No rechazamos la hipótesis de normalidad. (No tenemos evidencia suficiente para rechazar la hipótesis nula)
Por lo tanto, podemos decir que existe normalidad con mu = 159.3077 y sigma = 351.3933


----

y luego calculamos el p valor

Explicación
Cálculo del valor p:
Usamos norm.cdf(abs(z)) para obtener la probabilidad acumulada hasta el valor 
∣𝑍|
Multiplicamos por 2 porque la prueba es bilateral (considera ambas colas de la distribución).

Interpretación de los resultados:

Si p_value > alpha, no rechazamos la hipótesis de normalidad.

Si p_value <= alpha, rechazamos la hipótesis de normalidad.

Este enfoque proporciona una interpretación adicional que compara el valor p con el nivel de significancia, lo cual es útil para contrastar los resultados de manera más clara.








![image.png](attachment:196c69ea-dd85-4595-9f6b-a1379b2d3065.png)

In [8]:
lista_aux = np.array([80,95,110,125,140])
frecuencia = np.array([10,20,80,50,20])
alpha = 0.05

lista2 = (lista_aux-7.5)

geary(lista2, alpha)

lista =  [ 72.5  87.5 102.5 117.5 132.5]
u = numerador_geary / denominador_geary ----> u =  1.0634723105433095
z = (u - 1) / (0.2661 / sqrt(n)) --->  z =  0.5333649044111861
Z(alpha/2) = 1.9600
El valor z calculado debe estar entre -1.9600 y +1.9600
Valor de Z calculado: 0.5334
Valor p: 0.5938
alpha: 0.0500
alpha/2: 0.0250

 n: 5.0000

No rechazamos la hipótesis de normalidad. (No tenemos evidencia suficiente para rechazar la hipótesis nula)
Por lo tanto, podemos decir que existe normalidad con mu = 102.5000 y sigma = 23.7171


En tu ejercicio, la estadística \( u \) (de Geary) ha dado un valor ligeramente mayor que 1, y es cierto que este valor puede causar dudas. La estadística de Geary está diseñada para medir la desviación respecto a la normalidad, y en teoría, si los datos son perfectamente normales, \( u \) debería ser cercano a 1.

En la práctica, \( u > 1 \) significa que hay algo de asimetría o desviación respecto a la normalidad, pero sigue siendo posible que los datos se consideren normales si el valor de \( z \) cae dentro del intervalo crítico definido por \( \pm Z(\alpha/2) \). Esto no implica necesariamente que los datos sean "más que normales"; simplemente sugiere que hay una pequeña variación que, estadísticamente, no es suficiente para rechazar la hipótesis de normalidad.

### Análisis de los resultados:

1. **Valor de \( u \)**: Aunque obtuviste \( u = 1.063 \), lo cual indica una pequeña desviación respecto a la normalidad, esta desviación no es suficientemente grande para considerar que los datos no siguen una distribución normal, dado el nivel de significancia del 5%.

2. **Valor \( Z \)**: El valor \( z = 0.533 \) está dentro del rango crítico de \( -1.96 \leq z \leq 1.96 \), lo que indica que no hay suficiente evidencia para rechazar la hipótesis de normalidad. En este caso, podemos interpretar que los datos no difieren significativamente de una distribución normal.

3. **Valor p**: El valor p es 0.5938, mucho mayor que \( \alpha = 0.05 \). Esto refuerza la decisión de no rechazar la hipótesis de normalidad, ya que el valor p representa la probabilidad de obtener un resultado tan extremo como el observado, si los datos realmente siguen una distribución normal.

### Conclusión:
Los resultados indican que **no se rechaza la hipótesis de normalidad**, y el hecho de que \( u \) sea un poco mayor que 1 no es motivo suficiente para preocuparse, ya que la variación es muy leve. 

Entonces, **tu análisis es correcto** y la interpretación es válida: no hay suficiente evidencia para rechazar la hipótesis de normalidad para estos datos, al nivel de significancia del 5%.

![image.png](attachment:e26d7a39-0c56-49ec-89c3-9f4eb51ec7de.png)

Para contar las frecuencias de cada valor único en la lista de calificaciones y luego añadirlas a un DataFrame, puedes usar value_counts() de pandas. Esto generará una tabla que muestra cada calificación única y su frecuencia correspondiente

In [9]:
import numpy as np
import pandas as pd

# Paso 1: Lista de calificaciones
ca = [
    23, 60, 79, 32, 57, 74, 52, 70, 82, 36, 80, 77, 81, 95, 41, 65, 92, 85,
    55, 76, 52, 10, 64, 75, 78, 25, 80, 98, 81, 67, 41, 71, 83, 54, 64, 72,
    88, 62, 74, 43, 60, 78, 89, 76, 84, 48, 84, 90, 15, 79, 34, 67, 17, 82,
    69, 74, 63, 80, 85, 61
]

# Crear el DataFrame inicial
df = pd.DataFrame({'calificaciones': ca})

# Contar la frecuencia de cada calificación única
frecuencia = df['calificaciones'].value_counts().sort_index()

# Crear un nuevo DataFrame con las calificaciones únicas y sus frecuencias
df_frecuencia = frecuencia.reset_index()
df_frecuencia.columns = ['calif_unicas', 'frecuencia']

# Mostrar el resultado
# print(df_frecuencia)

lista3 = np.array(df_frecuencia.calif_unicas)
alpha = 0.05

geary(lista3, alpha)

lista =  [10 15 17 23 25 32 34 36 41 43 48 52 54 55 57 60 61 62 63 64 65 67 69 70
 71 72 74 75 76 77 78 79 80 81 82 83 84 85 88 89 90 92 95 98]
u = numerador_geary / denominador_geary ----> u =  1.0188930376513805
z = (u - 1) / (0.2661 / sqrt(n)) --->  z =  0.4709591660254532
Z(alpha/2) = 1.9600
El valor z calculado debe estar entre -1.9600 y +1.9600
Valor de Z calculado: 0.4710
Valor p: 0.6377
alpha: 0.0500
alpha/2: 0.0250

 n: 44.0000

No rechazamos la hipótesis de normalidad. (No tenemos evidencia suficiente para rechazar la hipótesis nula)
Por lo tanto, podemos decir que existe normalidad con mu = 63.0000 y sigma = 23.1326


# Ya finalizado con el caso numero 5 
### vamos a lo que nos quedo pendiente. la distribucion de poisson


# CASO 4: distribucion de poisson


Para realizar una **prueba de bondad de ajuste** con una **Distribución de Poisson** (en lugar de una distribución normal), la metodología sigue pasos similares, pero hay algunas diferencias clave debido a las propiedades de la distribución de Poisson.

Voy a explicarte cómo hacerlo, paso a paso, para el ejercicio de la imagen que proporcionaste y también un poco sobre en qué casos reales de ciencia de datos se usa la distribución de Poisson.

### Paso 1: Formulación de la Hipótesis

- **Hipótesis Nula (H0)**: Los datos observados siguen una distribución de Poisson.
- **Hipótesis Alternativa (H1)**: Los datos observados no siguen una distribución de Poisson.


![image.png](attachment:7b798c6b-92b7-4b48-a882-a3190e94ab07.png)
![image.png](attachment:070330c9-56ef-4fa9-b992-0387d331ccad.png)

### Paso 6: Grados de Libertad y Valor Crítico
Para la prueba, los grados de libertad serán el número de clases (intervalos) menos 1 (por la suma de frecuencias) y menos 1 adicional por la estimación de 𝜆.



### Paso 7: Decisión de la Prueba

Comparamos el estadístico de chi-cuadrado calculado con el valor crítico correspondiente al nivel de significancia (5%) y los grados de libertad. Si el estadístico es mayor que el valor crítico, rechazamos la hipótesis nula.


### Interpretación del Resultado
- Si `rechazar_ho` es `True`, entonces rechazamos la hipótesis nula y concluimos que los datos no siguen una distribución de Poisson.
- Si `rechazar_ho` es `False`, no tenemos evidencia suficiente para rechazar la hipótesis nula, y podemos asumir que los datos siguen una distribución de Poisson.

### Aplicaciones en Ciencia de Datos
La distribución de Poisson se usa en ciencia de datos cuando modelamos eventos que ocurren de manera discreta y rara vez en el tiempo o el espacio. Ejemplos incluyen:
- Modelar el número de llamadas telefónicas recibidas en un centro de llamadas por hora.
- Estimar el número de fallos en una máquina en un cierto periodo de tiempo.
- Contar eventos raros en datos de salud (ej., infecciones, errores médicos).

La prueba de bondad de ajuste de Poisson puede aplicarse para verificar si los datos observados de eventos discretos siguen este tipo de distribución, lo cual es crucial en modelos predictivos y en la toma de decisiones en estos contextos.

---

![image.png](attachment:2b77fef5-2b76-4fb7-82b9-81808d4b833f.png)

In [15]:
import numpy as np
from scipy.stats import chi2, poisson
# punto 1 de la poisson 
# Define the error counts and observed frequencies
errores = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
frecuencia = np.array([18, 53, 103, 107, 82, 46, 18, 10, 2, 1])

def dist_poisson(errores, frecuencias_observadas, total=None, alpha=0.05):
    # Total number of houses based on observed data
    total_casas = np.sum(frecuencias_observadas)
    
    # Estimate lambda (mean)
    lambda_estimada = np.sum(errores * frecuencias_observadas) / total_casas
    
    # Calculate expected frequencies based on Poisson distribution
    frecuencias_esperadas = []
    for k in errores:
        probabilidad_k = poisson.pmf(k, lambda_estimada)
        frecuencia_esperada = probabilidad_k * total_casas
        frecuencias_esperadas.append(frecuencia_esperada)
    frecuencias_esperadas = np.array(frecuencias_esperadas)
    
    # Group observed and expected frequencies if any expected value is less than 5
    frecuencias_observadas_agrupadas = []
    frecuencias_esperadas_agrupadas = []
    acum_observadas = 0
    acum_esperadas = 0
    
    for fo, fe in zip(frecuencias_observadas, frecuencias_esperadas):
        acum_observadas += fo
        acum_esperadas += fe
    
        if acum_esperadas >= 5:
            frecuencias_observadas_agrupadas.append(acum_observadas)
            frecuencias_esperadas_agrupadas.append(acum_esperadas)
            acum_observadas = 0
            acum_esperadas = 0
    
    # Add remaining frequencies if they were not added
    if acum_esperadas > 0:
        frecuencias_observadas_agrupadas.append(acum_observadas)
        frecuencias_esperadas_agrupadas.append(acum_esperadas)
    
    # Chi-square statistic
    chi2_stat = sum((fo - fe) ** 2 / fe for fo, fe in zip(frecuencias_observadas_agrupadas, frecuencias_esperadas_agrupadas))
    grados_libertad = len(frecuencias_observadas_agrupadas) - 1 - 1  # Subtract 1 for lambda estimation
    
    # Critical chi-square value
    chi2_critico = chi2.ppf(1 - alpha, grados_libertad)
    
    # p-value calculation
    p_value = chi2.sf(chi2_stat, grados_libertad)
    
    # Check if we reject the null hypothesis
    rechazar_ho = chi2_stat > chi2_critico
    
    # Result dictionary
    resultado = {
        "lambda (media estimada)": lambda_estimada,
        "chi2_stat (Xo^2)": chi2_stat,
        "chi2_critico (X^2)": chi2_critico,
        "grados_libertad": grados_libertad,
        "p_value": p_value,
        "nivel de significancia (alpha)": alpha,
        "rechazar_ho": rechazar_ho
    }
    
    # Display result
    display(resultado)

# Call the function
dist_poisson(errores, frecuencia, alpha=0.05)

print("\nInterpretación: no tenemos suficiente evidencia para rechazar nuestra hipótesis nula de que se distribuye como una 'Poisson' si el p_value > alpha.")


{'lambda (media estimada)': np.float64(3.047727272727273),
 'chi2_stat (Xo^2)': np.float64(6.008564546238276),
 'chi2_critico (X^2)': np.float64(14.067140449340169),
 'grados_libertad': 7,
 'p_value': np.float64(0.5387496669379995),
 'nivel de significancia (alpha)': 0.05,
 'rechazar_ho': np.False_}


Interpretación: no tenemos suficiente evidencia para rechazar nuestra hipótesis nula de que se distribuye como una 'Poisson' si el p_value > alpha.


![image.png](attachment:6c6a978c-38b4-498c-8718-30e63763a0da.png)

![image.png](attachment:13d610a0-3f5e-4e44-bb06-a6d9c6b85a05.png)

![image.png](attachment:ca1aa6dd-429a-449b-8380-9ec5ab6feeda.png)

In [21]:
# punto numero 2 de lo de poisson
# Define the error counts and observed frequencies
errores = np.array([0, 1, 2, 3, 4, 5, 6, 7])
frecuencia = np.array([3,15,23,20,12,10,7,5])

print(f"Cantidades. con len()    Frecuencia : {len(frecuencia)}    Errores : {len(frecuencia)}")

# Call the function # para el punto 2
dist_poisson(errores, frecuencia, alpha=0.05)

Cantidades. con len()    Frecuencia : 8    Errores : 8


{'lambda (media estimada)': np.float64(3.1157894736842104),
 'chi2_stat (Xo^2)': np.float64(5.05351645174005),
 'chi2_critico (X^2)': np.float64(11.070497693516351),
 'grados_libertad': 5,
 'p_value': np.float64(0.4093839708276787),
 'nivel de significancia (alpha)': 0.05,
 'rechazar_ho': np.False_}

### Interpretación :
En el contexto de tu prueba de hipótesis de distribución de Poisson utilizando la prueba de chi-cuadrado, vamos a desglosar los resultados que has obtenido y cómo interpretarlos:

### Resultados clave:
1. **Lambda (media estimada)**: 3.1158
   - Esta es la media estimada de la distribución de Poisson a partir de tus datos. La media es un parámetro clave de la distribución de Poisson y se calcula como la suma de los productos de cada error y su frecuencia observada, dividido por el total de observaciones.

2. **Estadístico chi-cuadrado (Xo²)**: 5.0535
   - Este es el valor que calculas al comparar las frecuencias observadas con las esperadas bajo la distribución de Poisson. Mide la diferencia entre lo que observas y lo que esperas según el modelo.

3. **Valor crítico chi-cuadrado (X²)**: 11.0705
   - Este es el valor de referencia para chi-cuadrado que se obtiene de la tabla de chi-cuadrado para el nivel de significancia (α = 0.05) y el número de grados de libertad (en este caso, 5). Si el estadístico chi-cuadrado calculado es mayor que este valor crítico, se rechaza la hipótesis nula.

4. **Grados de libertad**: 5
   - El número de grados de libertad es la cantidad de categorías independientes que se utilizan en el cálculo de chi-cuadrado. Esto está relacionado con el número de agrupaciones de las frecuencias observadas.

5. **Valor p**: 0.4094
   - El valor p es la probabilidad de obtener un resultado igual o más extremo que el observado, dado que la hipótesis nula es cierta. En este caso, un valor p de 0.4094 significa que hay una probabilidad del 40.94% de obtener una diferencia tan grande o mayor entre las frecuencias observadas y las esperadas si la distribución fuera realmente Poisson.

6. **Nivel de significancia (α)**: 0.05
   - Este es el umbral predefinido para decidir si rechazar o no la hipótesis nula. Un valor de α = 0.05 significa que estás dispuesto a aceptar un 5% de riesgo de rechazar incorrectamente la hipótesis nula (falso positivo).

7. **Resultado de la prueba (rechazar_ho)**: False
   - Esto indica que no se rechaza la hipótesis nula. En otras palabras, no tienes suficiente evidencia para afirmar que los datos no siguen una distribución de Poisson.

### **Interpretación:**

1. **Valor p mayor que α (0.4094 > 0.05)**: Como el valor p es mayor que el nivel de significancia (α), **no se rechaza la hipótesis nula**. Esto significa que los datos **no proporcionan evidencia suficiente para rechazar la hipótesis de que siguen una distribución de Poisson**.

2. **Estadístico chi-cuadrado menor que el valor crítico (5.0535 < 11.0705)**: El valor del estadístico chi-cuadrado calculado (5.0535) es menor que el valor crítico (11.0705). Esto también respalda la decisión de **no rechazar la hipótesis nula**, ya que el estadístico no es suficientemente grande como para indicar una diferencia significativa entre las frecuencias observadas y las esperadas.

### ¿Qué significa esto para tu análisis?
Dado que el valor p es mayor que el umbral α y el estadístico chi-cuadrado es menor que el valor crítico, puedes concluir que **los datos observados parecen seguir una distribución de Poisson**. En otras palabras, **no hay evidencia suficiente para afirmar que los datos no se ajustan a una distribución de Poisson**.

### **¿Qué hacer si el p-valor fuera menor que α?**
Si el valor p fuera **menor** que el nivel de significancia (α), significaría que tienes evidencia suficiente para **rechazar la hipótesis nula**. Esto indicaría que los datos observados **no siguen una distribución de Poisson**. En ese caso, el algoritmo te indicaría algo como: **"Se rechaza la hipótesis nula, los datos no siguen una distribución de Poisson"**.

En resumen, con el p-valor mayor que α (0.4094 > 0.05), el algoritmo correctamente te dice que **no hay suficiente evidencia para rechazar la hipótesis nula** y que los datos pueden ser modelados con una distribución de Poisson.

## Prueba de independencia : 
![image.png](attachment:28c62141-bf6a-4840-9229-7da74fbfd12e.png)

![image.png](attachment:29c919c2-8696-4382-86ab-077dfef769e0.png)

In [28]:
# tenemos que replicar la logica

# df = pd.DataFrame({'bajo': , 'medio': , 'alto': })
import pandas as pd

# Define the data
data = {
    "Bajo": [182, 154],
    "Medio": [213, 138],
    "Alto": [203, 110],
    # "T": [598, 402]
}

# Define row and column labels
index_labels = ["A favor", "En contra"]
column_labels = ["Bajo", "Medio", "Alto", "T"]

# Create the DataFrame
tabla_contingencia = pd.DataFrame(data, index=index_labels, columns=column_labels)

# Add total row and column
tabla_contingencia.loc["T"] = tabla_contingencia.sum(axis=0) # Agrega la fila T (la de abajo)
tabla_contingencia["T"] = tabla_contingencia.sum(axis=1) # 

# Display the table
print(tabla_contingencia)


           Bajo  Medio  Alto     T
A favor     182    213   203   598
En contra   154    138   110   402
T           336    351   313  1000


![image.png](attachment:9a07bea0-4036-4027-8def-abfc4b2b0f94.png)
![image.png](attachment:8cf22487-dc6f-4590-8700-4c4d5173dfb9.png)