# Desviación Estándar
En este notebook exploraremos el concepto de **desviación estándar**, su fórmula, interpretación y ejemplos prácticos con Python.



##  Concepto de Desviación Estándar

La **desviación estándar** es una medida de dispersión que indica cuánto se alejan, en promedio, los datos respecto a la media aritmética.

Se representa comúnmente con la letra griega sigma ( **σ** ) para la población, o con **s** para la muestra.

---

### Fórmulas

**🔹 Desviación estándar para población completa**  
<div style="color:#003366; font-weight:bold; font-size:16px">
$$\sigma = \sqrt{ \frac{\sum (x_i - \mu)^2}{N} }$$
</div>

**🔹 Desviación estándar para muestra**  
<div style="color:#003366; font-weight:bold; font-size:16px">
$$s = \sqrt{ \frac{\sum (x_i - \bar{x})^2}{n - 1} }$$
</div>

---

###  Donde:
$ x_i $ = cada valor individual del conjunto de datos

$ \mu $ = media poblacional

$ \bar{x} $ = media muestral

$ N $ = tamaño total de la población

$ n $ = tamaño de la muestración  
- \( n \) = tamaño de la muestra


 tamaño de la muestra
no como Jupyter con HTML.)*

# Datos
Para este ejercicio decidimos crear un una serie similar a la del ejercicio anterior de 1000 evaluaciones (pueden representar días, semanas o exámenes) para dos grupos de estudiantes. Cada grupo tiene un perfil distinto de rendimiento:
- Grupo A: alumnos con rendimiento alto y estable. Sus calificaciones giran en torno a los 90 puntos, con pequeñas fluctuaciones. Representan un grupo disciplinado, con buen dominio de los contenidos.
- Grupo B: alumnos con rendimiento medio y más variable. Sus calificaciones rondan los 75 puntos, pero con altibajos más marcados. Este grupo podría estar influenciado por factores externos como carga académica, motivación o hábitos de estudio.


In [6]:
import numpy as np
import pandas as pd

# Fijamos la semilla para reproducibilidad
np.random.seed(433)

# Número de evaluaciones simuladas
evaluaciones = 1000

# Grupo A: rendimiento alto y estable
grupo_A = 90 + 5 * np.sin(np.linspace(0, 4 * np.pi, evaluaciones)) + np.random.normal(0, 3, evaluaciones)

# Grupo B: rendimiento medio con altibajos
grupo_B = 75 + 10 * np.sin(np.linspace(0, 4 * np.pi, evaluaciones)) + np.random.normal(0, 5, evaluaciones)

# Redondeamos y agrupamos los datos
calificaciones_AB = np.round(np.column_stack([grupo_A, grupo_B]), 1)

# Creamos el DataFrame
df_AB = pd.DataFrame(calificaciones_AB, columns=[
    "Grupo A (pts)", "Grupo B (pts)"
])
df_AB["Evaluación"] = np.arange(1, evaluaciones + 1)

# Visualizamos las primeras filas
df_AB

Unnamed: 0,Grupo A (pts),Grupo B (pts),Evaluación
0,87.5,67.0,1
1,89.9,76.9,2
2,86.8,69.8,3
3,90.1,75.5,4
4,87.4,72.6,5
...,...,...,...
995,93.1,79.5,996
996,88.6,69.8,997
997,83.4,70.0,998
998,90.7,81.0,999


# Problema 1
Basado en lo anterior y en el notebook de media.ipynb, asumiendo que  nuestros datos son una muestra  del grupo A genera una lista de los valores Cuadrado de la desviación o cuadrado de la diferencia respecto a la media 
$$ (x_i - \bar{x})^2 $$ esto debe ser guardado en una lista llamadac1 ademas de hacer obtener la suma de estos ${\sum {(x_i - \bar{x})^2}}$ y guardarlo en la variable s1 
#### consejo 
Recuerda que las potencias se pueden hacer de la siguiente manera:
x**y 

In [23]:
import math

### BEGIN SOLUTION
c1=(grupo_A-grupo_A.mean())**2
s1=sum(c1)

# END SOLUTION
print(s1)

20962.378095672888


# Problema 2
Ahora termina de calcular la desviacion estandar para el grupo A y guardarla en std1  no puedes ocupar  <span style="color:red">.std()  </span>


In [24]:
### BEGIN SOLUTION
std=(s1/len(grupo_A))**.5

# END SOLUTION
print(std)

4.578468968516974


In [25]:
print(grupo_A.std())

4.578468968516977


# Problema 3
Crea una  funciom que calcule la desviacion estandar para muestra o poblacion, dando como entrada una lista y un valor booleano en el cual si es una población debera ser verdadero, en caso de ser una muestra debera ser falso, guarda los valores en `std_muestral_A`, `std_poblacional_A` `std_muestral_B`, `std_poblacional_B` 

In [59]:
### BEGIN SOLUTION
def std (datos, poblacion):
    resta=len(datos)
    if not poblacion:resta-=1
    c=(datos-datos.mean())**2
    s=sum(c)
    return (s/resta)**.5

std_poblacional_A=std(grupo_A,False)
std_muestral_A=std(grupo_A,True)

std_poblacional_B=std(grupo_B,False)
std_muestral_B=std(grupo_B,True)



print(f"La desviacion estandar poblacional es del grupo A es:\n {std_poblacional_A}")
print(f"La desviacion estandar muestral es del grupo A es:\n {std_muestral_A}")

print(f"La desviacion estandar poblacional es del grupo B es:\n {std_poblacional_B}")
print(f"La desviacion estandar muestral es del grupo B es:\n {std_muestral_B}")

# END SOLUTION

La desviacion estandar poblacional es del grupo A es:
 4.580759921359121
La desviacion estandar muestral es del grupo A es:
 4.578468968516974
La desviacion estandar poblacional es del grupo B es:
 8.615564198209722
La desviacion estandar muestral es del grupo B es:
 8.611255338626282


##  ¿Por qué ocuparla?

La desviación estándar es una medida importante ya que permite conocer qué tan dispersos están los datos respecto a su promedio. Al cuantificar la variabilidad, nos ayuda a entender si los valores se agrupan cerca de la media o si están más alejados. Esta información es esencial para interpretar la consistencia de los datos, comparar distribuciones y evaluar el grado de incertidumbre en observaciones o predicciones. En contextos analíticos, conocer la dispersión es tan relevante como conocer el promedio, ya que permite tomar decisiones más informadas y detectar patrones o anomalías con mayor precisión.