# Definición de la desviación estandar

La desviación estándar es una medida de dispersión que indica cuánto se alejan los valores de un conjunto de datos respecto a la media. En otras palabras, te dice qué tan dispersos están los datos alrededor de la media.

Como medidad de dispersión, te permite entender qué tan dispersos están los datos alrededor de la media. Una desviación estándar grande indica una mayor variabilidad en los datos, mientras que una más pequeña muestra que los datos están más cercanos a la media.

Además puede ayudar a identificar valores atípicos o anomalías en un conjunto de datos. Valores que se desvían significativamente de la media pueden ser indicativos de errores o de información relevante que merece una atención especial.

Y es útil para comparar la dispersión entre diferentes conjuntos de datos. Por ejemplo, si estás comparando la variabilidad de ingresos en dos regiones, la desviación estándar te dará una idea de qué región tiene ingresos más variables.

Para calcular calcular la desviación estandar, debes seguir los siguientes pasos.

**Calcula la media:** Suma todos los valores y divide por la cantidad de elementos en tu conjunto de datos.

**Resta la media:** Para cada valor en el conjunto de datos, resta la media.

**Eleva al cuadrado:** Toma cada uno de esos resultados y eleva al cuadrado.

**Calcula la media de los cuadrados:** Encuentra la media de esos valores al cuadrado.

**Obtén la raíz cuadrada:** Finalmente, saca la raíz cuadrada de ese valor.



Así, por ejemplo:

Imagina que tienes dos conjuntos de datos que representan la cantidad de lluvia mensual en dos regiones diferentes.

Región A: 20, 25, 18, 22, 21 (mm de lluvia)
Región B: 10, 40, 15, 35, 20 (mm de lluvia)

En el ejemplo:

En la Región A, la media es 21.2 mm. Si calculas la desviación estándar, podrías encontrar que la mayoría de los valores están cerca de 21.2 mm, lo que indica una baja dispersión.

Para la Región B, la media es 24 mm. Si calculas la desviación estándar, podrías descubrir que los valores se alejan más de 24 mm, lo que indica una mayor dispersión.


Lo que significa que: 

La región A tiene una desviación estándar más baja en comparación con la región B. Esto indica que, en promedio, la cantidad de lluvia en la región A tiende a ser más consistente, es decir, los valores están más cerca de la media mensual. En términos simples, llueve más consistentemente en la región A.

Por otro lado, la región B tiene una desviación estándar más alta, lo que indica que la cantidad de lluvia varía más en comparación con la media. En términos sencillos, hay una mayor variabilidad en la cantidad de lluvia en la región B. Puede haber meses con lluvias muy escasas y otros con lluvias más intensas en comparación con la media mensual.

# ¿Cómo podemos calcular la desviación estandar en Python?

En Pytho podemos calcular la desvicación estandar usando Python puro o echando mano de las multiples bibliotecas que integran funciones para dicha tarea.

Acontinuación usaremos el ejemplo expuesto anteriormente para explorar la forma de realizar este cálculo usando las de Python más populares para análisis de datos.

Lo primero será organizar nuestros datos en una estructura que nos permita trabajar con las librerias.

In [14]:
#Agruparemos nuestros datos en dos listas

region_A = [20,25,18,22,21]
region_B = [10,40,15,35,20]

## Usando Python puro

Una vez agrupaos nuestros datos usaremos python para realizar las operaciones necesarias para calcular la desviación estnadar. 

In [15]:
import math

*Calcular la media:*

In [16]:
media_A = sum(region_A) / len(region_A)
print(f" La media de la region A es {media_A}")

 La media de la region A es 21.2


In [17]:
media_B = sum(region_B) / len(region_B)
print(f" La media de la region B es {media_B}")

 La media de la region B es 24.0


*Calcular la varianza*

In [18]:
varianza_A = sum((x - media_A) ** 2 for x in region_A) / len(region_A)

In [19]:
varianza_B = sum((x - media_B) ** 2 for x in region_B) / len(region_B)

In [20]:
#Calcular la media de los cuadrados y obtener la raíz cuadrada*


desviacion_estandar_A = math.sqrt(varianza_A)
print("Desviación estándar de la región A:", desviacion_estandar_A)

Desviación estándar de la región A: 2.315167380558045


In [21]:
desviacion_estandar_B = math.sqrt(varianza_B)
print("Desviación estándar de la región B:", desviacion_estandar_B)

Desviación estándar de la región B: 11.575836902790225
