# Definición de la desviación estandar

La desviación estándar es una medida de dispersión que indica cuánto se alejan los valores de un conjunto de datos respecto a la media. En otras palabras, te dice qué tan dispersos están los datos alrededor de la media.

Como medidad de dispersión, te permite entender qué tan dispersos están los datos alrededor de la media. Una desviación estándar grande indica una mayor variabilidad en los datos, mientras que una más pequeña muestra que los datos están más cercanos a la media.

Además puede ayudar a identificar valores atípicos o anomalías en un conjunto de datos. Valores que se desvían significativamente de la media pueden ser indicativos de errores o de información relevante que merece una atención especial.

Y es útil para comparar la dispersión entre diferentes conjuntos de datos. Por ejemplo, si estás comparando la variabilidad de ingresos en dos regiones, la desviación estándar te dará una idea de qué región tiene ingresos más variables.

Para calcular calcular la desviación estandar, debes seguir los siguientes pasos.

**Calcula la media:** Suma todos los valores y divide por la cantidad de elementos en tu conjunto de datos.

**Resta la media:** Para cada valor en el conjunto de datos, resta la media.

**Eleva al cuadrado:** Toma cada uno de esos resultados y eleva al cuadrado.

**Calcula la media de los cuadrados:** Encuentra la media de esos valores al cuadrado.

**Obtén la raíz cuadrada:** Finalmente, saca la raíz cuadrada de ese valor.



Así, por ejemplo:

Imagina que tienes dos conjuntos de datos que representan la cantidad de lluvia mensual en dos regiones diferentes.

Región A: 20, 25, 18, 22, 21 (mm de lluvia)
Región B: 10, 40, 15, 35, 20 (mm de lluvia)

En el ejemplo:

En la Región A, la media es 21.2 mm. Si calculas la desviación estándar, podrías encontrar que la mayoría de los valores están cerca de 21.2 mm, lo que indica una baja dispersión.

Para la Región B, la media es 24 mm. Si calculas la desviación estándar, podrías descubrir que los valores se alejan más de 24 mm, lo que indica una mayor dispersión.


Lo que significa que: 

La región A tiene una desviación estándar más baja en comparación con la región B. Esto indica que, en promedio, la cantidad de lluvia en la región A tiende a ser más consistente, es decir, los valores están más cerca de la media mensual. En términos simples, llueve más consistentemente en la región A.

Por otro lado, la región B tiene una desviación estándar más alta, lo que indica que la cantidad de lluvia varía más en comparación con la media. En términos sencillos, hay una mayor variabilidad en la cantidad de lluvia en la región B. Puede haber meses con lluvias muy escasas y otros con lluvias más intensas en comparación con la media mensual.

# ¿Cómo podemos calcular la desviación estandar en Python?

En Pytho podemos calcular la desvicación estandar usando Python puro o echando mano de las multiples bibliotecas que integran funciones para dicha tarea.

Acontinuación usaremos el ejemplo expuesto anteriormente para explorar la forma de realizar este cálculo usando las de Python más populares para análisis de datos.

Lo primero será organizar nuestros datos en una estructura que nos permita trabajar con las librerias.

In [3]:
#Agruparemos nuestros datos en dos listas

region_A = [20,25,18,22,21]
region_B = [10,40,15,35,20]

## Usando Python puro

Una vez agrupaos nuestros datos usaremos python para realizar las operaciones necesarias para calcular la desviación estnadar. 

In [15]:
import math

*Calcular la media:*

In [16]:
media_A = sum(region_A) / len(region_A)
print(f" La media de la region A es {media_A}")

 La media de la region A es 21.2


In [17]:
media_B = sum(region_B) / len(region_B)
print(f" La media de la region B es {media_B}")

 La media de la region B es 24.0


*Calcular la varianza*

In [18]:
varianza_A = sum((x - media_A) ** 2 for x in region_A) / len(region_A)

In [19]:
varianza_B = sum((x - media_B) ** 2 for x in region_B) / len(region_B)

In [20]:
#Calcular la media de los cuadrados y obtener la raíz cuadrada*


desviacion_estandar_A = math.sqrt(varianza_A)
print("Desviación estándar de la región A:", desviacion_estandar_A)

Desviación estándar de la región A: 2.315167380558045


In [21]:
desviacion_estandar_B = math.sqrt(varianza_B)
print("Desviación estándar de la región B:", desviacion_estandar_B)

Desviación estándar de la región B: 11.575836902790225


# Usando NumPy

Lo primero es importar la librería numpy en nuestro proyecto

In [4]:
import numpy as np

En numpy usamos la función std y la llamamos de esta forma:

*np.std(conjunto_de_datos)*

In [5]:
desviacion_estandar_A_np = np.std(region_A)
print("Desviación estándar de la región A (NumPy):", desviacion_estandar_A_np)

Desviación estándar de la región A (NumPy): 2.315167380558045


In [6]:
desviacion_estandar_B_np = np.std(region_B)
print("Desviación estándar de la región B (NumPy):", desviacion_estandar_B_np)

Desviación estándar de la región B (NumPy): 11.575836902790225


# Usando Pandas

Primero importamos la librería Pandas a nuestro proyecto

In [7]:
import pandas as pd

En Pandas debemos convertir nuestro conjunto de datos en una serie de Pandas 

In [8]:
serie_A = pd.Series(region_A)
serie_B = pd.Series(region_B)

Similar a Numpy, Pandas nos provee de la función std para calcular de manera rápida la desviación estandar

In [9]:
desviacion_estandar_A_pd = serie_A.std()
print("Desviación estándar de la región A (Pandas):", desviacion_estandar_A_pd)

Desviación estándar de la región A (Pandas): 2.588435821108957


In [10]:
desviacion_estandar_B_pd = serie_B.std()
print("Desviación estándar de la región B (Pandas):", desviacion_estandar_B_pd)

Desviación estándar de la región B (Pandas): 12.942179105544785


# Usando Statistics

Python cuenta con una potente librería especializada en la relización de cálculos estadístico y como cualquier librería en Python, el primer paso es importarla a nuestro proyecto.

In [11]:
import statistics

Statistics nos permite calcular la desvicación estandar de forma sencilla a través de la función  stdev, la cual llamamos de la siguiente forma:

*statistics.stdev(conjunto_de_datos)*

In [12]:
desviacion_estandar_A_st = statistics.stdev(region_A)
print("Desviación estándar de la región A (statistics):", desviacion_estandar_A_st)

Desviación estándar de la región A (statistics): 2.588435821108957


In [13]:
desviacion_estandar_B_st = statistics.stdev(region_B)
print("Desviación estándar de la región B (statistics):", desviacion_estandar_B_st)

Desviación estándar de la región B (statistics): 12.942179105544785


# Usando Scikit-learn 

Scikit-learn es una librería muy poderosa generalmente usada para machine learning, pero también puede calcular estadísticas básicas.

Como las otras librerías para trabajar con Scikit-learn lo primero es importarla a nuestro proyecto, aunqué la forma de hacer esto, en este caso varia un poco con respecto a las librerías que hemos revisado anteriormente.



In [14]:
from sklearn.preprocessing import StandardScaler

En scikit-learn podemos usar la función 'StandardScaler' y pasarle los parametros 'with_std=True' (esto indica que se calculará la desviación estandar)  y 'with_mean=False' (especifica que no se restará la media antes de escalar, ya que solo estamos interesados en la desviación estándar) para calcular la desviación estandar.

In [15]:
scaler = StandardScaler(with_std=True, with_mean=False)

En Sckikit-lear usamos el método fit_transform que ajusta el StandardScaler al conjunto de datos y luego lo transforma. Se le pasa region_A como una lista (se necesita una matriz 2D), y se realiza la transformación. En este caso, como no se está restando la media, simplemente se está calculando la desviación estándar.

Y por último le indicamos con '[0].std()' que acceda al primer elemento de la matriz transformada (ya que fit_transform devuelve una lista de listas) y se calcula la desviación estándar de esos valores con el método   .std(), que es un método de la librería NumPy aplicado a esa lista.

In [16]:
desviacion_estandar_A_skl = scaler.fit_transform([region_A])[0].std()
print("Desviación estándar de la región A (Scikit-learn):", desviacion_estandar_A_skl)

Desviación estándar de la región A (Scikit-learn): 2.315167380558045


In [17]:
desviacion_estandar_B_skl = scaler.fit_transform([region_B])[0].std()
print("Desviación estándar de la región B (Scikit-learn):", desviacion_estandar_B_skl)

Desviación estándar de la región B (Scikit-learn): 11.575836902790225


# Ejercicios 1

Dados los siguientes datos:

In [None]:
datos = [15, 20, 25, 30, 35]

Calcula la media de los datos.

Calcula la desviación estándar manualmente siguiendo los pasos del cálculo matemático.

## Respuesta

In [None]:
datos = [15, 20, 25, 30, 35]

# Paso 1: Calcula la media de los datos.
media = sum(datos) / len(datos)

# Paso 2: Calcula la desviación estándar manualmente.
varianza = sum((x - media) ** 2 for x in datos) / len(datos)
desviacion_estandar = varianza ** 0.5

print("Media de los datos:", media)
print("Desviación estándar calculada manualmente:", desviacion_estandar)


# Ejercicio 2

Utiliza Python con las bibliotecas NumPy, Pandas o statistics para calcular la desviación estándar de los siguientes conjuntos de datos:

In [None]:
set1 = [10, 15, 20, 25, 30]
set2 = [5, 10, 15, 20, 25]


Calcula la desviación estándar para cada conjunto de datos usando al menos dos bibliotecas diferentes.

In [None]:
import numpy as np
import pandas as pd
import statistics

set1 = [10, 15, 20, 25, 30]
set2 = [5, 10, 15, 20, 25]

# Calculando la desviación estándar con diferentes bibliotecas
desviacion_estandar_np_set1 = np.std(set1)
desviacion_estandar_np_set2 = np.std(set2)

serie_set1 = pd.Series(set1)
serie_set2 = pd.Series(set2)

desviacion_estandar_pandas_set1 = serie_set1.std()
desviacion_estandar_pandas_set2 = serie_set2.std()

desviacion_estandar_statistics_set1 = statistics.stdev(set1)
desviacion_estandar_statistics_set2 = statistics.stdev(set2)

print("Desviación estándar set1 (NumPy):", desviacion_estandar_np_set1)
print("Desviación estándar set2 (NumPy):", desviacion_estandar_np_set2)
print("Desviación estándar set1 (Pandas):", desviacion_estandar_pandas_set1)
print("Desviación estándar set2 (Pandas):", desviacion_estandar_pandas_set2)
print("Desviación estándar set1 (statistics):", desviacion_estandar_statistics_set1)
print("Desviación estándar set2 (statistics):", desviacion_estandar_statistics_set2)


# Ejercicio 3

Imagina que tienes datos que representan la cantidad de visitantes diarios a un parque durante una semana:

In [None]:
visitantes = [120, 90, 140, 160, 100, 110, 150]

Calcula la desviación estándar para estos datos utilizando la biblioteca NumPy o cualquier otra biblioteca que prefieras.


Describe qué significa esta desviación estándar en términos de la variabilidad en la cantidad de visitantes diarios.


Estos ejercicios te permitirán practicar desde el cálculo manual de la desviación estándar hasta su implementación con diferentes bibliotecas en Python, además de comprender su significado en un contexto de datos reales.

## Respuesta

In [None]:
import numpy as np

visitantes = [120, 90, 140, 160, 100, 110, 150]

# Calculando la desviación estándar con NumPy
desviacion_estandar_visitantes = np.std(visitantes)

print("Desviación estándar de la cantidad de visitantes:", desviacion_estandar_visitantes)
