## Definición de la Mediana

La mediana es el valor que se encuentra en el centro de un conjunto de datos cuando estos se organizan en orden ascendente o descendente. A diferencia de la media aritmética, que se calcula sumando todos los valores y dividiéndolos por el número de observaciones, la mediana no se ve afectada por valores extremos (valores atípicos o outliers) en el conjunto de datos, lo que la hace útil en situaciones donde los datos pueden ser sesgados.

Para calcular la mediana debemos ordenar los datos en forma descendente o ascendente. Así si, el número de observaciones(n) es impar la mediana será el valor que se encuentre en la posición central, pero si el numero de observaciones es par, la mediana será el promedio de los dos valores que se encuentren en la posición central de la ordenación. 

Por ejemplo:

En (n) impar

1,2,3,4,5

la mediana de este conjunto de datos es 3

En (n) par

10,20,30,40

la mediana de este conjunto de datos será 25



## Utilidad de la mediana en ciencia de datos 

La mediana es de gran utilidad para analizar datos principlamente por estás tres razones:


**Robustez a valores atípicos:** 

Como se menciona anteriormente, la mediana es menos sensible a valores extremos en comparación con la media(promedio). Esto significa que la mediana es una medida más robusta de la tendencia central en presencia de datos atípicos.

Por ejemplo:


Supongamos que estás analizando los salarios de los empleados de una empresa. La mayoría de los empleados ganan sueldos en el rango de $30,000 a $80,000 al año, pero hay un CEO que gana $5,000,000 al año. Si calculas la media de los salarios, el valor del CEO inflará significativamente la media, haciéndola poco representativa de los salarios típicos. En cambio, si calculas la mediana de los salarios, esta se verá menos afectada por el valor extremo del CEO y proporcionará una mejor representación de lo que ganan la mayoría de los empleados.



**Distribuciones asimétricas:**

En distribuciones sesgadas o asimétricas, la mediana proporciona una mejor representación de la ubicación central de los datos que la media, que puede verse influenciada por la cola larga de la distribución.

Por ejemplo: 


Imagina que estás analizando los tiempos de espera en una sala de urgencias de un hospital. La mayoría de los pacientes espera menos de una hora, pero algunos pacientes con condiciones críticas pueden esperar varias horas. En este caso, la distribución de los tiempos de espera es asimétrica hacia la derecha, con una cola larga de pacientes que esperan mucho más tiempo que la mayoría. Si calculas la media de los tiempos de espera, esta se verá influida por los largos tiempos de espera de unos pocos pacientes, lo que no reflejará adecuadamente la experiencia típica de espera en la sala de urgencias. La mediana, en cambio, proporcionará una estimación más representativa del tiempo de espera mediano.



**Datos ordinales:**

La mediana es especialmente útil cuando se trabajan con datos ordinales, es decir, datos que se pueden ordenar pero no se pueden someter a operaciones matemáticas.


Por ejemplo:


Supongamos que estás realizando una encuesta en la que los participantes deben calificar su satisfacción con un producto en una escala de 1 a 5, donde 1 representa "muy insatisfecho" y 5 representa "muy satisfecho". Después de recopilar las respuestas, quieres resumir la satisfacción promedio de los participantes. En este caso, los datos son ordinales, ya que no se pueden realizar operaciones matemáticas significativas con las calificaciones. Calcular la media en este contexto no tendría sentido, pero calcular la mediana te proporcionaría una idea de cuál es la calificación central, lo que podría ayudarte a entender mejor la satisfacción promedio de los participantes.

## ¿Cómo calcular la mediana usando Python?

La versatilidad de Python nos permite trabajar con la mediana desde diferentes enfoques y haciendo uso de diferentes herramientas. 

**Usando Python puro**

Para calcular la mediana en Python puro, primero debes ordenar tus datos y luego encontrar el valor en el medio (o el promedio de los dos valores centrales si el número de datos es par). Aquí tienes un ejemplo:

In [None]:
datos = [5, 8, 10, 15, 20]

# Primero, ordena los datos
datos_ordenados = sorted(datos)

# Calcula la mediana
n = len(datos_ordenados)
if n % 2 == 0:
    # Si el número de datos es par, toma el promedio de los dos valores centrales
    mediana = (datos_ordenados[n // 2 - 1] + datos_ordenados[n // 2]) / 2
else:
    # Si el número de datos es impar, toma el valor del medio
    mediana = datos_ordenados[n // 2]

print("Mediana:", mediana)


**Usando Numpy**

NumPy proporciona una forma sencilla de calcular la mediana. Aquí tienes un ejemplo:

In [None]:
import numpy as np

datos = np.array([5, 8, 10, 15, 20])
mediana = np.median(datos)

print("Mediana:", mediana)


**Usando Pandas**


Si estás trabajando con datos tabulares en pandas, puedes calcular la mediana en una Serie de pandas de la siguiente manera:

In [None]:
#se debe importa la libreria que se usará
import pandas as pd

datos = pd.Series([5, 8, 10, 15, 20])
mediana = datos.median()

print("Mediana:", mediana)


**Usando Scipy**

SciPy es una biblioteca que se construye sobre NumPy y proporciona funciones adicionales para la optimización, estadísticas, procesamiento de señales y más. Puedes utilizar la función scipy.stats.median para calcular la mediana de una serie de datos y realizar pruebas estadísticas más avanzadas.

In [None]:
from scipy import stats

datos = [5, 8, 10, 15, 20]
mediana = stats.median(datos)

print("Mediana:", mediana)


**Usando Statistics**

El módulo statistics es una parte de la biblioteca estándar de Python y proporciona funciones estadísticas básicas, incluyendo la mediana. Puedes utilizar la función statistics.median para calcular la mediana.

In [None]:
import statistics

datos = [5, 8, 10, 15, 20]
mediana = statistics.median(datos)

print("Mediana:", mediana)


**Usando Scikit learn**

Si estás trabajando en análisis de datos y aprendizaje automático, scikit-learn es una biblioteca muy popular. Aunque se enfoca principalmente en aprendizaje automático, también proporciona algunas utilidades para el preprocesamiento de datos y estadísticas descriptivas, que incluyen la mediana.

In [None]:
from sklearn.preprocessing import FunctionTransformer
import numpy as np

datos = np.array([5, 8, 10, 15, 20])
transformer = FunctionTransformer(np.median, validate=False)
mediana = transformer.transform(datos.reshape(-1, 1))

print("Mediana:", mediana[0])


Puedes elegir el enfoque que mejor se adapte a tus necesidades y el tipo de datos con los que estás trabajando. NumPy y pandas son particularmente útiles cuando tienes grandes conjuntos de datos o datos tabulares, ya que proporcionan funciones optimizadas para realizar cálculos estadísticos.


### Ejercicios

Calcula la mediana del siguiente conjunto de datos impar usando python puro, Pandas y Numpy

[13, 21, 8, 16, 11]

In [5]:
# Usando Python puro

conjunto = [13,21,8,16,11]

orden = sorted(conjunto)

m = len(orden)

if m % 2 == 0:
    mediana = (orden[m // 2 -1] + orden[m // 2])/ 2
else:
    mediana = orden[m // 2]


print(orden)
print(f"La Mediana es {mediana}")


[8, 11, 13, 16, 21]
La Mediana es 13


In [13]:
# Usando Pandas 

import pandas as pd

conjunto_pd = conjunto
print(f"Datos: {conjunto_pd}")
conjunto_pd = pd.Series(conjunto_pd)
mediana_pd = conjunto_pd.median()

print(f"La mediana es {mediana_pd}")

Datos: [13, 21, 8, 16, 11]
La mediana es 13.0


In [15]:
# Usando Numpy

import numpy as np

conjunto_np = conjunto
print(f"Datos: {conjunto_np}")
conjunto_np = np.array(conjunto_np)
mediana_np = np.median(conjunto_np)
print(f"la mediana es: {mediana_np}")

Datos: [13, 21, 8, 16, 11]
la mediana es: 13.0
