<a href="https://colab.research.google.com/github/ajrianop/Estadistica_Descriptiva_y_Python_UD2023-3/blob/main/02_1_Medidas_descriptivas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Medidas descriptivas**

En el presente capítulo se plantearan las ideas de las medidad descriptivas de tendencia central y de dispersión, las cuales juegan un rol muy importante en el entendimiento de los datos.

Las medida descriptivas que vamos a trabajar a continuación son:
1. Medidas de tendencia central:  son elementos que se utilizan para identificar un valor representativo o central en un conjunto de datos. Estas medidas proporcionan información sobre dónde se encuentra concentrada la mayor parte de la distribución de los datos y son fundamentales para comprender la estructura y características de un conjunto de datos.

  Algunos ejemplos:
  * Media.
  * Mediana.
  * Moda (la moda no es un elemento único, pueden existir problemas multimodal).
2. Medidas  de dispersión o variabilidad: son elementos que indican cuánto se extienden o dispersan los valores individuales en relación con la medida de tendencia central (como la media o la mediana) en un conjunto de datos. Estas medidas proporcionan información sobre la variabilidad y la dispersión de los datos alrededor de un valor central.

  Algunos ejemplos:
  * Rango.
  * Desviación estándar.
  * Varianza.
  * Coeficiente de variación.
  * Rango intercuartil.
3. Medidas de forma: son indicadores que se utilizan para describir la forma o la estructura de la distribución de un conjunto de datos. Estas medidas proporcionan información adicional sobre cómo los valores individuales se agrupan o distribuyen en torno a la medida de tendencia central y la dispersión. Las medidas de forma ayudan a comprender la simetría, la asimetría y la concentración de los datos en una distribución.

  Algunos ejemplos:
  * Asimetría (Skewness).
  * Curtosis.
4. Medidas de asociación: son herramientas utilizadas para cuantificar la relación o la dependencia entre dos o más variables en un conjunto de datos. Estas medidas permiten analizar y comprender cómo los cambios en una variable están relacionados con los cambios en otra variable, lo que es fundamental para identificar patrones, correlaciones y tendencias en los datos.

  Algunos ejemplos:
  * Coeficientes de correlación.
  * Coeficientes de contingencia.
  * Coeficiente de determinación (R^2).
  * Indices de correlación de Spearman.
  * Coeficiente de concordancia de Kendall.

## **1. Medidas de tendencia central**

Las medidas de tendencia central de un conjunto de datos, son valores que representan un valor central hacia el cual tienen tendencia los datos, algunos de las medidas a considerar son:
1. Media:
  * Aritmética.
  * Geométrica.
  * Armónica.
  * Cuadrática.
  * Rango medio.
  * Ponderada.
2. Mediana.
3. Moda.


### **Media**

#### **Media Aritmética, Media o Promedio (Mean or Arithmetic Mean):**

La **media** es un concepto estadístico utilizado para describir la tendencia central de un conjunto de datos numéricos. Se calcula sumando todos los valores de una muestra y dividiendo la suma total entre el número de valores en el conjunto.

En términos matemáticos, si tienes un conjunto de datos con $n$ valores $x_1 , x_2 , x_3 , \ldots , x_n,$ la fórmula para calcular es: $$\bar{x} = \frac{x_1+x_2+\cdots+x_n}{n} = \frac{\sum\limits_{i=1}^{n}x_i}{n} = \frac{\sum x_i}{n}.$$

Cuando nuestro conjunto sobre el cual realizamos el cálculo es la población (el universo de eventos total) la media la caracterizamos con el símbolo:
$$\mu = \frac{x_1+x_2+\cdots+x_N}{N} = \frac{\sum\limits_{i=1}^{N}x_i}{N} = \frac{\sum x_i}{N}$$
$\mu:$ Media tomando como conjunto la población.

$N:$ Cantidad de elementos en la población

**Observaciones:** La media es un valor que en general nos permite ver un valor promedio dada un población, en general debemos tener cuidado dado el contexto del problema, ya que en gran medida no siempre es muy diciente el valor de la misma. Por tal motivo es necesario siempre analizar la lógica del problema.

El cálculo de la media solo tiene sentido para valores cuantitativos, pueden ser de caracter discreto o continuo.

Algunas ventajas y desventajas de usar la media aritmética:
<html>
<head>
<style>
table {
  border-collapse: collapse;
  width: 100%;
}

th, td {
  border: 1px solid black;
  padding: 8px;
  text-align: left;
  font-size: 18px;
}

th {
  background-color: #f2f2f2;
}
</style>
</head>
<body>
<table border="1">
  <tr>
    <th>Ventajas de usar la media</th>
    <th>Desventajas de usar la media</th>
  </tr>
  <tr>
    <td>Fácil de entender y calcular.</td>
    <td>Sensible a valores atípicos (outliers), lo que puede distorsionar los resultados.</td>
  </tr>
  <tr>
    <td>Utiliza todos los valores en el conjunto de datos.</td>
    <td>No es adecuada para distribuciones asimétricas o con colas largas.</td>
  </tr>
  <tr>
    <td>Es útil para representar el valor promedio o típico de un conjunto de datos.</td>
    <td>Puede no ser representativa si el conjunto de datos contiene valores extremadamente altos o bajos.</td>
  </tr>
  <tr>
    <td>Es ampliamente reconocida y utilizada en diversos campos.</td>
    <td>Puede no ser la mejor medida de tendencia central si la distribución es bimodal o multimodal.</td>
  </tr>
  <tr>
    <td>Se puede usar en análisis paramétricos y en cálculos posteriores, como desviación estándar y varianza.</td>
    <td>No proporciona información sobre la variabilidad intrínseca de los datos.</td>
  </tr>
  <tr>
    <td>Es especialmente útil cuando los datos están aproximadamente distribuidos de manera simétrica.</td>
    <td>No es robusta ante valores atípicos, lo que puede afectar su validez en algunas situaciones.</td>
  </tr>
</table>
</body>
</html>

##### **Ejemplo:**

Ustedes como estudiantes del curso de estadística tienen un registro de la totalidad de las notas finales de cada estudiante, quieren saber cómo se comportaron las notas en general del curso según toda la población. De este modo utilizan la media como valor de medida central para ver el rendimiento promedio del curso, de tal modo ustedes programan:

In [1]:
def arithmetic_mean(values : list):
  '''
  Función que permite calcular la media aritmética
  values --> list
  '''
  _sum = 0
  n = len(values)

  for value in values:
      _sum += value  # Convierte el porcentaje a decimal

  return _sum / n

In [2]:
# Ejemplo de cálculo de la media de calificaciones en Python

# Calificaciones de los estudiantes en el examen
calificaciones = [85, 92, 78, 95, 88, 90, 79, 82, 91, 87]

# Calcular la suma de todas las calificaciones
suma_total = sum(calificaciones)

# Calcular el número de estudiantes en la clase
numero_de_estudiantes = len(calificaciones)

# Calcular la media dividiendo la suma total entre el número de estudiantes
media_calificaciones = suma_total / numero_de_estudiantes

# Imprimir el resultado
print("Calificaciones de los estudiantes:", calificaciones)
print("La media de calificaciones es:", media_calificaciones)
print("La media de calificaciones calculada con la funcion 'aritmetic_mean':", arithmetic_mean(calificaciones))

Calificaciones de los estudiantes: [85, 92, 78, 95, 88, 90, 79, 82, 91, 87]
La media de calificaciones es: 86.7
La media de calificaciones calculada con la funcion 'aritmetic_mean': 86.7


##### **Propiedades de la media**

1. La suma de desviaciones de los datos con respecto a la media es siempre cero.

$$\sum\limits_{i=1}^{n} (x_i - \bar{x}) = 0$$

**Nota:** La media o valor promedio se comporta como el centro de masa de multiples objetos en una balanza común.

2. La suma de los cuadrados de las desviaciones con respecto a la media aritmética es menor que la suma de cuadrados de las desviaciones a partir de cualquier otro valor.
$$\sum\limits_{i=1}^{n} (x_i - \bar{x})^2 \quad \mathrm{adquiere\ un\ valor\ mínimo.}$$


3. Si todos los valores de la muestra son constante $x_i = k$ para todo $i\in \{1,2,\ldots, n\}$ entonces el valor de la media es la constante $k.$
$$x_i = k\quad ,\quad \forall i\in\{1,2,\ldots, n\}\quad \Rightarrow \quad \bar{x} = k.$$

4.  Si todos los valores de la muestra son afectados por la suma o resta de una constante $k$ el valor de la media sera la media suma o resta la constante.
$$y_i = k \pm x_i\quad ,\quad \forall i\in\{1,2,\ldots, n\}\quad \Rightarrow \quad \bar{y} = k\pm \bar{x}.$$  

5.  Si todos los valores de la muestra son afectados por la multiplicación o división de una constante $k$ el valor de la media sera la media suma o resta la constante.
$$y_i = k \cdot x_i\quad ,\quad \forall i\in\{1,2,\ldots, n\}\quad \Rightarrow \quad \bar{y} = k\cdot \bar{x}.$$
**Nota:** Recuerde que la división se puede escribir como un producto de un número fraccionario: $\frac{x}{a} = \frac{1}{a}\cdot x = k\cdot x$, donde $k=\frac{1}{a}.$  

#### **Media Geométrica (Geometric Mean)**

La media geométrica es un concepto estadístico que se utiliza para representar la tendencia central de un conjunto de valores positivos. A diferencia de la media aritmética (promedio), que se calcula sumando los valores y dividiendo por la cantidad de valores, la media geométrica se calcula multiplicando los valores y luego tomando la raíz $n$ -ésima, donde $n$ es la cantidad de valores en el conjunto. En términos matemáticos, si tienes un conjunto de datos con $n$ valores $x_1 , x_2 , x_3 , \ldots , x_n > 0,$ la fórmula para calcular es: $$\bar{x}_{g} = \sqrt[n]{x_1x_2\cdots x_n} = \sqrt[n]{\prod\limits_{i=1}^{n}x_i} = \sqrt[n]{\prod x_i}$$

Utilizando las propiedades de logaritmos y exponenciales tenemos que:
$$\bar{x}_{g} = a^{\log_{a}(\bar{x}_g)}=a^{\frac{1}{n}\sum\limits_{i=1}^{n}\log_a(x_i)}$$

<html>
<head>
<style>
table {
  border-collapse: collapse;
  width: 100%;
}

th, td {
  border: 1px solid black;
  padding: 8px;
  text-align: left;
}

th {
  background-color: #f2f2f2;
}
</style>
</head>
<body>

<h6>Tabla de Ventajas y Desventajas de Usar la Media Geométrica</h6>

<table>
  <tr>
    <th>Ventajas de usar la media geométrica</th>
    <th>Desventajas de usar la media geométrica</th>
  </tr>
  <tr>
    <td>Adecuada para datos con crecimiento exponencial o tasas de cambio constantes.</td>
    <td>No es adecuada para datos que contienen valores negativos o cero, ya que requiere valores positivos.</td>
  </tr>
  <tr>
    <td>Menos sensible a valores atípicos (outliers) que la media aritmética.</td>
    <td>Puede ser afectada por la magnitud de los valores más pequeños en el conjunto de datos.</td>
  </tr>
  <tr>
    <td>Útil para calcular tasas de crecimiento promedio a lo largo del tiempo.</td>
    <td>No se puede usar con conjuntos de datos que contienen valores no numéricos.</td>
  </tr>
  <tr>
    <td>Valora la multiplicación sucesiva de los valores y representa relaciones multiplicativas.</td>
    <td>Puede ser más difícil de interpretar en comparación con la media aritmética, especialmente en contextos no matemáticos.</td>
  </tr>
  <tr>
    <td>Apropiada para datos que siguen una distribución log-normal.</td>
    <td>No siempre es apropiada para datos que tienen una distribución asimétrica o colas largas.</td>
  </tr>
</table>

</body>
</html>


##### **Ejemplo:**

Supongamos que tienes un inversor interesado en comparar el rendimiento anual de dos acciones, A y B, durante un período de 5 años. A continuación, se presentan los rendimientos anuales de ambas acciones:

<html>
<head>
  <style>
    table {
      border-collapse: collapse;
      width: 50%;
      margin: auto;
    }
    th, td {
      border: 1px solid black;
      padding: 8px;
      text-align: center;
    }
    th {
      background-color: #f2f2f2;
    }
  </style>
</head>
<body>

<h6>Rendimientos Anuales de Acciones A y B</h6>

<table>
  <tr>
    <th>Año</th>
    <th>Acción A</th>
    <th>Acción B</th>
  </tr>
  <tr>
    <td>1</td>
    <td>10%</td>
    <td>8%</td>
  </tr>
  <tr>
    <td>2</td>
    <td>15%</td>
    <td>12%</td>
  </tr>
  <tr>
    <td>3</td>
    <td>-5%</td>
    <td>6%</td>
  </tr>
  <tr>
    <td>4</td>
    <td>20%</td>
    <td>18%</td>
  </tr>
  <tr>
    <td>5</td>
    <td>7%</td>
    <td>10%</td>
  </tr>
</table>

</body>
</html>


In [3]:
def geometric_mean(values : list):
  '''
  Función que permite calcular la media geométrica
  values --> list
  '''
  product = 1
  n = len(values)

  for value in values:
      product *= value

  return (product ** (1 / n))

In [4]:
def geometric_mean_percentage(values : list):
  '''
  Función que permite calcular la media geométrica
  values --> list
  '''
  product = 1
  n = len(values)

  for value in values:
      product *= (1 + value / 100)  # Convierte el porcentaje a decimal

  return (product ** (1 / n)) - 1

# Rendimientos anuales de las acciones A y B en porcentaje
action_a_returns = [10, 15, -5, 20, 7]
action_b_returns = [8, 12, 6, 18, 10]

# Cálculo de la media geométrica
geometric_mean_a = geometric_mean_percentage(action_a_returns)
geometric_mean_b = geometric_mean_percentage(action_b_returns)

# Impresión de los resultados
print("Rendimientos Anuales de la Acción A:", action_a_returns)
print("Rendimientos Anuales de la Acción B:", action_b_returns)
print("Media Geométrica de la Acción A:", geometric_mean_a)
print("Media Geométrica de la Acción B:", geometric_mean_b)

# Comparación de rendimientos
if geometric_mean_a > geometric_mean_b:
    print("La Acción A tuvo un mejor rendimiento promedio.")
elif geometric_mean_b > geometric_mean_a:
    print("La Acción B tuvo un mejor rendimiento promedio.")
else:
    print("Ambas acciones tuvieron un rendimiento promedio similar.")


Rendimientos Anuales de la Acción A: [10, 15, -5, 20, 7]
Rendimientos Anuales de la Acción B: [8, 12, 6, 18, 10]
Media Geométrica de la Acción A: 0.09062595997213085
Media Geométrica de la Acción B: 0.10724688503180291
La Acción B tuvo un mejor rendimiento promedio.


#### **Media Armónica (Harmonic Mean)**

La media armónica es un concepto estadístico utilizado para describir la tendencia central de un conjunto de valores numéricos. A diferencia de la media aritmética (promedio) y la media geométrica, que involucran sumar o multiplicar los valores, la media armónica se calcula dividiendo el número total de valores entre la suma de los inversos de esos valores.

La media armónica es especialmente útil en situaciones donde se desea tener en cuenta valores pequeños en el conjunto de datos. Por ejemplo, se utiliza en el cálculo de velocidades promedio o tasas de flujo recíproco, donde los valores pequeños tienen más peso. Sin embargo, la media armónica tiende a ser más sensible a valores atípicos (outliers) en comparación con la media aritmética.

En términos matemáticos, si tienes un conjunto de datos con $n$ valores $x_1 , x_2 , x_3 , \ldots , x_n > 0,$ la fórmula para calcular es: $$\bar{x}_{h} = \frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+ \cdots +\frac{1}{x_n}} = \frac{n}{\sum\limits_{i=1}^{n}\frac{1}{x_i}} = \frac{n}{\sum\frac{1}{x_i}},$$
note que $x_i \neq 0$ para todo $i \in\{ 1,2,\ldots, n\}$.

Cuando nuestro conjunto sobre el cual realizamos el cálculo es la población (el universo de eventos total) la media geométrica la caracterizamos con el símbolo:
$$\mu_{h} = \frac{N}{\frac{1}{x_1}+\frac{1}{x_2}+ \cdots +\frac{1}{x_N}} = \frac{N}{\sum\limits_{i=1}^{N}\frac{1}{x_i}} = \frac{N}{\sum\frac{1}{x_i}},$$
note que $x_i \neq 0$ para todo $i \in\{ 1,2,\ldots, N\}$.

$\mu_{h}:$ Media armónica tomando como conjunto la población.

$N:$ Cantidad de elementos en la población

<html>
<head>
<style>
table {
  border-collapse: collapse;
  width: 100%;
}

th, td {
  border: 1px solid black;
  padding: 8px;
  text-align: left;
}

th {
  background-color: #f2f2f2;
}
</style>
</head>
<body>

<h6>Tabla de Ventajas y Desventajas de Usar la Media Armónica</h6>

<table>
  <tr>
    <th>Ventajas de usar la media armónica</th>
    <th>Desventajas de usar la media armónica</th>
  </tr>
  <tr>
    <td>Considera valores pequeños en el conjunto de datos, dándoles más peso en el cálculo.</td>
    <td>Es más sensible a valores extremadamente pequeños, lo que puede afectar significativamente la media.</td>
  </tr>
  <tr>
    <td>Apropiada para situaciones donde se busca representar tasas recíprocas o promedios ponderados.</td>
    <td>Puede no ser representativa de la "tendencia central" en conjuntos de datos con valores muy dispersos.</td>
  </tr>
  <tr>
    <td>Útil en problemas relacionados con velocidades, tasas y proporciones inversas.</td>
    <td>No es adecuada para conjuntos de datos que contienen valores negativos o cero, ya que los inversos serían indefinidos.</td>
  </tr>
  <tr>
    <td>Ofrece una alternativa cuando la media aritmética o geométrica podría no ser apropiada.</td>
    <td>Puede no ser fácil de interpretar en comparación con la media aritmética, especialmente en contextos no matemáticos.</td>
  </tr>
  <tr>
    <td>Puede tener aplicaciones en áreas como finanzas, ingeniería y ciencias naturales.</td>
    <td>No es tan comúnmente utilizada como la media aritmética o geométrica en muchas disciplinas.</td>
  </tr>
</table>

</body>
</html>


##### **Ejemplo:**

Imagina que estás calculando la velocidad promedio de un viaje en el que te moviste a diferentes velocidades en distintas partes del recorrido. Quieres calcular la media armónica de las velocidades para obtener una idea de la velocidad promedio ponderada por el tiempo que pasaste a diferentes velocidades.

In [5]:
def harmonic_mean(values : list):
  '''
  Función que permite calcular la media armónica
  values --> list
  '''
  _sum = 0
  n = len(values)

  for value in values:
      _sum += 1/value  # Convierte el porcentaje a decimal

  return n/_sum

In [6]:
# Ejemplo de cálculo de la media armónica en Python

# Velocidades en diferentes partes del viaje (en km/h)
velocidades = [60, 80, 40, 70, 100]

# Calcular el número de velocidades en el conjunto
numero_de_velocidades = len(velocidades)

# Calcular la suma de los inversos de las velocidades
suma_inversos = sum(1 / v for v in velocidades)

# Calcular la media armónica dividiendo el número de velocidades entre la suma de los inversos
media_armónica = numero_de_velocidades / suma_inversos

# Imprimir el resultado
print("Velocidades en el viaje:", velocidades)
print("La media armónica de las velocidades es:", media_armónica)
print("La media de calificaciones calculada con la funcion 'harmonic_mean':", harmonic_mean(velocidades))

Velocidades en el viaje: [60, 80, 40, 70, 100]
La media armónica de las velocidades es: 63.7329286798179
La media de calificaciones calculada con la funcion 'harmonic_mean': 63.7329286798179


#### **Nota:** La media aritmética, la media geométrica y la media armónica son comparables:
$$\bar{x}_{h}\leq \bar{x}_{g} \leq \bar{x},$$
de este modo también se tiene que:
$$\mu_{h}\leq \mu_{g} \leq \mu.$$

#### **Media Cuadrática**

La media cuadrática, también conocida como la raíz cuadrada media o RMS (Root Mean Square, en inglés), es una medida estadística utilizada para calcular la "raíz cuadrada" del promedio de los valores al cuadrado de un conjunto de datos numéricos. Esta medida es comúnmente utilizada en el análisis de señales y en la estadística de procesos aleatorios.

La media cuadrática es útil cuando se quiere tener en cuenta tanto los valores positivos como los negativos de un conjunto de datos, y también puede ser usada para caracterizar la magnitud de fluctuaciones en una señal. Por ejemplo, en el análisis de datos eléctricos, la media cuadrática se utiliza para calcular el valor eficaz de una señal alterna, que es un indicador de su potencia real.

En términos matemáticos, si tienes un conjunto de datos con $n$ valores $x_1 , x_2 , x_3 , \ldots , x_n,$ la fórmula para calcular es: $$\bar{x^2} = \sqrt{\frac{x_1^2+x_2^2+\cdots+x_n^2}{n}} = \sqrt{\frac{\sum\limits_{i=1}^{n}x_i^2}{n}} = \sqrt{\frac{\sum x_i^2}{n}}.$$

Cuando nuestro conjunto sobre el cual realizamos el cálculo es la población (el universo de eventos total) la media la caracterizamos con el símbolo:
$$\mu^2 = \sqrt{\frac{x_1^2+x_2^2+\cdots+x_N^2}{N}} = \sqrt{\frac{\sum\limits_{i=1}^{N}x_i^2}{N}} = \sqrt{\frac{\sum x_i^2}{N}}$$
$\mu^2:$ Media tomando como conjunto la población.

$N:$ Cantidad de elementos en la población

<!DOCTYPE html>
<html>
<head>
<style>
table {
  border-collapse: collapse;
  width: 100%;
}

th, td {
  border: 1px solid black;
  padding: 8px;
  text-align: left;
}

th {
  background-color: #f2f2f2;
}
</style>
</head>
<body>

<h6>Tabla de Ventajas y Desventajas de Usar la Media Cuadrática</h6>

<table>
  <tr>
    <th>Ventajas de usar la media cuadrática</th>
    <th>Desventajas de usar la media cuadrática</th>
  </tr>
  <tr>
    <td>Considera tanto los valores positivos como los negativos en el conjunto de datos.</td>
    <td>Puede verse afectada por valores extremadamente grandes en el conjunto de datos, lo que podría distorsionar la medida.</td>
  </tr>
  <tr>
    <td>Pondera los valores al cuadrado, lo que puede ser útil para enfocarse en la magnitud de las fluctuaciones.</td>
    <td>No es tan intuitiva de interpretar como la media aritmética o la mediana, especialmente en contextos no técnicos.</td>
  </tr>
  <tr>
    <td>Es comúnmente utilizada en análisis de señales y procesos aleatorios, donde es importante caracterizar la variabilidad y la amplitud.</td>
    <td>Puede no ser representativa si la distribución de los datos es asimétrica o si hay valores atípicos.</td>
  </tr>
  <tr>
    <td>Es útil para calcular el valor eficaz de señales alternas, que es un indicador de su potencia real.</td>
    <td>Puede no ser la mejor elección cuando los valores absolutos de los datos son más relevantes que los cuadrados.</td>
  </tr>
  <tr>
    <td>Permite comparar la magnitud promedio de diferentes conjuntos de datos, independientemente de su signo.</td>
    <td>No es tan comúnmente utilizada en análisis estadísticos generales en comparación con la media aritmética o la mediana.</td>
  </tr>
</table>

</body>
</html>


##### **Ejemplo:**

Contexto: Análisis de Variabilidad en Temperaturas

Imagina que estás realizando un análisis de la variabilidad de las temperaturas diarias en una región durante una semana. Quieres calcular la media cuadrática de las diferencias entre las temperaturas diarias y la temperatura promedio de la semana, para comprender la magnitud promedio de las fluctuaciones diarias con respecto a la temperatura promedio.

In [7]:
def quadratic_mean(values : list):
  '''
  Función que permite calcular la media cuadrática
  values --> list
  '''
  _sum = 0
  n = len(values)

  for value in values:
      _sum += value ** 2  # Convierte el porcentaje a decimal

  return (_sum/n)** 0.5

In [8]:
# Ejemplo de cálculo de la media cuadrática en Python

# Temperaturas diarias en grados Celsius durante una semana
temperaturas_diarias = [28, 30, 32, 29, 27, 31, 26]

# Calcular la temperatura promedio de la semana
temperatura_promedio = sum(temperaturas_diarias) / len(temperaturas_diarias)

# Calcular las diferencias entre las temperaturas diarias y la temperatura promedio
diferencias = [temp - temperatura_promedio for temp in temperaturas_diarias]

# Calcular la suma de los cuadrados de las diferencias
suma_cuadrados = sum(dif ** 2 for dif in diferencias)

# Calcular la media cuadrática dividiendo la suma de los cuadrados entre el número de días
media_cuadratica = (suma_cuadrados / len(temperaturas_diarias)) ** 0.5

# Imprimir el resultado
print("Temperaturas diarias:", temperaturas_diarias)
print("Temperatura promedio:", temperatura_promedio)
print("La media cuadrática de las diferencias es:", media_cuadratica)
print("La media cuadrática de las diferencias con la funcion 'quadratic_mean':", quadratic_mean(diferencias))

Temperaturas diarias: [28, 30, 32, 29, 27, 31, 26]
Temperatura promedio: 29.0
La media cuadrática de las diferencias es: 2.0
La media cuadrática de las diferencias con la funcion 'quadratic_mean': 2.0


#### **Rango medio o Semirrango**

El rango medio se define como la media entre el valor mínimo y máximo del conjunto de datos.

En términos matemáticos, si tienes un conjunto de datos con  n  valores  x1,x2,x3,…,xn,  la fórmula para calcular es:
$$RM = \frac{\min\{x_i \mid i=1,2,\ldots,n\} + \max\{x_i \mid i=1,2,\ldots,n\}}{2}$$

En aspectos generales el rango medio no es muy representativo para describir de buena manera rasgos centrales, esto debido a que si se tienen  valores atípicos muy dispersos, esto puede llevar a una descripción de los datos medios muy alterada.

##### **Ejemplo**

Imagina que estás analizando la distribución de edades en un grupo de personas y deseas calcular el rango medio de las edades para tener una idea de la edad media en el grupo.

In [9]:
def mid_range(values : list):
  '''
  Función que permite calcular rango medio
  values --> list
  '''
  _min = min(values)
  _max = max(values)

  return ( _min + _max )/2

In [10]:
# Ejemplo de cálculo del rango medio en Python

# Edades de las personas en el grupo
edades = [25, 32, 18, 45, 28, 22, 38, 50]

# Calcular el rango (diferencia entre la edad máxima y la edad mínima)
rango = max(edades) - min(edades)

# Calcular el rango medio dividiendo el rango entre 2 y sumándole la edad mínima
rango_medio = (rango / 2) + min(edades)

# Imprimir el resultado
print("Edades de las personas:", edades)
print("El rango medio de edades es:", rango_medio)
print("El rango medio de edades con la función 'mid_range':", mid_range(edades))

Edades de las personas: [25, 32, 18, 45, 28, 22, 38, 50]
El rango medio de edades es: 34.0
El rango medio de edades con la función 'mid_range': 34.0


### *Ejemplo que relaciona cada una de las anteriores medidas centrales, mostrando su efectividad al agregar valores atípicos.*

Al realizar el monitoreo de la calidad de agua en una fuente, la variable de turbidez presenta los siguientes resultados:

3, 5, 4, 4, 5, 6, 10, 8, 9, 3, (UNT)

iremos agregando los siguientes datos, uno por uno para calcular cada una de las medidas de tendencia central:
14 , 150 , 360 (UNT).

**La turbidez** es una medida del grado en el cual el agua pierde su transparencia debido a la presencia de partículas en suspensión. Cuantos más sólidos en suspensión haya en el agua, más sucia parecerá ésta y más alta será la turbidez. La turbidez es considerada una buena medida de la calidad del agua.
La medida que se utilizará para medir la turbidez es **UNT (en inglés NTU)** cuya abreviación es "Unidad Nefelométrica de Turbidez"(en inglés "Nephelometric Turbidity Unit"), que se mide la turbidez de un fluido o la presencia de partículas en suspensión en el agua, cuantos más sólidos en suspensión haya en el agua, más sucia parecerá esta y más alta será la turbidez.

La relación entre NTU y sólidos en suspensión es la siguiente, 1 mg/l (ppm) equivale a 3 NTU, por ejemplo, SS de 200 mg/l (ppm) son 600 NTU.
**Nota:** Según la Organización Mundial de la Salud, la turbidez del agua para consumo humano no debe superar en ningún caso las 5 UNT.

In [11]:
def calculo_med_tend_central(values : list, comentario : str):
  '''
  Función que cálcula:
  Media Aritmética
  Media Geométrica
  Media Armónica
  Media Cuadrática
  Rango Medio
  '''
  _dict = dict()
  ari_mean = arithmetic_mean(values)
  geo_mean = geometric_mean(values)
  har_mean = harmonic_mean(values)
  qua_mean = quadratic_mean(values)
  mid_range1 = mid_range(values)
  dict_measures = {"arithmetic_mean" :ari_mean , "geometric_mean" : geo_mean, "harmonic_mean" : har_mean, "quadratic_mean" : qua_mean, "mid_range" : mid_range1, "comentario" : comentario}
  for i in dict_measures:
    _dict[i] = dict_measures[i]

  return _dict

Organizando la información en un dataframe utilizando pandas:

In [12]:
import pandas as pd
# Lista de diccionarios con las mismas llaves
list_of_dictionaries = []


# Considerando la lista de medidas de turbidez
lista_turbidez = [3, 5, 4, 4, 5, 6, 10, 8, 9, 3]
comment0 = "Lista inicial"
data = calculo_med_tend_central(lista_turbidez , comment0)
comment0 = "Lista inicial"
list_of_dictionaries.append(data)

# Agregando a los datos 14 UNT
lista_turbidez.append(14)
# Haciendo el calculo sobre la nueva población
comment1 = "Agregando 14 UNT"
data = calculo_med_tend_central(lista_turbidez, comment1)
list_of_dictionaries.append(data)

# Agregando a los datos 150 UNT
lista_turbidez.append(150)
# Haciendo el calculo sobre la nueva población
comment2 = "Agregando 150 UNT"
data = calculo_med_tend_central(lista_turbidez, comment2)
list_of_dictionaries.append(data)

# Agregando a los datos 360 UNT
lista_turbidez.append(360)
# Haciendo el calculo sobre la nueva población
comment3 = "Agregando 360 UNT"
data = calculo_med_tend_central(lista_turbidez, comment3)
list_of_dictionaries.append(data)

# Merge the dictionaries and create a DataFrame
merged_data = {}
for key in list_of_dictionaries[0].keys():
    merged_data[key] = [d[key] for d in list_of_dictionaries]

df = pd.DataFrame(merged_data)

# Display the DataFrame
df

Unnamed: 0,arithmetic_mean,geometric_mean,harmonic_mean,quadratic_mean,mid_range,comentario
0,5.7,5.238158,4.832215,6.17252,6.5,Lista inicial
1,6.454545,5.727858,5.138091,7.242551,8.5,Agregando 14 UNT
2,18.416667,7.519122,5.58779,43.852974,76.5,Agregando 150 UNT
3,44.692308,10.12531,6.045619,108.371512,181.5,Agregando 360 UNT


De acuerdo a la información planteada, a medida que se van agregando información, los valores de medidas de tendencia central van cambiando, unos de manera más significativa que otros. De este modo podemos observar que:
* La media armónica siempre arrojada valores más pequeños que la media geométrica y esta a su vez es más pequeña que la media aritmética.
* Ante valores atípicos grandes la media armónica se comporta de manera más estable que la media geométrica, de igual modo la media geométrica tiene un comportamiento más estable que la media aritmética.
* La media cuadrática y el rango medio no presente alguna relación de comparación con las demás medias.
* Ante valores atípicos grandes tanto la media aritmética, la media cuadrática y el rango medio presentan mayores alteraciones en los valores.
* Tanto la media geométrica y la media armónica ante valores extremos muy grandes se ve menos afectada, generando así una medida más cercana a la centralidad del conjunto de los datos ante un conjunto de datos que es más heterogeneo. Por otro lado, las media aritmética generará datos más cercanos a la centralidad ante un conjunto de datos más homégeneo.

**Nota:** Un conjunto de datos puede ser clasificado como homogéneo o heterogéneo según la uniformidad o diversidad de los elementos que lo componen:

1. Conjunto de Datos Homogéneo:
Un conjunto de datos se considera homogéneo cuando todos los elementos comparten características similares y pertenecen a la misma categoría o clase.

2. Conjunto de Datos Heterogéneo:
Un conjunto de datos se clasifica como heterogéneo cuando contiene elementos que son diversos en términos de tipo, naturaleza o categoría.

#### **Media ponderada**

La media ponderada es una medida estadística que se calcula asignando pesos diferentes a cada valor en un conjunto de datos antes de calcular la media. Los pesos reflejan la importancia relativa de cada valor en la media resultante. En otras palabras, algunos valores tienen más influencia en la media que otros según sus pesos asignados.

En términos matemáticos, si tienes un conjunto de datos con $n$ valores $x_1 , x_2 , x_3 , \ldots , x_n,$ con pesos $w_1 , w_2 , w_3 , \ldots , w_n,$ la fórmula para calcular es: $$\bar{x}_{p} = \frac{w_1\cdot x_1+w_2\cdot x_2+\cdots+w_n\cdot x_n}{w_1+w_2+\cdots+w_n} = \frac{\sum\limits_{i=1}^{n}w_i\cdot x_i}{\sum\limits_{i=1}^{n}w_i} = \frac{\sum w_i\cdot x_i}{\sum w_i}.$$

#### **Utilidad**

La media ponderada se utiliza en una variedad de contextos donde algunos valores tienen más importancia o relevancia que otros en el cálculo de una medida de tendencia central. Algunos de los aspectos en los que se utiliza la media ponderada incluyen:

1. Educación y Calificaciones: En sistemas de calificación, se puede asignar un peso a cada curso según su dificultad o créditos, y luego calcular el promedio ponderado de las calificaciones para reflejar con mayor precisión el rendimiento académico.

2. Finanzas: En análisis financiero, se pueden asignar pesos a diferentes activos según su contribución al rendimiento total de una cartera de inversión. Esto permite calcular rendimientos ponderados y evaluar la influencia de cada activo en la cartera.

3. Encuestas y Opiniones: En encuestas o estudios de opinión, se pueden asignar pesos a diferentes segmentos de la población para tener en cuenta la representatividad de cada grupo al calcular promedios ponderados de respuestas.

4. Análisis de Datos: En análisis de datos, la media ponderada se usa para calcular medidas como índices compuestos, promedios de costos ponderados y otros indicadores que deben reflejar la importancia relativa de diferentes componentes.

5. Gestión de Proyectos: En la gestión de proyectos, se pueden asignar pesos a diferentes tareas o actividades según su complejidad o impacto en el proyecto. Luego, se puede calcular el tiempo promedio ponderado para estimar la duración total del proyecto.

6. Evaluación de Desempeño: En entornos empresariales, se pueden utilizar pesos para evaluar el desempeño de los empleados en diferentes áreas y calcular un promedio ponderado que refleje su contribución relativa.

7. Ingeniería: En ingeniería, la media ponderada se aplica en el cálculo de propiedades físicas o químicas, como densidades y conductividades térmicas, donde diferentes materiales tienen diferentes contribuciones a la propiedad total.

8. Medicina y Salud: En medicina, se pueden asignar pesos a diferentes factores de riesgo o resultados en estudios epidemiológicos para calcular un promedio ponderado que tenga en cuenta la importancia relativa de cada factor.

En general, la media ponderada es útil siempre que haya una necesidad de reflejar de manera precisa la importancia relativa de diferentes valores en el cálculo de una medida de tendencia central.

#### **Ejemplo:**

Imagina que eres un estudiante universitario y has tomado tres cursos con diferentes créditos y calificaciones. Quieres calcular tu promedio ponderado de calificaciones para tener una idea más precisa de tu rendimiento académico, considerando la carga crediticia de cada curso.

In [13]:
# Ejemplo de cálculo de la media ponderada en Python

# Calificaciones de los cursos
calificaciones = [85, 92, 78, 99, 65]

# Créditos de los cursos respectivamente
creditos = [3, 4, 2, 4, 4]

# Calcular el producto de cada calificación por sus créditos correspondientes
productos = [cal * cred for cal, cred in zip(calificaciones, creditos)]

# Calcular la suma de los productos y la suma total de los créditos
suma_productos = sum(productos)
suma_creditos = sum(creditos)

# Calcular la media ponderada dividiendo la suma de los productos entre la suma de los créditos
media_ponderada = suma_productos / suma_creditos

# Imprimir el resultado
print("Calificaciones de los cursos:", calificaciones)
print("Créditos de los cursos:", creditos)
print("El promedio ponderado de calificaciones es:", media_ponderada)


Calificaciones de los cursos: [85, 92, 78, 99, 65]
Créditos de los cursos: [3, 4, 2, 4, 4]
El promedio ponderado de calificaciones es: 84.41176470588235


### **Mediana**

La mediana es una medida estadística de tendencia central que divide un conjunto de datos en dos partes iguales: la mitad de los valores están por encima de la mediana y la otra mitad está por debajo de ella. En otras palabras, es el valor que ocupa la posición central en un conjunto de datos ordenados de manera ascendente o descendente. Observe que este valor es muy diferente al rango medio.

La mediana es especialmente útil en casos donde los datos están sesgados o tienen valores atípicos, ya que no se ve afectada por valores extremadamente grandes o pequeños. Es una medida robusta que proporciona una indicador de la "tendencia central" de los datos sin verse influida por valores atípicos (cosa que no ocurre de igual manera con la media aritmética).

**¿Cómo calcular la mediana?**

Para calcular la mediana en un conjunto de datos:

1. Si el conjunto de datos tiene un número impar de valores, la mediana es simplemente el valor que ocupa la posición central después de ordenar los datos.

2. Si el conjunto de datos tiene un número par de valores, la mediana se calcula promediando los dos valores centrales después de ordenar los datos.

#### **Ejemplo**

Imagina que estás analizando las alturas de un grupo de personas y quieres calcular la mediana de las alturas para obtener una medida de tendencia central que no se vea afectada por valores atípicos.

In [17]:
# Ejemplo de cálculo de la mediana en Python

# Alturas de las personas en centímetros
alturas = [165, 172, 158, 178, 180, 160, 150, 175, 185, 160, 170]

# Ordenar las alturas de manera ascendente
alturas.sort()

# Funcion para calcular la mediana
def median(values : list):
  n = len(values)
  if n % 2 == 1:
      mediana = values[n // 2]
  else:
      mediana = (values[(n - 1) // 2] + values[n // 2]) / 2
  return mediana
# Calcular la mediana
mediana = median(alturas)

# Imprimir el resultado
print("Alturas de las personas:", alturas)
print("Alturas de las personas organizadas:", sorted(alturas))
print("La mediana de las alturas es:", mediana)


Alturas de las personas: [150, 158, 160, 160, 165, 170, 172, 175, 178, 180, 185]
Alturas de las personas organizadas: [150, 158, 160, 160, 165, 170, 172, 175, 178, 180, 185]
La mediana de las alturas es: 170


### **Moda**

La moda es una medida de tendencia central que representa el valor o los valores que ocurren con mayor frecuencia en un conjunto de datos. En otras palabras, la moda es el valor que aparece con la mayor frecuencia en un conjunto de observaciones. Es especialmente útil para identificar patrones o tendencias en datos discretos y categóricos.

Una característica importante de la moda es que un conjunto de datos puede tener una sola moda (unimodal) si un valor se repite más veces que cualquier otro, o múltiples modas (multimodal) si varios valores comparten la misma frecuencia máxima.

### **Ejemplo:**

##### **Ejemplo 1: (unimodal)**

Supongamos que estás analizando los resultados de una votación para elegir el número favorito de un grupo de personas. Quieres calcular la moda para identificar cuál número ha sido elegido con mayor frecuencia.

In [18]:
# Ejemplo de cálculo de la moda en Python

from collections import Counter

# Números de votación
votos = [5, 7, 3, 5, 2, 7, 5, 7, 1, 5, 4, 6, 7, 5, 4, 5, 7, 8]

# Calcular la moda utilizando Counter de collections
contador_votos = Counter(votos)
moda_resultados = contador_votos.most_common(1)

# Obtener el valor de la moda
moda = moda_resultados[0][0]
frecuencia = moda_resultados[0][1]

# Imprimir el resultado
print("Números de votación:", votos)
print("La moda es:", moda)
print("Frecuencia de la moda:", frecuencia)

Números de votación: [5, 7, 3, 5, 2, 7, 5, 7, 1, 5, 4, 6, 7, 5, 4, 5, 7, 8]
La moda es: 5
Frecuencia de la moda: 6


##### **Ejemplo 2: (multimodal)**

Imagina que estás analizando las puntuaciones obtenidas por un grupo de estudiantes en un examen. Quieres calcular las modas para identificar si hay más de un puntaje que se repite con la misma frecuencia máxima.

In [34]:
# Ejemplo de cálculo de modas en Python

from collections import Counter

# Puntuaciones en el examen
puntuaciones = [90, 85, 92, 78, 90, 85, 90, 78, 92, 78, 85, 90, 85, 78, 100, 99]

# Se genera la clase counter que tiene un diccionario organizado de mayor a menor por cantidad de votos
# {key : value}  ---> key : puntuacion ,  value: cantidad de veces repetida la puntuacion
contador_puntuaciones = Counter(puntuaciones)
# Generar una lista de tuplas (dato , votación de ese dato)
modas_resultados = contador_puntuaciones.most_common()

# Obtener los valores de las modas y sus frecuencias
modas = [moda[0] for moda in modas_resultados if moda[1] == modas_resultados[0][1]]
frecuencia_maxima = modas_resultados[0][1]

# Imprimir el resultado
print("Puntuaciones en el examen:", puntuaciones)
print("Las modas son:", modas)
print("Frecuencia máxima:", frecuencia_maxima)


Puntuaciones en el examen: [90, 85, 92, 78, 90, 85, 90, 78, 92, 78, 85, 90, 85, 78, 100, 99]
Las modas son: [90, 85, 78]
Frecuencia máxima: 4
