<a href="https://colab.research.google.com/github/ajrianop/Estadistica_Descriptiva_y_Python_UD2023-3/blob/main/02_2_Medidas_descriptivas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Medidas descriptivas**

En el presente capítulo se plantearan las ideas de las medidad descriptivas de tendencia central y de dispersión, las cuales juegan un rol muy importante en el entendimiento de los datos.

Las medida descriptivas que vamos a trabajar a continuación son:

2. Medidas  de dispersión o variabilidad: son elementos que indican cuánto se extienden o dispersan los valores individuales en relación con la medida de tendencia central (como la media o la mediana) en un conjunto de datos. Estas medidas proporcionan información sobre la variabilidad y la dispersión de los datos alrededor de un valor central.

  Algunos ejemplos:
  * Rango.
  * Desviación estándar.
  * Varianza.
  * Coeficiente de variación.
  * Rango intercuartil.

Antes de empezar con el desarrollo del curso, vamos a plantear algunas funciones que podrían ser de utilidad a lo largo del cuadernillo:

In [14]:
# Funciones importantes a tener en cuenta:

def arithmetic_mean(values : list):
  '''
  Función que permite calcular la media aritmética
  values --> list
  '''
  _sum = 0
  n = len(values)

  for value in values:
      _sum += value  # _sum = _sum + value

  return _sum / n

## **2. Medidas de dispersión**

Las medidas de dispersión o variabilidad permiten observar la homogeneidad o heterogeneidad de los conjuntos que se están analizando, usualmente estas medidas se miden en torno a las medidas ya planteadas llamadas de centralidad o netamente con respecto a la relación entre los mismos datos.

Las medidas de dispersión más utilizadas son:
* Rango,
* Desviación media,
* Varianza,
* Desviación estándar,
* Coeficiente de variación.

### **Rango**

El *rango* esta definido como la diferencia entre el valor máximo y el valor mínimo del conjunto de datos. Si tenemos una mayor longitud, implica por lo general mayor dispersión de los datos. De este modo, es muy importante tener en cuenta las unidades con las cuales se estan registrando los datos.

$$R= \max\{x_i \mid i=1,2,\ldots,n\} - \min\{x_i \mid i=1,2,\ldots,n\}$$

<table>
  <tbody>
    <tr>
      <td><strong>Ventajas</strong></td>
      <td><strong>Desventajas</strong></td>
    </tr>
    <tr>
      <td>
        <ul>
          <li>Es fácil de calcular y comprender.</li>
          <li>Proporciona una medida simple de la dispersión de los datos.</li>
          <li>Las unidades coinciden con las de la variable de análisis.</li>
        </ul>
      </td>
      <td>
        <ul>
          <li>No tiene en cuenta la distribución de los datos entre los valores máximo y mínimo.</li>
          <li>Es sensible a valores extremos o atípicos, lo que puede dar una idea errónea de la dispersión en presencia de estos valores.</li>
          <li> Solo incluye dos datos para el cálculo, lo cual impide ver de manera más precisa los valores intermedios. </li>
        </ul>
      </td>
    </tr>
  </tbody>
</table>


#### **Ejemplo:**

En la aviación donde podría ser relevante es el análisis de la variabilidad de las velocidades de despegue y aterrizaje de una flota de aviones. De este modo, en este ejemplo, tenemos una lista de velocidades de despegue de una flota de aviones en nudos. Calculamos el rango de estas velocidades utilizando la diferencia entre el valor máximo y el valor mínimo en la lista. El rango nos dará una idea de la variabilidad de las velocidades de despegue en esta flota específica.

In [4]:
def range_func(values : list):
  '''
  Función rango de estadística, la cual consifera punto máximo y mínimo de
  la lista y calcula su diferencia.
  '''
  return max(values)-min(values)

In [7]:
# Velocidades de despegue de una flota de aviones en nudos
velocidades_despegue = [160, 155, 162, 158, 168, 170, 155, 162, 163, 159]

# Calcular el rango (diferencia entre la velocidad máxima y mínima)
rango_velocidades = max(velocidades_despegue) - min(velocidades_despegue)

# Imprimir el resultado
print("Velocidades de despegue de la flota:", velocidades_despegue)
print("El rango de velocidades de despegue es:", rango_velocidades, "nudos")
print("El rango de velocidades de despegue utilizando la función range_func es:", range_func(velocidades_despegue), "nudos")

Velocidades de despegue de la flota: [160, 155, 162, 158, 168, 170, 155, 162, 163, 159]
El rango de velocidades de despegue es: 15 nudos
El rango de velocidades de despegue utilizando la función range_func es: 15 nudos


### **Desviación media**

La *desviación media*, se define como la media aritmética de los valores absolutos de las desviaciones de los datos con respecto a la media (valor promedio).

Para su cálculo, intervienen todos los datos ya sea de la muestra o de la población a considerar, de tal modo esta medida nos describe información relativa a la totalidad, y de este modo nos brinda información acerca de la variabilidad del problema (i.e. que tan dispersos estan los datos en la distribución con respecto a la media).

De este modo, en términos matemáticos, dados $x_1 , x_2 , x_3, \ldots , x_{n-1}, x_n$ valores de una muestra, entonces la *la desviación media* se calcula por medio de la ecuación

$$dm=\frac{\sum\limits_{i=1}^{n} |x_i - \bar{x}|}{n}$$
  
**Nota:**
1. La desviación media, también puede ser calculada a partir de la mediana.
2. Es díficil realizar desarrollo algebraico con esta medida.

Cuando nuestro conjunto sobre el cual realizamos el cálculo es la población, el cálculo de la desviación media es:
$$dm = \frac{\sum\limits_{i=1}^{N} |x_i-\mu |}{N}.$$
$\mu:$ Media tomando como conjunto la población.

$N:$ Cantidad de elementos en la población

#### **Ejemplo**

Para el seguimiento del tiempo de viaje diario de una persona desde su hogar hasta su lugar de trabajo durante una semana. Supongamos que se registran los siguientes tiempos de viaje (en minutos):

* Lunes: 25 minutos.
* Martes: 30 minutos.
* Miércoles: 27 minutos.
* Jueves: 35 minutos.
* Viernes: 28 minutos.

In [12]:
def mean_deviation(values : list):
  _sum = 0
  _mean = arithmetic_mean(values)
  n = len(values)
  for value in values:
    _sum += abs(value - _mean)
  return _sum / n

In [15]:
# Datos de tiempos de viaje en minutos
tiempos_de_viaje = [25, 30, 27, 35, 28]

# Calcular la media de los tiempos de viaje
media = sum(tiempos_de_viaje) / len(tiempos_de_viaje)

# Calcular la desviación media
desviacion_media = sum(abs(tiempo - media) for tiempo in tiempos_de_viaje) / len(tiempos_de_viaje)

# Imprimir los resultados
print("Tiempos de viaje:", tiempos_de_viaje)
print("Media:", media, "minutos")
print("Desviación Media:", desviacion_media, "minutos")
print("Desviación Media utilizando la función :", mean_deviation(tiempos_de_viaje), "minutos")

Tiempos de viaje: [25, 30, 27, 35, 28]
Media: 29.0 minutos
Desviación Media: 2.8 minutos
Desviación Media utilizando la función : 2.8 minutos


### **Varianza**

De acuerdo a las diferentes limitaciones de las dos medidas anteriores, tenemos en consideración otra medida llamada *la varianza*, la cual mide la variabilidad de un conjunto de datos con respecto a la media (aritmética), de este modo se define como la suma de los cuadrados de las diferencias entre cada dato y la media. De este modo entre menor sea el valor de la varianza, el grado de variación de los datos con respecto a la media es menor.

En términos matemáticos, dados $x_1 , x_2 , x_3, \ldots , x_{n-1}, x_n$ valores de una muestra, entonces la *la desviación media* se calcula por medio de la ecuación

$$S^2=\frac{\sum\limits_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$$

Podemos notar que en este caso el denominador es $n-1$ en lugar de $n,$ este dato se considera de esta manera, ya que obtenemos una mejor estimación de la variable poblacional, esto indica en términos matemáticos que $$E(S^2)=\sigma^2,$$
donde $E(X)$ es la función esperanza en probabilidad.

En el caso que consideremos la problación total, dados $x_1 , x_2 , x_3, \ldots , x_{n-1}, x_n$ valores de la población, *la desviación media* se calcula por medio de la ecuación

$$\sigma^2=\frac{\sum\limits_{i=1}^{n} (x_i - \mu)^2}{N},$$
$\mu:$ Media tomando como conjunto la población.

$N:$ Cantidad de elementos en la población.

<table>
  <tbody>
    <tr>
      <td><strong>Ventajas</strong></td>
      <td><strong>Desventajas</strong></td>
    </tr>
    <tr>
      <td>
        <ul>
          <li>Es la medida de variación más utilizada.</li>
          <li>Es posible realizar cálculos con ella.</li>
          <li>Proporciona una medida de dispersión que tiene en cuenta todos los valores en el conjunto de datos.</li>
          <li>Es útil para comparar la dispersión entre diferentes conjuntos de datos.</li>
        </ul>
      </td>
      <td>
        <ul>
          <li>No es tan fácil a nivel de interpretabilidad.</li>
          <li> Para su uso se debe acompañar con otras medidas de dispersión. </li>
          <li>Puede ser sensible a valores atípicos o extremos, lo que puede distorsionar su valor.</li>
          <li>La unidad de medida de la varianza es el cuadrado de la unidad original, lo que puede dificultar su interpretación.</li>
        </ul>
      </td>
    </tr>
  </tbody>
</table>

#### **Propiedades de la varianza**

Algunas de las propiedades algebraicas de la varianza son:
1. El valor de la varianza es siempre positivo o igual a cero. Así $S^2 \geq 0,$ para cualquier conjunto de datos.
2. Si todos los valores son iguales en el conjunto de datos la varianza es cero,así: Si $x_i=k$ para todo $i,$ entonces $S^2 = 0.$
3. La varianza no se altera si se suma o resta una constante:
Si $y_i=x_i \pm k$ para todo $i,$ entonces $S_y^2 = S_x^2,$
donde $S_x^2$ es la varianza de los datos asociados con la expresión $x_i$ y $S_y^2$ es la varianza de los datos asociados con la expresión $y_i.$
4. Si cada uno de los datos se multiplica por una constante, el valor de la varianza sera la constante al cuadrado por la varianza de los datos iniciales.
Si $y_i = k x_i,$ para todo $i$, entonces $S_y^2 = k^2 S_x^2.$
(Note que otra constante que se puede considerar es $k=\frac{1}{a}$ con $a\neq 0$, luego si $y_i = \frac{1}{a}x_i = k x_i$, entonces $S_y^2 = k^2 S_x^2=\frac{1}{a^2}S_x^2.$)
5. Un **valor aproximado** del cálculo de la varianza es:
$$S^2 \approx \frac{\sum\limits_{i=1}^{n} x_i^2}{n}-\bar{x}^2.$$
**Cuidado: este es un valor aproximado, no es exactamente la varianza.**

#### **Ejemplo**

In [27]:
# Datos de los tiempos de llegada por día de la semana
tiempos_lunes = [5, 7, 6, 8, 5]
tiempos_martes = [6, 8, 9, 7, 6]
tiempos_miercoles = [5, 5, 7, 8, 7]
tiempos_jueves = [8, 7, 6, 6, 6]
tiempos_viernes = [7, 7, 7, 7.5, 6.5]
tiempos_sabado = [5, 6, 5, 6, 8]
tiempos_domingo = [9, 6, 7, 8, 10]

# Función para calcular la varianza
def variance(datos):
    media = sum(datos) / len(datos)
    varianza = sum((x - media) ** 2 for x in datos) / (len(datos) - 1)
    return varianza

# Calcular la varianza para cada día de la semana
dias = ["lunes", "martes", "miercoles", "jueves", "viernes", "sabado", "domingo"]
tiempos = [tiempos_lunes, tiempos_martes, tiempos_miercoles, tiempos_jueves, tiempos_viernes, tiempos_sabado, tiempos_domingo]
_dict_variance = dict()
for n in range(len(dias)):
  print(f"Varianza del {dias[n]}: {variance(tiempos[n])}")

Varianza del lunes: 1.7
Varianza del martes: 1.7
Varianza del miercoles: 1.8
Varianza del jueves: 0.7999999999999999
Varianza del viernes: 0.125
Varianza del sabado: 1.5
Varianza del domingo: 2.5


### **Desviación estándar**

### **Coeficientes de variación**