![imagenes](logo.png)

# Medidas de tendencia central

Una medida de tendencia central es un número que representa los datos. Las más usuales son la media y la mediana. Veamos cómo se calculan.

Si $x_1,x_2,...,x_n$ son $n$ datos, entonces:

* **Media.** se trata del promedio aritmético $$\overline{x}=\frac{x_1+x_2+...+x_n}{n}$$

**Ejemplo.** Supongamos que tenemos los datos 8.46, 2.18, 4.04, 10.84, 5.17, 7.76, 5.67, 2.41, 3.15, 5.19, 8.22, 7.27

En total son 12 datos. La media es $$\overline{x}=\frac{8.46+2.18+4.04+10.84+5.17+7.76+5.67+2.41+3.15+5.19+8.22+7.27}{12}=5.863$$

* **Mediana.** se trata del valor que divide a los datos en el 50% más alto y el 50% más bajo. Es decir, que una vez que se ordenan los datos del menor al mayor (o viceversa), si $n$ es impar entonces la mediana es el valor que queda a la mitad de la lista ordenada; y si $n$ es par, entonces la mediana es el promedio de los dos datos centrales.

**Ejemplo.** Supongamos que tenemos los datos 8.46, 2.18, 4.04, 10.84, 5.17, 7.76, 5.67, 2.41, 3.15, 5.19, 8.22, 7.27

Ordenamos de menor a mayor: 2.18, 2.41, 3.15, 4.04, 5.17, 5.19, 5.67, 7.27, 7.76, 8.22, 8.46, 10.84

Como hay 12 datos, entonces la mediana es el valor que parte a la mitad a la lista anterior, dejando por debajo a los más pequeños y por arriba a los más grandes. En este caso, como el total de datos es 12 y es par, tendremos que la mediana es promedio de los datos en las posiciones 6 y 7:

2.18, 2.41, 3.15, 4.04, 5.17, <span style="color:red">5.19</span>, <span style="color:red">5.67</span>, 7.27, 7.76, 8.22, 8.46, 10.84  

$mediana=\frac{5.19+5.67}{2}=5.43$

De lo anterior, podemos decir que tanto la media (5.863) como la mediana (5.43) son representantes de los valores 2.18, 2.41, 3.15, 4.04, 5.17, 5.19, 5.67, 7.27, 7.76, 8.22, 8.46, 10.84

## Media vs Mediana

Ahora bien, ambas tienen diferentes propiedades. 

Por ejemplo, la media es la medida de tendencia central más utilizada en la práctica. Sin embargo, **se ve fuertemente afectada por la presencia de datos atípicos**. Por su parte, la mediana no se afecta bajo atípicos. En este caso, decimos que la mediana es un **estimador robusto**.

Consideremos los siguientes datos:

<table>
  <tr>
    <th>Datos</th>
    <td>8</td>
    <td>3</td>
    <td>9</td>
    <td>7</td>
    <td>2</td>
    <td>8</td>
    <td>6</td>
    <td>4</td>
    <td>7</td>
    <td>9</td>
    <td>8</td>
    <td>5</td>
    <td>9</td>
  </tr>
</table>


Hagamos su histograma "sencillo". Es decir, simplemente dibujar bloques o esferas, tantos como repeticiones de cada valor hay:

<img src="im014.png" style="display:block; margin:auto;">

De esta manera, podemos observar cómo varían la media y la mediana. 

<pre style="color: teal; font-family: monospace; text-align: left;">
################################################################
#######################     En Excel     #######################
################################################################
</pre>

| Medida  | Código                                   |
|---------|-----------------------------------------|
| Media   | `=PROMEDIO(celda_inicial:celda_final)` |
| Mediana | `=MEDIANA(celda_inicial:celda_final)`  |

<pre style="color: teal; font-family: monospace; text-align: left;">
################################################################
</pre>





```r
################################################################
########################      EN R       #######################
################################################################

datos = c(8,3,9,7,2,8,6,4,7,9,8,5,9)
datos_con_atipico = c(8,3,9,7,2,8,6,4,7,9,8,100,9)

media_datos = mean(datos)
media_con_atipico = mean(datos_con_atipico)

mediana_datos = median(datos)
mediana_con_atipico = median(datos_con_atipico)

################################################################
```

```python
################################################################
########################    EN PYTHON    #######################
################################################################

import numpy as np

datos = np.array([8, 3, 9, 7, 2, 8, 6, 4, 7, 9, 8, 5, 9])
datos_con_atipico = np.array([8, 3, 9, 7, 2, 8, 6, 4, 7, 9, 8, 100, 9])

media_datos = np.mean(datos)
media_con_atipico = np.mean(datos_con_atipico)

mediana_datos = np.median(datos)
mediana_con_atipico = np.median(datos_con_atipico)

################################################################
```


De esta manera, ante la presencia de datos atípicos, **la mediana es mejor representante central que la media**

## Resumen de funciones:

| **Lenguaje** | **Paquetería** | **Estructura de datos** | **Medida**  | **Función** |
|-------------|---------------|------------------------|------------|------------|
| **Excel**   |               | Rango de celdas       | **Media**  | `=PROMEDIO(dato_inicial:dato_final)` |
| **Excel**   |               | Rango de celdas       | **Mediana** | `=MEDIANA(dato_inicial:dato_final)` |
| **R**       |               | Vector                | **Media**  | `mean(datos)` |
| **R**       |               | Vector                | **Mediana** | `median(datos)` |
| **Python**  | NumPy         | Array                 | **Media**  | `np.mean(datos)` |
| **Python**  | NumPy         | Array                 | **Mediana** | `np.median(datos)` |
