[View in Colaboratory](https://colab.research.google.com/github/politicasydatos/curso_intensivo_estadistica/blob/master/7_Medidas_de_tendencia_central.ipynb)

![texto alternativo](https://3.bp.blogspot.com/-O3yeEI3wWN4/Wpbw8NnGFaI/AAAAAAAAABg/ZwFgqtmiwDczgu2BGJ9Qkr9mhkuCK_oogCK4BGAYYCw/s1600/Logo%2Bbanner%2B%25285%2529.png)

# Curso intensivo de estadística en Python

Con [Norman Simón Rodríguez, MSc](https://politicasydatos.blogspot.com/p/acerca-de-mi.html).

## Lección 7: Medidas de tendencia central

Las medidas de tendencia central, también llamadas en general *promedios* son números que nos permiten resumir distribuciones, y buscan darnos un valor que representa a la mayoría de los datos.

Por ejemplo, cuando se dice que en un país el número promedio de hijos por familia es 2.5 lo que se quiere decir es que *la mayoría* de las familias de ese país tiene alrededor de 2.5 hijos. En otras palabras, los promedios nos indican un valor alrededor del cual se encuentran *concentrados* los demás datos.

Muchas veces, sin embargo, los promedios no representan a la mayoría de la población. Es por esto que se complementan con las medidas de dispersión, que veremos en el próximo cuaderno.

Las tres medidas de tendencia central más usadas son la media (aritmética), la mediana y la moda.

### La mediana

Si partimos un diagrama de densidad por su mediana, queda exactamente partido a la mitad.

Primero importemos las librerías requeridas:

In [0]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="white", font_scale=1.5)

Recordemos nuestros datos de alturas:

In [0]:
url_alturas = 'https://raw.githubusercontent.com/politicasydatos/curso_intensivo_estadistica/master/datos/altura.csv'
alturas = pd.read_csv(url_alturas)*2.54 # Se multiplica por 2.54 para convertir de pulgadas a centímetros
alturas = alturas['Father']
alturas.head()

Calculemos la mediana:

In [0]:
mediana = alturas.median()
mediana = round(mediana, 2)
mediana

Y dibujémosla (color amarillo) sobre nuestro diagrama de densdidad:

In [0]:
ax = alturas.plot.hist(bins=20, normed=True)
alturas.plot.density(ax=ax, color='red')
plt.axvline(x=mediana, color='yellow', linewidth=4)
plt.show()

Comprobemos que el número de observaciones que miden más que la mediana es aproximadamente igual al número de observaciones que miden menos que la mediana:

In [0]:
print("Cantidad de hombres que miden más o igual que la mediana:")
print(alturas[ alturas >= mediana ].count())

print("\nCantidad de hombres que miden menos o igual que la mediana:")
print(alturas[ alturas <= mediana ].count())

### La moda

La moda es el valor que más se repite en la distribución, y corresponde al "pico" del diagrama de densidad. El supuesto fundamental que se tiene cuando se usa la moda es que al ser el valor más popular, seguramente a su alrededor estarán todos los demás valores. Esto a veces es cierto, a veces no.

Calculemos la moda:

In [0]:
moda = alturas.mode()
moda

En este caso hay un empate entre tres estaturas. Vemos, sin embargo, que todas tres están muy cerca, de manera que podemos tomar la de la mitad como la más "central". Además, esta segunda moda es la misma mediana.

In [0]:
moda = moda[1]
moda = round(moda, 2)
moda

Dibujando:

In [0]:
ax = alturas.plot.hist(bins=20, normed=True)
alturas.plot.density(ax=ax, color='red')
plt.axvline(x=moda[1], color='Lime', linewidth=4)
plt.show()

Por supuesto, al tener esta moda el mismo valor de la mediana, la cantidades de observaciones a la derecha y a la izquierda serán iguales a las del ejercicio anterior.

### La media

La media es la medida de tendencia central más común. A diferencia de la moda (que nos dice el valor más popular) y de la mediana (que busca partir los datos por la mitad exacta en dos grupos del mismo tamaño), la media se preocupa por partir la distribución de manera que los valores que están más lejos de la mitad tengan un poco más de importancia.

La mediana no tiene en cuenta si la persona más alta mide 190 centímetros, o 25 metros, ya que el valor de las observaciones extremas no cuenta para el cálculo de la mitad de la distribución.

La media, en contraste,  sí les da importancia a los valores extremos, y tiende a dejarse llevar por estos. Una sola persona que mida 3 metros o una sola persona que mida 15 centímetros pueden afectar la media en gran manera. En particular, si alguien mide 3 metros, la media tenderá a ser alta, y si alguien mide apenas 15 centímetros, la media tiende a ser baja, como si los valores extremos fueran "imanes" que la atraen.

Calculemos la media:

In [0]:
media = alturas.mean()
media = round(media, 2)
media

Y dibujémosla:

In [0]:
ax = alturas.plot.hist(bins=20, normed=True)
alturas.plot.density(ax=ax, color='red')
plt.axvline(x=media, color='Magenta', linewidth=4)
plt.show()

Si comparamos las tres medidas de tendencia central que hemos calculado, veremos que todas son muy similares. Esto se debe a que la distribución es *simétrica*, y cuando una distribución es simétrica, sus tres promedios suelen coincidir.

In [0]:
print("La mediana es {}, la moda es {} y la media es {}.".format( mediana, moda, media ))

### Distribuciones asimétricas

Cuando una distribución es asimétrica, sus promedios no necesariamente coinciden. Retomemos los datos de PIB per cápita del Banco Mundial.

In [0]:
url_co2 = 'https://raw.githubusercontent.com/politicasydatos/curso_intensivo_estadistica/master/datos/co2_y_pib.csv'
co2 = pd.read_csv(url_co2)
co2.head()

Sólo nos interesan los datos de PIB per cápita, y les vamos a hallar los promedios:

In [0]:
pib_pc = co2[ co2['series'] == 'GDP per capita, PPP (current international $)' ]
pib_pc = pib_pc['2012'].dropna()
ax = pib_pc.plot.hist(bins=20, normed=True)
pib_pc.plot.density(ax=ax, color='red')
plt.show()

In [0]:
mediana = round( pib_pc.median(), 2 )
media = round( pib_pc.mean(), 2 )

Al calcular la moda vemos que hay en realidad muchas modas:

In [0]:
print(pib_pc.mode())

De hecho, hay tantas modas como datos. La moda sólo es fácil de calcular cuando estamos trabajando con datos discretos. Cuando usamos datos continuos como éstos, a veces simplemente nos abstenemos de calcular la moda porque no sirve.

Ahora dibujémoslas superpuestas en el diagrama (la mediana es la amarilla y la media es la fucsia):

In [0]:
ax = pib_pc.plot.hist(bins=20, normed=True)
pib_pc.plot.density(ax=ax, color='black')
plt.axvline(x=mediana, color='Yellow', linewidth=4)
plt.axvline(x=media, color='Magenta', linewidth=4)
plt.show()

La "punta" del diagrama de densidad puede ser engañosa, pues aparentemente nos muestra que hay efectivamente una moda. Podemos chequear que no es así incrementando la precisión del diagrama de densidad:

In [0]:
fig, axes = plt.subplots(1, 2)
A = pib_pc.plot.density(color='black', bw_method=0.1, ax=axes[0])
B = pib_pc.plot.density(color='black', bw_method=0.02, ax=axes[1])

# Escondiendo el eje vertical
A.axes.get_yaxis().set_visible(False)
B.axes.get_yaxis().set_visible(False)
plt.show()

Cuando se tienen distribuciones asimétricas, lo que se recomienda generalmente es usar la **mediana** en vez de la media. Esto porque la media se deja llevar mucho por los valores extremos, mientras que la mediana no, razón por la cual también se dice que la mediana es una medida "robusta".

### Qué aprendimos

Aprendimos:

* Que los promedios buscan darnos un valor alrededor del cual se concentra la mayoría de los valores de un vector de datos.
* A calcular la moda, la media y la mediana con Pandas.
* Que la media, la moda y la mediana suelen coincidir en las distribuciones simétricas.
* Que la moda es más útil cuando tenemos datos discretos; con los datos continuos puede ser una medida engañosa, especialmente cuando hay varias modas.
* Que cuando tenemos distribuciones asimétricas lo recomendado es usar la mediana, que es un promedio robusto.

Visita [https://politicasydatos.blogspot.com/](https://politicasydatos.blogspot.com/) para más material.

¡Nos vemos en el próximo tutorial!