# Medidas básicas de la estadística descriptiva

<img src="img/medidas_estidistica_descriptiva.jpg" width="800">


# 1    Medidas de centralización

Las **medidas de tendencia central** son las que dan un valor representativo a todas las observaciones. Algunas de las más importantes son:

- La **media aritmética** o **valor medio**
$$\bar{x} = \frac{\sum_{i=1}^nx_i}{n}=\frac{\sum_{j=1}^kn_jX_j}{n}=\sum_{j=1}^kf_jX_j$$
- La **mediana**, que representa el valor central en la lista ordenada de observaciones.
- La **moda** es el valor (o valores) de máxima frecuencia (absoluta o relativa, el resultado será el mismo).

## La mediana

La definición formal de la mediana es la siguiente. Denotando por $$x_{(1)}\le x_{(2)}\le\dots\le x_{(n)}$$ los datos de la variable cuantitativa ordenados de menor a mayor, la mediana es

- Si $n$ par, la medio de los dos datos centrales $$\frac{x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}}{2}$$
- Si $n$ impar, el dato central $x_{(\frac{n+1}{2})}$


In [2]:
import pandas as pd
import numpy as np


**Vamos a generar una lista de números:**

In [3]:
# Generar números aleatorios
import random
random.seed(0)
A= (random.sample(range(100000), 60))

In [4]:
#Cálculo media
mean=np.mean(A)
mean

53312.01666666667

In [5]:
#Cálculo mediana
np.median(A)

56016.0

In [6]:
#Cálculo moda
from scipy import stats 
stats.mode(A)

ModeResult(mode=array([149]), count=array([1]))

#  2 Frecuencias de datos cuantitativos

En general, supongamos que tenemos $n$ observaciones de una propiedad que se mide con un número real y obtenemos la variable cuantitativa formada por los datos 
$$x_1,\dots, x_n$$

Sean ahora $X_1,\dots,X_k$ los valores distintos que aparecen en esta lista de datos y considerémoslos ordenados
$$X_1<X_2<\cdots<X_k$$

Entonces, en esta variable cuantitativa

- La frecuencia absoluta de $X_i$ es el número $n_i$ de elementos que son iguales a $X_i$
- La frecuencia relativa de $X_i$ es $f_i=\frac{n_i}{n}$
- La frecuencia absoluta acumulada de $X_i$ es $N_i=\sum_{j=1}^in_j$
- La frecuencia relativa acumulada de $X_i$ es $F_i=\frac{N_i}{n}$

# 3 Medidas de posición

Las **medidas de posición** estiman qué valores dividen las observaciones en unas determinadas proporciones.

Los valores que determinan estas posiciones son conocidos como los **cuantiles**.

Pensándolo de este modo, la mediana puede interpretarse como una medida de posición, debido a que divide la variable cuantitativa en dos mitades.

Dada una proporción $p\in(0,1)$, el **cuantil de orden $p$** de una variable cuantitativa, $Q_p$, es el valor más pequeño tal que su frecuencia relativa acumulada es mayor o igual a $p$.

Dicho de otro modo, si tenemos un conjunto de observaciones $x_1,\dots,x_n$ y los ordenamos de menor a mayor, entonces $Q_p$ será el número más pequeño que deja a su izquierda (incluyéndose a sí mismo) como mínimo a la fracción $p$ de los datos. Es decir, $p\cdot n$.

Así, ahora es más claro ver que la mediana vendría a ser $Q_{0.5}$, el cuantil de orden 0.5.

## Cuantiles

Algunos cuantiles tienen nombre propio:

- Los **cuartiles** son los cuantiles $Q_{0.25},Q_{0.5}$ y $Q_{0.75}$. Respectivamente, son llamados primer, segundo y tercer cuartil. El primer cuartil, $Q_{0.25}$, será el menor valor que es mayor o igual a una cuarta parte de las observaciones y $Q_{0.75}$, el menor valor que es mayor o igual a tres cuartas partes de los datos observados.
- El cuantil $Q_{0.5}$ es la mediana
- Los **deciles** son los cuantiles $Q_p$ con $p$ un múltiplo de 0.1.
- Los **percentiles** son son los cuantiles $Q_p$ con $p$ un múltiplo de 0.01.

La definición de cuantil anteriormente dada es orientativa. La realidad es que, exceptuando el caso de la mediana, no hay consenso sobre cómo deben calcularse los cuantiles. En verdad, existen diferentes métodos que pueden dar lugar a soluciones distintas.

Al fin y al cabo, nuestro objetivo no es el de encontrar el primer valor de una muestra cuya frecuencia relativa acumulada en la variable sea mayor o igual a $p$, sino estimar el valor de esta cantidad para el total de la población.

In [7]:
#percencil 100=p1 0=p0, 0.25 1er cuantil 0.75 3er cuantil
np.percentile(A, 25) # return 0.25 percentile, e.g 1er cuantil.

32617.75

# 4 Medidas de dispersión

Las **medidas de dispersión** evalúan lo dispersos que están los datos. Algunas de las más importantes son:

- El **rango** o **recorrido**, que es la diferencia entre el máximo y el mínimo de las observaciones.

- El **rango intercuartílico**, que es la diferencia entre el tercer y primer cuartil, $Q_{0.75}-Q_{0.25}$.

- La **varianza**, a la que denotaremos por $s^2$, es la media aritmética de las diferencias al cuadrado entre los datos $x_i$ y la media aritmética de las observaciones, $\bar{x}$. $$s^2 = \frac{\sum_{j=1}^n(x_j-\bar{x})^2}{n}=\frac{\sum_{j=1}^kn_j(X_j-\bar{x})^2}{n}=\sum_{j=1}^kf_j(X_j-\bar{x})^2$$.

## Medidas de dispersión

- La **desviación típica** es la raíz cuadrada positiva de la varianza, $s=\sqrt{s^2}$.

- La **varianza muestral** es la corrección de la varianza. La denotamos por $\tilde{s}^2$ y se corresponde con
$$\tilde{s}^2 = \frac{n}{n-1}s^2 = \frac{\sum_{j=1}^n(x_i-\bar{x})^2}{n-1}$$
- La **desviación típica muestral**, que es la raíz cuadrada positiva de la varianza muestral, $\tilde{s} = \sqrt{\tilde{s}^2}$

## Propiedades de la varianza

- $s^2\ge 0$. Esto se debe a que, por definición, es una suma de cuadrados de números reales.
- $s^2 = 0\Longrightarrow x_j-\bar{x}=0\ \forall j= 1,\dots,n$. En consecuencia, si $s^2=0$, entonces todos los datos son iguales.
- $s^2 =\frac{\sum_{j=1}^nx_j^2}{n}-\bar{x}^2$. Es decir, la varianza es la media de los cuadrados de los datos menos el cuadrado de la media aritmética de estos.

## Varianza y varianza muestral

La diferencia entre ambas definiciones viene por la interrelación entre la estadística descriptiva y la inferencial.

Por un lado, es normal medir cómo varían los datos  cuantitativos mediante su varianza definida como la media aritmética de las distancias al cuadrado de los datos a su valor medio. No obstante, por otro lado, el conjunto de nuestras observaciones, por lo normal, será una muestra de una población mucho mayor y nos interesará estimar entre otras muchas cosas su variabilidad.

La varianza de una muestra suele dar valores más pequños que la varianza de la población, mientras que la varianza muestral tiende a dar valores alrededor de la varianza de la población.

Esta corrección, para el caso de una muestra grande no es notable. Dividir $n$ entre $n-1$ en el caso de $n$ ser grande no significa una gran diferencia y aún menos si tenemos en cuenta que lo que tratamos es de estimar la varianza de la población, no de calcularla de forma exacta.

En cambio, si la muestra es relativamente pequeña (digamos $n<30$), entonces la varianza muestral de la muestra aproxima significativamente mejor la varianza de la población que la varianza.

La diferencia entre desviación típica y desviación típica muestral es análoga.


## Varianza y desviación típica

Nótese que tanto la varianza como la desviación típica dan una información equivalente. Entonces, es comprensible preguntarse por qué se definen ambas medidas si con una basta. Pues bien, las unidades de la varianza (metros, litros, años...), ya sea muestral o no, están al cuadrado, mientras que las de la desviación típica no.




La varianza y desviación típica, nos indica si los valores se desplazan mucho o poco con respecto
de la media.

* La **varianza** es como se aleja cada valor de la media. La varianza eleva los valores al cuadrado nos introduce en una nueva dimensión… puede no tener sentido.

* La **desviación típica** es la raíz cuadrada de la varianza. Con la desviación típica volvemos a la dimensión original.

* El **coeficiente de variación** nos mide la variabilidad relativa entre la desviación típica entre la media.

In [8]:
#varianza
np.var(A)

810711216.7830557

In [9]:
#desviación típica
std=np.std(A)
std

28472.991005215023

In [10]:
#coeficiente de variacion std/mean*100
#variabilidad relativa entre la media y la std, si hay mucha variabilidad será grande el coeficiente.
std/mean*100

53.40820472660482

# 5 Medidas de asimetría

Momento de orden *r*, respecto a la media. El momento de orden *r* son los momentos de distribución respecto a la media.

 $$m_r = \frac{\sum_{i=1}^n(x_i-\bar{x})^r}{n}$$

In [11]:
import scipy.stats as sp # para modelos de asimetria
from IPython.display import Image # para incluir imagenes local

### **Asimetría de Fisher (Sesgo):**

<img src="img/sesgo.gif">

* Si el coeficiente es **= 0**; Significa que vuestra función es perfectamente simetríca, se distribuye igual, por ejemplo la distribución normal. Raro es que salga cero.

* Si el coeficiente es **>0**; Significa que cuánto más positivo es este valor más desplazada está la distribución hacía la izquierda, de modo que tenemos una asimetría positiva, nos queda la media muy por encima de la distribución.

* Si el el coeficiente es **<0**; Significa que cuánto más negativo es este valor más desplazado está la distribución hacía la derecha, de modo que tenemos una asimetría negativa, nos queda la media muy por debajo de la distribución.

In [12]:
# 3rd Moment: Asimetría de Fisher
Asimetria=sp.skew(A)
Asimetria

-0.17284864155126514

### **Curtosis:**

<img src="img/curtosis.gif">

* **Mesocúrtica (=0)**:  Distribución perfecta, asemejada a la distribución normal en forma, no en valores. Está compensado tanto el centro como las colas.
* **Leptocúrtica (>0)**:  Distribución donde se le concentran mucho los datos en el valor central, y apenas tiene cola.
* **Platicúrtica (<0)**:  Distribución donde hay pocos valores que se concentren respecto al valor central (media) y hay muchos que aparecen hacia las colas, se concentran más en los laterales. Existe valor central, pero también hay mucha presencia de colas directamente en la distribución de nuestros datos.

In [13]:
# 4th Moment: Curtosis
curtosis=sp.kurtosis(A)
curtosis

-1.0800693127939995

## Parámetros importantes para la regresión lineal (entre otros)

<img src="img/errores_lineal.jpg" width="500">

* <font COLOR="red"><b>SST</b></font> = $SSD+SSR = SSE+SSR$. 
* <font COLOR="red"><b>SST</b></font> = $\sum_{i=1}^{n}(y_{i}-\bar y)^2$. **Suma de los cuadrados totales**. Distancia respecto al promedio. Es la distancia entre los puntos rojos y la recta verde(el promedio).
* <font COLOR="red"><b>SSD</b> ó <b>SSE</b></font> = $\sum_{i=1}^{n}(y_{i}-\hat y_{i})^2$. **Suma de los cuadrados de las diferencias** ó **Sum of Squares Error(residual)**. Es la diferencia entre los datos originales y las predicciones que el modelo no es capaz de explicar (errores que deberían seguir una distribución normal). Distancia entre los puntos rojos(datos obtenidos) y la recta azul(el modelo)
* <font COLOR="red"><b>SSR</b></font> = $\sum_{i=1}^{n}(\hat y-\bar y)^2$. **Suma de los cuadrados de la regresión**. Diferencia entre la recta de regresión y la recta promedio que el modelo busca explicar. Distancia entre la recta verde y la azúl en un punto rojo dado.
* <font COLOR="red"><b>MSE</b></font> = $\frac{SSE}{n-p-1}=\frac{1}{n-p-1} \sum_{i=1}^{n}(y_{i}-\hat y_{i})^2$. **Mean Square Error**.
* <font COLOR="red"><b>MSR</b></font> = $\frac{SSR}{p}=\frac{1}{p} \sum_{i=1}^{n}(\hat y-\bar y)^2$. **Mean Square Regression**.
* <font COLOR="red"><b>RSE</b> ó <b>RMSE</b></font> = $\sqrt{MSE} = \sqrt \frac{SSE}{n-p-1}$. **Error Standard Residual** ó **Root Mean Square Error**.
* <font COLOR="red"><b>F</b></font> = $\frac{MSR}{MSE}$. **F-estadístico**.
* <font COLOR="red"><b>$R^2$</b></font> = $\frac{SSR}{SST}=1-\frac{SSE}{SST}$. **Coeficiente de determinación** *(entre 0 y 1)*. 

Con <font COLOR="magenta"><b>$y_i$</b></font> el valor predicho e <font COLOR="magenta"><b>$\hat y_i = y_i(x)$</b></font> el valor real. <font COLOR="magenta"><b>$p$</b></font> el numero de variables independientes.

Lo que nos interesa es: **SSD** sea pequeña (menos distancia habrá entre nuestros valores y el modelo) y que **SSR** se acerque lo máximo posible a **SST**, por ello se define **$R^2$** y cuanto más cerca esté de 1 mejor será el modelo.