# Estadística I:


## Estadística descriptiva:

En estadística descriptiva se utilizan distintas medidas para intentar describir las propiedades de nuestros datos. En esta lección vamos a aprender a calcular algunas de esas medidas.

El propio Python tiene muchas funciones built-in (o integradas) que nos permiten realizar cálculos estadísticos básicos. Para operaciones más avanzadas, la librería que se usan de manera más común es Numpy principalmente. Scipy es otra librería popular que sirve como complemento idóneo a Numpy. Pandas se usa sobre todo para leer, cargar, y procesar los datos antes de los cálculos, pero se usa mucho para cálculos estadísticos en entornos financieros y cuando se trabaja con series temporales. 

Matplotlib y Seaborn son los paquetes usados más comúnmente para realizar visualizaciones y representar gráficas acerca de los datos y sus estadísticos.

In [2]:
## Importación de librerías

import numpy as np
from scipy import stats # importando scipy.stats

### Media: 

La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de elementos. En el siguiente ejemplo vemos como se puede calcular usando Numpy de distintas maneras:

In [2]:
# Creamos unos datos de prueba aleatorios (matriz de 5x4)
datos = np.random.randn(5, 4)
print(datos)
# media arítmetica usando un método de numpy array (se hace la media de toda la matriz)
print(datos.mean())
# media arítmetica usando un método general de numpy (el resultado es el mismo que antes)
print(np.mean(datos))
print(datos.mean(axis=1)) # media aritmetica para cada fila del array
print(datos.mean(axis=0)) # media aritmetica de cada columna del array


[[-0.48676122  0.63749214  1.43668038 -0.57744874]
 [ 1.14654076 -2.25519436 -0.42134703 -1.64585554]
 [-0.23551981 -1.28128716 -0.23094289  0.56677852]
 [ 1.62387734 -0.02876094  0.21234368 -1.21073697]
 [-0.55994189 -1.15009524 -0.18747004  0.62574179]]
-0.2010953606487207
-0.2010953606487207
[ 0.25249064 -0.79396404 -0.29524283  0.14918078 -0.31794134]
[ 0.29763904 -0.81556911  0.16185282 -0.44830419]


### Desviación respecto a la media: 

La desviación respecto a la media es la diferencia en valor absoluto entre cada valor de los datos y su media aritmética. Nos indica la distancia que tiene cada valor respecto a su media. Aquellos valores que estén muy alejados podrían estar afectados por algún tipo de ruido y ser candidatos para una limpieza. Sin embargo, si disponemos solo de esta medida (la desviación respecto a la media) nos faltaría la referencia de cuáles son distancias grandes y cuales no. Otras medidas como la varianza nos aportarán esa información, aunque su cálculo es menos intuitivo.

Para el cálculo de este estadístico, primero obtendremos la media aritmética de los datos, para luego calcular la diferencia absoluta (usando el método *abs()* de Numpy) de cada datos respecto a la media:

In [3]:
# Creamos unos datos de prueba aleatorios (matriz de 5x4)
datos = np.random.randn(5, 4)
print(datos)
# media arítmetica usando un método de los numpy array (se hace la media de toda la matriz)
media = datos.mean()
print(media)
#Calculamos la diferencia respecto a la media para cada elemento de la matriz
desviacion_media = np.abs(datos-media)
print(desviacion_media)


[[-0.48869926 -1.44445808  0.73346495  0.02971284]
 [-1.14408941  0.52979493 -1.25351318 -1.24141058]
 [ 0.05937022  2.22328159  0.71853964  1.14821463]
 [-1.17378585  0.19639554 -0.18199135  0.40171338]
 [ 2.06467161 -0.76815647 -0.56560162 -0.56776992]]
-0.036215818758242355
[[0.45248344 1.40824227 0.76968077 0.06592866]
 [1.10787359 0.56601075 1.21729736 1.20519476]
 [0.09558604 2.25949741 0.75475546 1.18443045]
 [1.13757004 0.23261136 0.14577553 0.4379292 ]
 [2.10088743 0.73194065 0.5293858  0.5315541 ]]


### Varianza: 

La varianza intenta describir la dispersión del conjunto de los datos, dando un único valor, a diferencia de la desviación respecto a la media que nos da el valor individual para cada entrada de los datos. Gracias a su uso, podemos tener una referencia contra la que comparar las desviaciones respecto a la media y saber si un dato concreto se aleja "mucho" de la media o no.

La varianza se calcula como la media aritmética del cuadrado de las desviaciones respecto a la media, para todos los datos. Por suerte no hay que programarla a mano, y Numpy nos proporciona el método *var()* para su cálculo: 

In [4]:
# Creamos unos datos de prueba aleatorios (matriz de 5x4)
datos = np.random.randn(5, 4)

print(np.var(datos)) # varianza para todos los datos
print(np.var(datos, 0)) # varianza de cada columna
print(np.var(datos, 1)) # varianza de cada fila

0.8594573177142719
[0.17670387 0.41752852 0.19421096 2.20528392]
[0.24684401 1.39080094 0.16833202 0.38127455 1.03916472]


### Desviación típica: 

La desviación típica es la raíz cuadrada de la varianza. Se le da el mismo uso que a esta, quizá con la ventaja de que nos proporciona valores de una magnitud más relacionable con las entradas de datos, la media, etc., al deshacernos de las potencias en la formula de la varianza. Su cálculo también se facilita con el uso del método *std()* de Numpy:

In [5]:
# Creamos unos datos de prueba aleatorios (matriz de 5x4)
datos = np.random.randn(5, 4)

print(np.std(datos)) # desviación típica para todos los datos
print(np.std(datos, 0)) # desviación típica de cada columna
print(np.std(datos, 1)) # desviación típica de cada fila

1.0747219194280573
[0.68489406 1.20061319 0.96657147 1.11156847]
[0.6955062  1.47864278 0.57647505 0.76726278 1.02997321]


### Moda:  

La moda es el valor que tiene mayor frecuencia absoluta de entre todos los datos, es decir, el valor que más veces se repite. En este caso, para su cálculo haremos uso de la librería Scipy, concretamente de su paquete *stats*, el cual contiene muchos métodos para calcular estadísticos. Para el cálculo de la moda usaremos *mode()*:

In [6]:
# Creamos unos datos de prueba aleatorios (matriz de 5x4)
datos = np.random.randn(5, 4)
moda, frecuencia = stats.mode(datos) # Calcula la moda de cada columna
print(moda) # el 1er array devuelve la moda.
print(frecuencia) # el 2do array devuelve la frecuencia de cada elemento.

# Con mode() se calcula la moda por columna por defecto. 
# Si queremos calcularla para filas o todo el conjunto de datos,
# haremos uso del parámetro axis:
moda, frecuencia = stats.mode(datos, axis=1) # Calcula la moda de cada fila
print(moda) # el 1er array devuelve la moda.
print(frecuencia) # el 2do array devuelve la frecuencia de cada elemento.

moda, frecuencia = stats.mode(datos, axis=None) # Calcula la moda de todos los datos
print(moda) # el 1er array devuelve la moda.
print(frecuencia) # el 2do array devuelve la frecuencia de cada elemento.

[[-1.44714719 -0.62928818 -1.28902625 -0.26283781]]
[[1 1 1 1]]
[[-0.19160513]
 [-0.26283781]
 [-0.62928818]
 [-1.44714719]
 [-1.19506154]]
[[1]
 [1]
 [1]
 [1]
 [1]]
[-1.44714719]
[1]


### Mediana: 

La mediana es el valor que ocupa el lugar central de una lista formada por todos los datos ordenados por su valor. Para su cálculo haremos uso del método *median()* de Numpy: 

In [7]:
# Creamos unos datos de prueba aleatorios (matriz de 5x4)
datos = np.random.randn(5, 4)
print(np.median(datos)) # mediana para todos los datos
print(np.median(datos, 0)) # mediana de cada columna
print(np.median(datos, 1)) # mediana de cada fila


-0.10459525888229532
[-0.29355659  0.05888365 -0.30737415 -0.05168941]
[-0.08166674  0.51302508  0.00359712 -0.05843259 -0.42653646]


### Media ponderada: 

La media ponderada (con con pesos) es una variación de la media aritmética en la que buscamos que cada dato tenga una importancia diferente para el cáculo. Se obtiene mediante la multiplicación de cada uno de los datos por un peso antes de sumarlos todos, obteniendo así una suma ponderada; después se divide la suma de los datos ponderados entre la suma de los pesos.

In [None]:
# Creamos unos datos de prueba aleatorios (array de 5 elementos)
datos = np.random.randn(5)
# Creamos un array con pesos. En este caso le damos el mismo peso a todos los valores. 
# Necesitamos un peso para cada elemento que componga la media ponderada (5 en este caso)
w = np.ones(5, dtype=np.complex64)
# Calculamos la media ponderada usando el método average() de Numpy
avg = np.average(datos, weights=w)
print(avg)

### Robustez:

Un conjunto de datos puede describirse con los estadísticos básicos que hemos visto hasta ahora, sin embargo, estos estadísticos pueden ser más o menos precisos en su descripción del total, dependiendo de varios factores. Por ejemplo, si calculamos la media o la varianza a partir de una muestra muy pequeña de datos, estos valores pueden no ser suficientemente representativos del conjunto global. Adicionalmente, la aparición de valores inusualmente altos o bajos (debido a ruido, situaciones inusuales, etc.) puede hacer que algunos estadísticos varíen su valor enormemente. Es por eso que se les considera estadísticos poco robustos. De todas formas, normalmente, cuanto más cantidad de datos hayamos usado para calcular los estadísticos, más robustos serán estos, ya que la influencia de unos pocos datos inusuales sobre el total de los mismos será menor. 

Podemos definir el "punto de ruptura" de un estadístico como la fracción de los datos a los que podríamos dar valores arbitrarios sin hacer que el estadístico se vea tan afectado como para no se útil.
Por ejemplo, en el caso de la media aritmética calculada sobre *n* datos, con solo cambiar uno de ellos lo suficiente, la media dejaría de resultar útil para describir los datos. Por lo tanto su "punto de ruptura" expresado como una función de *n* seria *1/n*.

**Ejercicio:** ¿Cual es el punto de ruptura de la varianza?


**Ejercicio:** ¿Cuál de estos dos es un estadístico más robusto: desviación típica o moda?


### Coeficiente de variación: 

Estadístico que se usa para hacer referencia a la relación entre el tamaño de la media y la variabilidad de la variable. **Se calcula como el cociente entre la desviación típica y la media**. 

Si su valor es bajo, significará que el conjunto de datos es homogéneo y que no hay valores que se separen demasiado de la media. Si por el contrario el coeficiente de variación es grande, la distribución de los datos será mucho más heterogénea, con grandes distancias entre algunas de las muestras (estarán más dispersos). Este segundo caso nos indicará que los estadísticos menos robustos  

In [None]:
# Creamos unos datos de prueba aleatorios (matriz de 5x4)
datos = np.random.randn(5, 4)

print(np.mean(datos)) # media para todos los datos
print(np.std(datos)) # desviación típica para todos los datos
print(np.std(datos) / np.abs(np.mean(datos))) # coeficiente de variación


### Mínimo y máximo: 

El mínimo y el máximo no necesitan presentación llegados a este punto. Son simplemente el valor más bajo y más alto dentro de un conjunto de datos. Junto con otros estadísticos como la media o la moda, nos pueden dar una idea acerca de la dispersión de los datos o de la existencia de datos atípicos, muy alejados de las observaciones que consideraríamos "normales".

In [None]:
# Creamos unos datos de prueba aleatorios (matriz de 5x4)
datos = np.random.randn(5, 4)

print(np.max(datos)) # Máximo de entre todos los datos
print(np.min(datos)) # Mínimo de entre todos los datos
print(np.min(datos, 0)) # Mínimo por columnas
print(np.min(datos, 1)) # Mínimo por filas

#### EJERCICIOS DE REPASO

#### EJERCICIO 1

Crea un Numpy array con una fila de 50 datos aleatorios y calcula su media, mediana, moda, máximo y mínimo.

In [11]:
array1 = np.random.randint(0,50,(50))
array1

array([18, 31, 20, 31, 46, 45, 14, 37,  7, 44, 49, 35, 49, 43, 39, 10,  3,
       39, 46, 43, 36, 29, 11, 41, 45, 18, 16, 25, 49, 29, 16, 26, 35, 40,
        0, 38, 37, 42, 37, 17, 46, 10, 18, 38, 29, 26,  3, 45,  2, 22])

In [12]:
# media
print('Esta es la media del array 1:', array1.mean())

# mediana
print('Esta es la mediana del array 1:', np.median(array1))

# moda
print('Esta es la moda del array 1:', stats.mode(array1, axis = 0))

# max y mim
print('Este es el mínimo del array 1:', np.min(array1))

print('Este es el máximo del array 1:', np.max(array1))

Esta es la media del array 1: 29.5
Esta es la mediana del array 1: 33.0
Esta es la moda del array 1: ModeResult(mode=array([18]), count=array([3]))
Este es el mínimo del array 1: 0
Este es el máximo del array 1: 49


#### EJERCICIO 2

Sobre el ejercicio anterior, despues de calcular los estadísticos indicados, multiplica el primer elemento de los datos x 1000, calcula su valor absoluto y vuelve a calcular los estadísticos. ¿Qué sucede?


In [14]:
# media x1000
array2 = array1.copy()
array2[0] = array2[0] * 1000
array2

array([18000,    31,    20,    31,    46,    45,    14,    37,     7,
          44,    49,    35,    49,    43,    39,    10,     3,    39,
          46,    43,    36,    29,    11,    41,    45,    18,    16,
          25,    49,    29,    16,    26,    35,    40,     0,    38,
          37,    42,    37,    17,    46,    10,    18,    38,    29,
          26,     3,    45,     2,    22])

In [16]:
# valor absoluto
num_absoluto = np.absolute(array2)
num_absoluto

array([18000,    31,    20,    31,    46,    45,    14,    37,     7,
          44,    49,    35,    49,    43,    39,    10,     3,    39,
          46,    43,    36,    29,    11,    41,    45,    18,    16,
          25,    49,    29,    16,    26,    35,    40,     0,    38,
          37,    42,    37,    17,    46,    10,    18,    38,    29,
          26,     3,    45,     2,    22])

In [17]:
# media
print('Esta es la media del array 1:', array2.mean())

# mediana
print('Esta es la mediana del array 1:', np.median(array2))

# moda
print('Esta es la moda del array 1:', stats.mode(array2, axis = 0))

# max y mim
print('Este es el mínimo del array 1:', np.min(array2))

print('Este es el máximo del array 1:', np.max(array2))

Esta es la media del array 1: 389.14
Esta es la mediana del array 1: 35.0
Esta es la moda del array 1: ModeResult(mode=array([29]), count=array([3]))
Este es el mínimo del array 1: 0
Este es el máximo del array 1: 18000


#### EJERCICIO 3

Calcula la desviación respecto a la media del dato en la primera posición de un array de 100 datos aleatorios. ¿Puedes sacar alguna conclusón sobre el dato viendo este valor?


#### EJERCICIO 4

Sobre el ejercicio anterior, calcula también la media de la desviación respecto a la media para todos los datos del array. ¿Ahora nos aporta algo más de información la desviación respecto a la media del primer elemento?

#### EJERCICIO 5

Calcula la desviación estándar, la varianza y el coeficiente de varianza de un array de 100 datos aleatorios. Luego modifica un dato multiplicándolo por 10 y vuelve a calcular los mismos estadísticos. ¿Qué sucede?