# NumPy [7] Funciones estadísticas

In [1]:
import numpy as np
m = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(m)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


## Máximo y mínimo por ejes

In [2]:
print(np.amax(m))            # función amax, la primera a hace referencia a axis

9


In [3]:
print(np.amin(m))            # para el mínimo de la matriz completa

1


In [4]:
print(np.amax(m,1))            # maximo por filas

[3 6 9]


In [5]:
print(np.amax(m,0))            # maximo por columnas

[7 8 9]


## Rango de valores
Máximo- Mínimo según cierto eje.

La función es ptp acrónimo de  ‘peak to peak’ (cima a cima, o pico a pico, o extremo a extremo)

In [6]:
np.ptp(m)

8

In [7]:
np.ptp(m, axis=1)             # para las filas

array([2, 2, 2])

In [8]:
np.ptp(m, axis=0)             # para las columnas

array([6, 6, 6])

## Percentiles
Para un array de datos ordenados.  
* percentil = p*(N+1)/100   si n es impar
* percentil = p\*N/100   si N es par

donde  
* p → percentil a calcular (0-100)
* N → número total de datos


In [9]:
m                        # matriz con un número impar de datos

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [10]:
np.percentile(m, 50)     # percentil 50 = mediana

5.0

In [11]:
np.percentile(m, 50, axis=1)   # para las filas

array([2., 5., 8.])

In [12]:
np.percentile(m, 50, axis=0)   # para las columnas

array([4., 5., 6.])

## Mediana
La mediana es aquel valor de la variable estadística que deja el 50% de observaciones inferiores a él.  
La mediana divide en dos partes iguales a la distribución estadística.

* Si N es impar, la mediana es el valor de la variable central.
* Si N es par, se ha de hacer la media entre los dos valores centrales.

In [13]:
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [14]:
np.median(m)             # Coincide con el percentil 50

5.0

In [15]:
np.median(m, axis=1)     # para las filas

array([2., 5., 8.])

In [16]:
np.median(m, axis=0)     # para las columnas

array([4., 5., 6.])

## Media aritmética

In [17]:
np.mean(m)               # aplicado a toda la matriz

5.0

In [18]:
np.mean(m, axis=1)       # para las filas

array([2., 5., 8.])

In [19]:
np.mean(m, axis=0)       # para las columnas

array([4., 5., 6.])

## Media ponderada
Cuando no se proporciona un vector de pesos se considera que todos los valores del vector de datos tienen el mismo peso.

In [20]:
datos = np.arange(10, 2, -2)         # vector de datos, equivale a np.array([10,8,6,4])
print(datos)

[10  8  6  4]


In [21]:
np.average(datos)                # media ponderada de los datos de un array todos con igual peso

7.0

In [22]:
peso = np.arange(20, 6, -4)
peso

array([20, 16, 12,  8])

In [23]:
sum(peso)

56

In [24]:
np.average(datos, weights=peso)

7.714285714285714

## Desviación estandar

In [26]:
m = np.array([1,2,3,4,5,6])
print(m)

[1 2 3 4 5 6]


In [27]:
np.std(m)               # desviación estandar poblacional

1.707825127659933

#### Comprobación
$$\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2}$$

donde $$\mu = \frac{1}{N} \sum_{i=1}^N x_i.$$

para la población total.

In [41]:
import math
math.sqrt(np.mean((m-np.mean(m))**2))

1.707825127659933