# Numpy

* Numeric Python
* Paquete fundamental para cómputo científico en Python
* Sirve para crear y utilizar vectores y matrices (ndarray)
* Realizar cálculos estadísticos y matemáticos
* Provee un tipo de datos **array**, similar a las listas, muy eficiente para hacer cálculos
* Los arrays de NumPy deben ser homogéneos (valores del mismo tipo)

## Instalación

pip install numpy

## Creación de ndarray

In [1]:
import numpy as np

In [2]:
numeros_primos = [2, 3, 5, 7, 11, 13, 17, 19, 23, 29]

array_primos = np.array(numeros_primos)
array_primos

array([ 2,  3,  5,  7, 11, 13, 17, 19, 23, 29])

In [3]:
array_zeros = np.zeros(10)
array_zeros

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [4]:
array_unos = np.ones(10)
array_unos

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [5]:
array_numeros = np.arange(10)
array_numeros

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [6]:
array_pares = np.arange(0, 20, 2)
array_pares

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

## Operaciones aritméticas

In [7]:
# operaciones sobre np arrat 1-dimension y 2-dimension
array_impares = array_pares + 1
array_impares

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19])

In [8]:
# multiplicar por 100
array_impares * 100

array([ 100,  300,  500,  700,  900, 1100, 1300, 1500, 1700, 1900])

In [9]:
# restar entre arrays
array_impares - array_pares

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

## Ejemplo: IMC

In [10]:
# altura en metros de personas
alturas = [1.73, 1.68, 1.71, 1.89, 1.79, 1.76, 1.67]
# peso en Kg de personas
pesos = [65.4, 59.2, 63.6, 88.4, 68.7, 89.7, 73.2]

array_alturas = np.array(alturas)
array_pesos = np.array(pesos)

# IMC = Peso / (Altura ** 2)

imc = array_pesos / (array_alturas ** 2)
imc

array([21.85171573, 20.97505669, 21.75028214, 24.7473475 , 21.44127836,
       28.95790289, 26.24690738])

## Selección de elementos (slices)

In [11]:
imc < 28

array([ True,  True,  True,  True,  True, False,  True])

In [12]:
# subsetting / slicing numpy arrays
imc[imc < 28]

array([21.85171573, 20.97505669, 21.75028214, 24.7473475 , 21.44127836,
       26.24690738])

## Arrays NumPy de dos dimensiones (2D)

In [13]:
# dimensiones de un array: (filas, columnas)
imc.shape  

(7,)

In [14]:
imc.ndim

1

In [15]:
# 2D np array
numpy_2d = np.array([alturas, pesos])
numpy_2d

array([[ 1.73,  1.68,  1.71,  1.89,  1.79,  1.76,  1.67],
       [65.4 , 59.2 , 63.6 , 88.4 , 68.7 , 89.7 , 73.2 ]])

In [16]:
numpy_2d.shape

(2, 7)

In [17]:
numpy_2d.ndim

2

In [18]:
# seleccionar un elemento
numpy_2d[0, 2]

1.71

In [19]:
# seleccionar varios elementos por fila (solamente los pesos)
numpy_2d[1, :]

array([65.4, 59.2, 63.6, 88.4, 68.7, 89.7, 73.2])

In [20]:
# seleccionar varios elementos por columna (altura y peso de la columna 1)
numpy_2d[:, 1]

array([ 1.68, 59.2 ])

In [21]:
# utilizar filter: menores de 1.70
numpy_2d[numpy_2d < 1.70]

array([1.68, 1.67])

In [22]:
# otra forma de tener un 2D NumPy Array
A = np.arange(0, 20, 2).reshape(2, 5)
A

array([[ 0,  2,  4,  6,  8],
       [10, 12, 14, 16, 18]])

In [23]:
# aplanar A (convierte a vector)
A.flatten()

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

## Transposiciones

* Suponer que en lugar de tener los datos como hasta ahora (altura = 1er fila, peso = 2da fila; invididuos = columnas), se quiere tener los datos de esta manera:

* 1 individuo por fila
* 1er columna = altura
* 2da columna = peso

In [24]:
np.transpose(numpy_2d)

array([[ 1.73, 65.4 ],
       [ 1.68, 59.2 ],
       [ 1.71, 63.6 ],
       [ 1.89, 88.4 ],
       [ 1.79, 68.7 ],
       [ 1.76, 89.7 ],
       [ 1.67, 73.2 ]])

## Métodos asociados a estadística

In [25]:
dataset_veloc_autos = [99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86]
speed = np.array(dataset_veloc_autos)

In [26]:
# suma
speed.sum()

1167

In [27]:
# media: valor promedio
speed.mean()

89.76923076923077

In [28]:
# mínimo
speed.min()

77

In [29]:
# máximo
speed.max()

111

In [30]:
# mediana: valor del punto medio
mediana = np.median(speed)
mediana

87.0

In [31]:
# desvio estándar: describe que tan dispersos están los valores
# si es baja -> números cerca del valor medio
# si es alta -> valores distribuidos en un rango más amplio
speed.std()

9.258292301032677

In [32]:
# varianza: indica que tan dispersos están los valores
speed.var()

85.71597633136093

In [33]:
# percentiles: se usan para proporcionar un número que describe el valor al cual un 
# porcentaje determinado de los valores es inferior
ages = [5, 31, 43, 48, 50, 41, 7, 11, 15, 39, 80, 82, 32, 2, 8, 6, 25, 36, 27, 61, 31]

percentil75 = np.percentile(ages, 75)
percentil75 # La respuesta es 43, lo que significa que el 75 % de las personas tienen 43 años o menos

43.0

In [34]:
from scipy import stats

In [35]:
# moda: valor más común
moda = stats.mode(speed)
moda

ModeResult(mode=86, count=3)

## Coeficientes de correlación

In [36]:
# calcula el coeficiente de correlación de Pearson
# mide la correlación lineal entre dos variables x, y
np.corrcoef(numpy_2d[:,0], numpy_2d[:,1])

array([[1., 1.],
       [1., 1.]])

## Ordenar

In [37]:
# ordenar un np array
array_fibonacci = np.array([55, 0, 144, 1, 21, 89, 5, 8, 13, 1, 34, 3, 2])

In [38]:
# orden ascendente
np.sort(array_fibonacci)

array([  0,   1,   1,   2,   3,   5,   8,  13,  21,  34,  55,  89, 144])

In [39]:
# orden descendente
-np.sort(-array_fibonacci)

array([144,  89,  55,  34,  21,  13,   8,   5,   3,   2,   1,   1,   0])

In [40]:
# ordenar un 2D np array sobre el primer eje (columnas)
a = np.array([[10, 40, 30, 20],[30, 20, 10, 40]])
np.sort(a, axis=0)

array([[10, 20, 10, 20],
       [30, 40, 30, 40]])

In [41]:
# ordenar un 2D np array sobre el último eje (filas)
np.sort(a, axis=1)

array([[10, 20, 30, 40],
       [10, 20, 30, 40]])

In [42]:
# aplanar y ordenar
np.sort(a, axis=None)

array([10, 10, 20, 20, 30, 30, 40, 40])

## Ejemplo: Muestra poblacional

In [43]:
import numpy as np

In [44]:
poblacion = np.genfromtxt('data/muestra_poblacional.csv', delimiter=",")

In [45]:
poblacion

array([[ 1.97, 69.67],
       [ 1.77, 99.96],
       [ 1.68, 49.81],
       ...,
       [ 1.57, 51.63],
       [ 1.74, 50.88],
       [ 1.77, 90.25]])

In [46]:
poblacion.ndim

2

In [47]:
poblacion[:, 1]

array([69.67, 99.96, 49.81, ..., 51.63, 50.88, 90.25])

In [48]:
poblacion[:, 0]

array([1.97, 1.77, 1.68, ..., 1.57, 1.74, 1.77])

In [49]:
# mostrar las primeras 10 filas
poblacion[:10, :]

array([[ 1.97, 69.67],
       [ 1.77, 99.96],
       [ 1.68, 49.81],
       [ 1.88, 68.13],
       [ 1.83, 47.57],
       [ 2.02, 32.46],
       [ 1.89, 65.5 ],
       [ 1.72, 92.28],
       [ 1.76, 40.56],
       [ 2.05, 78.01]])

In [50]:
poblacion.shape

(5000, 2)

In [51]:
type(poblacion)

numpy.ndarray

In [52]:
# promedio
poblacion[:,0].mean()

1.7484019999999998

In [53]:
# mediana
np.median(poblacion[:,0])

1.74

In [54]:
# desvio
np.std(poblacion[:,0])

0.19659538752473316

In [55]:
# varianza
np.var(poblacion[:,0])

0.038649746396

In [56]:
# ordenar los datos
np.sort(poblacion[:,0])

array([1.07, 1.1 , 1.1 , ..., 2.39, 2.42, 2.43])

In [57]:
# coeficientes de correlación
np.corrcoef(poblacion[:,0], poblacion[:,1])

array([[ 1.        , -0.00615188],
       [-0.00615188,  1.        ]])

## Distribuciones de datos

In [60]:
# distribución de datos uniforme
datos = np.random.uniform(0.0, 5.0, 250) # Crea una matriz con 250 números entre 0 y 5
datos

array([1.55302216e+00, 4.18151314e+00, 4.51631586e+00, 1.78078325e+00,
       2.89024743e+00, 1.50147252e+00, 4.47186575e-01, 2.06552541e+00,
       2.14542921e+00, 2.77254460e+00, 2.32326723e+00, 3.90103817e+00,
       2.97117995e+00, 1.57570371e+00, 2.98132612e+00, 3.88035189e+00,
       4.13708297e+00, 7.12814546e-02, 3.19117261e+00, 1.46087625e+00,
       4.36781506e+00, 2.21092819e+00, 2.68222966e+00, 4.01129866e+00,
       4.75196625e+00, 2.06691469e-01, 7.17117592e-01, 2.75714970e+00,
       2.94026030e+00, 2.22279937e+00, 3.32777126e+00, 4.92628190e+00,
       1.88456993e+00, 2.81925996e+00, 6.22402135e-01, 1.40088551e+00,
       2.02706183e+00, 8.77300537e-01, 1.87117334e+00, 1.03187936e+00,
       2.55004728e+00, 3.29781909e-01, 1.19492779e-01, 2.05675590e+00,
       5.23584381e-01, 7.96255745e-01, 2.56063604e+00, 2.43856904e+00,
       2.28238723e+00, 1.75159305e+00, 3.23242370e+00, 1.50649517e+00,
       3.18335176e+00, 3.84187113e+00, 3.41993777e+00, 1.76157136e+00,
      

In [61]:
# distribución normal de datos: los valores se concentran alrededor de un valor dado
datos = np.random.normal(5.0, 1.0, 100000) # 5.0 es el valor medio y 1.0 la desviación estándar
datos

array([4.75768593, 4.11691758, 4.89319324, ..., 4.81706307, 7.03219842,
       4.67205376])