<a href="https://colab.research.google.com/github/patofw/imf_master/blob/master/Google_Colab/Intro_a_Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Qué es un 'array' en Numpy?

En el paquete "numpy" la terminología utilizada para vectores, matrices y conjuntos de datos de dimensiones superiores es "array".

Un objeto array nos proporciona la abstracción de una matriz homogénea multidimensional como contenedor que permite operaciones numéricas rápidas.

<img src="http://pages.physics.cornell.edu/~myers/teaching/ComputationalMethods/python/anatomyarray.png"/>

Recuerda, Una matriz en matriz Numpy es N-dimensionales, homogénea, no etiquetada.

Numpy proporciona la base para el procesamiento de datos en otros paquetes relacionados con los datos como Pandas y SciPy.


## Creando `numpy` arrays
Hay varias maneras de inicializar nuevas matrices numpy, por ejemplo de:

* una lista de Python o tuplas
* usando funciones que se dedican a generar arreglos numéricos, como el "rango", el "espacio", etc.
* leyendo los datos de los archivos

In [1]:
import numpy as np

# Creando un array de una lista (corchetes '[]' marcan una lista)
v = np.array([1,2,3,4])
v

array([1, 2, 3, 4])

In [9]:
# Si pasamos una lista de lsitas, tenemos un array multi-dimensional
M = np.array([[1, 2], [3, 4],[5,9]])
print(f"M es un array: \n{M}")
print("---------------------------------")
print(f"Shape devuelve una tuple con el tamaño de cada dimension: {M.shape}")
print(f"La función len da el largo del primer eje (axis):{len(M)}")
print(f"ndim nos da el número de dimensiones:{M.ndim}")
print(f"Size da el número de elementos en el array: {M.size}")
print(f"dtype te da el tipo de dato de los elementos del array: {M.dtype}")
print(f"type devuelve el tipo del array, en este caso numpy array: {type(M)}")

M es un array: 
[[1 2]
 [3 4]
 [5 9]]
---------------------------------
Shape devuelve una tuple con el tamaño de cada dimension: (3, 2)
La función len da el largo del primer eje (axis):3
ndim nos da el número de dimensiones:2
Size da el número de elementos en el array: 6
dtype te da el tipo de dato de los elementos del array: int64
type devuelve el tipo del array, en este caso numpy array: <class 'numpy.ndarray'>


# Dame velocidad!!

Numpy es como un coche de F1, altamente veloz y eficiente. 
En las siguientes celdas lo comparamos contra las listas tradicionales de Python. 

In [13]:
# Vector normal de Python
dim = 10000
a = range(dim) # rango de 0 a dim 
t1 = %timeit -o [i**2 for i in a] # elevamos al cuadrado cada elemento de a

100 loops, best of 3: 2.76 ms per loop


In [12]:
# Vector Numpy con loop normal de Python
b = np.arange(dim) # un array de numpy 
t2 = %timeit -o [i**2 for i in b]

100 loops, best of 3: 3.83 ms per loop


In [14]:
# Vector Numpy con numpy loop
c = np.arange(dim) #  array de numpy
t3 = %timeit -n 1000 -o [c**2] # operacion de loop de numpy

1000 loops, best of 3: 6.53 µs per loop


# Algunos ejemplos simples...

In [4]:
# Crea un array de 30 números aleatorios y saca la media

Z = np.random.random(30)
m = Z.mean()
print(f"La media es-> {round(m,3)}") # round, rodendea a n número de decimales


La media es-> 0.554


In [7]:
# crear un array de 15 filas y 2 columnas. Sacamos la media de cada columna
Z= Z.reshape(15,2) # 15 filas, 2 columnas
# estos dos métodos son iguales
np.mean(Z,axis=0) 
Z.mean(axis=0)


array([0.62212501, 0.48679851])

In [8]:
# crear una matriz 5x5 y llenar una diagonal de 1,2,3,4 empezando desde la segunda fila
Z = np.diag(np.arange(1,5),k=-1)
print(Z)

[[0 0 0 0 0]
 [1 0 0 0 0]
 [0 2 0 0 0]
 [0 0 3 0 0]
 [0 0 0 4 0]]


In [9]:
# Normalizar los datos de una matriz entera
Z = np.random.random((5,5))
Zmax, Zmin = Z.max(), Z.min() 
Z = (Z - Zmin)/(Zmax - Zmin) # normalización minmax
print(Z)

[[0.         0.96686171 0.43287338 0.06488366 0.79967486]
 [0.99175004 1.         0.37567355 0.48686798 0.48721648]
 [0.90706717 0.77420718 0.16500203 0.49762294 0.83015142]
 [0.68168264 0.93170839 0.96197027 0.85699285 0.511129  ]
 [0.60341063 0.68915082 0.94438072 0.63065369 0.77266039]]


In [10]:
# En una matriz de 3x2, multiplicar todos los valores entre 3 y 8 por -1
Y = np.arange(12)
Y = Y.reshape(4,3)
Y[(3 < Y) & (Y <= 8)] *= -1
Y

array([[ 0,  1,  2],
       [ 3, -4, -5],
       [-6, -7, -8],
       [ 9, 10, 11]])

In [11]:
# identificación de outliers simple 
def id_outliers(data, m = 2.):
  """
  Identifica los outliers de una matriz de numpy

  Args: 
  :param data: matriz de datos
  :param m: límite máximo de desviación
  :return: una matriz con los outliers identificados
  """
  d = np.abs(data - np.median(data))
  mdev = np.median(d)
  s = d/mdev if mdev else 0.
  return np.where(s>m)

test = np.array([1,2,3,4,345,4,67676,7,800]).reshape(3,3)

test[id_outliers(test)]

array([  345, 67676,   800])