# Introducción a Numpy

Numerical Python Library


> NumPy es una biblioteca de Python que da soporte para crear vectores y matrices grandes multidimensionales, junto con una gran colección de funciones matemáticas de alto nivel para operar con ellas.

Sitio oficial: [numpy.org](https://numpy.org)
Documentación oficial: [numpy.org/doc/stable/](https://numpy.org/doc/stable/)

In [18]:
import pandas as pd

## Iterating

### Sentencia for

La forma estándar de iterar una Serie sería utilizar la sentencia `for`. Pero es un método lento.  

In [19]:
# Calculamos un promedio
grades = pd.Series([90, 80, 70, 60])

In [20]:
total = 0
for grade in grades:
    total += grade
print(total / len(grades))

75.0


## Vectorización 

Las computadoras modernas pueden hacer muchas tareas simultáneamente, especialmente, pero no solo las tareas que involucran calculos matemáticos.

Pandas, y subyacentemente NumPy, soportan un método de cálculo denominado **Vectorización**.

La vectorización en particular funciona con la mayoría de las funciones en la biblioteca NumPy, incluida la función `sum()`.

In [21]:
# Entonces, utilizando NumPy
import numpy as np

In [22]:
total = np.sum(grades)
print(total / len(grades))

75.0


Hemos logrado el mismo resultado, pero de una manera más rápida, a pesar de que solo estamos trabando con 4 elementos. La pregunta es: ¿Uno de estos métodos es realmente más rápido que el otro?

## Comparando los métodos 

Vamos a trabajar con otro ejemplo con una mayor cantidad de datos. Para ello vamos a crear una gran serie de números aleatorios, Esto se utiliza mucho al demostrar técnicas con Pandas, por lo que debemos acostumbrarnos a usarlo.

In [23]:
# Generamos una serie de 10000 números aleatorios entre 0 y 1000.
numbers = pd.Series(np.random.randint(0, 1000, 10000))
len(numbers), numbers.head() 

(10000,
 0     37
 1    165
 2    691
 3    787
 4    940
 dtype: int64)

El intérprete de IPython tiene una función mágica que puede ayudar a medir los tiempos de ejecución:

* `%%timeit`, nos permite determinar la cantidad de veces que se ejecutará la celda y nos brinda información sobre el promedio de tiempo que demandó cada ejecución.

> Aquí puedes leer más sobre [magic function de IPython](https://ipython.readthedocs.io/en/stable/interactive/magics.html)

In [24]:
%%timeit -n 100
total = 0
for number in numbers:
    total += number
    
total / len(numbers)

1.31 ms ± 213 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [25]:
# Ahora probemos con Vectorización

In [26]:
%%timeit -n 100
total = np.sum(numbers)
total / len(numbers)

38.5 µs ± 4.94 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


> Wow!!! Observen la diferencia!

Recordemos que: 

* El milisegundo es la unidad de tiempo que corresponde a la milésima fracción de un segundo. Se abrevia ms (1 ms = 0,001 o 1 × 10-3 s).
* El microsegundo es la unidad de tiempo que equivale a la millonésima parte de un segundo. Se abrevia μs (1 μs= 0,000001 o 1 x 10-6 s).