### Thanks [@pydatamallorca and Kiko!](https://github.com/PyDataMallorca/FTW2019_Introduccion_a_data_science_en_Python)

In [1]:
import sys

In [2]:
import numpy as np

# Numpy

Numpy proporciona un nuevo contenedor de datos a Python, los `ndarray`s, además de funcionalidad especializada para poder manipularlos de forma eficiente.

Hablar de manipulación de datos en Python es sinónimo de Numpy y prácticamente todo el ecosistema científico de Python está construido sobre Numpy. Digamos que Numpy es el ladrillo que ha permitido levantar edificios tan sólidos como Pandas, Matplotlib, Scipy, scikit-learn,...

**Índice**

* [¿Por qué un nuevo contenedor de datos?](#%C2%BFPor-qu%C3%A9-un-nuevo-contenedor-de-datos?)
* [Creación de `numpy` arrays](#Creaci%C3%B3n-de-numpy-arrays)
* [Operaciones disponibles más típicas](#Operaciones-disponibles-más-típicas-que-podemos-hacer-con-un-numpy-array)
* [Indexación](#Indexaci%C3%B3n)
* [Agregación](#Agregación)
* [Cambios de forma](#Cambios-de-forma)
* [Resumen](#Resumen)

## ¿Por qué un nuevo contenedor de datos?

En Python, disponemos, de partida, de diversos contenedores de datos, listas, tuplas, diccionarios, conjuntos,..., ¿por qué añadir uno más?.

¡Por conveniencia!, a pesar de la pérdida de flexibilidad. Es una solución de compromiso.

* Uso de memoria más eficiente: Por ejemplo, una lista puede contener distintos tipos de objetos lo que provoca que Python deba guardar información del tipo de cada elemento contenido en la lista. Por otra parte, un `ndarray` contiene tipos homogéneos, es decir, todos los elementos son del mismo tipo, por lo que la información del tipo solo debe guardarse una vez independientemente del número de elementos que tenga el `ndarray`.


![arrays_vs_listas](../images/03_01_array_vs_list.png)
***(imagen por Jake VanderPlas y extraída [de GitHub](https://github.com/jakevdp/PythonDataScienceHandbook)).***

* Más rápido: Por ejemplo, en una lista que consta de elementos con diferentes tipos Python debe realizar trabajos extra para saber si los tipos son compatibles con las operaciones que estamos realizando. Cuando trabajamos con un `ndarray` ya podemos saber eso de partida y podemos tener operaciones más eficientes (además de que mucha funcionalidad está programada en C, C++, Cython, Fortran).


* Operaciones vectorizadas


* Funcionalidad extra: Muchas operaciones de álgebra lineal, transformadas rápidas de Fourier, estadística básica, histogramas,...


* Acceso a los elementos más conveniente: Indexación más avanzada que con los tipos normales de Python


* ...

Uso de memoria

getsyzeof issues: 

Returns the size of an object in bytes. The object can be any type of object. All built-in objects will return correct results, but this does not have to hold true for third-party extensions as it is implementation specific.

Only the memory consumption directly attributed to the object is accounted for, not the memory consumption of objects it refers to.

In [3]:
# AVISO: SYS.GETSYZEOF NO ES FIABLE (Siempre)

lista = list(range(5_000_000))
arr = np.array(lista, dtype=np.uint32)
print("5 millones de elementos")
print(sys.getsizeof(lista))
print(sys.getsizeof(arr))

print()

lista = list(range(100))
arr = np.array(lista, dtype=np.uint8)
print("100 elementos")
print(sys.getsizeof(lista))
print(sys.getsizeof(arr))

5 millones de elementos
40000056
20000112

100 elementos
856
212


Velocidad de operaciones

In [4]:
a = list(range(1_000_000))
%timeit sum(a)
print(sum(a))

26 ms ± 2.61 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
499999500000


In [5]:
a = np.array(a)
%timeit np.sum(a)
print(np.sum(a))

279 µs ± 2.91 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
1783293664


Operaciones vectorizadas

In [None]:
# Suma de dos vectores elemento a elemento
a = [1, 1, 1]
b = [3, 4, 3]
print(a + b)
print('Fail')

In [None]:
# Suma de dos vectores elemento a elemento
a = np.array([1, 1, 1])
b = np.array([3, 4, 3])
print(a + b)
print('\o/')

Funcionalidad más conveniente

In [None]:
# suma acumulada
a = list(range(100))
print([sum(a[:i+1]) for i in a])

a = np.array(a)
print(a.cumsum())

Acceso a elementos más conveniente

In [None]:
a = [[11, 12, 13],
     [21, 22, 23],
     [31, 32, 33]]
print('acceso a la primera fila: ', a[0])
print('acceso a la primera columna: ', a[:][0], ' Fail!!!')

In [None]:
a = np.array(a)
print('acceso a la primera fila: ', a[0])
print('acceso a la primera columna: ', a[:,0], ' \o/')

...

Recapitulando un poco.

***Los `ndarray`s son contenedores multidimensionales, homogéneos con elementos de tamaño fijo, de dimensión predefinida.***

## Creación de numpy arrays

![Creacion de arrays](../images/03_01a_arraycreation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

Podemos crear numpy arrays de muchas formas.

![Creacion de arrays](../images/03_01b_arraycreation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

* Rangos numéricos

`np.arange`, `np.linspace`, `np.logspace`

* Datos homogéneos

`np.zeros`, `np.ones`

* Elementos diagonales

`np.diag`, `np.eye`

* A partir de otras estructuras de datos ya creadas

`np.array`

* A partir de otros numpy arrays

`np.empty_like`

* A partir de ficheros

`np.loadtxt`, `np.genfromtxt`,...


* A partir de un escalar

`np.full`, `np.tile`,...

* A partir de valores aleatorios

`np.random.randint`, `np.random.randint`, `np.random.randn`,...

...

![Creacion de arrays](../images/03_01c_arraycreation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

Algunos ejemplos:

In [None]:
a = np.arange(10) # similar a range pero devuelve un ndarray en lugar de un objeto range
print(a)

In [None]:
a = np.linspace(0, 1, 101)
print(a)

In [None]:
a_i = np.zeros((2, 3), dtype=np.int)
a_f = np.zeros((2, 3))
print(a_i)
print(a_f)

In [None]:
a = np.eye(3)
print(a)

Obviamente, no solo trabajamos con datos en una dimensión y los *arrays* me permiten tener más dimensiones:

![Creacion de arrays](../images/03_01aa_arraycreation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

![Creacion de arrays](../images/03_01bb_arraycreation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

In [None]:
a = np.array(
    (
        (1, 2, 3, 4, 5, 6),
        (10, 20, 30, 40, 50, 60)
    ), 
    dtype=np.float
)
print(a)

In [None]:
np.full((5, 5), -999)

O, incluso, más dimensiones:

![Creacion de arrays](../images/03_01aaa_arraycreation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

![Creacion de arrays](../images/03_01bbb_arraycreation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

<div class="alert alert-success">
    <p>Referencias:</p>
    <p><a href="https://docs.scipy.org/doc/numpy/user/basics.creation.html#arrays-creation">array creation</a></p>
    <p><a href="https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html#routines-array-creation">routines for array creation</a></p>
</div>

**Practicando**

**[INCISO: Recordad que siempre podéis usar `help`, `?`, `np.lookfor`,..., para obtener más información]**.

In [None]:
help(np.sum)

In [None]:
np.rad2deg?

In [None]:
np.lookfor("create array")

Ved un poco como funciona `np.repeat`, `np.empty_like`,... 

In [6]:
# Play area



[1;31mDocstring:[0m
empty_like(prototype, dtype=None, order='K', subok=True, shape=None)

Return a new array with the same shape and type as a given array.

Parameters
----------
prototype : array_like
    The shape and data-type of `prototype` define these same attributes
    of the returned array.
dtype : data-type, optional
    Overrides the data type of the result.

    .. versionadded:: 1.6.0
order : {'C', 'F', 'A', or 'K'}, optional
    Overrides the memory layout of the result. 'C' means C-order,
    'F' means F-order, 'A' means 'F' if `prototype` is Fortran
    contiguous, 'C' otherwise. 'K' means match the layout of `prototype`
    as closely as possible.

    .. versionadded:: 1.6.0
subok : bool, optional.
    If True, then the newly created array will use the sub-class
    type of `prototype`, otherwise it will be a base-class array. Defaults
    to True.
shape : int or sequence of ints, optional.
    Overrides the shape of the result. If order='K' and the number of
    di

In [None]:
%load ../solutions/03_01_np_array_creacion.py

## Operaciones disponibles más típicas que podemos hacer con un numpy array

### Aritmética

Por ejemplo, una operación de suma de dos *arrays* de una dimensión:

![aritmética](../images/03_01d_arithmetic.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

![aritmética](../images/03_01e_arithmetic.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

Hemos hecho una suma pero podemos hacer restas, multiplicaciones, divisiones,...

![aritmética](../images/03_01f_arithmetic.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

Se puede generalizar sin necesidad de ocupar memoria. Por ejemplo:

![aritmética](../images/03_01g_arithmetic.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

La operación suma pero con más dimensiones sería así:

![aritmética](../images/03_01dd_arithmetic.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

Y, de igual forma, también podemos generalizar:

![aritmética](../images/03_01ee_arithmetic.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

Probad vosotros. Cread un par (o 3 o 4 o 5,...) de *arrays* como hemos visto en la sección anterior y haced alguna operación con ellos:

In [None]:
# Play area



<div class="alert alert-success">
    <p>Referencias:</p>
    <p><a href="https://docs.scipy.org/doc/numpy/user/quickstart.html">Quick start tutorial</a></p>
</div>

<div class="alert alert-success">
    <p>Referencias:</p>
    <p><a href="https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html">Basic broadcasting</a></p>
    <p><a href="http://scipy.github.io/old-wiki/pages/EricsBroadcastingDoc">Broadcasting more in depth</a></p>
</div>

## Indexación

Si ya has trabajado con indexación en estructuras de Python, como listas, tuplas o strings, la indexación en Numpy te resultará muy familiar. 

Por ejemplo, por hacer las cosas sencillas, vamos a crear un `ndarray` de 1D:

![indexación](../images/03_01h_indexing.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

Algo un pelín más complejo. Ejecutad las dos siguientes celdas e indicad si entendéis lo que está pasando en la segunda:

In [None]:
a = np.arange(10, dtype=np.uint8)
print(a)

In [None]:
print(a[:]) # para acceder a todos los elementos
print(a[:-1]) # todos los elementos menos el último
print(a[1:]) # todos los elementos menos el primero
print(a[::2]) # el primer, el tercer, el quinto,..., elemento
print(a[3]) # el cuarto elemento
print(a[-1:-5:-1]) # ¿?

Para *ndarrays* de una dimensión es exactamente igual que si usásemos listas o tuplas de Python:

* Primer elemento tiene índice 0
* Los índices negativos empiezan a contar desde el final
* slices/rebanadas con `[start:stop:step]`

Con un `ndarray` de más dimensiones las cosas ya cambian con respecto a Python puro:

![indexación](../images/03_01hh_indexing.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

Lo mismo que antes, intentad entender lo siguiente:

In [None]:
a = np.random.randn(10, 2)
print(a)

In [None]:
print(a[1]) # ¿Qué nos dará esto?
print(a[1, 1]) # Si queremos acceder a un elemento específico hay que dar su posición completa en el ndarray
print(a[::3, 1])

Vamos a considerar el siguiente numpy array y vamos a trabajar un poco el *slicing*

In [None]:
a = np.arange(40).reshape(5, 8)
print(a)

Si tenemos dimensiones mayores a 1 es parecido a las listas pero los índices se separan por comas para las nuevas dimensiones.
<img src="../images/03_03_arraygraphics_0.png" width=400px />
(imagen extraída de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

In [None]:
a[2, -3]

Para obtener más de un elemento hacemos *slicing* para cada eje:
<img src="../images/03_04_arraygraphics_1.png" width=400px />
(imagen extraída de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

In [None]:
a[:3, :5]

Jugamos de nuevo!!!

¿Cómo podemos conseguir los elementos señalados en esta imagen?
<img src="../images/03_06_arraygraphics_2_wo.png" width=400px />

(imagen extraída de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

In [None]:
# ¿?

¿Cómo podemos conseguir los elementos señalados en esta imagen?
<img src="../images/03_08_arraygraphics_3_wo.png" width=400px />

(imagen extraída de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

In [None]:
# ¿?

¿Cómo podemos conseguir los elementos señalados en esta imagen?
<img src="../images/03_10_arraygraphics_4_wo.png" width=400px />

(imagen extraída de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

In [None]:
# ¿?

¿Cómo podemos conseguir los elementos señalados en esta imagen?
<img src="../images/03_12_arraygraphics_5_wo.png" width=400px />

(imagen extraída de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

In [None]:
# ¿?

Soluciones a lo anterior:

In [None]:
%load ../solutions/03_04_array_indexing.py

**Fancy indexing**

Con *fancy indexing* podemos hacer cosas tan variopintas como:

<img src="../images/03_13_arraygraphics_6.png" width=300px />
<img src="../images/03_14_arraygraphics_7.png" width=300px />

(imágenes extraídas de [aquí](https://github.com/gertingold/euroscipy-numpy-tutorial))

Es decir, podemos indexar usando `ndarray`s de booleanos ó usando listas de índices para extraer elementos concretos de una sola vez.

**WARNING: En el momento que usamos *fancy indexing* nos devuelve un nuevo *ndarray* que no tiene porque conservar la estructura original.**

<div class="alert alert-success">
    <p>Referencias:</p>
    <p><a href="https://docs.scipy.org/doc/numpy/reference/arrays.indexing.html#arrays-indexing">array indexing</a></p>
    <p><a href="https://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html#indexing-arrays">indexing arrays</a></p>
</div>

## Agregación

Podemos hacer operaciones sobre el propio *array* y extraer [información agregada](https://en.wikipedia.org/wiki/Aggregate_function) (información que resume, agrupa o extrae información o parte de la misma):

![agregación](../images/03_01i_aggregation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

![agregación](../images/03_01ii_aggregation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

![agregación](../images/03_01iii_aggregation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

Por ejemplo, sacad la suma de un array de 5x3 (5 filas y 3 columnas):

In [7]:
# Play area


(1000000,)

## Cambios de forma

Podemos crear *arrays* que tengan determinada forma pero quizá nos interesa cambiar esa forma para realizar una operación donde esa forma será más conveniente.

Por ejemplo, podríamos girar un *array* bidimensional usando la transpuesta:

![transponer](../images/03_01j_transpose.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

O podemos cambiar la forma usando el método `.reshape`:

![cambio de forma](../images/03_01k_reshape.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

Intentad aplanar un *array* usando el método `.ravel`:

In [None]:
a = np.random.random((5, 2))

In [None]:
a.ravel?

In [None]:
# Play area


# Resumen

Los *arrays* nos ayudan a representar información que podemos encontrar en todos lados:

![Representación de información en arrays](../images/03_01l_representation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

![Representación de información en arrays](../images/03_01m_representation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

![Representación de información en arrays](../images/03_01n_representation.png)

(Imagen extraida de [aquí](http://jalammar.github.io/visual-numpy/)).

Los *arrays* son:

- Contenedores de datos
- Los datos que contienen son homogéneos
- Los datos están contiguos en memoria

Numpy:

- En general, las operaciones de datos serán más rápidas y necesitarán menos memoria si usamos `numpy`
- La indexación es más potente que usando otras estructuras de datos que vienen con Python

## Metadatos y anatomía de un `ndarray`

En realidad, un `ndarray` es un bloque de memoria con información extra sobre como interpretar su contenido. La memoria dinámica (RAM) se puede considerar como un 'churro' lineal y es por ello que necesitamos esa información extra para saber como formar ese `ndarray`, sobre todo la información de `shape` y `strides`.

Esta parte va a ser un poco más esotérica para los no iniciados pero considero que es necesaria para poder entender mejor nuestra nueva estructura de datos y poder sacarle mejor partido.


In [None]:
a = np.random.randn(5000, 5000)

El número de dimensiones del `ndarray`

In [None]:
a.ndim

El número de elementos en cada una de las dimensiones

In [None]:
a.shape

El número de elementos

In [None]:
a.size

El tipo de datos de los elementos

In [None]:
a.dtype

El número de bytes de cada elemento

In [None]:
a.itemsize

El número de bytes que ocupa el `ndarray` (es lo mismo que `size` por `itemsize`)

In [None]:
a.nbytes

El *buffer* que contiene los elementos del `ndarray`

In [None]:
a.data

Pasos a dar en cada dimensión cuando nos movemos entre elementos

In [None]:
a.strides

![strides](../images/03_02_strides.svg)
***(imagen extraída [de GitHub](https://github.com/btel/2016-erlangen-euroscipy-advanced-numpy)).***


Más cosas

In [None]:
a.flags

Pequeño ejercicio, ¿por qué tarda menos en sumar elementos en una dimensión que en otra si es un array regular?

In [None]:
%timeit a.sum(axis=0)
%timeit a.sum(axis=1)

Pequeño ejercicio, ¿por qué ahora el resultado es diferente?

In [None]:
aT = a.T
%timeit aT.sum(axis=0)
%timeit aT.sum(axis=1)

In [None]:
print(aT.strides)
print(aT.flags)

## Manejo de valores especiales
numpy provee de varios valores especiales: np.nan, np.Inf, np.Infinity, np.inf, np.infty,...



## Extendiendo lo que hemos visto ahora:

- [Información más completa (y compleja) sobre `numpy`](
numpy_EXTENDED.ipynb)