![imagen](../../imagenes/numpy.png)

# Numpy y matrices

#### Autor: [Daniel Ortiz López](https://www.linkedin.com/in/daniel-ortiz-l%C3%B3pez/)

En este Notebook descubrirás la que es probablemente **la librería más utilizada en Python**, `numpy`, la cual nos va a permitir trabajar con una gran variedad de datos en memoria como colecciones de documentos, imágenes, audios o medidas numéricas.

1. [Listas y matrices](#1.-Listas-y-matrices)
2. [Numpy](#2.-Numpy)
3. [Creacion de arrays](#3.-Creacion-de-arrays)
4. [Atributos del array](#4.-Atributos-del-array)
5. [Indexado](#5.-Indexado)
6. [Slicing y subarrays](#6.-Slicing-y-subarrays)
7. [Reshape](#7.-Reshape)
8. [Tipos de los datos](#8.-Tipos-de-los-datos)
9. [Concatenado](#9.-Concatenado)
10. [Sustitucion](#10.-Sustitucion)

## 1. Listas y matrices
Ya conocemos muy bien cómo funcionan las listas, aunque en este apartado profundizaremos un poco más en sus funcionalidades, acceso y dimensiones. **Las listas en Python son muy versátiles, lo que nos dan una gran flexibilidad a la hora de modelizar nuestros datos**. Además este apartado no servirá para refrescar conceptos con vistas a **comparar listas de Python con los arrays de Numpy**.

Declaramos una lista sencilla

Recordamos cómo accediamos a los elementos

¿Y si necesitamos una lista con múltiples dimensiones? ¡También podemos!

De esta forma estamos declarando una matriz de 3 filas x 3 columnas. ¿Cómo accedemos a sus elementos?

En los ejemplos de arriba hemos accedido a los elementos de la matriz directamente con sus índices, pero si no sabemos cómo de grande es la matriz, habrá que iterarla mediante bucles.

Bien, hasta aquí todo correcto, **¿pero y si queremos multiplicar nuestra matriz por un escalar?** Es decir, simplemente aplicarle una operación a cada elemento de la matriz. Veamos cómo se hace.

¡Conseguido! Aunque un poco aparatoso para ser una operación tan sencilla como multiplicar una matriz por 10. ¿Y si queremos hacer una matriz traspuesta? ¿Y si tenemos dos matrices de las mismas dimensiones y queremos multiplicar elemento a elemento? Se complica todavía más la cosa y tendremos que acudir a los bucles para solucionarlo cuando realmente hay una librería que lo hace por nosotros :)

Recuerda que gran parte de la potencia de Python reside en sus librerías, ya que ahorra muchísimo tiempo el no tener que implementar ciertas funciones en nuestro código ya que esas y muchas más vienen ya desarrolladas en paquetes más que probados como `numpy`.

## 2. Numpy
Esta librería va un paso más allá que las listas y permite realizar operaciones entre arrays, listas o matrices de una manera óptima. Características de `numpy`:

* **Librería**: Es una librería de Python por lo que tendrás que importarla mediante `import numpy as np`. Por costumbre se suele poner el alias `np`.

* **Listas y matrices**: Si nunca has trabajado con estos formatos de datos, no te puedes imaginar la cantidad de cosas que puedes hacer. Formatos de datos como por ejemplo las imágenes no dejan de ser matrices de números, que interpretados de la manera adecuada, representan píxeles con sus posiciones y sus colores.

* **Rendimiento**: no es un tema *core* en Data Science ya que para realizar tus análisis explotatorios o ejecutar tus modelos, lo vas a poder hacer igual sin preocuparte de este factor. Ahora bien, la cosa se complica cuando productivizamos productos de datos y el SLA (Service Learning Agreement) es exigente. Aquí entra en juego `numpy` ya que es una librería muy rápida.


**¿Qué podemos tratar con `numpy`?**
* **Imágenes**: las imágenes se pueden tratar como arrays de pixels, los cuales tienen unos valores dependiendo del color.
* **Audio**: también se pueden manejar mediante arrays unidimensionales.
* **Texto**: lo podemos representar también en un formato numérico.

Podrás encontrar toda la [documentación de `numpy` en su página oficial](https://numpy.org/doc/).

Se verá más en detalle en posteriores apartados, pero algunos ejemplos de cosas que podemos hacer con `numpy` son:

## 3. Creacion de arrays
Lo primero, importamos la librería de `numpy`

**Vectores**

Ya podemos crear nuestro primer vector. Que se trata de un array de 1D

El acceso a sus elementos es igual que en las listas

**Fíjate en el tipo**. Ya no son listas, aunque lo parecen. Incluso los tipos de los datos ya no son los que conocemos, sino que `numpy` aporta nuevos tipos de datos. Lo veremos más adelante.

**Matrices**

Vamos a crear ahora un **array multidimensional**

Otra ventaja de usar `numpy` en vez de listas es que el `print` lo realiza en formato matriz, lo que nos permite ver los datos mucho mejor que si lo imprimiese en una sola línea.

**Secuencias**

¿Recuerdas `range()`? Lo usábamos en listas para crear secuencias, estableciendo el punto de inicio, de parada, y el salto entre elementos. En `numpy` hay algo parecido denominado `arange`. [Te dejo el enlace a la documentación](https://numpy.org/doc/stable/reference/generated/numpy.arange.html).

**Random**

Otra opción es usar el paquete `random` de `numpy`. **Muy útil cuando tenemos que crear secuencias aleatorias**, y lo mejor de todo es que tiene una gran cantidad de opciones para configurar. [Consulta la documentación para más detalle](https://docs.scipy.org/doc/numpy-1.14.0/reference/routines.random.html).

**Seed**

Como habrás podido comprobar, cada ejecución de una secuencia aleatoria es diferente. **Fijando una semilla, todas las secuencias aleatorias que ejecutes (si tienen los mismos argumentos), tendrán siempre el mismo output**. Se usa mucho cuando queremos replicar resultados, o compartirlos con otros compañeros. Los resultados que obtengas en este Notebook no serán los mismos que obtenga el compañero, en caso de haber un factor aleatorio, por lo que no vamos a poder comparar los Notebooks... A no ser que ambos fijéis la misma semilla.

**¿Qué valor ponemos en seed? El que queramos** mientras en el resto de Notebooks donde queramos replicar estos resultados, tengan la misma semilla.

**Matrices con valores**
[Hay diferentes maneras de crear arrays o matrices](https://numpy.org/doc/stable/reference/routines.array-creation.html), pero en ocasiones necesitamos tener predefinidas matrices con un único valor. Veamos algunos ejemplos.

<table align="left">
 <tr><td width="80"><img src="../../imagenes/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio creación de arrays en numpy</h3>

      
<ol>
    <li>Crea un array con 3 deportes que te gusten</li>
    <li>Accede al primer elemento y al último</li>
    <li>Comprueba los tipos de los datos</li>
    <li>Crea una secuencia de numeros del 10 al 0, con saltos de -0.5</li>
    <li>Crea una matriz de 5x2 con numeros enteros aleatorios comprendidos entre el 10 y el 20</li>
</ol>
         
 </td></tr>
</table>

## 4. Atributos del array

Hay ciertos atributos que debemos conocer:
* `ndim`: es el numero de dimensiones. Número de niveles que tiene el array de `numpy`.
* `shape`: tamaño de cada una de las dimensiones. Devuelve el resultado en formato `tupla`
* `size`: cantidad de elementos del array.

Otros atributos interesantes son:
* `itemsize`: tamaño en bytes de los items del array
* `nbytes`: tamaño en bytes de todo el array

Vemos que aumentando el tamaño de los elementos, el array es el doble de pesado. Profundizaremos más adelante en los tipos.

## 5. Indexado
¿Cómo accedemos a los elementos del array?

Declaremos primero varios arrays

Probamos primero con el primer array

Vamos ahora con el de dos dimensiones

Y ahora con el de 3

## 6. Slicing y subarrays
Ya hemos visto que podemos acceder a los elementos individuales del array usamos la sintaxis con corchetes, pero si necesitamos acceder a un conjunto de valores, tendremos que usar `:`. El slicing sigue la siguiente sintaxis:
```Python
x[start:stop:step]
```
Por defecto, si no ponemos alguno de estos argumentos, `start = 0`, `stop = tamaño de la dimensión` y `step = 1`.

Recuerda, al igual que en listas, el `start` está incluido, mientras que el stop no.

Veamos primero un ejemplo para una dimensión

<table align="left">
 <tr><td width="80"><img src="../../imagenes/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio slicing</h3>

      
<ol>
    <li>Todos los elementos, pero de dos en dos</li>
    <li>Todos los elementos, pero de dos en dos, a partir del segundo item</li>
    <li>Todo, pero invertido</li>
    <li>Obtén los últimos dos items, pero invertidos</li>
    <li>Todo, excepto los ultimos dos items, invertido.</li>
</ol>
         
 </td></tr>
</table>

Veamos ahora unos ejemplos multidimensionales. Funciona igual, lo unico que ahora cada dimension irá separado por comas

Otra forma de quedarnos con subarrays, o de filtrarlos, es mediante una máscara de booleanos. La máscara tiene las mismas dimensiones que el array, y donde haya un `True`, se quedará con ese valor, pero donde haya un `False`, lo ignorará.

## 7. Reshape
Con el reshape podremos **cambiar las dimensiones de los arrays**, siempre y cuando en numero de elementos sea posible. Por ejemplo, si tenemos 4 elementos, no podremos hacer una matriz de 3x3.

Éste método se puede utilizar en una infinidad de casos, pero lo más habitual sería, partiendo de un array de una dimensión, convirtiéndolo en multidimensión.

<table align="left">
 <tr><td width="80"><img src="../../imagenes/error.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>ERRORES con reshape</h3>
         
 </td></tr>
</table>

## 8. Tipos de los datos
En `numpy` también hay **que tener en cuenta los tipos de datos con los que trabajamos**, para no cometer el error de *mezclar peras con manzanas*. Es más, **`numpy` es mucho más variado en cuanto a tipos**, que el propio intérprete de Python. 

En el caso de `numpy`, hay que pensar en el factor tamaño cuando especifiquemos los tipos de los datos. No es lo mismo el numero 12, que el 120000000000. Desde el punto de vista del intérprete de Python, son dos `int`s, pero para numpy son un `int32` o un `int64`. Ese número es la cantidad de bits que se necesita para representar el valor. Cuanto más grande sea el valor, mayor cantidad de bits utilizaremos.

[En la documentación tienes el detalle de todos los tipos de datos.](https://numpy.org/devdocs/user/basics.types.html)

Por ejemplo, valores numéricos

Si tenemos booleanos

Cadenas de texto. La `U` viene de unicode, que es la codificación que sigue `numpy`. Y el número de al lado es la longitud de la cadena de texto más larga del array.

Podemos mezclar varios tipos de datos, pero `numpy` forzará un solo tipo. ¿Cómo lo hace? Realiza las conversiones de tal manera que no pierda información en la conversión. En la conversión prima el siguiente orden: String -> Float -> Int -> Boolean

## 9. Concatenado
Para concatenar matrices, `numpy` tiene varios métodos: `np.concatenate`, `np.vstack` o `np.hstack`. Lo único que hay que tener en cuenta es que coincidan las dimensiones, para que el concatenado sea correcto.

Como ves, el concatenado es horizontal. Al ser elementos de 1D, mantiene las dimensiones. Se pueden concatenar todos los arrays que queramos.

Probemos ahora con arrays bidimensionales

Ahora podemos jugar con los ejes. El método `concatenate` tiene un argumento que es `axis`, con el cual podemos jugar con las dimensiones y elegir el tipo de concatenado.

Si tenemos arrays de diferentes dimensiones, puede resultar más útil usar `vstack`

O si queremos hacer un concatenado horizontal, lo haremos mediante `hstack`.

## 10. Sustitucion
En `numpy` podemos aplicar operaciones para sustituir elementos dependiendo de ciertas condiciones, y con esa sintaxis de sustitución también es posible filtrar datos de las matrices.

De esta manera, lo que hacemos es preparar una lista de booleanos, y se lo aplicamos al array. Si lo queremos hacer de una manera más automática y entendible, utilizamos `where`.

O incluso podemos sustituit los que se den en la condición, y el resto mantener los valores del array.