
<h2><font color="#004D7F" size=5>Módulo 1</font></h2>



<h1><font color="#004D7F" size=6>Introducción a Numpy</font></h1>

<br><br>
<div style="text-align: right">
<font color="#004D7F" size=3>Antonio Jesús Gil</font><br>
<font color="#004D7F" size=3>Ciencia de Datos </font><br>

</div>


---
<h2><font color="#004D7F" size=5>Índice</font></h2><a id="indice"></a>


* [1. Introducción](#section1)
* [2. Creación de arrays](#section2)
    * [Creación de un array NumPy](#section21)
    * [Tipos de datos de los elementos del array](#section22)
    * [Creación de un array bidimensional](#section23)
    * [Dimensiones de un array](#section24)
    * [Funciones para la inicialización de arrays](#section25)
    * [Inicialización a partir de colecciones](#section26)
    * [Inicialización a partir de rangos numéricos](#section27)
    
* [3. Acceso a elementos e indexación de arrays](#section3)
    * [Acceso a los elementos de un array](#section31)
    * [Slicing](#section32)
    * [Indexación mediante arrays de enteros](#section33)
    * [Indexación mediante arrays de valores booleanos](#section34)

---

<a id="section1"></a> 
<h2><font color="#004D7F" size=5> 1. Introducción</font></h2>
<br>

[** NumPy **](http://www.numpy.org) es la librería para procesamiento numérico de Python. Proporciona funcionalidades para el manejo _eficiente_ de vectores, y es la base de otras librerías, como ** SciPy**, ** Pandas ** o ** Scikit-learn**.

En estas libretas se presentarán, mediante ejemplos, los conceptos de __Numpy__ que son necesarios para el seguimiento del curso, y que serán ampliados a lo largo del mismo.  Esta introducción puede completarse con la abundante información existente en la red, y con la [documentación oficial de NumPy](https://docs.scipy.org/doc/numpy/index.html). 

---

<a id="section2"></a> 
<h2><font color="#004D7F" size=5> 2. Creación de arrays</font></h2>
<br>

En NumPy, un array (un objeto de la clase `ndarray`) es una colección _multidimensional_ de valores del mismo tipo, indexada por enteros. 

<a id="section21"></a> 
<h2><font color="#004D7F" size=4> Creación de un array NumPy </font></h2>
 

Los arrays pueden inicializarse a partir de colecciones de Python.

In [None]:
import numpy as np

v = np.array([2, 4, 6, 8, 10, 12])  # Crea un vector de 6 elementos a partir de una lista
print(v)                      

---

<a id="section22"></a> 
<h2><font color="#004D7F" size=4> Tipos de datos de los elementos del array </font></h2>
<br>

El tipo de los elementos del array es definido por la propiedad `dtype`. El tipo se establece de manera automática en función de los valores del array, a menos que se especifique en el constructor. 

Aunque los tipos más comunes son `int64` y `float64`, Numpy implementa una gran cantidad de tipos. Información detallada al respecto puede encontrarse en la [documentación oficial de NumPy](https://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html).

In [None]:
# Imprime el tipo de datos del vector anterior.
print("v:", v)
print("Tipo de v:", v.dtype)   
print()

# Crea un vector similar, pero de tipo float
vf = np.array([2, 4, 6, 8, 10, 12], dtype = float)
print("vf:", vf)
print("Tipo de vf: ",vf.dtype) 

Además de los valores numéricos, los arrays pueden contener otros valores especiales. Los más importantes son:

- `np.nan` representa el valor "_Not a number_". 
- `np.inf` representa el valor infinito.

<div class="alert alert-block alert-warning">
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Estos valores se codifican como valores en punto flotante. No es posible asignarlos a una posición de un array de enteros.
</div>

---

<a id="section23"></a> 
<h2><font color="#004D7F" size=4> Creación de un array bidimensional </font></h2>
<br>

Se puede crear con una "lista de listas" (en realidad, colección de colecciones). Por defecto, cada una de ellas corresponde a una dimensión.

In [None]:
m = np.array([[1,2,3],[4,5,6]])     # Crea una matriz bidimensional
print("m:")
print(m)       

---

<a id="section24"></a> 
<h2><font color="#004D7F" size=4> Dimensiones de un array </font></h2>
<br>

La propiedad `ndim` contiene el número de dimensiones del array, mientras que la propiedad denominada `shape` (una tupla) contiene el tamaño del array en cada dimensión.

__Nota__: Por mantener la nomenclatura "natural" en castellano, nos refereremos a `ndim` como "_número de dimensiones_", y a `shape` como "_dimensiones_".

In [None]:
print("Número de dimensiones y dimensiones de v:",v.ndim, v.shape)      # Array de seis elementos
print("Número de dimensiones y dimensiones de m:",m.ndim, m.shape)      # Matriz de 2x3

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i>
En matrices bidimensionales, se considera que la primera dimensión se refiere a la fila y la segunda a la columna.</div>

Cambiando los valores de la propiedad `shape` se redimensiona el array.

In [None]:
v.shape = (3,2)                         # Redimensiona el vector de 6 elementos a una matriz de 3 filas y 2 columnas
print(v)
print()

v.shape=(6)                             # Vuelve a redimensionar la matriz como un vector de 6 elementos.
print(v)

---

<a id="section25"></a>
<h2><font color="#004D7F" size=4> Funciones para la inicialización de arrays </font></h2> 
<br>

NumPy proporciona funciones para llevar a cabo distintas inicializaciones de matrices sin necesidad de especificar los datos.

In [None]:
print("\nMatriz vacía:")
mv = np.empty((2,2))                                    # Crea la matriz vacía con valores indeterminados.
print(mv,'\n')  

print("Matriz de ceros:")
mz = np.zeros((2,3))                                    # Inicializa un array con ceros.
print(mz,'\n')  

print("\nMatriz de unos:")
mu = np.ones((2,3))                                     # Inicializa un array con unos.
print(mu,'\n')                

print("\nMatriz inicializada a un valor constante:")
mc = np.full((2,2), 7.2)                                # Inicializa un array con un valor constante.
print(mc,'\n')  

print("\nMatriz identidad:")
mi = np.eye(2)                                          # Crea la matriz identidad
print(mi,'\n')  
    
print("\nMatriz con valores aleatorios:")
mr = np.random.random((2,2))                            # Crea un array con valores aleatorios
print(mr,'\n')

Estas funciones también permiten que se especifique el tipo de datos.

In [None]:
print("\nMatriz inicializada a un valor constante (con enteros):")
mc = np.full((2,2), 7, dtype=int)  
print(mc)
print('\n Tipo de mc:',mc.dtype)

---

<a id="section26"></a> 
<h2><font color="#004D7F" size=4> Inicialización a partir de colecciones </font></h2>
<br>

La función `np.asarray()` se puede utilizar para convertir una secuencia en un array. Es parecida al método `np.array()`, pero permite menos parámetros, y hace una copia de la colección solamente si es necesario.

In [None]:
l = [2,2,2]
a = np.asarray(l)
print(a)

---

<a id="section27"></a> 
<h2><font color="#004D7F" size=4> Inicialización a partir de rangos numéricos</font></h2>
<br>

La función `np.arange()` devuelve un vector de valores distribuidos uniformemente en el rango especificado.

In [None]:
x = np.arange(10)                           # Crea un array con valores del 0 al 9
print(x)

x = np.arange(2,10)                         # Crea un array con valores del 2 al 9
print(x)

x = np.arange(2,10,3)                       # Crea un array con valores del 2 al 9 separados por intervalos de 3
print(x)

x = np.arange(2,10,dtype=float)             # También puede especificar el dtype
print(x)

La función `np.linspace()` es muy parecida a la anterior, pero en lugar de especificar la distancia entre valores, permite especificar el número de valores dentro del intervalo.

In [None]:
x = np.linspace(10,20,5)                    # Crea un vector con 5 valores igualmente espaciados que van del 10 al 20
print(x)

x = np.linspace(10,20, 5, endpoint = False) # Se puede excluir el punto final.
print(x)

x = np.linspace(10,20,5, retstep = True)    # Fijando retstep a True puede devolver también el tamaño del intervalo 
print(x)                                    # El resultado es una tupla (array, intervalo)

La función `np.logspace(start, stop, num, endpoint, base, dtype)` es muy parecida a la anterior, pero devuelve un array de valores distribuidos uniformemente en escala logarítmica en el intervalo
$$ [base^{start}, base^{stop}]$$

In [None]:
x = np.logspace(1.0, 3.0, num = 10)        # Por defecto, base=10 devuelve números entre 10 y 1000
print(x)
print()

x = np.logspace(1.0, 10.0, base=2, num = 10) 
print(x)

---

<h3><font color="#004D7F" size=4> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio</font></h3>


Crear un vector de tamaño 20 que contenga valores del cero al cien distribuídos de manera equidistante.

Generar esos mismos valores pero como enteros. Para eso, utilizar el parámetro `dtype`.

In [None]:

print(x)

Convertir el vector en una matriz de tamaño 4 x 5.

In [None]:


print(x)

---
<a id="section3"></a> 
<h2><font color="#004D7F" size=5> 3. Acceso a elementos e indexación de arrays</font></h2>
<br>

Numpy proporciona varios modos para indexar los arrays.

---

<a id="section31"></a> 
<h2><font color="#004D7F" size=4> Acceso a los elementos de un array</font></h2>
<br>

Al igual que en las colecciones de Python, y los vectores y matrices en todos los lenguajes de programación, los elementos pueden ser accedidos mediante índices especificados entre corchetes.

In [None]:
v = np.arange(6)               # Crea el array [0,1,2,3,4,5]
print(v[0])                               
v[5]=10                                           
print(v[-1])                   # Imprime el último elemento (se podría haber utilizado también v[5])

Para acceder a un elemento de un array bidimensional puede utilizarse una lista de índices, cada uno correspondiente a unda dimensión.

In [None]:
print(m)                          # Imprime la matriz
print(m[0, 0], m[0, 1], m[1, 0])  # Imprime "1 2 4"

---
<a id="section32"></a>
<h2><font color="#004D7F" size=4> Slicing</font></h2> 
<br>

De manera similar a las colecciones standard de Python, se pueden indicar rangos de índices mediante el sígno ":", e incluso se pueden indicar secuencias. 

In [None]:
a = np.arange(10)
print(a)
print(a[2])                              # Imprime el tercer valor (se indexa a partir del cero) 
print(a[2:])                             # Imprime desde el tercer valor en adelante
print(a[2:-1])                           # Imprime desde el tercer valor al penúltimo (de dos formas)
print(a[2:9])
print(a[2: :3])                          # Imprime desde el tercer valor hasta el último de tres en tres

En arrays multidimensionales, se ha de especificar el rango para cada dimensión del array. 

In [None]:
a = np.arange(20)                              # Crea una matriz de tamaño 4*5
m = a.reshape(4,5)
print(m)
print()
print(m[1,2], m[2,4])                          # Imprime las posiciones (1,2) y (2,4)


print("\nImprime la segunda fila de dos modos distintos")
print(m[1,])
print(m[1,:])

print("\nImprime las dos primeras filas")
print(m[:2,])

print("\nImprime desde la primera a la tercera columna")
print(m[:, 1:4])

print("\nImprime desde la segunda fila en adelante, y de la primera a la tercera columna")
print(m[1:, 1:4])

---
<a id="section33"></a> 
<h2><font color="#004D7F" size=4> Indexación mediante arrays de enteros </font></h2>
<br>

Permite construir arrays arbitrarios a partir de un array original, y otro array o lista con los índices seleccionados

In [None]:
v = np.arange(10)*2
print(v)
print(v[[0,3,5,6]])                             # Imprime las posiciones 0,3,5 y 6 del array v

En arrays multidimensionales, se han de especificar los índices para cada dimensión del array. 

In [None]:
a = np.arange(20)                                   # Crea una matriz de tamaño 4*5
m = a.reshape(4,5)
print(m)
print(m[[0, 0, 1, 2],[0, 2, 3, 4]])                # Imprime un array con m[0,0], m[0,2], m[1,3], m[2,4]

La indexación permite también escribir en varias posiciones del array a la vez.

In [None]:
print(m)
print()
m[1:3,1:4]=-1
print(m)
print()
m[1:3,1:4]=np.array([[10,10,10],[20,20,20]])
print(m)

---
<a id="section34"></a> 
<h2><font color="#004D7F" size=4> Indexación mediante arrays de valores booleanos </font></h2>
<br>

Permite acceder a elementos de un array arbitrariamente. Se suele usar para seleccionar elementos que satisfacen alguna condición.  

In [None]:
v = np.array([0,1,2,3,4,5])
b = np.array([True, False, False, False, False, True])
v2 = v[b];                                               # v2 es un array que contiene el primer y último valor de v.
print(v2)                                                # Ya que son los dos que se pasan con valor a True.
print()

a = np.arange(20)                                        # Crea una matriz de tamaño 4*5
m = a.reshape(4,5)
print(m)
print()

print(m % 2==0)                                          # Imprime un array bidimensional de valores booleanos. 
print()                                                  # True si elvalor de m es par y False si es impar


mb = m[m % 2 == 0]                                       # Crea un vector con los elemenentos pares de m.
print(mb)

---

<h3><font color="#004D7F" size=4> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio</font></h3>

Crear un array de tamaño 10x10 con números aleatorios del 0 al 1000. Para ello, utilizar la función `np.random.randint(máximo, size=tamaño)`. Asignar el valor '0' a todos los elementos del borde de la matriz anterior (primera y última fila y columna)

Asignar el valor 2 a todos los elementos ubicados entre las filas y columnas tres y seis (16 elementos en total).

Asignar el valor -1 a todos los elementos que son menores que 500.