# Clase 3: Librerías
Bienvenidos a la clase, en esta ocasión vamos a estudiar la lectura y análisis de documentos de hojas de datos usando librerías. Elegimos explicar este tipo de archivos ya que manejar hojas de datos es una tarea muy común en una gran cantidad de trabajos. Además, una vez que aprenden a utilizar una librería para esta tarea, luego pueden empezar a utilizar todo tipo de librerías para manejar los archivos que necesiten.


# Librerías



Una *librería* o *biblioteca* es un conjunto de funciones implementadas por otro programador que nos facilitan realizar tareas, principalmente porque no debemos volver a programar este código. En esta clase será vital el uso de librerías para poder analizar archivos con información.

<img src="http://www.goalexandria.com/wp-content/uploads/2016/02/alt-lib.png" width=200px>

*¿Como usamos una librería?* Primero debemos importarla:

> **import** (nombre de la libreria) **as** (nombre abreviado)

Las librerías muchas veces están separadas en distintos módulos. Podríamos decir que la librería es como un estante de libros, y en cada libro se encuentran las funciones de un tema en común, incluso un "libro" podría estar subdividido en "capítulos". Es decir, los distintos módulos de una librería podrían llegar a estar subdivididos en módulos, y cada módulo podría estar nuevamente subdividido, etc.

Si no queremos importar la librería completa, podemos importar sólo un módulo de esta forma:

> **from** (nombre de la libreria) **import** (nombre de un módulo) **as** (nombre abreviado)

También se puede usar un punto para acceder a un módulo, de esta forma:

> **import** (nombre de la libreria)**.**(nombre de un módulo) **as** (nombre abreviado)

Una vez importada la librería, podremos utilizar las funciones definidas en ella. Para poder ejecutar una función que se encuentra en una librería necesitamos especificarlo usando un punto entre el nombre de la librería y la función. La sintaxis es la siguiente:

> (nombre de la libreria)**.**función*(argumentos)*

En el caso de importar una librería que se encuentre dividida en módulos, debemos especificar el módulo correspondiente a la función nuevamente con un punto:

> (nombre de la libreria)**.**(nombre del módulo)**.**función*(argumentos)*


**Notas:**
- No es obligatorio especificar un nombre abreviado con **as**, puede utilizarse una librería con su nombre original omitiendo este comando.
- No sólo pueden importarse módulos de una librería, sino también funciones sueltas, según lo que necesiten. Siempre tengan cuidado de que los nombres de función sean únicos, si importan una función directamente entonces no podrán definir su propia función con el mismo nombre.
- Es una buena práctica que todas las librerías se importen al principio del programa, o sea que las instrucciones de **import** se encuentren arriba de todo.

In [1]:
import math  #Importamos la libreria math

print('El seno de 0 es ',math.sin(0),'y el coseno',math.cos(0))

El seno de 0 es  0.0 y el coseno 1.0


In [2]:
from math import sin,cos #Importamos directamente las funciones que usaremos (separadas por comas)

print('El seno de 0 es ',sin(0),'y el coseno',cos(0))

El seno de 0 es  0.0 y el coseno 1.0


In [None]:
import math as m

print('El seno de 0 es ',m.sin(0),'y el coseno',m.cos(0))

Algunas librerías muy conocidas y utilizadas son:


*   [numpy](https://numpy.org/) (Cálculo matricial)
*   [pandas](https://pandas.pydata.org/) (Lectura de bases de datos)
*   [maplotlib](https://matplotlib.org/) (Gráficos)
*   [tkinter](https://docs.python.org/3/library/tk.html) (Interfaces gráficas)
*   [Qt](https://www.qt.io/qt-for-python) (Interfaces gráficas)
*   [scipy](https://www.scipy.org/) (Ciencia de datos)
*   [scikit-learn](https://scikit-learn.org) (Machine Learning)
*   [TensorFlow](https://scikit-learn.org) (Machine Learning avanzado)


<h2 align="center">Numpy</h2>

## Arrays de `NumPy`

### ¿Qué es `NumPy`?

> - Una biblioteca para `Python`: `ndarray` + `ufunc`

> - Los arrays multidimensionales (`ndarray`) nos permiten almacenar datos de manera estructurada

> - Las funciones universales (`ufunc`) nos permiten operar con esos datos de manera eficiente

> `Python` está organizado en módulos, que son archivos con extensión `*.py` que contienen funciones, variables y otros objetos, y paquetes, que son conjuntos de módulos. 


> Cuando queremos utilizar objetos que están definidos en un módulo tenemos que *importarlo*, y una vez que lo hemos hecho podemos usar el operador "." para ir descendiendo en la jerarquía de paquetes y acceder al objeto que necesitamos.

In [3]:
import numpy

In [4]:
numpy

<module 'numpy' from '/opt/anaconda3/lib/python3.8/site-packages/numpy/__init__.py'>

In [None]:
import math

In [5]:
math

<module 'math' from '/opt/anaconda3/lib/python3.8/lib-dynload/math.cpython-38-darwin.so'>

In [6]:
numpy.random

<module 'numpy.random' from '/opt/anaconda3/lib/python3.8/site-packages/numpy/random/__init__.py'>

In [7]:
import random

In [8]:
random

<module 'random' from '/opt/anaconda3/lib/python3.8/random.py'>

> Y de esta manera accedemos a la función `det`, que calcula el determinante de un array:

In [None]:
?numpy.linalg

> La función *det* está dentro del paquete *linalg*, que a su vez está dentro del paquete NumPy.

In [None]:
from numpy import *

In [10]:
import numpy as np

> Para encontrar ayuda sobre cierto tema podemos usar la función `lookfor`:

In [None]:
np.lookfor("solve")

### Constantes y funciones matemáticas

> Además de arrays, NumPy contiene también constantes y funciones matemáticas de uso cotidiano.

In [11]:
np.e

2.718281828459045

In [12]:
np.pi

3.141592653589793

In [13]:
np.log(2)

0.6931471805599453

In [14]:
lista = np.log([10., np.e, np.e**2, 0])
print(lista)

[2.30258509 1.         2.               -inf]


  lista = np.log([10., np.e, np.e**2, 0])


In [15]:
type(lista)

numpy.ndarray

In [17]:
lista=[1,2,3,4]
lista1=np.log(lista)
print(lista1)
type(lista1)

[0.         0.69314718 1.09861229 1.38629436]


numpy.ndarray

### ¿Qué es exactamente un array?

> Un array de NumPy es una colección de *N* elementos, igual que una secuencia de Python (por ejemplo, una lista). 


> Tiene las mismas propiedades que una secuencia y alguna más. 


> Para crear un array, la forma más directa es pasarle una secuencia a la función *np.array*.

In [18]:
lista1 = [1,2,3]
lista2 = [4,5,6,7]
lista3 = lista1+lista2
print(lista3)
print(type(lista3))

[1, 2, 3, 4, 5, 6, 7]
<class 'list'>


In [19]:
lista3 = []
for i in range(len(lista1)):
    lista3.append(lista1[i]+lista2[i])
print(lista3)

[5, 7, 9]


In [21]:
lista1 = [1,2,3]
lista2 = [4,5,6]
arreglo1 = np.array(lista1)
arreglo2 = np.array(lista2)
arreglo3 = np.append(arreglo1, arreglo2)
#arreglo
print(arreglo3)
arreglo3.dtype
type(arreglo3)

[1 2 3 4 5 6]


numpy.ndarray

In [22]:
arreglo3 = arreglo1 + arreglo2
print(arreglo3)

[5 7 9]


> Los arrays de NumPy son *homogéneos*, es decir, todos sus elementos son del mismo tipo. 


> Si le pasamos a *np.array* una secuencia con objetos de tipos diferentes, promocionará todos al tipo con más información. 


> Para acceder al tipo del array, podemos usar el atributo *dtype*.

In [23]:
a = np.array([1, 2., 3])
print(a)
print(a.dtype)

[1. 2. 3.]
float64


In [24]:
np.array([1, 2, 3, "3"])

array(['1', '2', '3', '3'], dtype='<U21')

<div class="alert alert-warning">**Nota**: Si *NumPy* no entiende el tipo de datos o construimos un array con argumentos incorrectos devolverá un array con *dtype* *object*. Estos arrays rara vez son útiles y su aparición suele ser signo de que algo falla en nuestro programa.</div>

> *NumPy* intentará automáticamente construir un array con el tipo adecuado teniendo en cuenta los datos de entrada, aunque nosotros podemos forzarlo.

In [25]:
a = np.array([1.,2.,3.],dtype=complex)
print(a.dtype)
print(a)

complex128
[1.+0.j 2.+0.j 3.+0.j]


In [26]:
np.array([1, 2, 3], dtype=complex)

array([1.+0.j, 2.+0.j, 3.+0.j])

> También podemos convertir un array de un tipo a otro utilizando el método *.astype*.

In [27]:
a

array([1.+0.j, 2.+0.j, 3.+0.j])

In [28]:
a.astype(str)

array(['(1+0j)', '(2+0j)', '(3+0j)'], dtype='<U64')

### Motivo: eficiencia

* Los CICLOS son costosos
* Eliminar bucles: **vectorizar** operaciones
* Los bucles se ejecutan en Python, las operaciones vectorizadas en C
* Las operaciones entre arrays de *NumPy* se realizan **elemento a elemento**

Ejemplo:

$$ a_{ij} = b_{ij} + c_{ij} $$

In [29]:
k = 2
a = np.zeros(k*3)
print(a)

[0. 0. 0. 0. 0. 0.]


In [30]:
N, M = 3, k
a = np.zeros(k*3).reshape(N, M)
print(a)

[[0. 0.]
 [0. 0.]
 [0. 0.]]


In [33]:
b=np.random.rand(k*3).reshape(N,M)
print(b)

[[9.92687031e-01 5.92924024e-02]
 [4.22103531e-02 2.95766392e-01]
 [1.82629711e-04 8.85755414e-01]]


In [34]:
b

array([[9.92687031e-01, 5.92924024e-02],
       [4.22103531e-02, 2.95766392e-01],
       [1.82629711e-04, 8.85755414e-01]])

In [36]:
k=100
N, M = k, k
a = np.empty(k*k).reshape(N, M)
b=np.random.rand(k*k).reshape(N,M)
c=np.random.rand(k*k).reshape(N,M)
a

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [37]:
import time

In [38]:
#%%timeit

tin = time.time()
for i in range(N):
    for j in range(M):
        a[i, j] = b[i, j] + c[i, j]
tout = time.time()
elapsedt = tout - tin
print("el tiempo de solucion fue de: ", elapsedt)

el tiempo de solucion fue de:  0.005347013473510742


In [39]:
#%%timeit
tin = time.time()
a = b + c
tout = time.time()
elapsedt = tout - tin
print("el tiempo de solucion fue de: ", elapsedt)

el tiempo de solucion fue de:  0.00021219253540039062


In [None]:
print(a)

> ¡1000 veces más rápido! Se hace fundamental **vectorizar** las operaciones y aprovechar al máximo la velocidad de *NumPy*.

### Indexación de arrays

> Una de las herramientas más importantes a la hora de trabajar con arrays es el indexado. 


> - Consiste en seleccionar elementos aislados o secciones de un array. 


> - En este curso se verá la indexación básica, pero existen técnicas de indexación avanzada que convierten los arrays en herramientas potentísimas.

In [40]:
a = np.array([[1, 2, 3],[4,5,6],[7,8,9]])
print(a)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


> Los índices se indican entre corchetes justo después del array. 


> - Recuerda que en Python la indexación empieza en 0. 

> - Si recuperamos el primer elemento de un array de dos dimensiones, obtenemos la primera fila.

In [42]:
a[2][1]
a[2,1]

8

In [62]:
a[2]

3

> En vez de usar *a*[0][0] para recuperar el primer elemento de la primera fila, podemos abreviar aún más la sintaxis:

In [None]:
print(a)
a[0, 0]

> No solo podemos recuperar un elemento aislado, sino también porciones del array, utilizando la sintaxis `[<inicio>:<final>:<salto>]`.

In [43]:
a[0, 1:3]

array([2, 3])

In [44]:
a[:, 0:1]

array([[1],
       [4],
       [7]])

### Creación de arrays

> Muchos métodos y muy variados

> - A partir de datos existentes: `array`, `copy`
> - Unos y ceros: `empty`, `eye`, `ones`, `zeros`, `*_like`
> - Rangos: `arange`, `linspace`, `logspace`, `meshgrid`
> - Aleatorios: `rand`, `randn`

In [None]:
b = np.logspace(1,10,19)
print(b)

### Unos y ceros

> - `empty(shape)` crea un array con «basura», equivalente a no inicializarlo, ligeramente más rápido que `zeros` o `ones`
> - `eye(N, M=None, k=0)` crea un array con unos en una diagonal y ceros en el resto
> - `identity(n)` devuelve la matriz identidad
> - Las funciones `*_like(a)` construyen arrays con el mismo tamaño que uno dado

In [45]:
a=np.identity(5).astype(int)
a

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]])

In [46]:
a.shape

(5, 5)

> Si la función recibe como argumento *shape*, debemos pasarle el número de filas y columnas como una tupla (es decir, encerrado entre paréntesis).

In [47]:
np.identity(10)

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

> <div class="alert alert-warning">**Nota**: Un error muy típico es tratar de construir un array llamando a la función con dos argumentos, como se ejemplifica en la celda siguiente. Esto produce un error, porque NumPy espera un solo argumento: una tupla con el número de filas y el número de columnas. Es conveniente asegurarse de cuál es el convenio en cada caso porque no siempre hay consistencia interna.</div>

In [48]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [49]:
np.ones((3, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [50]:
i3 = np.identity(3)
i3

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [51]:
i3.shape

(3, 3)

In [52]:
np.ones(i3.shape)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

> Si en lugar de pasar directamente la forma del array ya sabemos que queremos crear un array con la misma forma que otro, podemos usar las funciones `*_like`, que reciben un array en vez de una tupla.

In [53]:
np.ones_like(i3)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

### Rangos

> - `linspace(start, stop, num=50)` devuelve números equiespaciados dentro de un intervalo
> - `logspace(start, stop, num=50, base=10.0)` devuelve números equiespaciados según una escala logarítmica
> - `meshgrid(x1, x2, ...)` devuelve matrices de n-coordenadas

In [54]:
np.linspace(0, 1, num=11)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

In [56]:
np.logspace(0, 3, num=10)

array([   1.        ,    2.15443469,    4.64158883,   10.        ,
         21.5443469 ,   46.41588834,  100.        ,  215.443469  ,
        464.15888336, 1000.        ])

> La función *np.meshgrid* se utiliza mucho a la hora de representar funciones en dos dimensiones, y crea dos arrays: uno varía por filas y otro por columnas. Combinándolos, podemos evaluar la función en un cuadrado.

In [57]:
x = np.linspace(0, 1, num=5)
y = np.linspace(0, 1, num=5)

xx, yy = np.meshgrid(x, y)

In [58]:
xx, yy

(array([[0.  , 0.25, 0.5 , 0.75, 1.  ],
        [0.  , 0.25, 0.5 , 0.75, 1.  ],
        [0.  , 0.25, 0.5 , 0.75, 1.  ],
        [0.  , 0.25, 0.5 , 0.75, 1.  ],
        [0.  , 0.25, 0.5 , 0.75, 1.  ]]),
 array([[0.  , 0.  , 0.  , 0.  , 0.  ],
        [0.25, 0.25, 0.25, 0.25, 0.25],
        [0.5 , 0.5 , 0.5 , 0.5 , 0.5 ],
        [0.75, 0.75, 0.75, 0.75, 0.75],
        [1.  , 1.  , 1.  , 1.  , 1.  ]]))

In [None]:
xx + 1j * yy

In [2]:
import numpy as np

### Operaciones con arrays

> Las **funciones universales** (`ufunc`) operan sobre arrays de NumPy elemento a elemento y siguiendo las reglas de _broadcasting_.

> - Funciones matemáticas: `sin`, `cos`, `sqrt`, `exp`, ...
> - Operaciones lógicas: `<`, `~`, ...
> - Funciones lógicas: `all`, `any`, `isnan`, `allclose`, ...

> <div class="alert alert-warning">**Nota**: Las funciones matemáticas siempre devuelven el mismo tipo de datos de entrada</div>

In [23]:
a = np.arange(start=6, stop=18, step=2)
a

array([ 6,  8, 10, 12, 14, 16])

In [24]:
a.shape

(6,)

In [28]:
np.arange(-3, 3).astype(float)

array([-3., -2., -1.,  0.,  1.,  2.])

In [44]:
a = np.arange(6,18,2).reshape(2, 3)
a

array([[ 6,  8, 10],
       [12, 14, 16]])

In [45]:
np.sqrt(a)

array([[2.44948974, 2.82842712, 3.16227766],
       [3.46410162, 3.74165739, 4.        ]])

In [40]:
np.sqrt(np.arange(6, 18,2).reshape(2, 3))

array([[2.44948974, 2.82842712, 3.16227766],
       [3.46410162, 3.74165739, 4.        ]])

In [41]:
np.sqrt(_)

array([[1.56508458, 1.68179283, 1.77827941],
       [1.86120972, 1.93433642, 2.        ]])

### Funciones de comparación

> Las comparaciones devuelven un array de booleanos:

In [74]:
a = np.arange(6)
b = np.ones(6).astype(int)
a, b

(array([0, 1, 2, 3, 4, 5]), array([1, 1, 1, 1, 1, 1]))

In [75]:
a < b

array([ True, False, False, False, False, False])

In [76]:
np.any(a < b)

True

In [77]:
np.all(a < b)

False

In [78]:
a = np.arange(6).astype(float)
b = np.ones(6)
a, b

(array([0., 1., 2., 3., 4., 5.]), array([1., 1., 1., 1., 1., 1.]))

> Las funciones `isclose` y `allclose` realizan comparaciones entre arrays especificando una tolerancia:

In [79]:
np.isclose(a, b, rtol=1e-6)

array([False,  True, False, False, False, False])

In [None]:
np.allclose(a, b, rtol=1e-6)

> <div class="alert alert-error">**¡Importante!** Ni en Python ni en ningún otro lenguaje debemos hacer comparaciones exactas entre números de punto flotante. Las operaciones matemáticas con estos números producen casi siempre resultados poco intuitivos y hay que tener cuidado con ellas. Para una introducción a estas peculiaridades existe la web http://puntoflotante.org/. </div>

In [None]:
0.1 + 0.2 + 0.3

In [None]:
0.3 + 0.2 + 0.1

In [None]:
0.1 + 0.2 + 0.3 == 0.3 + 0.2 + 0.1

## Ejercicios

### Ejercicio 1.

1. Crear un array `z1` 3x4 lleno de ceros de tipo entero.
2. Crear un array `z2` 3x4 lleno de ceros salvo la primera fila que serán todo unos.
3. Crear un array `z3` 3x4 lleno de ceros salvo la última fila que será el rango entre 5 y 8.

In [84]:
import numpy
z1=numpy.zeros((3,4)).astype(int)
z1

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [87]:
z2=numpy.zeros((3,4)).astype(int)
z2
z2[0,:]=1
z2

array([[1, 1, 1, 1],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [92]:
z3=numpy.zeros((3,4)).astype(int)
z3
z3[2,:]=np.linspace(5, 8, num=4)
z3

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [5, 6, 7, 8]])

In [48]:
seq = np.random.randint(0, 100, size=10)
seq

array([ 5, 78, 94, 65, 39, 93, 14, 21, 17, 55])

### Ejercicio 2.

1. Crea un vector de 10 elementos, siendo los impares unos y los pares doses.
2. Crea un «tablero de ajedrez», con unos en las casillas negras y ceros en las blancas.

### Ejercicio 3.

1. Crea una matriz aleatoria 5x5 y halla los valores mínimo y máximo.
2. Normaliza esa matriz entre 0 y 1.

In [50]:
a + 1

array([2, 3, 4, 5])

In [51]:
2**a

array([ 2,  4,  8, 16])

In [58]:
a = np.array([1, 2, 3, 4])
a

array([1, 2, 3, 4])

In [59]:
b = np.ones(4) + 1
b

array([2., 2., 2., 2.])

In [53]:
a - b

array([-1.,  0.,  1.,  2.])

In [54]:
a * b

array([2., 4., 6., 8.])

In [61]:
j = np.arange(5)
j

array([0, 1, 2, 3, 4])

In [56]:
2**(j + 1) - j

array([ 2,  3,  6, 13, 28])

## Bibliografía

* Documentación de NumPy http://docs.scipy.org/doc/numpy
* Travis Oliphant, "Guide to NumPy" http://csc.ucdavis.edu/~chaos/courses/nlp/Software/NumPyBook.pdf
* SciPy Lecture Notes http://scipy-lectures.github.io
* Nicolas Rougier, "100 NumPy exercises" http://www.loria.fr/~rougier/teaching/numpy.100/index.html