# Capítulo 4 - Librerías de Python

Este capítulo está divido en tres partes ya que cubriremos tres librerías, aunque aparecerán algunas en el camino. Estas tres serán __Math__, __Numpy__ y __Matplotlib__. 

*** 
<img src='./figures/Top+5+Libraries+for+Data+Science+in+Python.jpg' width='300'>



## Math   
    
__Math__ es la librería que proporciona las funciones matemáticas básicas en `Python`. Funciones como exponenciales, logaritmos y constantes matemáticas están incluidas en este módulo.

In [None]:
import math 
x = 4
print(math.sqrt(x),'\n')
y = math.exp(x)  # Calcula la exponencial de x
x_2 = math.log(y) # Calcula el logaritmo natural de y, por lo tanto x_2 debe ser igual a x.
print(x_2 == x,'\n') # Arroja el valor booleano True cuando la condición es verdadera. Note el doble signo de igual = 

print(math.factorial(x),'\n') # Calcula el factorial de x, es decir, si x es un número entero devuelve el producto 1*2*...*x

try: print(math.gcd(x,y),'\n')
except: print('Ambos valores deben ser enteros','\n') # Obtuvimos un error porque uno de los números que pasamos 
                                                      # a la función máximo común divisor no es entero. Intentemos de nuevo!

__Inténtelo usted__ Una de las variables x o y no es un número entero ¿sabes cuál es? La función floor da como resultado la parte entera de un número. ¿Puedes descomentar y completar el código de abajo para que dé como resultado el máximo común divisor buscado?

In [None]:
# y = math._____(_)
# z = math.gcd(x,y)

# if z == 2:
#     print('¡Felicidades!')

Algunas funciones de la librería math tienen aplicación geométrica, como son las funciones trigonométricas o de distancia.  

In [None]:
pi = math.pi # Constante pi = 3.141592....

print(math.sin(pi),'\n') # Puede resultar sorprendente que el seno de pi no nos de cero, esto se debe a la precisión de 
                         # punto flotante, ya que al no ser posible que la variable sea exactamente pi, el seno no es 
                         # exactamente cero, aunque está lo más cerca posible, para obtener cero podemos aproximar este 
                         # valor con la función round
            
print(round(math.sin(pi)),'\n')       
print(math.cos(pi),'\n')        
        
print(round(math.tan(pi)),'\n')   

p = (1,2) 
q = (5,7)
math.dist(p, q) # Función distancia entre los pares ordenados p y q (definidos como tuplas)

Estas son todas las funciones de este módulo que presentaremos por ahora pero hay una gran variedad de funciones en __Math__, pueden ser consultadas en los recursos. 

## Numpy

NumPy (Numerical Python) es una biblioteca de código abierto de Python que se utiliza en casi todos los campos de la ciencia y la ingeniería. Es el estándar universal para trabajar con datos numéricos en Python, y está en el centro de los ecosistemas científicos de Python y PyData. 

La biblioteca NumPy contiene estructuras de datos de matrices y arrays multidimensionales (encontrarás más información sobre esto en secciones posteriores). Proporciona ndarray, un objeto array homogéneo de n dimensiones, con métodos para operar eficientemente sobre él. NumPy puede utilizarse para realizar una amplia variedad de operaciones matemáticas sobre arrays. Añade a Python potentes estructuras de datos que garantizan cálculos eficientes con arrays y matrices y proporciona una enorme biblioteca de funciones matemáticas de alto nivel que operan sobre estos arrays y matrices.

En la próxima celda vemos como importar numpy, en el caso que esté instalado, y cómo se instala en caso contrario. 

In [None]:
try: 
    import numpy as np
except: 
    import sys
    !conda install --yes --prefix {sys.prefix} numpy
    import numpy as np # A partir de ahora se usará np como el apodo de Numpy       
    
# import warnings
# warnings.simplefilter('ignore') # filter some warning messages

Definiendo un elemento de __Numpy__

In [None]:
a = np.array([1,2,3,4,5]) # Observar que se define explícitamente a través de una lista
a

Esto luce muy parecido a una lista, entonces, ¿cuál es la diferencia y por qué usar Numpy?

Un arreglo o array es una red (grid) de valores que son todos del mismo tipo. Mientras que una lista de Python puede contener diferentes tipos de datos dentro de una misma lista, todos los elementos de un array de NumPy deben ser homogéneos. En ellos se pueden hacer muchas operaciones matemáticas, ya implementadas en la librería que no existen, o serían mucho más engorrosas de programar, en las listas.

NumPy ofrece una enorme gama de formas rápidas y eficientes de crear arrays y manipular datos numéricos dentro de ellos. Además los arrays de NumPy son más rápidos y compactos que las listas de Python y un array consume menos memoria y es cómodo de usar. 

Definamos algunos conceptos básicos:
__Indeces (Index)__: Un array puede estar indexado por una tupla de enteros no negativos, por booleanos, por otro array o por enteros. 

__Rango (Rank)__: El rango de la matriz es el número de dimensiones. 

__Forma (Shape)__ Es una tupla de enteros que da el tamaño del array en cada dimensión.

Veamos algunas formas de definir arrays y algunas funciones de __Numpy__.

### Creando arrays

In [None]:
arr = np.arange(6) # El resultado aquí es el mismo de la línea anterior, pero el código es más corto.
print(arr,'\n')

a = np.zeros(3) # Crea un array de ceros con la dimensión dada
print(a,'\n')

a = np.ones(3)  # Crea un array de unos con la dimensión dada
print(a,'\n')

a = np.ones(2, dtype=np.int64) # Lo mismo, pero con los datos de tipo enteros
print(a,'\n')

a = np.linspace(0, 10, num=5) # Divide el intervalo dado en el número de valores del parámetro num
print(a,'\n')

matrix = np.array([[4, 1, 3, 2], [11, 12, 10, 11], [8, 7, 5, 6]]) # Arrays de dos o más dimensiones pueden ser definidos mediante listas anidadas 
print(matrix,'\n')

print(arr[1],'\n') # Igual que en las listas, se puede accesar a los elementos de los arrays usando [].
print(matrix[1][2],'\n') # Si hacemos lo mismo con una matriz, el resultado será un vector.

### Añadir, eliminar y ordenar los elementos

In [None]:
arr = np.array([3,1,5,2,4])

print(np.sort(arr),'\n')

print(np.sort(matrix,axis=1),'\n') # Cuando el arreglo es de dos dimensiones o más se utiliza la palabra
                                   # clave axis para indicar por cuál eje se ordena (por defecto el último 
print(np.sort(matrix,axis=0),'\n') # Observa la diferencia entre ambas formas de ordenar

a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print(np.concatenate((a, b)),'\n') # De esta forma se pueden "pegar" dos arrays de una dimensión

a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])

print(np.concatenate((a, b),axis=0),'\n') # En este caso, por el otro eje no es posible concatenar debido a 
                                          # las dimensiones del arreglo.
    
# Para remover elementos solamente se puede hacer un nuevo array con los elementos que se quieren conservar 
print(arr[:-1],'\n') # (Elimina el último elemento)

# o usar la función delete
print(np.delete(arr, 2)) # (Elimina el elemento con índice 2 del array)

### Shape, reshape & size

In [None]:
matrix = np.array([[[0, 1, 2, 3],[4, 5, 6, 7]],[[0, 1, 2, 3],[4, 5, 6, 7]],[[0 ,1 ,2, 3],[4, 5, 6, 7]]])

print(matrix,'\n')

print('array_dim =', matrix.ndim,'\n')  # Es la dimensión del arreglo

print('array_elem =', matrix.size,'\n')  # Es la cantidad de elementos del arreglo

print('array_elem =', matrix.shape,'\n')  # Es la forma del arreglo

# Para cambiar la forma se usa la función reshape

arr = np.arange(12)

print(arr,'\n')

print('4x3 array:','\n', arr.reshape(4,3),'\n') # Observa que reshape tienen como argumentos la forma del nuevo arreglo, 
                             # y el producto de esto debe ser la cantidad de elementos del arreglo 
    
print('3x4 array:','\n', arr.reshape(3,4),'\n')

print('2x6 array:','\n', arr.reshape(2,6),'\n')

# Una forma particular de reordenar una matrix es transponerla
print('6x2 array:','\n', arr.reshape(2,6).transpose(),'\n')

### Indexing & slicing

In [None]:
arr = np.array([1,2,3,4,5,6])

# Los siguientes son ejemplos de cómo se toman uno o más elementos de un array ¡intenta ver cómo funcionan! 

print(arr[2],'\n')

print(arr[-1],'\n')

print(arr[1:3],'\n')

print(arr[:2],'\n')

# También se puede tomar un subconjunto de elementos con una condición

print(arr[arr < 5],'\n') 

five_up = (arr >= 5)
print(arr[five_up],'\n')

divisible_by_2 = arr[arr%2==0]
print(divisible_by_2,'\n')

print(arr[(arr > 2) & (arr < 5)],'\n') #Las condiciones con "and"

five_up = (arr > 5) | (arr == 5)  # Condición con "or"
print(five_up,'\n')
print(arr[five_up],'\n')

### Operaciones básicas

Una de las ventajas de los arreglos de numpy sobre las listas, es que se pueden hacer las operaciones matemáticas usuales, veamos algunos ejemplos.

In [None]:
a = np.array([1,2,3])
b = np.array([3,2,1])

print(a+b,'\n') # Observa que a y b tienen la misma longitud, intenta cambiar la longitud de uno de ellos 

print(a-b,'\n') 

print(a*b,'\n')

print(a/b,'\n')

# Esta es la multiplicación y división componente a componente. Para la multiplicación matricial se usará la función "dot"

print(np.dot(a,b),'\n') # En este caso coincide con el producto escalar. Veamos qué sucede con una matriz

m1 = np.array([[1,2],[1,1]])
m2 = np.array([[3,1],[1,0]])

print(np.dot(m1,m2),'\n') # En esta ocasión obtenemos el producto matricial

# Si multiplicamos por un número simple una matriz o un vector, se multiplicarán todas las entradas del vector por ese número
print(5 * np.array([[1,1],[1,0]]))

### Otras funciones útiles

In [None]:
arr = np.array([1,2,3,4,5,6])

print('Mínimo: ', arr.min(),'\n')
print('Máximo: ', arr.max(),'\n')
print('Suma de los elementos: ', arr.sum(),'\n')

# Si queremos sumar una matriz sólo por columnas o filas usamos la palabra clave "axis"
m = np.array([[1,2],[3,5]])

print('Suma por columnas: ', m.sum(axis=0),'\n')
print('Suma por filas: ', m.sum(axis=1),'\n')

# De igual forma 
print('Máximo por columnas: ', m.max(axis=0),'\n')

 __NumPy__ tiene una gran cantidad de funciones matemáticas, algunas coinciden con las funciones de __Math__ y otras son específicas de la librería. Veremos sólo las que utilicemos a medida que lo hagamos, pero se puede consultar una lista en la sección de __Recursos__  

## Visualización: Matplotlib
    
Una de las herramientas fundamentales en Ciencia de Datos es la visualización, que permite comunicar de una manera clara y concisa resultados que de otra manera serían muy complejos de transmitir. La principal librería de Python para esto es __Matplotlib__. Un gráfico generado en __Matplotlib__ es ve, de forma general, como en la figura de abajo, la cual también proporciona una guía sobre los nombres de las distintas partes del gráfico.
<img src='./figures/Anatomy_of_plot.png'>

### Importar __Matplotlib__ y crear un gráfico simple

Hay esencialmente dos maneras de utilizar Matplotlib:

- Confiar en pyplot para crear y gestionar automáticamente las Figuras y los Ejes, y utilizar las funciones de pyplot para el trazado.

- Crear explícitamente Figuras y Ejes, y llamar a métodos sobre ellos (el "estilo orientado a objetos (OO)").

A continuación presentaremos las dos formas, que utilizaremos indistintamente según convenga.

In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt 

x = np.linspace(0, 2, 100) 

plt.figure(figsize=(10,5)) # Aunque esta línea no es estrictamente necesaria es muy útil para establecer parámetros de la figura.
plt.plot(x, x, label='linear')  # label establece el nombre que aparecerá en la leyenda
plt.plot(x, x**2, label='quadratic')  
plt.plot(x, x**3, label='cubic')
plt.xlabel('x label')  # xlabel y ylabel dan nombre a los ejes
plt.ylabel('y label')
plt.title("Simple Plot") # Título del gráfico
plt.legend(); # Esta línea hace que la leyenda aparezca en el gráfico con los nombres establecidos con "label"

In [None]:
x = np.linspace(0, 2, 100)  # Data.

# Todas las funciones a continuación tienen los mismos objetivos que las que reemplazan arriba, pero observa 
# que son ligeramente diferentes.

fig, ax = plt.subplots(figsize=(10, 5))
ax.plot(x, x, label='linear')  
ax.plot(x, x**2, label='quadratic')  
ax.plot(x, x**3, label='cubic')  
ax.set_xlabel('x label')  
ax.set_ylabel('y label')  
ax.set_title("Simple Plot")  
ax.legend();  

### Tipos de gráficos

En la celda anterior vimos el tipo más simple de gráfico y el que se genera por defecto, un gráfico de línea (linear plot). A continuación veremos los siguientes más usados, y esto será ampliado en el tutorial de visualización de datos. 

##### Diagrama de dispersión (Scatter plot) 

Un diagrama de dispersión (también conocido como gráfico de dispersión) utiliza puntos (o versiones de puntos) para representar los valores de dos variables numéricas diferentes. La posición de cada punto en el eje horizontal y vertical indica los valores de un punto de datos individual. Los gráficos de dispersión se utilizan para observar las relaciones entre las variables.

In [None]:
x = np.random.rand(100)
y = np.random.rand(len(x)) # Numpy también puede generar números aleatorios! En este caso usaremos la función 
                           # len para que el tamaño de ambas variables coincida

fig, ax = plt.subplots(figsize=(10, 5))
ax.scatter(x, y, s=50, facecolor='C0', edgecolor='k'); # Observe el uso de los parámetros de la función para
                                                       # cambiar el tamaño, color y forma de los indicadores,
                                                       # esto se ampliará más tarde. 
        
# Otra forma de hacer estos plots es la siguiente 

fig, ax = plt.subplots(figsize=(10, 5))
ax.plot(x, 'o', label='data1')
ax.plot(y, 'd', label='data2')
ax.legend();

#### Datos de tiempo y categóricos

Una gran ventaja de `Python` es su forma de lidiar con datos temporales, hay varias librerías que permiten esto, entre ellas __NumPy__. Y graficar correctamente este tipo de datos es muy importante. Además las variables categóricas, necesitan también formas específicas para su visualización. Veamos las más simples.  

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
dates = np.arange(np.datetime64('2021-11-15'), np.datetime64('2021-12-25'),
                  np.timedelta64(1, 'h')) # Generamos datos de fechas con inicio, final e intervalos definidos.
data = np.cumsum(np.random.randn(len(dates))) # "cumsum" da un vector con la suma acumulada del vector
ax.plot(dates, data)
cdf = mpl.dates.ConciseDateFormatter(ax.xaxis.get_major_locator())  # Formato específico para fechas
ax.xaxis.set_major_formatter(cdf);

In [None]:
fig, ax = plt.subplots(figsize=(10, 5))
categories = ['calabaza', 'pepino', 'zanahoria', 'lechuga'] # Categorías a graficar

ax.bar(categories, np.random.rand(len(categories)));  # Los números aleatorios nos darán la altura de cada barra

*** 

## Recursos

### __Más sobre las librerías:__

__Math__ https://docs.python.org/3/library/math.html#module-math

__NumPy__

- [Sitio oficial](https://numpy.org/)

- [Tutorial](https://numpy.org/doc/stable/user/absolute_beginners.html)

- [Funciones matemáticas](https://numpy.org/doc/stable/reference/routines.math.html)

__Matplotlib__

- [Sitio](https://matplotlib.org/stable/tutorials/introductory/usage.html#sphx-glr-tutorials-introductory-usage-py)
- [Tutorial interactivo](https://www.datacamp.com/community/tutorials/matplotlib-tutorial-python?utm_source=adwords_ppc&utm_medium=cpc&utm_campaignid=1455363063&utm_adgroupid=65083631748&utm_device=c&utm_keyword=&utm_matchtype=&utm_network=g&utm_adpostion=&utm_creative=278443377095&utm_targetid=aud-299261629614:dsa-473406587955&utm_loc_interest_ms=&utm_loc_physical_ms=1010056&gclid=Cj0KCQiArt6PBhCoARIsAMF5wai1EiSvk-jFOZMbTpwTQ19zButG65AkJT5Vs9lyFeAb_lIcihzSiKMaAu0GEALw_wcB)

