# Módulos

Las bibliotecas en programación, como las bibliotecas de libros, son colecciones de conocimiento, en este caso de códigos destinados a hacer distintas funciones.

La idea de las bibliotecas es que sean funcionales para muchas personas y que los usuarios no estén implementando las mismas soluciones una y otra vez.

Existen en casi todos los lenguajes de programación, se les conoce también como módulos o paquetes.

## Bibliotecas en Python

Cuando instalamos Python, automáticamente también instalamos una serie de bibliotecas, estas bibliotecas desarrolladas por el mismo grupo que desarrolla el lenguaje se le denomina la Biblioteca estándar de Python.
Algunos ejemplos de las bibliotecas más importantes de este conjunto son:

- [`math`](https://docs.python.org/3/library/math.html)
- [`random`](https://docs.python.org/3/library/random.html)
- [`statistics`](https://docs.python.org/3/library/statistics.html)
- [`pickle`](https://docs.python.org/3/library/pickle.html)
- [`csv`](https://docs.python.org/3/library/csv.html)
- [`os`](https://docs.python.org/3/library/os.html)
- [`time`](https://docs.python.org/3/library/time.html)
- [`sys`](https://docs.python.org/3/library/sys.html)
- [`tkinter`](https://docs.python.org/3/library/tkinter.html)

También existen múltiples bibliotecas externas que se pueden instalar que son desarrolladas por grupos de personas que trabajan en algún área particular (por ejemplo, astronomía, biología, etc).

*Ejemplos:*

- [`numpy`](https://numpy.org/)
- [`pandas`](https://pandas.pydata.org/)
- [`polars`](https://www.pola.rs/)
- [`scipy`](https://scipy.org/)
- [`scikit-learn`](https://scikit-learn.org/)
- [`biopython`](https://biopython.org/)
- [`matplotlib`](https://matplotlib.org/)
- [`seaborn`](https://seaborn.pydata.org/)
- [`plotly`](https://plotly.com/python/)


Si queremos usar una biblioteca, lo primero es importarla.



In [None]:
import numpy #Usamos el keyword import y el nombre del paquete

In [None]:
import math
print(math.sqrt(26))
print(math.isqrt(26))

In [None]:
import Bio

In [None]:
!pip install biopython

In [None]:
from Bio.Seq import Seq
my_seq = Seq("AGTACACTGGT")
my_seq
print(my_seq)
my_seq.complement()
my_seq.reverse_complement()

In [None]:
adn = Seq('CAGACTAGCTTTTGCATTCTACGGTATGGCAGATGTGTTAATCTCGAGAGTGTTAAAAACTGATAGCAGC')
print(adn)
print(adn.count("A"))
print(adn.count("C"))
print(adn.count("G"))
print(adn.count("T"))

### Importar módulos específicos de una biblioteca

La mayoría de las bibliotecas son de un tamaño razonable, por lo cual están organizadas en módulos más pequeños. Estos módulos están agrupados según su utilidad.

Podemos importar un módulo en particular sin tener que cargar toda la colección.

In [None]:
import matplotlib.pyplot #Importamos solo el módulo pyplot de matplotlib
import numpy.random #Importamos solo el módulo random de NumPy

Otra manera de cargar sub paquetes es con la palabra **from** en conjunto con import.

In [None]:
from matplotlib import pyplot
from numpy import random

### ¿Cómo utilizamos las bibliotecas?

Para usar cualquier función programada en un módulo debemos llamarla por su nombre, igual que cualquier otra que hayamos aprendido a usar.

In [None]:
from math import sqrt

print(sqrt(25))

Note que en el ejemplo anterior importamos directamente la función sqrt(), pero en caso de importar todo el módulo, la función debe llamarse con la sintaxis **módulo.función**.

In [None]:
import math

print(math.sqrt(25)) #Tenemos que decir a Python que la función está dentro de math

### Importar utilizando alias

Cuando un paquete está compuesto de muchos sub paquetes es un poco tedioso escribir el nombre completo.

**as** nos permite importar la biblioteca o el sub módulo poniéndole un alias con el cual podemos llamarlo a lo largo del código. Este alias puede ser cualquier cosa.

In [None]:
import math as m

print(m.sqrt(25))

 #### <font color='DarkBlue'>*Como con las variables, utilizar nombres significativos para los alias es una buena prática. De nada sirve usar un alias si es más largo que el nombre de la biblioteca o lo que intentamos importar.*</font>

En las bibliotecas más populares también hay alias populares que se han escogido por convención. En los ejemplos hallados en internet casi siempre se utilizan estos alias.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Instalación de módulos

Para instalar módulos podemos hacer uso de Anaconda Navigator.

Otras opciones que se pueden explorar son:
- [`conda`](https://docs.conda.io/en/latest/)
- [`mamba`](https://mamba.readthedocs.io/en/latest/)
- [`pip`](https://pip.pypa.io/en/stable/)

In [None]:
# Si queremos instalar alguna biblioteca en colab utlizamos el siguiente comando

! pip install <nombre de biblioteca>

## Arreglos de NumPy

NumPy (*Numerical Python*) es una de las bibliotecas más importantes en computación científica. Ofrece la posibilidad de almacenar datos en arreglos y ejecutar operaciones fundamentales en el análisis de datos.




In [None]:
import numpy as np

### Arreglos de NumPy

Son estructuras pensadas para recrear matrices y vectores de datos. Algunas de sus características son:

* No tienen longitud modificable.
* Guardan el mismo tipo de dato.
* Pueden ser n-dimensionales, podemos tener vectores, matrices, tensores, etc.
* Almacenan la información de una forma más eficiente que sus similares las listas.
* Se imprimen entre [], pero separados por espacio.

### Funciones para crear arreglos

| Función | Efecto |
| :---: | :---: |
| [`array`](https://numpy.org/doc/stable/reference/generated/numpy.array.html) | Crea un arreglo con los datos especificados|
| [`arange`](https://numpy.org/doc/stable/reference/generated/numpy.arange.html) | Crea un arreglo de valores indicando un valor inicial, un final y un step|
| [`linspace`](https://numpy.org/doc/stable/reference/generated/numpy.linspace.html) | Crea un espacio lineal en un arreglo|
| [`empty`](https://numpy.org/doc/stable/reference/generated/numpy.empty.html) | Crea un arreglo con datos "basura"|
| [`zeros`](https://numpy.org/doc/stable/reference/generated/numpy.zeros.html) | Crea un arreglo de ceros|
|[`ones`](https://numpy.org/doc/stable/reference/generated/numpy.ones.html) | Crea un arreglo de unos|
| [`full`](https://numpy.org/doc/stable/reference/generated/numpy.full.html) | Crea un arreglo lleno del valor especificado|

`array` es el constructor principal de arreglos. Podemos utilizarlo para convertir tuplas o listas en arreglos de NumPy.

In [None]:
lista_original = [1, 2, 3]
print(type(lista_original))
arreglo_numpy = np.array(lista_original)
print(type(arreglo_numpy))

In [None]:
numeros = np.arange(0, 100, 0.5)
numeros

In [None]:
numeros = np.linspace(0, 100)
numeros

In [None]:
np.empty(shape=(50))

In [None]:
np.zeros(10)

In [None]:
np.ones(10)


In [None]:
np.full(10, 3.)

In [None]:
azulPython = (75, 139, 190)
print(azulPython)

In [None]:
print(np.array(azulPython)) #Convertimos la tupla en arreglo
print(type(np.array(azulPython)))

NumPy castea los elementos para que exista un solo tipo de dato, cuando sea posible. Nosotros mismos podríamos hacer la conversión tambien.

[`astype`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.astype.html): Es una función que recibe como argumento un tipo de dato e intenta convertir los datos del arreglo a ese tipo.

In [None]:
precios = np.array([1.33,1.35,0.93,1.08,1.28,'uno'])

print(precios)

In [None]:
precios = np.array([1.33,1.35,0.93,1.08,1.28,1])

print(precios)

In [None]:
precios = np.array([1.33,1.35,0.93,1.08,1.28,1]).astype(int)

print(precios)

Para crear un arreglo de dos dimensiones como una matriz tenemos que usar listas de listas o tuplas de tuplas.

In [None]:
coeficientes = np.array([[3,2,-1],[2,-2,4],(-1,0.5,-1)]) #Matriz 3x3

print(coeficientes)

Note que los últimos elementos están en una tupla, por lo que podemos combinar. Además, cada lista o tupla interna representa una fila en la matriz.

### Sabiendo lo anterior, ¿cómo crearía un arreglo "vertical" 3x1? con los datos [1,2,3]?

A veces queremos crear arreglos que luego rellenaremos con valores. Como no podemos ir "extendiendo" el arreglo, lo que hacemos es crear uno del tamaño correcto que tenga datos temporales.

Estos datos pueden ser valores sin significado o 0, depende del algoritmo. empty() y zeros() nos ayudan a crear arreglos con este fin.

In [None]:
Mres_0 = np.zeros([5,5]) #Inicializamos una matriz resultado que calcularemos después

print(Mres_0)

In [None]:
numeros_aleatorios = np.random.random(12)
numeros_aleatorios.shape = (6,2)
numeros_aleatorios

In [None]:
Mres_emp = np.empty([4,4])

print(Mres_emp)

Note que a diferencia de `array` no enviamos los datos de la matriz sino las dimensiones.

 #### Cuando creamos un elemento como un arreglo, un string, un entero, etc., estos ocupan espacio en memoria. Si el elemento creado tiene un valor ya asignado entonces está inicializado.

* Con `zeros` asignamos cero a todos los espacios que ocupa el arreglo en memoria, entonces **el arreglo queda inicializado**.

* Con `empty` no se asignan valores, los que devuelve en realidad son datos que ya estaban asignados en los espacios de memoria y que no sabemos qué son. Como no se asigna ningún valor, **el arreglo no queda inicializado**.

El proceso de inicializar cuesta un poco de tiempo, por ello `empty` puede ser más rápido que `zeros`.



In [None]:
Mini_1 = np.ones([5,5]) #Inicializamos la matriz con unos

print(Mini_1)

In [None]:
Mini_o = np.full((5,5),4) #Inicializamos la matriz con un valor escogido

print(Mini_o)

[`np.Inf`](https://numpy.org/doc/stable/reference/constants.html#numpy.inf): Una constante definida en NumPy que representa el valor de infinito.

In [None]:
Mini_o = np.full((5,5),np.Inf) #Inicializamos las entradas en infinito

print(Mini_o)

Más sobre otros valores constantes definidos en NumPy se pueden encontrar [aquí](https://numpy.org/devdocs/reference/constants.html).

Cada manera de inicializar entradas responde a una necesidad específica del programador y del algoritmo que implemente. Por ejemplo, en ciencia de datos es muy común usar `linspace` y `arange`.


In [None]:
tiempo = np.linspace(0,50,100) #Entre 0 y 50 dará 100 valores

print(tiempo)

In [None]:
tiempo = np.arange(0,50,0.5) #Entre 0 y 50 dará una cantidad de valores separados cada 0.5

print(tiempo)

In [None]:
print(range(0,50))

Note lo siguiente:

* linspace() no omite el último valor del ámbito como sucede con range(). arange() es el *similar* en arreglos a range(), ambos omiten el último valor.
* arange() es más adecuado cuando se necesita una **separación** definida entre los datos.
* linspace() es más adecuado cuando se necesita una **cantidad** definida de datos.


## Ejemplo

Para las siguientes aplicaciones piense cuál función de creación de arreglos utilizaría.

* Hay un modelo matemático, digamos un $f(x)$, que usted desarrolló y quiere visualizar su comportamiento $x$ vs $f(x)$ en Python. A usted solo le interesa visualizar cuando $x$ está entre dos valores $x_i$ y $x_f$. Cree un arreglo para $x$.

* Usted realizará un experimento para ver la "psicología de números" y hará una encuesta automatizada donde cada usuario insertará seis números del 1 al 10. La respuesta se guardará en un arreglo unidimensional de seis elementos.

* Su instructor del taller le pide que haga una función con un algoritmo que devuelva una matriz [diagonal](https://en.wikipedia.org/wiki/Diagonal_matrix). Este algoritmo podría tener un ciclo que transforma ciertas entradas de la matriz.



In [None]:
x = np.linspace(0, 9, num=1000)
y = np.sin(x)

import matplotlib.pyplot as plt

plt.plot(x, y)

In [None]:
x = np.full(6, np.NAN)
x

In [None]:
x = np.empty(6)
x

In [None]:
x = np.zeros([3,3])
x

### Arreglos de entradas aleatorias

NumPy ofrece el submódulo `random`, que permite hacer muestreo aleatorio y crear arreglos de estos datos. Posee distintas funciones disponibles según lo que queramos, veamos algunas.

In [None]:
matRandom = np.random.random([5,5]) #Devuelve números aleatorios entre 0 y 1, indicando dimensiones

print(matRandom)

In [None]:
matRandomNorm = np.random.normal(0,1,[5,5]) #Muestreo aleatorio de una distribución normal de media y desviación definidas
print(matRandomNorm)

El subpaquete random es uno de los más útiles que tiene NumPy, puede consultar más de sus funciones [aquí](https://numpy.org/doc/stable/reference/random/index.html?highlight=random#module-numpy.random).

### Comandos útiles para arrays de Numpy

* El concepto de manipulacion de datos en Python se basa casi por completo en el manejo de arreglos de NumPy. La biblioteca de manejo de datos más famosa de Python, Pandas, basa sus DataFrames y Series en arreglos de NumPy.

| Comando | Resultado |
| :---: | :---: |
| [`shape`](https://numpy.org/doc/stable/reference/generated/numpy.shape.html#numpy.shape) | Retorna una tupla con el número de elementos por dimensión|
| [`ndim`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.ndim.html) | Dice el número de dimensiones|
| [`size`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.size.html) | Dice cuántos elementos hay en un arreglo|
| [`dtype`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.dtype.html) | Dice el tipo de datos que guarda un arreglo|
| [`T`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.T.html) | Retorna la transpuesta de un arreglo|
| [`fill`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.fill.html#numpy.ndarray.fill) | Rellena el arreglo con el valor especificado|
| [`reshape`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.reshape.html) | Retorna un arreglo con el shape especificado|
| [`resize`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.resize.html) | Cambia el tamaño y shape del arreglo|

#### Exploración de un arreglo

In [None]:
print('Su arreglo es de la forma', matRandom.shape) #Da dimensiones

In [None]:
print(f'Su arreglo es de {matRandom.ndim} dimensiones') #Da cantidad de dimensiones

In [None]:
print('El tamaño de su arreglo es', matRandom.size) #Da cantidad de elementos en el arreglo

In [None]:
print('Su arreglo guarda datos tipo', matRandom.dtype) #Da tipo de dato que guarda

#### Modificación de un arreglo

In [None]:
vecEj = np.array([1,2,3]) #Vector del ejercicio 1x3
print(vecEj.T)

Parece que devuelte el mismo vector, probemos con shape.

In [None]:
print('El vector del ejercicio era', vecEj.shape)

In [None]:
print('Su transpuesta es', vecEj.T.shape)

¡No podemos transponer vectores en una dimensión! Pero para obtener el vector vertical podemos aplicar un truco.

In [None]:
vecEj2D = np.array([[1,2,3]])

In [None]:
print('El vector del ejercicio era',vecEj2D.shape)

In [None]:
print('Su transpuesta es',vecEj2D.T.shape)

El doble [] hace que el vector que tenemos sea de 2 dimensiones en vez de una, con esto podemos transponerlo y obtener el vector vertical.

In [None]:
print(vecEj2D.T)

In [None]:
valores = np.ones(16)
valores

In [None]:
valores.shape = (4,4)
valores

In [None]:
valores.shape = (2, 8)
valores

Podemos aplicar funciones para que modificar el tamaño o el acomodo del arreglo a nuestra conveniencia, eso se logra con reshape() y resize().

In [None]:
print(vecEj.reshape(3,1)) #Acomoda el arrreglo según las filas y columnas requeridas

En este caso las dimensiones calzan, pero si no entonces la función no podrá hacer el reacomodo. *Ejemplo:* No se puede meter un arreglo 5x5 en un 3x3 ni viceversa.

¿Podríamos lograr hacer algo con resize()?

In [None]:
peq = np.ones(6) #Indicar una sola dimensión hace que suponga que son columnas

print(peq) #Arreglo más pequeño que el resultado

In [None]:
peq.resize(3,3)

print(peq)

In [None]:
gran = np.ones(15)

print(gran) #Arreglo más grande que el resultado

In [None]:
gran.resize(3,3)

print(gran)


### Operaciones con arreglos de NumPy

En NumPy se opera con los vectores como se hace en álgebra lineal.

In [None]:
coeficientes = np.array([[3,2,-1],[2,-2,4],(-1,0.5,-1)]) #Matriz 3x3

print(coeficientes)

In [None]:
print(coeficientes*3) #Multiplica cada entrada por el escalar

In [None]:
print(coeficientes*coeficientes) #Multiplicación de matrices, fila por columna

In [None]:
print(vecEj)
print(vecEj*vecEj) #Mutiplicación de vectores es entrada por entrada

### Slicing de arreglos

* Si tenemos arreglos de una dimensión podemos usar la sintaxis [] como la hemos visto hasta el momento.
* Si tiene más dimensiones entonces debemos indicar la posición en cada dimensión y el slice en cada dimensión. *Ejemplo*: las matrices se indexan como [fila,columna] y el slicing se hace [inicio:final:step,inicio:final:step].

In [None]:
print(coeficientes[1,2]) #Elemento en fila 1 y columna 2

In [None]:
print(coeficientes)

In [None]:
print(coeficientes[1:,1:]) #Elementos en la fila 1 y la columna 1 hacia adelante

## Ejemplo

Cree una función que genera un arreglo de numpy que representa un color.

* Debe usar el formato RGB donde cada entrada del arreglo es un canal.
* Los canales no deben sobrepasar más de 255 ni ser menos de 0.

La función regresa entonces un color aleatorio.

In [None]:
import numpy as np
import random

def generar_color():
    valor_max = 255
    valor_min = 0
    r = random.randint(0, 255)
    g = random.randint(0, 255)
    b = random.randint(0, 255)
    return np.array([r,g,b])

print(generar_color())

## Análisis exploratorio de datos con Pandas

In [None]:
import pandas as pd

In [None]:
cols = ["Artist", "Album", "Danceability", "Tempo"]
spotify_df = pd.read_csv("Spotify_Youtube.csv", usecols=cols)
spotify_df

In [None]:
u2_df = spotify_df[spotify_df["Artist"] == "U2"]
u2_df

In [None]:
u2_df.to_csv("u2.csv")

In [None]:
u2_df.plot.scatter("Tempo","Danceability")

In [None]:
daft_punk_df = spotify_df[spotify_df["Artist"] == "Daft Punk"]
daft_punk_df.plot.scatter("Tempo","Danceability")

In [None]:
u2_df.transpose().transpose()

In [None]:
u2_df

In [None]:
u2_df.at[669, 'Danceability' ] = 0.05

# Ejercicio

Utilice las bibliotecas `pandas` y `numpy` para abrir y explorar algún conjunto de datos que utilice en su investigación. Intente generar gráficos relevantes.  
Investigue sobre biliotecas específicas para su área (ej. BioPython, NLTK, etc).