# Lab 5: Conjuntos y Módulos

## 5.1. Conjuntos
La teoría de conjuntos es una rama de la lógica matemática que estudia las colecciones de objetos y es parte integral de las matemáticas modernas. 
En lo que nos atañe, los miembros de los conjuntos pueden ser cualquier cosa, por ejemplo: números, caracteres, palabras, nombres, letras, listas e incluso otros conjuntos. 

![imagen de conjuntos](img/conjuntos.png)

Los representantes de los conjuntos en Python son las colecciones **set** (conjunto) y **frozenset** (conjunto congelado). Los conjuntos son colecciones **desordenadas** de elementos **únicos** (no puede haber dos elementos iguales), así que a diferencia de las listas, no podrán contener múltiples ocurrencias del mismo elemento (por ejemplo la misma cadena).

Para crear un conjunto en Python, vamos a usar la función built-in **set()** o las llaves {}, a la que le pasaremos como argumento una secuencia:

In [None]:
#Para crear un conjunto podemos usar una cadena:
x = set("Esto son los elementos")
print(x) #Los conjuntos no tienen orden!

#O bien una lista
y = set(["Azul", "Negro", "Blanco"])
print(y)


Fíjate lo que ha pasado en el conjunto x: Los elementos se han desordenado y por ejemplo la letra "o" sólo aparece una vez, aunque en la frase original había más de una. Esto es porque la comparación 'o' == 'o' devuelve True, o lo que es lo mismo, los objetos son iguales.
Siguiendo la misma lógica, ¿qué pasaría con las tuplas?

In [None]:
ciudades = set(("Salamanca", "Bilbao", "Barcelona", "Cáceres", "Zamora", "Gijón", "Salamanca")) #usando set()
print(ciudades) # la segunda aparición de Salamanca también es rechazada.
ciudades_bis = {"Salamanca", "Bilbao", "Coruña"} # usando llaves
print(ciudades_bis)

### 5.1.1. Los conjuntos sólo admiten objetos inmutables
Los conjuntos por defecto no permiten incluir objectos mutables como elementos debido al hecho de que serían muy costosos de mantener en memoria. Si algo puede mutar en cualquier momento, todo el conjunto debería ser reevaluado para comprobar que es consistente. En el caso de listas, y por las razones que vimos en sesiones anteriores, esto sería especialmente complicado.

Esta es la razón por la que no se pueden incluir listas como elementos:

In [None]:
ciudades_2 = set((("Salamanca", "Bilbao"), ("Barcelona", "Madrid", "Zamora")))
print(ciudades_2)
ciudades_3 = set((["Salamanca", "Bilbao"], ["Barcelona", "Madrid", "Zamora"])) #OPPPS!

### 5.1.2. Operaciones
Como es de esperar, los conjuntos, como el resto de colecciones que hemos visto a lo largo del curso, también soportan operaciones que detallamos a continuación:

### Añadir, quitar, modificar

In [None]:
### add(elemento)
## Un método que añade un elemento, que tiene que ser inmutable, a un conjunto.
colores = {"rojo", "amarillo", "azul"}
print("colores vale: ", colores)
print("añado 'verde'")
colores.add("verde")
print("colores vale: ", colores)
print("añado 'rojo'")
colores.add("rojo")
print("colores vale: ", colores)

In [None]:
### clear()
## Elimina todos los elementos del conjunto
ciudades_5 = {"Salamanca", "Zamora", "León", "Palencia"}
ciudades_5.clear()
print(ciudades_5)

In [None]:
### copy()
## Crea una copia superficial del conjunto.
ciudades_6 = {"Valladolid", "Teruel", "Albacete"}
ciudades_6_copia = ciudades_6.copy()
ciudades_6_copia_bis = ciudades_6
ciudades_6.clear()

##Qué pasa aqui??
print(ciudades_6_copia)
print(ciudades_6_copia_bis)

In [None]:
### difference()
## Devuelve la diferencia entre dos o mas conjuntos en un nuevo conjunto
x = {"a", "b", "c", "d", "e"}
print("x vale: ", x)
y = {"b", "c"}
print("y vale: ", y)
z = {"c", "d"}
print("z vale: ", z)
print()
print('x - y = ', x.difference(y))
print('y - x = ', x.difference(y))

## O simplemente usando el operador -
print('x - y = ', x - z)

In [None]:
### difference_update()
## Igual que difference(), salvo que al conjunto que 
## ejecuta este método se le sustraen los elementos de un segundo conjunto, quedando así modificado
## Se puede interpretar como x = x - y (x-=y)
x = {"a", "b", "c", "d", "e"}
print("x vale: ", x)
y = {"b", "c"}
print("y vale: ", y)

x.difference_update(y) #operación in-place
print("x.difference_update(y) = ", x)


In [None]:
### remove() y discard()
## Para eliminar objetos de un conjunto usaremos estas dos funciones.
## La diferencia entre ambos es que remove() lanza una excepción si el elemento dado no existe en el conjunto!
x = {"a","b","c","d","e"}
print("x vale: ", x)
print('Hago x.remove("a")')
x.remove("a")
print("x vale: ", x)

a = x.pop()
print("x.pop() = ", a)
print("x vale: ", x)

In [None]:
print('x.remove("c")')
x.remove("c") # más rápido pero no comprueba existencia (lanza excepción)
print("x vale: ", x) 

In [None]:
print('x.remove("c")')
x.discard("c") # menos rápido pero más seguro
print("x vale: ", x) 

### Operaciones con conjuntos

In [None]:
### union() e intersection()
## Devuelven la unión y la intersección de dos conjuntos.
x = {"a","b","c","d","e"}
print("x vale: ", x) 
y = {"c","d","e","f","g"}
print("y vale: ", y)
print("x | y = ", x | y) # o x.union(y)
print("x & y = ", x & y) # o x.intersection(y)

In [None]:
### isdisjoint(), issubset(), issuperset()
## Devuelven True o False dependiendo de si el conjunto que el conjunto sobre el que se invoca el método es
## disjunto con el conjunto que se pasa como parámetro o es subconjunto o superconjunto del mismo, respectivamente.
x = {"a","b","c","d","e"}
print("x vale: ", x) 
y = {"f", "g"}
print("y vale: ", y) 
z = {"a", "b"}
print("z vale: ", z) 

print('x e y son disjuntos? ' + str(x.isdisjoint(y)))
print('z es un subconjunto de x? ' + str(z.issubset(x)))
print('x es un subconjunto de si mismo? ' + str(x.issubset(x)))
print('x es un superconjunto de si mismo? ' + str(x.issubset(x)))

##Los subconjuntos/superconjuntos propios son aquellos subconjuntos/superconjuntos de un conjunto dado que no son dicho conjunto.
##Para expresar esto en python usaremos los símbolos mayor (>) y menor (<) estrictos.
##Mayor o igual (>=) o menor o igual (<=) son equivalentes a issuperset y issubset respectivamente.

print('x es un subconjunto propio de si mismo? ' + str((x < x)))
print('y es un superconjunto propio de si mismo? ' + str(x > x))



### Ejercicio 1
Usando el fichero covid-samples.fasta, calcula, empleando conjuntos, los alfabetos usado en cada una de las secuencias. Después, calcula la intersección entre todas las combinaciones de los alfabetos obtenidos. 
¿Qué secuencias tienen más simbolos en común?

## 5.2. Módulos (o bibliotecas)

De igual manera que las funciones son bloques de código con una función específica, los módulos son conjuntos de funciones y constantes relacionadas temáticamente para desempeñar tareas concretas. En su expresión más básica, son ficheros de código fuente Python (con extensión `.py`) que pueden ser cargados al inicializar un programa. 

Existen dos tipos de módulos: los que forman parte de la distribución de Python y los que no. Los primeros vienen preinstalados y pueden ser usados directamente sin hacer nada más. Los segundos es necesario instalarlos con un gestor de paquetes como [conda](https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-pkgs.html) o [pip](https://docs.python.org/3/installing/index.html) y suelen haber sido creados por terceros. También podremos crear nuestros propios módulos.

Para usar un módulo vamos a hacer uso de la palabra reservada `import <nombredelmodulo>`. Por defecto, Python va a buscar el fichero `<nombredelmodulo>.py` en el mismo directorio donde se esté ejecutando el notebook. Sin embargo, también incluirá rutas típicas en las que `conda` y `pip` suelen instalar paquetes.

### 5.2.1. Módulos estándar
Como hemos apuntado, los módulos estándar de python son separados del núcleo del lenguaje por temas de rendimiento pero se incluyen en todas las distribuciones del lenguaje y pueden ser usados desde cualquier intérprete.

Para ver la lista completa de módulos pincha [aquí](https://docs.python.org/3.5/py-modindex.html). 

Para ilustrar el uso de estos módulos, nos vamos a centrar en dos: [math](https://docs.python.org/3.5/library/math.html#module-math), que incluye funciones matemáticas de uso general e [itertools](https://docs.python.org/3.5/library/itertools.html#module-itertools), que aúna funciones para crear iteraciones eficientes.

In [None]:
import math
#Constante pi
print('La constante PI: ' + str(math.pi))
print('El factorial de 5: ' + str(math.factorial(5)))
print('El máximo común divisor de 14 y 7: ' + str(math.gcd(14, 7)))
print('Redondeo hacia abajo: ' + str(math.floor(11/4)))
print('Redondeo hacia arriba: ' + str(math.ceil(11/4)))

In [None]:
# Forma de importar sólo las funciones que voy a usar. Me evita tener que usar <nombremodulo>.<nombrefuncion>
def print_results(it):
    for i in it:
        print(i)
from itertools import combinations, combinations_with_replacement, permutations, product 

In [None]:
print_results(combinations('ACGT', 2)) #Combinaciones de 2 elementos sin repetición
print()
print_results(combinations('ACGT', 3)) #Combinaciones de 3 elementos sin repetición
print()
print_results(combinations('ACGT', 4)) #Combinaciones de 4 elementos sin repetición
print()
print_results(combinations('ACGT', 5)) #Combinaciones de 5 elementos sin repetición :) 

In [None]:
print_results(combinations_with_replacement('ACGT', 2)) #Combinaciones de 2 elementos con repetición
print()
print_results(combinations_with_replacement('ACGT', 3)) #Combinaciones de 3 elementos con repetición
print()
print_results(combinations_with_replacement('ACGT', 4)) #Combinaciones de 4 elementos con repetición
print()
print_results(combinations_with_replacement('ACGT', 5)) #Combinaciones de 5 elementos con repetición

In [None]:
print_results(permutations('ACGT', 2)) #Permutaciones de 2 elementos
print()
print_results(permutations('ACGT', 3)) #Permutaciones de 3 elementos
print()
print_results(permutations('ACGT', 4)) #Permutaciones de 4 elementos
print()
print_results(permutations('ACGT', 5)) #Permutaciones de 5 elementos

In [None]:
print_results(list(product('ACGT', repeat=2))) #Producto cartesiano de 2x2
print()
print_results(list(product('ACGT', repeat=3))) #Producto cartesiano de 3x3
print()
print_results(list(product('ACGT', repeat=4))) #Producto cartesiano de 4x4
print()
print_results(list(product('ACGT', repeat=5))) #Producto cartesiano de 5x5

### 5.2.2. Instalando módulos

Para utilizar módulos no estándar, es necesario instalarlos primero usando un gestor de paquetes (en este caso pip). 
Existen muchísimas bibliotecas de terceros en python orientadas a infinidad de tareas distintas. 
Algunas interesantes son: 
1. [NumPy](https://numpy.org/) - Orientada a la computación numérica, sobre todo con arrays. Leer artículo en [Nature](https://www.nature.com/articles/s41586-020-2649-2).
2. [SciPy](https://www.scipy.org/) - computación científica.
3. [Pandas](https://pandas.pydata.org/) - análisis de datos.
4. [Altair](https://altair-viz.github.io/) - visualización 
5. [BioPython](https://biopython.org/) - computación con datos biológicos

Como ejemplo, vamos a instalar Altair para crear un diagrama de barras simple con los contenidos en C, G, T y A del genoma del vibrio cholerae:

In [None]:
# Aquí invocamos un comando en la consola de cpg3 (más sobre esto en la asignatura de UNIX)
# para instalar la biblioteca de visualización Altair: https://altair-viz.github.io/
# Reinicia el kernel después de ejecutar este comando!
!pip3 install altair

In [None]:
import altair as alt

data = alt.Data(values= [
    {"a": 'A', 'b': 12}, 
    {"a": 'B', 'b': 15}, 
    {"a": 'C', 'b': 8}, 
    {"a": 'D', 'b': 22}])

alt.Chart(data).mark_bar().encode(
    x='a:N',
    y='b:Q'
)

### 5.2.3. Declarando módulos
Para declarar nuestros propios módulos, bastará con crear un fichero con extensiíon `py` y colocarlo en el mismo directorio desde el que queramos usarlo. 

Como ejemplo, he creado un fichero llamado "misfunciones.py" con 3 funciones y lo he colocado en este mismo directorio. Para usar las funciones incluidas en este fichero, bastará con usar la sentencia `import` como muestro aquí debajo:

In [None]:
import misfunciones
misfunciones.inv_comp('aacctgaccta')

### Ejercicio 2.1
Completa el fichero misfunciones.py con todas las funciones que has creado a lo largo del curso y que creas que pueden serte útiles en el futuro. Trata de ejecutar el código desde este notebook. 

### Ejercicio 2.2
Añade una función a dicho módulo llamada `pinta_frecuencias(secuencia, alfabeto)` que, usando la biblioteca Altair, dibuje un diagrama de barras con las frecuencias absolutas de los elementos del alfabeto que se pase en una secuencia. Prueba tu función al menos con el genoma del vibrio cholerae. 