<a href="https://colab.research.google.com/github/jugernaut/ManejoDatos/blob/main/AlgoritmosBusqueda/05_TablasHash.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<font color="Teal" face="Comic Sans MS,arial">
  <h1 align="center"><i>Tablas de Dispersión (HASH)</i></h1>
  </font>
  <font color="Black" face="Comic Sans MS,arial">
  <h5 align="center"><i>Profesor: M. en C. Miguel Angel Pérez León</i></h5>
  <h5 align="center"><i>Ayudante: Jesús Iván Coss Calderón</i></h5>
  <h5 align="center"><i>Ayudante: Jonathan Ramírez Montes</i></h5>
  <h5 align="center"><i>Materia: Manejo de Datos</i></h5>
</font>

# Introducción

Las **tablas de dispersión o tablas *hash***, son otro tipo de estructura de datos que es empleado ampliamente en el campo de las ciencias. Este tipo de estructura de datos se encarga de mapear un conjunto de valores (values) a su correspondiente llave (key).

Para llevar a cabo dicho mapeo se hace uso de una función conocida como **función hash**.

De igual manera que con las estructuras vistas previamente las tablas *hash* permiten almacenar el tipo de información que se necesite, desde simples valores numéricos, hasta información más compleja.

El principal elemento que define una tabla *hash*, es su función *hash* (función de dispersión), ya que a través de esta función se acceden a los valores almacenados y de esta manera podemos buscar un valor, insertar o eliminar un valor asociado a una llave.

## Usos de tablas Hash

Las tablas *hash* son empleadas en muchas áreas, por ejemplo:

**Bancos**: normalmente los clientes son asociados a una llave (cuenta), de manera tal que se puede acceder a los datos del cliente mediante esta llave.

**Hospitales**: al igual que en un banco, es más sencillo acceder a los datos de un paciente empleando una llave, por ejemplo su RFC o su CURP. De esta manera se accede al historial del paciente empleando una llave, además esta llave esta asociada con uno y solo un paciente. 

**Bases de datos**: de manera general podemos pensar que en la mayoría de las bases de datos los registros almacenados contienen un identificador que funciona como llave y a través de esta llave se accede al valor almacenado en la base de datos.

# Función *Hash*

La función *hash* es la parte más importante en toda tabla de dispersión, ya que dependiendo de la definición de dicha función, será como los valores sean mapeados con sus respectivas llaves.

La función hash puede ser tan variada como la aplicación que se le vaya a dar, sin embargo es necesario que esta función cumpla con ciertas características importantes que mencionaremos a continuación.

## Características 

La función *hash* depende en gran medida del **conjunto de llaves (dominio)** sobre el cual sera definida y también depende del **uso que se le vaya a dar** al la tabla *hash*.

Sin embargo existen 3 propiedades que siempre debe cumplir una función *hash*: 

*   **Debe ser inyectiva** o dicho de otra manera, debe evitar colisiones en la medida de lo posible, es decir. Sea $f$ la función hash, $X$ el conjunto de llaves (dominio) y $Y$ el conjunto de valores (codominio). $$f:X\rightarrow Y\,\,\,\,\forall a,b\in X\,\mid f(a)=f(b)\Rightarrow a=b$$.
*   **No debe involucrar demasiados cálculos**, ya que de otra manera las operaciones sobre la tabla hash incrementan su costo (recursos).
*   **No debe ser posible su reconstrucción** tomando como base la salida de esta.


## Ejemplo función *hash*

El siguiente ejemplo muestra una de muchas formas en como se puede definir la función *hash*, en este ejemplo a la función *hash* le vamos a decir "polinomio de direccionamiento" y se emplea de manera frecuente en las ciencias de la computación.

Supongamos que contamos con la siguiente matriz.

$$Sea\,A\in M_{2x2}=\left(\begin{array}{cc}
3_{(0,0)} & 6_{(0,1)}\\
7_{(1,0)} & 9_{(1,1)}
\end{array}\right)$$

Por razones de espacio en memoria, necesitamos almacenar los elementos de $A$ en un objeto lineal, digamos una lista. De tal manera que los elementos de $A$ se vean así. 

$$\left[\begin{array}{cccc}
3_{0} & 6_{1} & 7_{2} & 9_{3}\end{array}\right]$$

Dicho en otras palabras, **necesitamos mapear las tuplas que representan las posiciones de los valores de $A$ en posiciones dentro de la lista**.

Para llevar a cabo este mapeo necesitamos una función *hash*, que en este caso dicha función debe tomar una tupla que representa la entrada de $A$ y debe devolver una localidad de la lista. Es decir.

$$X=\{(0,0),(0,1),(1,0),(1,1)\},Y=\{0,1,2,3\},f:X\rightarrow Y$$

Nos gustaría que la entrada (0,0) de A fuera mapeada a la localidad 0 de la lista y así sucesivamente hasta llegar a que la entrada (1,1) se mapeara a la localidad 3 del arreglo, es decir

\begin{array}{cc}
f((0,0))=0 & f((0,1))=1\\
f((1,0))=2 & f((1,1))=3
\end{array}

Podríamos pensar que una buena forma de definir a $f$, seria $f((x,y))=x+y$, pero veamos que sucede al probarla.

\begin{array}{c}
f((0,0))=0+0=0.......\color{green}{¡bien!}\\
f((0,1))=0+1=1.......\color{green}{¡bien!}
\end{array}

\begin{array}{c}
f((1,0))=1+0=1.......\color{red}{¡colisi\acute{o}n!}\\
f((0,1))=1=f((1,0))
\end{array}

Dado que se tuvo una colisión, es necesario re-definirla de otra manera menos ingenua. Veamos que sucede si definimos a $f$ de la siguiente manera.

$$f((x,y))=2x+y$$

Al probarla, lo que obtenemos es.\begin{array}{c}
f((0,0))=2*0+0=0\\
f((0,1))=2*0+1=1\\
f((1,0))=2*1+0=2\\
f((1,1))=2*1+1=3
\end{array}

Esta función, no muestra colisiones (al menos en el dominio y codominio definidos), incluso se podría probar que no presentará colisiones para ningún par de tuplas de naturales. Ademas cumple con el resto de las propiedades.

### Forma general del polinomio de direccionamiento

Así que podemos pensar, que para el caso particular de matrices bidimensionales $A_{(i,j)}\in M_{ren\,x\,col}$ podemos definir la función hash que mapea localidades de dicha matriz en una lista (arreglo) unidimensional de la siguiente forma.

$$f((i,j))=col*i+j$$

<center>
<img src="https://github.com/jugernaut/ManejoDatos/blob/desarrollo/Imagenes/AlgoritmosBusqueda/poli.png?raw=1" width="400"> 
</center>

En la imagen podemos ver como se almacena una matriz en localidades de memoria en una computadora, los valores $\{100, 101, ... , 105\}$ representan las localidades de la memoria y los valores $\{X[1,1],X[2,1],...,X[3,2]\}$ representan los valores de la matriz $X$.


# Ventajas y desventajas de una tabla *hash*

Ya que vimos como es que se construye y se utiliza una tabla de dispersión, vamos a analizar sus ventajas y desventajas:

* La principal ventaja es que **el orden de complejidad para isertar, buscar o eliminar en una tabla *hash* es constante**, es decir $O(1)$.

* Si la función *hash* fue definida siguiendo las características que se piden para este tipo de funciones, utilizar una tabla *hash* se vuelve un procedimiento muy **eficiente y seguro**.

* La principal desventaja de una tabla *hash* es el hecho de que **ni las llaves, ni los valores estan obligados a conservar un orden**, así que es difícil ordenar por algún criterio una tabla *hash*.

* Otra desventaja es que **a veces es complicado eviar las colisiones**, así que se tiene que hacer uso de alguna técnica adicional para poder resolver las colisiones.

# Diccionarios en *Python*

Los diccionarios de *Python*, son una de muchas formas de poner en práctica el concepto de tablas *hash*, son muy útiles y faciles de usar.

Además como ya vienen incluidos dentro de las paqueterias de *Python* no hace falta instalar, ni si quiera importar algun paquete para poder hacer uso de los diccionarios.

## Diccionarios

Dado que las tablas *hash* son muy útiles, la gran mayoría de los lenguajes ya cuenta con alguna implementación de estas, sin embargo a veces es necesario revisar la documentación para poder hacer uso de estas implementaciones. 

Por el contrario, *Python* muy a su estilo (*Pythonic way*) cuenta con una implementación (de las muchas que existen) de las tablas *hash* conocida como **diccionarios**. Esta implementación es muy sencilla e intuitiva de utilizar.

La idea detrás de los diccionarios de **Python** es básicamente la misma que la de las tablas *hash*, con la peculiaridad de que el usuario no esta obligado a definir la funcion *hash*.

Es decir que es suficiente con proporcionar la llave y el valor asociado a esta y *Python* se encarga de relacionarlos.

## Sintaxis de los diccionarios

Este tipo de estructuras se emplea principalmente en *data mining* o *big data*, pero no es su único uso, también se puede usar en áreas como *deep learning* o incluso en *natural language processing*. A continuación se muestra un ejemplo de como usar los diccionarios de Python.

* `diccionario = {}`: instrucción para crear un diccionario vacío.

* `diccionario['llave'] = valor`: insertamos una llave y un valor en caso de no existir ó se actualiza el valor asociado a la llave.

* `print(diccionario)`: se imprime el diccionario.

* `del(diccionario[llave])`: borra la llave y valor asociado a esta.

* `diccionario.clear()`: borra todas las llaves y valores dentro del diccionario.

## Ejemplo diccionarios *Python*

Para el siguiente ejemplo vamos a usar el archivo *ManejoDatos9180.txt* que hemos usado en ocasiones previas.

La diferencia principal es que en esta ocasión vamos a usar diccionarios para almacenar los datos de los alumnos, en lugar de usar una clase para almacenar estos datos.

In [None]:
!wget https://raw.githubusercontent.com/jugernaut/ManejoDatos/desarrollo/utils/ManejodeDatos9180.txt

--2021-11-19 00:15:38--  https://raw.githubusercontent.com/jugernaut/ManejoDatos/desarrollo/utils/ManejodeDatos9180.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 3103 (3.0K) [text/plain]
Saving to: ‘ManejodeDatos9180.txt’


2021-11-19 00:15:38 (31.5 MB/s) - ‘ManejodeDatos9180.txt’ saved [3103/3103]



Una vez que tenemos el archivo en la sesión de *Google Colab*, ahora necesitamos leerlo y usando *regex* vamos a capturar los datos de los alumnos en un diccionario y posteriormente mostramos el contenido de los diccionarios.

In [None]:
import re
# se abre el archivo
archivo = open("ManejodeDatos9180.txt")
# patron para el nombre
apellido1 = "\d+\s+[áéíóúA-Za-zñÑ]+"
# patron para telefono
telefono = "\d+-\d*-\d*-*\d*"

# eliminamos la prime linea del archivo
archivo.readline()

# creamos una lista vacia donde guardaremos los diccionarios
alumnos = []

# leemos cada una de las lineas y usando un determinado patron
# se capturan numbre completo, carrera, correo y telefono
for linea in archivo:
  alumnos.append({"nombre":re.findall(apellido1, linea), "telefono":re.findall(telefono, linea)})

# imprimimos cada uno de los diccionarios que representa a cada alumno
for alumno in alumnos:
  print(alumno)

{'nombre': ['1\tAlemán'], 'telefono': ['44-635-28-288']}
{'nombre': ['2\tAmador'], 'telefono': ['55-640-83-871']}
{'nombre': ['3\tAmaro'], 'telefono': ['55-4977-6159']}
{'nombre': ['4\tCabrera'], 'telefono': ['55-477-61-948']}
{'nombre': ['5\tCazares'], 'telefono': ['55-539-42-382']}
{'nombre': ['6\tContreras'], 'telefono': ['55-399-75-350']}
{'nombre': ['7\tDorantes'], 'telefono': ['55-128-98-209']}
{'nombre': ['8\tDurán'], 'telefono': ['333-72-554-55']}
{'nombre': ['9\tEnríquez'], 'telefono': ['55-782-67-957']}
{'nombre': ['10\tFlores'], 'telefono': ['55-665-72-227']}
{'nombre': ['11\tGarcés'], 'telefono': ['55-244-10-361']}
{'nombre': ['12\tGarcía'], 'telefono': ['46-928-422-65']}
{'nombre': ['13\tGarcía'], 'telefono': ['55-580-24-293']}
{'nombre': ['14\tGómez'], 'telefono': ['55-789-33-403']}
{'nombre': ['15\tGónzalez'], 'telefono': ['55-907-91-129']}
{'nombre': ['16\tGuevara'], 'telefono': ['55-121-67-977']}
{'nombre': ['17\tGúzman'], 'telefono': ['55-970-28-624']}
{'nombre': ['18

## Contador de palabras

En esta ocasión vamos a usar los diccionarios de *Python* para contar la frecuencia de las palabras en un determinado texto.

Para tal fin vamos a agregar a la sesión de *Google Colab* el texto del cual queremos contar la aparición de las palabras.



In [1]:
!wget https://raw.githubusercontent.com/jugernaut/ManejoDatos/desarrollo/utils/inteligencia.txt

--2021-11-23 06:17:38--  https://raw.githubusercontent.com/jugernaut/ManejoDatos/desarrollo/utils/inteligencia.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 3439 (3.4K) [text/plain]
Saving to: ‘inteligencia.txt’


2021-11-23 06:17:38 (42.4 MB/s) - ‘inteligencia.txt’ saved [3439/3439]



Ya con el texto en la sesión de *Google Colab* lo siguiente es utilizar los diccionarios de *Python* para usar las palabras dentro del texto como llaves y la aparición de las palabras en el texto como valores.

In [3]:
# bibliotecas utilizadas
import re
from collections import Counter

def data_mining(ruta):
  #abrimos el archivo a leer
  archivo = open(ruta)
  
  # se gudarda en una variable el resultado de leer el archivo
  cadenota = archivo.read()
  
  # generamos una lista con las palabaras utilizando el espacio en blanco
  # como patron delimitador para obtener cada una de las palabras
  lista_palabras = re.split('\s+', cadenota)
  
  # se crea un diccionario para contar la frecuencia de las palabras
  diccionario = {}

  # contamos la frecuencia de cada palabra
  for palabra in lista_palabras:
    # cada palabra es agregada al diccionario, si ya se tiene tal llave se suma 1
    # en caso de no existir dicha palabra se devuelve cero. En cualquier caso
    # se suma uno por cada vez que aparezca dicha palabra
    diccionario[palabra] = diccionario.get(palabra, 0) + 1
      
  # antes de procesar la cadenota deberia pasar un proceso de limpieza en el
  # cual mediante regex se eliminaran palabras muy frecuentes como articulos
  print(diccionario)

  # usando el paquete collections podemos ordenar el diccionario, a pesar
  # de que no es una cualidad de los diccionaros
  contador = Counter(diccionario)
  diccionarioOrdenado = contador.most_common()

  # Se imprime el diccionario ordenado para saber facilmente de que trato el
  # el texto de la cadenota
  print(diccionarioOrdenado)

if __name__ == "__main__":
  # ruta donde se ubica el texto a analiza
  data_mining("inteligencia.txt")

{'Ahora': 1, 'que': 17, 'ya': 1, 'conoce': 1, 'la': 14, 'definición': 1, 'de': 51, 'IA': 2, 'y': 12, 'más': 2, 'su': 4, 'historia,': 1, 'mejor': 1, 'forma': 1, 'profundizar': 1, 'en': 15, 'el': 9, 'tema': 1, 'es': 5, 'conocer': 1, 'las': 5, 'principales': 1, 'técnicas': 1, 'IA,': 1, 'específicamente,': 1, 'los': 10, 'casos': 2, 'Inteligencia': 1, 'artificial': 1, 'se': 9, 'utiliza': 2, 'para': 6, 'negocios.': 1, 'Aprendizaje': 10, 'automático': 6, 'Generalmente,': 1, 'concepto': 3, 'confunde': 1, 'con': 3, '“IA': 1, 'débil”.': 1, 'Es': 3, 'este': 1, 'campo': 1, 'donde': 1, 'avances': 1, 'importantes': 1, 'están': 2, 'llevando': 1, 'a': 4, 'cabo.': 1, 'En': 1, 'términos': 1, 'prácticos,': 1, '“el': 1, 'ciencia': 1, 'encarga': 1, 'hacer': 2, 'computadoras': 1, 'realicen': 1, 'acciones': 1, 'sin': 1, 'necesidad': 1, 'programación': 1, 'explícita”.': 1, 'La': 3, 'idea': 2, 'principal': 2, 'aquí': 1, 'les': 1, 'puede': 2, 'proporcionar': 1, 'datos': 3, 'algoritmos': 4, 'luego': 1, 'usarlos'

La primera lista representa el diccionario con el siguiente formato *'palabra':frecuencia* y la segunda lista, es el diccionario en forma de tuplas pero ya ordenadas de por frecuencia en orden decreciente.

De tal manera que podemos apreciar que la palabra que más aparece en el texto *inteligencia.txt* (descontando artículos, pronombres y preposiciones) es **Aprendizaje**.

## Carrito de compras en linea (Black Friday 🙀)

En este ejemplo vamos a usar los diccionarios de *Python* como catalogo para los artículos que los usuarios agregan a su carro de compras con la finalidad de saber cual es el costo total de los artículos para un determinado cliente.

In [21]:
import time

# clase que ayuda a contener el nombre y articulos que compra un cliente
class Cliente(object):

  def __init__(self, nombre):
    # nombre del cliente
    self.nombre = nombre
    # articulos que compro el cliente
    self.carrito = []

# clase que simula el cobro que llevaria a cabo una empresa de compras en linea
class Amazon(object):

  # VARIABLE DE CLASE O ESTATICA
  # diccionario con el catalogo de articulos y su precio
  catalogo = {'PS5':10000, 'Audifonos':2500, 'Halo':1500, 'HDD':900, 
              'Laptop':25000, 'GTX1000':6000, 'SmartWatch':7500}

  def __init__(self, nombre):
    self.nombre = nombre

  # metodo que simula el cobro de un cliente
  def cobrar(self, cliente):
    # se revisa el carrito del cliente y el catalogo
    total = 0
    # cada articulo se cobra
    for articulo in cliente.carrito:
      print('Se cobra :',articulo, self.catalogo[articulo])
      # se hace una pausa de 2 segundos para simular el cobro
      time.sleep(2)
      # total almacena el total de los articulos del cliente
      total += self.catalogo[articulo]
    print('Total del cliente', cliente.nombre,':', total)


if __name__ == "__main__":
  cliente1 = Cliente('Mike')
  cliente1.carrito = ['PS5', 'SmartWatch', 'Audifonos']

  amazon = Amazon('cobrador 1')
  amazon.cobrar(cliente1)

  cliente2 = Cliente('Ivan')
  cliente2.carrito = ['GTX1000', 'HDD', 'GTX1000', 'Laptop']

  amazon.cobrar(cliente2)

  cliente3 = Cliente('Jonathan')
  cliente3.carrito = ['Laptop', 'PS5', 'Audifonos', 'Halo', 'HDD',
                      'GTX1000', 'SmartWatch']

  amazon.cobrar(cliente3)


Se cobra : PS5 10000
Se cobra : SmartWatch 7500
Se cobra : Audifonos 2500
Total del cliente Mike : 20000
Se cobra : GTX1000 6000
Se cobra : HDD 900
Se cobra : GTX1000 6000
Se cobra : Laptop 25000
Total del cliente Ivan : 37900
Se cobra : Laptop 25000
Se cobra : PS5 10000
Se cobra : Audifonos 2500
Se cobra : Halo 1500
Se cobra : HDD 900
Se cobra : GTX1000 6000
Se cobra : SmartWatch 7500
Total del cliente Jonathan : 53400


### Puntos Importantes

En este ejemplo podemos ver como se usan los diccionarios de *Python* como catalogo para los precios de los artículos y como es que los objetos acceden a este catalogo para poder realizar el cobro correcto de los artículos en el carrito de compras.

Sin embargo más allá del uso de los diccionarios hay 2 cosas importantes que se pueden resaltar: 

* **Variables estáticas o compartidas**: El `catalogo` en la clase `Amazon` en realidad es una variable de clase, lo que significa que esa variable es la misma para todos los objetos de la clase `Amazon`. Esto además de ser coherente con lo que sucede en la realidad, también ayuda a ahorrar memoria, ya que no es necesario tener un catalogo por cada objeto de tipo `Amazon` y basta con un solo catalogo para todos. 
* `time.sleep()`: Esta función nos ayuda a detener la ejecución del código un par de segundos con la finalidad de "simular" el cobro de los artículos. Sin embargo esta función lo que hace es detener el **hilo de ejecución** del algoritmo, tema que veremos más adelante, pero eso nos hace pensar, **¿Si hubieran más objetos de tipo `Amazon`, el cobro de los clientes se podría realizar en paralelo?.**





# Referencias

*  Thomas H. Cormen: Introduction to Algorithms.
* Libro Web: Introduccion a Python.
* Daniel T. Joyce: Object-Oriented Data Structures.
* John C. Mitchell: Concepts in programing Languages.