<a href="https://colab.research.google.com/github/jugernaut/MexSIAM/blob/main/Ejercicios/RepresentacionDeDatos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<font color="Teal" face="Comic Sans MS,arial">
  <h1 align="center"><i>Rrepresetación de Datos</i></h1>
  </font>
  <font color="Black" face="Comic Sans MS,arial">
  <h5 align="center"><i>Profesor: M. en C. Miguel Angel Pérez León</i></h5>
</font>

## Las siguientes lineas son de apoyo para que ustedes sólo procesen los ejercicios

**Es necesario ejecutar las siguientes celdas, de otra forma no podrás realizar los ejercicios.**

In [None]:
# bibliotecas de evaluacion automatizada
import numpy as np   
from macti.evaluacion import Evalua
evaluacion = Evalua('../../../MexSIAM/Ejercicios/utils/data/Diccionarios', local=True)

# Introducción

Una de las aplicaciones más comúnes que se le da al aprendizaje automaizado, es la clasificación de documentos (facturas, demandas, notas, etc.) y para ellos es necesario encontrar una forma de "mapear" un documento de texto en "algo" que pueda ser procesado y clasificado por una red neuroal.

Ese algo toma el nombre de **vector característico** y simplemente consiste en encontrar una forma de representar a cada elemento de este espacio multidimensional mediante un vector.

## Plantemaniento del problema

Supongamos que se tiene una empresa (caso real) que se dedica a la digitalización de documentos y como servicio agregado desea clasificar cada uno de los documentos que digitaliza.

La idea es usar algún mecanismo de clasificación automatizada para poder llevar a cabo la labor.

# Diccionario

El primer paso consiste en identificar cada una de las palabras que puede aparecer en los documentos a clasificar (espacio vectorial), a este conjunto de palabras se le conoce como **diccionario**.

Esta labora es relativamente sencilla de realizar gracias a una estructura de datos conocida como *tablas hash* y una de sus implementaciones en *python* se conoce como diccionarios y se representa mediante el símbolo "{}".

A continuación se listan algunos características impor tantes de las *tablas hash".

## Características 

La función *hash* depende en gran medida del **conjunto de llaves (dominio)** sobre el cual sera definida y también depende del **uso que se le vaya a dar** al la tabla *hash*.

Sin embargo existen 3 propiedades que siempre debe cumplir una función *hash*: 

*   **Debe ser inyectiva** o dicho de otra manera, debe evitar colisiones en la medida de lo posible, es decir. Sea $f$ la función hash, $X$ el conjunto de llaves (dominio) y $Y$ el conjunto de valores (codominio). $$f:X\rightarrow Y\,\,\,\,\forall a,b\in X\,\mid f(a)=f(b)\Rightarrow a=b$$.
*   **No debe involucrar demasiados cálculos**, ya que de otra manera las operaciones sobre la tabla hash incrementan su costo (recursos).
*   **No debe ser posible su reconstrucción** tomando como base la salida de esta.


## Ejemplo función *hash*

El siguiente ejemplo muestra una de muchas formas en como se puede definir la función *hash*, en este ejemplo a la función *hash* le vamos a decir "polinomio de direccionamiento" y se emplea de manera frecuente en las ciencias de la computación.

Supongamos que contamos con la siguiente matriz.

$$Sea\,A\in M_{2x2}=\left(\begin{array}{cc}
3_{(0,0)} & 6_{(0,1)}\\
7_{(1,0)} & 9_{(1,1)}
\end{array}\right)$$

Por razones de espacio en memoria, necesitamos almacenar los elementos de $A$ en un objeto lineal, digamos una lista. De tal manera que los elementos de $A$ se vean así. 

$$\left[\begin{array}{cccc}
3_{0} & 6_{1} & 7_{2} & 9_{3}\end{array}\right]$$

Dicho en otras palabras, **necesitamos mapear las tuplas que representan las posiciones de los valores de $A$ en posiciones dentro de la lista**.

Para llevar a cabo este mapeo necesitamos una función *hash*, que en este caso dicha función debe tomar una tupla que representa la entrada de $A$ y debe devolver una localidad de la lista. Es decir.

$$X=\{(0,0),(0,1),(1,0),(1,1)\},Y=\{0,1,2,3\},f:X\rightarrow Y$$

Nos gustaría que la entrada (0,0) de A fuera mapeada a la localidad 0 de la lista y así sucesivamente hasta llegar a que la entrada (1,1) se mapeara a la localidad 3 del arreglo, es decir

\begin{array}{cc}
f((0,0))=0 & f((0,1))=1\\
f((1,0))=2 & f((1,1))=3
\end{array}

Podríamos pensar que una buena forma de definir a $f$, seria $f((x,y))=x+y$, pero veamos que sucede al probarla.

\begin{array}{c}
f((0,0))=0+0=0.......\color{green}{¡bien!}\\
f((0,1))=0+1=1.......\color{green}{¡bien!}
\end{array}

\begin{array}{c}
f((1,0))=1+0=1.......\color{red}{¡colisi\acute{o}n!}\\
f((0,1))=1=f((1,0))
\end{array}

Dado que se tuvo una colisión, es necesario re-definirla de otra manera menos ingenua. Veamos que sucede si definimos a $f$ de la siguiente manera.

$$f((x,y))=2x+y$$

Al probarla, lo que obtenemos es.\begin{array}{c}
f((0,0))=2*0+0=0\\
f((0,1))=2*0+1=1\\
f((1,0))=2*1+0=2\\
f((1,1))=2*1+1=3
\end{array}

Esta función, no muestra colisiones (al menos en el dominio y codominio definidos), incluso se podría probar que no presentará colisiones para ningún par de tuplas de naturales. Ademas cumple con el resto de las propiedades.

### Forma general del polinomio de direccionamiento

Así que podemos pensar, que para el caso particular de matrices bidimensionales $A_{(i,j)}\in M_{ren\,x\,col}$ podemos definir la función hash que mapea localidades de dicha matriz en una lista (arreglo) unidimensional de la siguiente forma.

$$f((i,j))=col*i+j$$

<center>
<img src="https://github.com/jugernaut/ManejoDatos/blob/desarrollo/Imagenes/AlgoritmosBusqueda/poli.png?raw=1" width="400"> 
</center>

En la imagen podemos ver como se almacena una matriz en localidades de memoria en una computadora, los valores $\{100, 101, ... , 105\}$ representan las localidades de la memoria y los valores $\{X[1,1],X[2,1],...,X[3,2]\}$ representan los valores de la matriz $X$.


# Ventajas y desventajas de una tabla *hash*

Ya que vimos como es que se construye y se utiliza una tabla de dispersión, vamos a analizar sus ventajas y desventajas:

* La principal ventaja es que **el orden de complejidad para insertar, buscar o eliminar en una tabla *hash* es constante**, es decir $O(1)$.

* Si la función *hash* fue definida siguiendo las características que se piden para este tipo de funciones, utilizar una tabla *hash* se vuelve un procedimiento muy **eficiente y seguro**.

* La principal desventaja de una tabla *hash* es el hecho de que **ni las llaves, ni los valores están obligados a conservar un orden**, así que es difícil ordenar por algún criterio una tabla *hash*.

* Otra desventaja es que **a veces es complicado evitar las colisiones**, así que se tiene que hacer uso de alguna técnica adicional para poder resolver las colisiones.

# Diccionarios en *Python*

Los diccionarios de *Python*, son una de muchas formas de poner en práctica el concepto de tablas *hash*, son muy útiles y fáciles de usar.

Además como ya vienen incluidos dentro de las paqueterias de *Python* no hace falta instalar, ni si quiera importar algun paquete para poder hacer uso de los diccionarios.

## Diccionarios

Dado que las tablas *hash* son muy útiles, la gran mayoría de los lenguajes ya cuenta con alguna implementación de estas, sin embargo a veces es necesario revisar la documentación para poder hacer uso de estas implementaciones. 

Por el contrario, *Python* muy a su estilo (*Pythonic way*) cuenta con una implementación (de las muchas que existen) de las tablas *hash* conocida como **diccionarios**. Esta implementación es muy sencilla e intuitiva de utilizar.

La idea detrás de los diccionarios de **Python** es básicamente la misma que la de las tablas *hash*, con la peculiaridad de que el usuario no esta obligado a definir la funcion *hash*.

Es decir que es suficiente con proporcionar la llave y el valor asociado a esta y *Python* se encarga de relacionarlos.

## Sintaxis de los diccionarios

Este tipo de estructuras se emplea principalmente en *data mining* o *big data*, pero no es su único uso, también se puede usar en áreas como *deep learning* o incluso en *natural language processing*. A continuación se muestra un ejemplo de como usar los diccionarios de *Python*.

* `diccionario = {}`: instrucción para crear un diccionario vacío.

* `diccionario['llave'] = valor`: insertamos una llave y un valor en caso de no existir ó se actualiza el valor asociado a la llave.

* `print(diccionario)`: se imprime el diccionario.

* `del(diccionario[llave])`: borra la llave y valor asociado a esta.

* `diccionario.clear()`: borra todas las llaves y valores dentro del diccionario.

## Ejemplo diccionarios *Python*

Para el siguiente ejemplo vamos a usar el archivo *ManejoDatos9180.txt* que hemos usado en ocasiones previas.

La diferencia principal es que en esta ocasión vamos a usar diccionarios para almacenar los datos de los alumnos, en lugar de usar una clase para almacenar estos datos.

In [None]:
!wget https://raw.githubusercontent.com/jugernaut/ManejoDatos/desarrollo/utils/ManejodeDatos9180.txt

Una vez que tenemos el archivo en la sesión de *Google Colab*, ahora necesitamos leerlo y usando *regex* vamos a capturar los datos de los alumnos en un diccionario y posteriormente mostramos el contenido de los diccionarios.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

# Vector Característico

Supongamos que uno de los documentos que necesitamos clasificar de manera automática es el documento "inteligencia.txt".

Para poder clasificarlo de manera tradicional (a mano) una forma de hacerlo es, leer palabra por palabra y contar la **frecuencia** de cada una de estas palabras. Probablemente para un par de documentos sea algo asequible procesarlos de esta forma pero para miles de documentos, estos se vuelve una tarea imposible.

Lo ideal es usar los diccionarios de *pthon* y dejar que ellos se encarguen.

## Contador de palabras

En esta ocasión vamos a usar los diccionarios de *Python* para contar la frecuencia de las palabras en un determinado texto.

Para tal fin vamos a agregar descarar el texto del cual queremos contar la aparición de las palabras.



In [None]:
!wget https://raw.githubusercontent.com/jugernaut/ManejoDatos/desarrollo/utils/inteligencia.txt

Ya con el texto en la sesión de lo siguiente es utilizar los diccionarios de *Python* para usar las palabras dentro del texto como llaves y la aparición de las palabras en el texto como valores.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

# Obtener el vector característico

Considerando la función `data_mining(ruta)` que devuelve el diccionario con la frecuencia de las palabras en el documento ubicado en `ruta` modifica el resultado de la función `data_mining(ruta)` para obtener solo un vector con la frecuencia de las palabras, el resultado debería ser similar a lo siguiente `[51, 17, 15, 14, 12, 10, 10, 10, 9, 9, 6, 6, 5, 5, 5, 4, 4, 4, 4, 4, 3, 3, 3, 3, 3, 3, 3, 3, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,....]` donde cada una de las entradas de este vector es la frecuencia de las palabras.

In [None]:
import numpy as np

vector_caracteristico = []

# YOUR CODE HERE
raise NotImplementedError()

In [None]:
evaluacion.verifica(np.array(vector_caracteristico), 1)

La primera lista representa el diccionario con el siguiente formato *'palabra':frecuencia* y la segunda lista, es el diccionario en forma de tuplas pero ya ordenadas de por frecuencia en orden decreciente.

De tal manera que podemos apreciar que la palabra que más aparece en el texto *inteligencia.txt* (descontando artículos, pronombres y preposiciones) es **Aprendizaje**.

Dependiendo de como haya sido definido el diccionario global, esta lista sería el **vector caractistico** de este documento, es decir es un vector que lo representa y mediante el cual puede ser procesado por un *SOM*(igual que los colores) como se vio en la presentación pasada.

## Ley de Zipf

La ley de Zipf es una ley empírica que describe la relación entre la frecuencia y el rango de las palabras en un texto o en un idioma. Según esta ley, la frecuencia de una palabra es inversamente proporcional a su rango, es decir, la palabra más usada tiene una frecuencia dos veces mayor que la segunda más usada, tres veces mayor que la tercera más usada, y así sucesivamente. Esta ley se cumple en la mayoría de las lenguas naturales y artificiales, y también se aplica a otros fenómenos sociales y matemáticos .

# Preprocesamiento de datos

Siempre es muy útil "eliminar el ruido" que pueda haber en los datos a procesar. Con los documentos diitalizados, eso significa eliminar las palabras que no sean legibles y para las imagenes eso significa eliminar los pixeles que no puedan ser identificados.

El preprocesamiento puede ser de diferentes formas, en el caso de las imágenes eso significa pasarlas a escala de grises para que puedan ser procesadas de mejor manera.

# Referencias

*  Thomas H. Cormen: Introduction to Algorithms.
* Libro Web: Introduccion a Python.
* Daniel T. Joyce: Object-Oriented Data Structures.
* John C. Mitchell: Concepts in programing Languages.