# Teoría de la Información y la Codificación
## Tarea: Compresión de datos con el método de Huffman


# Autor: 

Rellene la siguiente información:

 - Estudiante (nombre y apellidos): Jorge Gangoso Klöck
 - DNI/NIE/Pasaporte: 49398653N
 - Grupo: 1
 - Curso académico: 2021-2022 



__Yo, como estudiante de la asignatura, aseguro que la elaboración de estos ejercicios ha sido realizada de forma individual, sin incurrir en copias parciales o totales de código fuente o documentación, y acepto las repercusiones que conllevaría si esto no fuese así.__


# Respuestas a las cuestiones teóricas:

## Algoritmo de Huffman - Diseño y Ejemplo

### Diseño

El algoritmo de Huffman es un algoritmo voraz que siempre alcanza una solución óptima considerando como criterio de optimalidad un código de longitud de palabra media mínima*. 
El diseño es sencillo, consiste en tener una lista ordenada de elementos según sus probabilidades de mayor a menor a los que llamaremos nodos hoja. De esa lista tomar los dos elementos con menor probabilidad y convertirlos en un nuevo nodo del árbol conectado a los nodos de menor probabilidad actuales y sustituir en nuestra lista ambos nodos iniciales por el nuevo nodo creado cuya probabilidad es la probabilidad de $nodo1 | nodo2$, es decir, la suma de sus probabilidades.
Repetimos el proceso hasta alcanzar un nodo raíz de $probabilidad = 1$ y lo que hemos alcanzado es un árbol que nos indicará cómo crear nuestro código prefijo.


*Según el criterio de selección de candidatos en el caso de nodos de misma probabilidad se distinguen dos casos, uno que proporciona longitud de palabra media mínima y otra que además proporciona mínima varianza entre las palabras del código. Para obtener el código de mínima varianza se deben priorizar los nodos que menos veces hayan sido utilizados de entre los de menor probabilidad.

### Ejemplo

Partiremos de una fuente sencilla que tiene el siguiente alfabeto S={A,B,C,D} siendo sus probabilidades P={0.5,0.25,0.2,0.05}
Ordenamos los elementos de mayor a menor probabilidad

![img_not_found](imagenes/arbol_tarea3_4.png "Posición Inicial")

A continuación tomamos los de menor probabilidad (C y D) y los unimos en un nodo que contendrá la suma de sus posibilidades, tomaremos como criterio asignarle el valor 0 al nodo hijo superior del nodo y 1 al nodo hijo inferior de ahora en adelante. Más adelante explicaremos la utilidad de ésta nomenclatura de 0's y 1's.

![img_not_found](imagenes/arbol_tarea3_3.png "Paso 1")

En este punto volveríamos a ordenar los nodos por probabilidad pero ya estan ordenados, A siendo el de mayor probabilidad con 0.5, seguido de B con 0.25 y finalmente el nodo $C|D$ con 0.25 también. Nótese que los nodos C y D de forma individual ya no se tienen en cuenta para la construcción del árbol, sólamente se han mantenido por claridad de la explicación.

![img_not_found](imagenes/arbol_tarea3_2.png "Paso 2")

Realizamos el mismo procedimiento tomando ahora el recién creado nodo $B|CD$ o $B|(C|D)$ según se prefiera ver y lo unimos al nodo A que es el único nodo restante, creando un nodo raíz que será el indicativo de que el procedimiento está terminado y tenemos un árbol completo que nos determinará cómo codificar y decodificar cualquier mensaje de esta fuente.

![img_not_found](imagenes/arbol_tarea3_1.png "Paso Final")

## Codificación y Decodificación a partir de un árbol de Huffman

Finalmente tenemos el árbol ya construido como se ha mostrado en la imágen anterior. Veamos a continuación cómo podemos utilizar ese árbol para codificar y decodificar mensajes de nuestra fuente S.
En este paso vamos a utilizar la nomenclatura previamente propuesta y vamos a construir el árbol indicando únicamente los valores asignados a cada nodo hijo y los elementos del alfabeto asociados a los nodos hoja.

![img_not_found](imagenes/arbol_final_tarea3.png "Árbol de Huffman")

### Codificación

Para obtener la codificación de cada símbolo tomamos su nodo hoja y recorremos ascendentemente el árbol hasta llegar al nodo raíz almacenando en una pila los números que representen su nodo en cuestión. Cuando lleguemos al nodo raíz en la pila tendremos los valores de las ramas que debemos tomar para llegar desde ahí al nodo hoja correspondiente. Llamaremos al contenido de dicha pila: "Codificación del símbolo X" y lo representaremos como $C(X) = pila$. Hacemos esto para todos los símbolos de la fuente y obtenemos los siguientes resultados:

1. $C(A) = 0$ 
2. $C(B) = 10$
3. $C(C) = 110$
4. $C(D) = 111$

En este punto es sencillo calcular la longitud de palabra media:

$\sum_{i=1}^{n}l_{i}*P(S_{i})$

Que en nuestro caso da lugar a la fórmula:

$(1*0.5) + (2*0.25) + (3*0.2) + (3*0.05) = 1.75$

Y podemos compararla con la entropía de la fuente:

$\sum_{i=1}^{n}P(S_{i})*log(P(S_{i}))$

Que nos da como resultado:

$-((0.5*log2(0.5) + (0.25*log2(0.25) + (0.2*log2(0.2) + (0.05*log2(0.05)) = 1.68048202372$

Y vemos como son valores muy próximos. El hecho de que no alcance el valor de la entropía no se debe a que sea incorrecto ni no-óptimo, es debido a que no podemos utilizar fracciones de bits para representar un número, lo que sí nos garantiza es que no hay otro código que codifique nuestra fuente con una longitud de palabra media menor a 1.75. Cabe mencionar como comentario que el código de Huffman alcanza el valor de la entropía cuando las probabilidades son todas de la forma $1/(2^k)$

Supongamos pues que queremos codificar la siguiente palabra: "acabada". El proceso es sencillamente ir iterando sobre los elementos de nuestra palabra e ir formando la palabra del código asignando a cada símbolo su correspondiente codificación.

0. acabada
1. 0 c a b a d a 
2. 0 110 a b a d a
3. 0 110 0 b a d a
4. 0 110 0 10 a d a 
5. 0 110 0 10 0 d a 
6. 0 110 0 10 0 111 a 
7. 0 110 0 10 0 111 0 

Y ya tendríamos nuestro mensaje codificado.

### Decodificación

Partimos ahora de una secuencia de 0's y 1's que han sido codificados mediante un árbol de Huffman. En ese caso necesitaremos dicho árbol para decodificarlo (o las probabilidades iniciales para construirlo nosotros mismos) y una vez tenemos el árbol el procedimiento es de lo más sencillo y automático. 

Si leemos un 0, avanzamos por el árbol en la rama marcada con un 0 (En nuestro caso las de los nodos hijo superiores), si leemos un 1 avanzamos por el árbol en la rama marcada con un 1. Siempre que alcancemos un nodo hoja, añadimos el valor que le corresponde a nuestra secuencia decodificada y proseguimos hasta que terminemos de leer la secuencia.

Volviendo a nuestro ejemplo tenemos la secuencia: 011001001110. Pues procedemos a la decodificación:

    1. Leemos un 0, lo cual nos lleva a la rama que lleva al nodo hoja marcado como A, por lo que añadimos A a la solución, volvemos al inicio del árbol y continuamos leyendo (Solución: A)
    2. Leemos un 1, nos movemos por la derecha del árbol y no alcanzamos un nodo hoja
    3. Leemos un 1, nos movemos por la derecha del árbol y no alcanzamos un nodo hoja
    4. Leemos un 0, nos movemos por la izquierda del árbol y alcanzamos el nodo hoja C, lo añadimos a la solución, volvemos al inicio del árbol y continuamos leyendo (Solución: AC)

A partir de este punto para resumir en cada paso mostraremos la secuencia de números hasta alcanzar el siguiente nodo hoja

    5. 0 (Solución: ACA)
    6. 10 (Solución: ACAB)
    7. 0 (Solución: ACABA)
    8. 111 (Solución: (ACABAD)
    9. 0 (Solución: ACABADA)
    
Y con esto alcanzamos el final de la cadena y podemos terminar concluyendo que el mensaje codificado se correspondía a la cadena: "acabada".

In [1]:

#imports
import numpy as np



In [2]:

# Declaración de constantes a usar ( en caso de ser necesario )
fichero = 'quijote.txt' # Ruta al fichero de entrada a leer para crear el árbol


In [34]:

# Función auxiliar. Teniendo como entrada un fichero de texto, lee dicho fichero
# pasando todos los caracteres a mayúsculas. Calcula la frecuencia de cada símbolo (número de veces que aparece)
# y devuelve un diccionario con la probabilidad de que aparezca cada símbolo, o None si error
# Al diccionario se le añade un último símbolo '\0' para que simule el fin de la transmisión
def LeerFicheroDiccionario(nombreFichero):
    
    # Apertura y lectura del fichero de texto.
    text= None
    try:
        with open(nombreFichero, 'r') as f:
            text=f.read()
    except:
        return None
    
    if (text is None or len(text)==0):
        return None

    # Creación del diccionario
    dic= {}
    
    # Recorremos cada caracter en text y lo añadimos al diccionario
    # Si ya existe, se suma +1
    for c in text:
        car= c.upper()
        if (car in dic.keys()):
            dic[car]= dic[car]+1
        else:
            dic[car]= 1
    dic['\0']= 1
    
    # Calculamos las probabilidades
    for k in dic.keys():
        dic[k]= dic[k]/(len(text)+1) # NOTA: El +1 es por el último símbolo de parada '\0' incluido
    return dic


In [35]:

# Lectura de mensajes y sus probabilidades:
dic= LeerFicheroDiccionario(fichero)

# Ejemplo: mostrar el diccionario (comentar/descomentar la siguiente línea)
#print('La fuente tiene ', len(dic), ' símbolos, que son: ', dic)

In [56]:

# Función Huffman: Teniendo como entrada un diccionario de mensajes de la fuente con sus probabilidades,
# genera un árbol de codificación con el método de Huffman. Devuelve este árbol,
# implementado como lista de listas
def Huffman(dic):
    
    # 1. Creación de candidatos, probabilidades y solución
        #1.1 Creación de probabilidades
    probabilidades = list(dic.values())
        #1.2 Creación de candidatos
    candidatos = ''
        #1.2 Creación de solución
    solucion = np.empty((len(dic.keys()), 0)).tolist()
    claves = list(dic.keys())
    for i in range(len(claves)):
        solucion[i].append(claves[i])
    
    # 2. EN el bucle principal:
    while len(solucion) > 1:
        # 2.1 Ordenamos lista de candidatos
        candidatos = sorted(range(len(probabilidades)), key=lambda x: probabilidades[x], reverse=True)
        # 2.2 Cogemos los dos últimos elementos de C   
        index1 = candidatos[len(candidatos)-2]
        index2 = candidatos[len(candidatos)-1]
            #Index1 Siempre tiene que ser mayor que index2 para evitar acceder a elementos inexistentes
        if(index1 < index2):
            temp = index1
            index1 = index2
            index2 = temp
        # 2.3 Creamos nuevo elemento en S. Calculamos la probabilidad del elemento como suma de los dos seleccionados
        P_new_nodo = probabilidades[index1] + probabilidades[index2]
        C_new_nodo = [solucion[index1], solucion[index2]]
        # 2.4 Eliminamos los dos elementos e insertamos el nuevo, tanto en S como en P
        probabilidades.pop(index1)
        probabilidades.pop(index2)
        probabilidades.append(P_new_nodo)
        solucion.pop(index1)
        solucion.pop(index2)
        solucion.append(C_new_nodo)
        
    # Devolvemos solución
    return solucion


In [66]:

# Función que busca un mensaje de la fuente en los nodos hoja del árbol de codificación binario, 
# y devuelve la secuencia de 0'1 y 1's que llevan desde la raíz hasta ese nodo, o None si no se ha encontrado
def CodificarMensaje(arbol, mensaje):
    # Comprobación de nodo hoja
    if(len(arbol) == 1):
        if (arbol[0][0] == mensaje):
            return ''
        else:
            return None
    
    # insertamos 0 para hijo izq
    hijoIzq=CodificarMensaje(arbol[0], mensaje)
    if (hijoIzq is not None):
        return '0'+hijoIzq
    
    # insertamos 1 para hijo dcha
    hijoDcha=CodificarMensaje(arbol[1], mensaje)
    if (hijoDcha is not None):
        return '1'+hijoDcha
    return None



# Función que tiene como entrada una secuencia de mensajes de la fuente y los codifica según un árbol de codificación
# Como salida, da una secuencia (cadena de caracteres) de 0's y 1's con la cadena codificada
def CodificarCadena(arbol, cadena):
    #Hemos tenido que pasar arbol[0] ya que si no, el tamaño del arbol se percibia como la cantidad de nodos raíces = 1
    salida= ''
    for mensaje in cadena:
        x= mensaje.upper()
        salida= salida+CodificarMensaje(arbol[0], x)
        
    # Insertamos el símbolo de parada
    salida= salida+CodificarMensaje(arbol[0], '\0')
    return salida



In [77]:

# Función que tiene como entrada una secuencia, cadena de 0's y 1's y devuelve, como salida
# una cadena con una secuencia de mensajes decodificados por un árbol de codificación
# La función deja de decodificar cuando se termina la secuencia o cuando se decodifica
# el mensaje de parada '\0'
def DecodificaSecuencia(arbol, secuencia):
    salida = ''
    arbol_temp = arbol[0]
    #Vamos leyendo uno a uno los caracteres de la secuencia.
    for x in secuencia:
        #Si hemos alcanzado un nodo terminal añadimos a la solucion el mensaje y volvemos a la raíz
        if(len(arbol_temp) == 1):
            salida = salida + arbol_temp[0]
            arbol_temp = arbol[0]
        #Si es un 0, nos movemos hacia la izquierda en el arbol
        #Si es un 1 nos movemos hacia la derecha en el arbol
        arbol_temp = arbol_temp[int(x)]
    return salida


In [39]:

# Guarda una cadena que contiene una secuencia de 0's y 1's como binario a un fichero dado
# Devuelve True si ok, False en otro caso. También muestra un error por consola si no se pudo guardar
def GuardarFicheroBinario(secuencia, ficheroSalida):
    
    # Si la secuencia no tiene múltiplo de 8 bits, rellenamos con 0's
    secuencia2= secuencia
    resto= np.mod(len(secuencia), 8)
    if (resto != 0):
        for i in range(8-resto):
            secuencia2= secuencia2+'0'

    # Vamos pasando de cadena a binario (int), de 8 en 8 caracteres
    secuenciaInt= []
    for i in range(0, len(secuencia2), 8):    
        datos= secuencia2[i:(i+8)]
        num= int(datos, base=2)
        secuenciaInt.append(num)
    
    # Pasamos la lista de enteros a bytes
    secuenciaBytes= bytes(secuenciaInt)
    
    # Guardamos a fichero
    try:
        with open(ficheroSalida, 'wb+') as f:
            f.write(secuenciaBytes)
                
    except:
        print('Error escribiendo en fichero')
        return False

    return True






# Guarda un fichero binario cuya ruta se da como entrada. Devuelve una cadena de texto con una
# secuencia de 0's y 1's con la representación en binario del fichero.
# Devuelve None si error leyendo
def LeerFicheroBinario(ficheroEntrada):
    
    # Cadena a devolver
    cadena= ''
    
    # Leemos desde fichero
    try:
        with open(ficheroEntrada, 'rb') as f:
            data= f.read(1)
            text= bin(int(data[0]))[2:]
            while (len(text) < 8):
                text= '0'+text
            cadena= cadena + text
            while data:
                data= f.read(1)
                if (data):
                    text= bin(int(data[0]))[2:]
                    while (len(text) < 8):
                        text= '0'+text
                    cadena= cadena+text
                
    except:
        print('Error leyendo fichero')
        return None

    return cadena



# Lee un fichero de texto y devuelve su contenido como cadena de texto.
# Devuelve None en caso de error
def LeerFicheroTexto(ficheroEntrada):
    
    # Cadena a devolver
    cadena= ''
    
    # Leemos desde fichero
    try:
        with open(ficheroEntrada, 'r') as f:
            cadena= f.read()
                
    except:
        print('Error leyendo fichero')
        return None

    return cadena

In [82]:

# Ejemplo

FicheroEntrada= 'TextoAComprimir.txt'
FicheroSalida= 'TextoComprimido.dat'
S= Huffman(dic)
texto= LeerFicheroTexto(FicheroEntrada)
codif=CodificarCadena(S, texto)
GuardarFicheroBinario(codif, FicheroSalida)
cadena= LeerFicheroBinario(FicheroSalida)
decodif= DecodificaSecuencia(S, cadena)
print('¿Es el texto decodificado igual al original?: ', texto == decodif)

print('El texto ocupa ', len(texto), ' bytes.')
print('Si se usase código uniforme para codificar, se requeriría ', len(texto)/8*5, ' bytes.')
print('El texto comprimido requiere.', len(cadena)/8, ' bytes.')


¿Es el texto decodificado igual al original?:  True
El texto ocupa  907  bytes.
Si se usase código uniforme para codificar, se requeriría  566.875  bytes.
El texto comprimido requiere. 472.0  bytes.


In [83]:
print('El texto original es: \n', texto)

El texto original es: 
 AMIGO MIO, NO SEA USTED MAS DISTRAIDO. YA HE OIDO QUE ESTAIS PREPARANDO UNA EXCURSION. SE NOS CONVOCO PARA LA REALIZACION DE ESTOS EXAMENES. OS ESFORZAIS INUTILMENTE YA QUE NO LO LOGRAREIS. ESCUCHENOS, POR FAVOR. PREGUNTALE QUE QUE QUIERE. NO SE PORQUE PIENSO QUE ESCRIBIR DE ESTA MANERA PROBARA QUE MI CAPACIDAD PARA ESCRIBIR MUCHO MAS RAPIDO Y SIN ACENTOS SEA MI UNICA FORMA DE ESCRIBIR MAS RAPIDO EN ESTA PAGINA PERO AUN ASI TENGO QUE SEGUIR COMPROBANDO ESTO Y HAGO ESTE TEXTO PARA COMPROBAR DE NUEVO MIS HABILIDADES Y MI VELOCIDAD ASI QUE SOLO ESTOY PONIENDO PALABRAS O FRASES ALEATORIAS PARA LLENAR SUFICIENTES PALABRAS O LINEAS PARA DARME CUENTA MI VELOCIDAD AL ESCRIBIR ESTE TEXTO Y QUE ASI DE ALGUNA MANERA PONGA UNA BARRA Y TRATAR DE SUPERARLA HACIENDO EL MISMO TEST VARIAS VECES HASTA QUE PUEDA ESCRIBIRLO TODO AUNQUE NO SE SI LLEGARA EL DIA EN QUE PUEDA ESCRIBIR TODO ESTO EN MENOS DE UN MINUTO.



In [85]:
print('El árbol de Huffman es: \n', S)

El árbol de Huffman es: 
 [[[[[[['D'], ['I']], [[[['G'], ['H']], [',']], ['U']]], [' ']], [[[[[[[[[[[['\x00'], ['W']], ['K']], ['X']], [';']], ['\n']], ['J']], ['V']], ['P']], ['C']], ['O']], [[[['B'], ['Q']], ['T']], ['S']]]], [[[['N'], ['R']], ['E']], [[[[[[['Z'], ['.']], ['F']], ['Y']], ['M']], ['L']], ['A']]]]]


In [86]:
print('El texto codificado es: \n', codif)

El texto codificado es: 
 11111001000010001000010100111001000010101000101001100001010010111101111001000110111011011010000000111001111011100100000000010111011011001111000010000001011100000100111000111100100010011010010101000010000001010010110010001110100110101110110111100001011100101000110011010100011111001111100000000010100100011100011100110101000000001010010001110010111000010101100011000001001011110100110000101011100101001010110000100001010101001010100101000111110011110011101111001100110111111010000111000000111010010000101011000001000001010011010111011010101011100110101000000001111110011011000101011111000001001010101110011010111110000101011001110000001110000101110010000110000001101101000011101110011011000011011010011100011110010110010001110100110000101001110101010011101010100010001001111100110100001011111000001001101011101001000110100100010011011000010101110001010010100010101100100111000011110100001010110011100000100101000110011010001000000111000011011111101101001011001000111010010110

In [87]:
print('El texto decodificado a partir del fichero de salida es: \n', decodif)

El texto decodificado a partir del fichero de salida es: 
 AMIGO MIO, NO SEA USTED MAS DISTRAIDO. YA HE OIDO QUE ESTAIS PREPARANDO UNA EXCURSION. SE NOS CONVOCO PARA LA REALIZACION DE ESTOS EXAMENES. OS ESFORZAIS INUTILMENTE YA QUE NO LO LOGRAREIS. ESCUCHENOS, POR FAVOR. PREGUNTALE QUE QUE QUIERE. NO SE PORQUE PIENSO QUE ESCRIBIR DE ESTA MANERA PROBARA QUE MI CAPACIDAD PARA ESCRIBIR MUCHO MAS RAPIDO Y SIN ACENTOS SEA MI UNICA FORMA DE ESCRIBIR MAS RAPIDO EN ESTA PAGINA PERO AUN ASI TENGO QUE SEGUIR COMPROBANDO ESTO Y HAGO ESTE TEXTO PARA COMPROBAR DE NUEVO MIS HABILIDADES Y MI VELOCIDAD ASI QUE SOLO ESTOY PONIENDO PALABRAS O FRASES ALEATORIAS PARA LLENAR SUFICIENTES PALABRAS O LINEAS PARA DARME CUENTA MI VELOCIDAD AL ESCRIBIR ESTE TEXTO Y QUE ASI DE ALGUNA MANERA PONGA UNA BARRA Y TRATAR DE SUPERARLA HACIENDO EL MISMO TEST VARIAS VECES HASTA QUE PUEDA ESCRIBIRLO TODO AUNQUE NO SE SI LLEGARA EL DIA EN QUE PUEDA ESCRIBIR TODO ESTO EN MENOS DE UN MINUTO.

