# Práctica 7

## Integrantes

- García Saavedra Armando
- Mejía Yañez José Ehecatl
- Rodriguez Nuñez Diego Eduardo

### Introducción y Metodología 

Introducción:
El algoritmo de Huffman es un método de compresión de datos que se basa en la construcción de un código binario óptimo para representar diferentes símbolos. Fue desarrollado por David A. Huffman en 1952 y es ampliamente utilizado en la compresión de archivos y transmisión de datos. El algoritmo se basa en una estrategia greedy (voraz) que busca minimizar la longitud promedio del código asignado a cada símbolo.

Metodología resumida:

Obtención de frecuencias: El primer paso consiste en analizar el conjunto de datos que se desea comprimir y determinar la frecuencia de aparición de cada símbolo. Esto puede hacerse mediante un análisis estadístico o un escaneo del archivo.

Creación de nodos: Se crean nodos para cada símbolo, donde cada nodo contiene el símbolo y su frecuencia.

Construcción del árbol: A partir de los nodos, se construye un árbol binario utilizando una estrategia greedy. En cada paso, se seleccionan los dos nodos con menor frecuencia y se combinan en un nuevo nodo padre cuya frecuencia es la suma de las frecuencias de los nodos hijos. Este proceso se repite hasta que solo queda un nodo raíz.

Asignación de códigos: Se asignan códigos binarios a cada símbolo del árbol. Al recorrer el árbol desde la raíz hasta cada hoja, se asigna '0' al camino izquierdo y '1' al camino derecho. Los códigos asignados a los símbolos se basan en el camino desde la raíz hasta la hoja correspondiente.

Generación de la tabla de códigos: Se crea una tabla que mapea cada símbolo a su código binario correspondiente. Esta tabla se utilizará para comprimir y descomprimir los datos.

Compresión: Se recorre el archivo original y se reemplaza cada símbolo por su código binario correspondiente utilizando la tabla generada. Esto produce una versión comprimida del archivo original.

Descompresión: Utilizando la misma tabla de códigos, se recorre el archivo comprimido y se reconstruye el archivo original reemplazando los códigos binarios por los símbolos originales.

El algoritmo de Huffman, al utilizar una estrategia greedy, logra asignar códigos más cortos a los símbolos más frecuentes y códigos más largos a los símbolos menos frecuentes, lo que resulta en una compresión eficiente de los datos.

In [3]:
import pandas as pd
import heapq

class Nodo:
    def __init__(self, symbol, freq, left=None, right=None):
        self.symbol = symbol
        self.freq = freq
        self.left = left
        self.right = right
        self.huff = ''

    def __lt__(self, nxt):
        return self.freq < nxt.freq

def imprimeNodo(nodo, val='', codigos_huffman=[]):
    newVal = val + str(nodo.huff)

    if nodo.left:
        imprimeNodo(nodo.left, newVal, codigos_huffman)
    if nodo.right:
        imprimeNodo(nodo.right, newVal, codigos_huffman)

    if not nodo.left and not nodo.right:
        codigos_huffman.append({
            'Simbolo': nodo.symbol,
            'Frecuencia': nodo.freq,
            'Codigo': newVal
        })

# Obtener la cadena del usuario
cadena = input("Ingrese una cadena: ")

# Crear un diccionario para almacenar las frecuencias de los caracteres
frecuencias = {}

# Calcular las frecuencias de los caracteres en la cadena
for char in cadena:
    if char in frecuencias:
        frecuencias[char] += 1
    else:
        frecuencias[char] = 1

# Crear una lista de nodos utilizando las frecuencias de los caracteres
nodos = []
for symbol, freq in frecuencias.items():
    heapq.heappush(nodos, Nodo(symbol, freq))

# Construir el árbol de Huffman
while len(nodos) > 1:
    left = heapq.heappop(nodos)
    right = heapq.heappop(nodos)

    left.huff = '0'
    right.huff = '1'

    newNodo = Nodo(left.symbol + right.symbol, left.freq + right.freq, left, right)

    heapq.heappush(nodos, newNodo)

# Obtener los códigos Huffman resultantes en forma de lista de diccionarios
codigos_huffman = []
imprimeNodo(nodos[0], codigos_huffman=codigos_huffman)

# Crear un DataFrame con los caracteres, frecuencias y códigos Huffman
df = pd.DataFrame(codigos_huffman)
df


Unnamed: 0,Simbolo,Frecuencia,Codigo
0,D,1,0
1,Y,1,1
2,G,1,100
3,R,1,101
4,E,2,11


## Conclusiones

En conclusión, el algoritmo de Huffman utilizando la estrategia greedy es un método eficaz para la compresión de datos. La construcción de un árbol binario óptimo basado en la frecuencia de los símbolos permite asignar códigos más cortos a los símbolos más frecuentes, lo que resulta en una compresión más eficiente. El proceso de compresión y descompresión se basa en la generación de una tabla de códigos que permite reemplazar los símbolos originales por códigos binarios y viceversa. Este algoritmo ha demostrado ser ampliamente utilizado en la compresión de archivos y transmisión de datos debido a su capacidad para reducir el tamaño de los datos sin perder información. El enfoque greedy utilizado en Huffman asegura que cada decisión tomada durante el proceso de construcción del árbol sea óptima en términos de minimizar la longitud promedio de los códigos asignados. En resumen, el algoritmo de Huffman con estrategia greedy es una herramienta valiosa para la compresión de datos, ofreciendo una alta eficiencia y una relación de compresión significativa.