# Ejercicio EvCont4 (c) - Compresión LZZ7-AUDIO

* Óscar Sementé Solà
* Abdelkarim Azzouguagh Ouniri
* Rodrigo Cabezas Quirós

In [1]:
import math, re

class LZZ7Compressor:
    
    def __init__(self, win, wsld):
        self.win = win
        self.wsld = wsld
        self.win_b = int(math.log2(win))
        self.wsld_b = int(math.log2(wsld))
    
    def __is_power_of_two(self, v):
        return math.log2(v).is_integer()
    
    def __ld_to_bin(self, l, d, useLD):
        """
        Transforma (L, D) a formato binario de longitud fija.
        """
        b_win = lambda x : ''.join(reversed( [str((x >> i) & 1) for i in range(self.win_b)]))
        b_wsld = lambda x : ''.join(reversed( [str((x >> i) & 1) for i in range(self.wsld_b)]))
        if useLD:
            return (l, d)
        return b_win(l) + b_wsld(d)
    
    def __match_pattern(self, slide, inp, useLD):
        """
        Busca un patrón de la ventana de entrada en la ventana deslizante. Si lo encuentra devuelve
        (L, D) en decimal o en formato binario (según valor de 'useLD') y la longitud del patrón
        encontrado. Si no lo encuentra devuelve False y 1 (incremento del offset).
        """
        occ, seqs = [], [inp[:i] for i in range(len(inp), 0, -1)]
        while seqs:
            current = seqs.pop(0)
            occ = [(x.start(0), x.end(0)) for x in re.finditer(current, slide)]
            if occ:
                si, ei = occ[-1]
                return self.__ld_to_bin(len(slide[si:ei]), len(slide) - si, useLD), ei - si
        return False, 1
    
    def compress(self, m, useLD=False):
        """
        Compresión de una string binaria a partir de la configuración del compresor.
        """
        if not self.win <= self.wsld and not len(m) >= self.win + self.wsld:
            """
            Que los bits de conf. sean potencia de 2 no tiene ningún sentido. El ejercicio evaluado en
            clase tenía por parametros 8 y 6 bits. Aplicando la norma de la potencia de 2, con 6 bits no
            funcionaria el algoritmo. Así que hemos aplicado esta política.
            or \ not self.__is_power_of_two(self.win) \ or not self.__is_power_of_two(self.wsld):
            """
            return -1
        # Se aplica método de inserción de bit, para los casos problematicos.
        offset, m = 0, self.__add_insertion_bits(m)
        ret = [m[:self.wsld]]
        while offset + self.wsld + self.win <= len(m):
            # Búsqueda de patrón de la ventana de entrada en la deslizante.
            slide = m[offset:offset + self.wsld]
            inp = m[offset + self.wsld:offset + self.wsld + self.win]
            found, flen = self.__match_pattern(slide, inp, useLD)
            if found:
                # Si se encuentra se añade al retorno.
                ret.append(found)
            else:
                # Si no se guarda el símbolo (en formato (L, D) tal y como especifica el enunciado).
                ret.append(self.__ld_to_bin(1, 1, useLD))
            offset -= -flen
        # Si al acabar quedan bits fuera de las ventanas, se añaden al final de la cadena.
        if offset < len(m):
            ret.append(m[offset + self.wsld:])
        if useLD:
            return ret
        return "".join(ret)
    
    def uncompress(self, m):
        """
        Descompresión de una string binaria a partir de la configuración del compresor.
        """
        ret = m[:self.wsld]
        div = [m[i:i+self.wsld_b+self.win_b] for i in range(self.wsld, len(m), self.wsld_b + self.win_b)]
        lf = lambda x: 2**self.win_b if x == 0 else x
        df = lambda x: 2**self.wsld_b if x == 0 else x
        while div:
            c = div.pop(0)
            if len(c) < self.wsld_b + self.win_b:
                ret = ret + c
            else:
                l, d = lf(int(c[:self.win_b], 2)), df(int(c[self.win_b:], 2))
                ret = ret + ret[len(ret) - d: len(ret) + l - d]
        return self.__remove_insertion_bits(ret)
    
    def __add_insertion_bits(self, m):
        """
        Aplica método de inserción de bit para las entradas con un solo carácter.
        """
        asd = [m[i:i + self.wsld - 1] for i in range(0, len(m), self.wsld - 1)]
        opposite = lambda x: "0" if x == "1" else "1"
        for i in range(len(asd)):
            if asd[i] == asd[i][0] * len(asd[i]) and len(asd[i]) == self.wsld - 1:
                asd[i] = asd[i] + opposite(asd[i][0])
        return "".join(asd)
    
    def __remove_insertion_bits(self, m):
        """
        Desaplica método de inserción de bit para las entradas con un solo carácter.
        """
        opposite = lambda x: "0" if x == "1" else "1"
        for i in range(0, len(m), self.wsld):
            p = m[i:i + self.wsld]
            if p[:-1] == p[0] * len(p[:-1]) and p[-1] == opposite(p[0]):
                m = m[:i + self.wsld-1] + m[i+self.wsld:]
        return m

In [None]:
def test(msg, comp, i=-1):
    if i > -1: print("Test #{}".format(i))
    print("-> Original:\t\t\t", msg)
    print("-> Compresión:\n\tCon (L, D):\t\t", comp.compress(msg, useLD=True))
    asd = comp.compress(msg)
    print("\tBinario:\t\t", asd)
    asd2 = comp.uncompress(asd)
    print("-> Descompresión:\t\t", asd2)

msg = "11011100101001111010100010001"
comp = LZZ7Compressor(6, 8)
test(msg, comp)

#### [Apartado 1] Haced las modificaciones necesarias en el programa anterior para que sea capaz de leer ficheros de audio en formato .wav, obtener el código binario natural de cada unos de los enteros (int) de los que se compone el sonido (16bits por dato) y devolverlo como una String binaria procesable por vuestros métodos de compresión /descompresión en LZ-77.

In [1]:
import wave
def readWavFile(file_name):
    w = wave.open(file_name, "rb")
    binary_data = w.readframes(w.getnframes())
    print(binary_data)
    w.close()

readWavFile("data.wav")

b'\xc5\x01\xb2\x01\x9a\x01\x83\x01f\x01H\x01&\x01\x08\x01\xed\x00\xda\x00\xc9\x00\xbc\x00\xb0\x00\xa9\x00\xa8\x00\xa9\x00\xa8\x00\xa2\x00\x95\x00\x84\x00u\x00h\x00b\x00a\x00f\x00g\x00f\x00`\x00]\x00Y\x00V\x00I\x00:\x00(\x00\x1c\x00\x11\x00\x10\x00\x10\x00\x18\x00 \x00(\x00-\x002\x005\x00<\x00F\x00P\x00[\x00h\x00|\x00\x94\x00\xa9\x00\xb5\x00\xbc\x00\xbf\x00\xc6\x00\xcf\x00\xe0\x00\xf9\x00\x1e\x01A\x01c\x01|\x01\x94\x01\xa5\x01\xb0\x01\xad\x01\xa5\x01\x90\x01v\x01O\x01#\x01\xf0\x00\xc0\x00\x88\x00O\x00\x10\x00\xd7\xff\x9a\xffg\xff7\xff\r\xff\xe7\xfe\xc7\xfe\xac\xfe\x97\xfe\x80\xfeg\xfeL\xfe0\xfe\x18\xfe\x06\xfe\xfc\xfd\xfb\xfd\x04\xfe\x0f\xfe\x1a\xfe"\xfe/\xfeD\xfe`\xfe~\xfe\x9f\xfe\xc4\xfe\xee\xfe\x1f\xffS\xff\x8a\xff\xc4\xff\xfd\xff,\x00X\x00\x80\x00\xa6\x00\xcc\x00\xf0\x00\x12\x011\x01O\x01l\x01\x88\x01\xa0\x01\xad\x01\xb4\x01\xb5\x01\xb6\x01\xb6\x01\xbb\x01\xc7\x01\xdc\x01\xf0\x01\x02\x02\x0b\x02\x0f\x02\r\x02\x07\x02\xf5\x01\xda\x01\xb9\x01\x98\x01u\x01Q\x01)\x01\x01\x01\xd6\x00\xac