# **Códificación Run-Length Encoding**

La compresión RLE o Run-length encoding es una forma muy simple de compresión de datos en la que secuencias de datos con el mismo valor consecutivas son almacenadas como un único valor más su recuento. Esto es más útil en datos que contienen muchas de estas "secuencias"; por ejemplo, gráficos sencillos con áreas de color plano, como iconos y logotipos.

Por ejemplo, considera una pantalla que contiene texto en negro sobre un fondo blanco. Habría muchas secuencias de este tipo con píxeles blancos en los márgenes vacíos, y otras secuencias de píxeles negros en la zona del texto. Supongamos una única línea (o scanline), con N representando las zonas en negro y B las de blanco:

> BBBBBBBBBBBBNBBBBBBBBBBBBNNNBBBBBBBBBBBBBBBBBBBBBBBBNBBBBBBBBBBBBBB

Si aplicamos la codificación run-length a esta línea, obtendríamos lo siguiente:

> 12B1N12B3N24B1N14B

Interpretado esto como 12 letras B, 1 letra N , 12 letras B, 3 letras N, etc. El código run-length representa el original de 67 caracteres en tan solo 18. Esto quiere decir que la línea original pesa 67 bytes y la cadena codificada pesa solo 18 bytes. Esta codificación traducida a binario, cuyo principio es el mismo, se utiliza para el almacenamiento de imágenes. Incluso ficheros de datos binarios pueden ser comprimidos utilizando este método. 
* El primer byte contiene un número que representa el número de veces que el carácter está repetido. 
* El segundo byte contiene al propio carácter. 
* En otros casos se codifican en un solo byte: 1 bit (0 o 1) y 7 bits para especificar el número de caracteres consecutivos.

### **1. Fuente de información**

In [16]:
# 1. Fuente de información (leyendo un archivo de texto)

def leer_archivo(nombre_archivo):
    try:
        with open(nombre_archivo, 'r') as archivo:
            contenido = archivo.read()
            return contenido
    except FileNotFoundError:
        print(f"El archivo '{nombre_archivo}' no fue encontrado.")
        return ""

nombre_archivo_fuente = "fuente.txt"

texto_original = leer_archivo(nombre_archivo_fuente)

print("Mensaje:", texto_original)

Mensaje: WWWWWWWWWWWWBWWWWWWWWWWWWBBBWWWWWWWWWWWWWWWWWWWWWWWWBWWWWWWWWWWWWWW


### **2. Transmisor**

In [25]:
# 2. Transmisor (codificamos con el algoritmo rle)
def run_length_encode(text):
    encoded_text = []
    count = 1

    for i in range(1, len(text)):
        if text[i] == text[i - 1]:
            count += 1
        else:
            encoded_text.append(text[i - 1] + str(count))
            count = 1

    encoded_text.append(text[-1] + str(count))

    return "".join(encoded_text)

### **3. Canal**

In [26]:
# 3. Canal (agregar ruido a la cadena binaria)

### **4. Receptor**

In [19]:
# 4. Receptor (decodificamos usando los datos codificados)
def run_length_decode(encoded_text):
    decoded_text = []
    i = 0

    while i < len(encoded_text):
        char = encoded_text[i]
        i += 1
        count_str = ""
        while i < len(encoded_text) and encoded_text[i].isdigit():
            count_str += encoded_text[i]
            i += 1
        count = int(count_str)
        decoded_text.append(char * count)

    return "".join(decoded_text)

### **5. Destino de información**

El algoritmo Run-Length Encoding (RLE) no utiliza un diccionario como los algoritmos de compresión basados en diccionario, como Lempel-Ziv-Welch (LZW). RLE funciona de manera más simple al codificar secuencias repetidas de caracteres y no mantiene un diccionario.

In [22]:
def print_rle_dictionary(text):
    dictionary = set(text)
    print("Diccionario implícito de RLE:")
    for char in dictionary:
        print(f"'{char}' -> {char}")

In [27]:
# 5. Destino de informacion (Se imprimen las cadenas de texto)
encoded_text = run_length_encode(texto_original)
decoded_text = run_length_decode(encoded_text)

print("Texto original:", texto_original)
print("Texto codificado:", encoded_text)
print("Texto decodificado:", decoded_text)
print()
print_rle_dictionary(texto_original)

Texto original: WWWWWWWWWWWWBWWWWWWWWWWWWBBBWWWWWWWWWWWWWWWWWWWWWWWWBWWWWWWWWWWWWWW
Texto codificado: W12B1W12B3W24B1W14
Texto decodificado: WWWWWWWWWWWWBWWWWWWWWWWWWBBBWWWWWWWWWWWWWWWWWWWWWWWWBWWWWWWWWWWWWWW

Diccionario implícito de RLE:
'B' -> B
'W' -> W
