# **Práctica 2: Codificación Aritmética (expresión en decimal)**

Realizada por Adrián Pérez García el 01/03/2021

In [1]:
# Se importan las librerias necesarias
from fractions import Fraction
import math

### Funciones auxiliares

Función encargada de dar formato a un texto obtenido de fichero

In [2]:
def getText(path):
    # Se obtiene el texto del fichero
    file = open(path, 'r', encoding='utf8')
    text = file.read()
    file.close()

    # Se cambia cada salto de linea por dos espacios como manda el guión
    text = text.replace("\n", "  ")
    
    return text

Getter de frecuencias y probabilidades dado una fuente de información

In [3]:
def getFrequencies(alphabet):
    frequencies = dict()
    for symbol in alphabet:
        if symbol not in frequencies:
            frequencies[symbol] = alphabet.count(symbol)           
    return frequencies

def getOdds(alphabet):
    odds = dict()    
    for symbol in alphabet:
        if symbol not in odds:
            odds[symbol] = Fraction(alphabet.count(symbol), len(alphabet))          
    return odds

Calculador de entropia

In [4]:
def getEntropy(odds):  
    entropy:float = 0
    for key in odds:
        entropy += odds[key] * math.log2(1/odds[key]) 
    return entropy

Decodificador de mensaje

In [5]:
def decodeNumber(number, messageLength, alphabet):
    # Se obtienen los rangos para cada probabilidad.
    intervals = dict()
    actualMin = 0
    odds = getOdds(alphabet)
    for symbol in odds:
        intervals[symbol] = [Fraction(actualMin), Fraction(actualMin+odds[symbol])]
        actualMin += Fraction(odds[symbol])

    message = ""
    for i in range(messageLength):
        # Se recorren todos los posibles intervalos para cada simbolo.
        for symbol, interval in intervals.items():
            if Fraction(interval[0]) <= number < Fraction(interval[1]):
                # Si el numero esta en el intervalo correcto se añade la letra y se actualiza el numero para el siguiente caracter.
                number = Fraction((number - interval[0]) / (interval[1] - interval[0]))
                message += symbol
                # Ya hemos añadido el simbolo, pasamos al siguiente simbolo.
                break

    return message

### Ejercicio 1

**Partiendo de una fuente de información F equiprobable con alfabeto.**

***alf = "ABCDEFGHIJKLMNNOPQRSTUVWXYZ ."***

**Después de aplicar el proceso de codificación aritmética (expresión en decimal) a un mensaje msj, donde se utiliza como fuente base la fuente F, se obtiene el número decimal 0.1613657607216723798346110583. Sabiendo que el mensaje msj tiene longitud 19, calcula dicho mensaje.**

In [6]:
message1 = decodeNumber(Fraction("0.1613657607216723798346110583"), 19, "ABCDEFGHIJKLMNÑOPQRSTUVWXYZ .")
print("El mensaje decodificado es: " +message1)

El mensaje decodificado es: ESTO ES UNA PRUEBA.


### Ejercicio 2

**A partir del texto en el fichero dataEx2.txt y usando como referencia los símbolos que aparecen en el texto (diferenciando
mayúsculas de minúsculas y tomando el cambio de línea como dos espacios) y el número de veces que aparece cada símbolo, calcula:**

**a) La fuente de información F asociada al texto y apunta la entropía en bits de dicha fuente.**

In [7]:
text2 = getText("dataEx2.txt")
entropy2 = getEntropy(getOdds(text2))
print("Entropia de la fuente de informacion:", entropy2)
print("Entropia de la fuente de informacion redondeada al tercer decimal:", round(entropy2,3))

Entropia de la fuente de informacion: 4.096886085245035
Entropia de la fuente de informacion redondeada al tercer decimal: 4.097


**b) Después de aplicar el proceso de codificación aritmética (expresión en decimal) a un mensaje msj, usando como fuente base la fuente F, se obtiene el número decimal:**

***0.96402816270036736770957975564255630564009***

**Sabiendo que el mensaje msj tiene longitud 27, calcula dicho mensaje.**

In [8]:
message2 = decodeNumber(Fraction("0.247276109705412160222"), 17, text2)
print("El mensaje decodificado es: " +message2)

El mensaje decodificado es: el tiempo es vida


### Ejercicio 3

**Usando como referencia los símbolos que aparecen en el texto del fichero dataEx3.txt (diferenciando mayúsculas de minúsculas y tomando el cambio de línea como dos espacios) y el número de veces que aparece cada símbolo, calcula:**

**a) La fuente de información F asociada al texto y apunta la entropía en bits de dicha fuente.**

In [9]:
text3 = getText("dataEx3.txt")
entropy3 = getEntropy(getOdds(text3))
print("Entropia de la fuente de informacion:", entropy3)
print("Entropia de la fuente de informacion redondeada al tercer decimal:", round(entropy3,3))

Entropia de la fuente de informacion: 4.359154745324074
Entropia de la fuente de informacion redondeada al tercer decimal: 4.359


**b) Después de aplicar el proceso de codificación aritmética (expresión en decimal) a un mensaje msj, usando como fuente base la fuente F, se obtiene el número decimal:**

***0.96402816270036736770957975564255630564009***

**Sabiendo que el mensaje msj tiene longitud 27, calcula dicho mensaje.**

In [45]:
message3 = decodeNumber(Fraction("0.96402816270036736770957975564255630564009"), 27, text3)
print("El mensaje decodificado es: " +message3)

El mensaje decodificado es: (primera parte, capítulo 1)


### Comprobación Tarea 1

In [47]:
print(decodeNumber(Fraction("0.7"), 3, "EEEETAAAARRSSS"))

RAE


In [48]:
textHW2 = getText("dataExtra.txt")
oddsExtraHW2 = getOdds(textHW2)

print("Probabilidad del simbolo r: " +str(oddsExtraHW2["r"]))
print("Entropia de la fuente: " + str(getEntropy(oddsExtraHW2)))

messageHW2 = decodeNumber(Fraction("0.81205275200086808141789567275853436060575348460811"), 37, textHW2)

print("El mensaje decodificado es: " +messageHW2)

Probabilidad del simbolo r: 7/114
Entropia de la fuente: 4.597979198768418
El mensaje decodificado es: 2 buscaré los siempres en los jamases


In [49]:
alphabetBaseHW3 = "BBCCCDEEFFFGHHIIIJKKLLLMNNÑÑÑOPPQQQRSSTTTUVVWWWXYYZZZ"

# Probamos con 350 posibles frecuencias [0-349]
for i in range(350):
    alphabetHW3 = ""
    for j in range(i):
        alphabetHW3 += "A"
    alphabetHW3 += alphabetBaseHW3
    print(str(i) + " -> " + decodeNumber(Fraction("0.30235624"), 6, alphabetHW3))

0 -> IRTZUO
1 -> ILZJMC
2 -> IFÑCKK
3 -> HZJLKT
4 -> HPOÑSV
5 -> HFWDSS
6 -> GVTBAÑ
7 -> GBSSON
8 -> FUQQLT
9 -> FÑHRPA
10 -> FHAAGP
11 -> FAQBEH
12 -> EUREKA
13 -> EKCVNL
14 -> EAÑIOX
15 -> DMAIAL
16 -> CYXILA
17 -> CQKAQP
18 -> CIWUJA
19 -> CAZCZK
20 -> CAACHC
21 -> BOVAAA
22 -> BCHAQA
23 -> AZZFAO
24 -> AZAQEC
25 -> AYAWLA
26 -> AWUVAE
27 -> AWANYÑ
28 -> AVEAIA
29 -> AUAATL
30 -> ATFIAA
31 -> ASWFGX
32 -> ASAAXV
33 -> AQWPÑR
34 -> AQCMII
35 -> APYAMZ
36 -> APALLL
37 -> AOACZA
38 -> AÑKLOE
39 -> AÑADQA
40 -> ANNAAA
41 -> ANAAAZ
42 -> ALZMEC
43 -> ALIADZ
44 -> ALACAF
45 -> AKOXTA
46 -> AKAAZA
47 -> AJAMAY
48 -> AIÑKAV
49 -> AIARQA
50 -> AIAAAA
51 -> AHELÑA
52 -> AHAAAA
53 -> AGAAAP
54 -> AFLALR
55 -> AFANAA
56 -> AFAAAA
57 -> AEFAAA
58 -> AEAAAP
59 -> ADABKA
60 -> ACÑONE
61 -> ACATBA
62 -> ACAACA
63 -> ABÑSWA
64 -> ABAETI
65 -> AAZSAA
66 -> AAZACA
67 -> AAYIÑA
68 -> AAXQAW
69 -> AAWNFL
70 -> AAWAAQ
71 -> AAVHCE
72 -> AAUVAA
73 -> AATPWA
74 -> AATADZ
75 -> AASRAQ
76 -> AASAAA
77 -> AAR