# Trabajando con fuentes de información

En esta práctica vamos a realizar un preanálisis de los datos de una fuente de información, manipularemos ficheros de texto que tomaremos como si hubieran sido obtenidos de una fuente de información desconocida, para posteriormente construir una fuente de Markov a partir de la misma. Obtendremos mensajes nuevos generados por la fuente y calcularemos la
entropía del texto que ha servido para modelar la fuente.

## Datos

Elegiremos algún [fichero en español del "Proyecto Gutenberg"](https://www.gutenberg.org/browse/languages/es) en formato `.txt`.

### Limpieza y preparación de los datos

Vamos a definir todas nuestras funciones y pasos como métodos de una clase llamada `FuenteDeInformacion`. El primer paso sería definir el constructor y un método que nos permita leer el fichero (el que hayamos elegido de forma arbitraria), pasar todos los símbolos a mayúsculas, eliminar el acento a las vocales acentuadas, eliminar los dígitos, caracteres de puntuación y espacios.

In [1]:
# Imports globales
from unidecode import unidecode # Este módulo será de gran ayuda para el pre-tratamiento de los datos. Instaladlo si no lo tenéis
import numpy as np

In [2]:
class FuenteDeInformacion():
    def __init__(self, fichero):
        
        self._texto = self._leer_y_procesar(fichero)

    @property
    def texto(self):
        return self._texto

    @staticmethod
    def _quitar_tildes(texto):
        return unidecode(texto)

    @staticmethod
    def _conservar_caracteres_alfabeticos(texto):
        return "".join(char for char in texto if char.isalpha())

    @classmethod
    def _leer_y_procesar(cls, fichero):

        with open(fichero) as file:
            contenido = cls._conservar_caracteres_alfabeticos(
                cls._quitar_tildes(file.read())
            )

        return contenido.upper()

In [3]:
fi = FuenteDeInformacion("texto.txt")
fi.texto

'THEPROJECTGUTENBERGEBOOKOFREGLASYCONSEJOSSOBREINVESTIGACIONCIENTIFICATHISEBOOKISFORTHEUSEOFANYONEANYWHEREINTHEUNITEDSTATESANDMOSTOTHERPARTSOFTHEWORLDATNOCOSTANDWITHALMOSTNORESTRICTIONSWHATSOEVERYOUMAYCOPYITGIVEITAWAYORREUSEITUNDERTHETERMSOFTHEPROJECTGUTENBERGLICENSEINCLUDEDWITHTHISEBOOKORONLINEATWWWGUTENBERGORGIFYOUARENOTLOCATEDINTHEUNITEDSTATESYOUWILLHAVETOCHECKTHELAWSOFTHECOUNTRYWHEREYOUARELOCATEDBEFOREUSINGTHISEBOOKTITLEREGLASYCONSEJOSSOBREINVESTIGACIONCIENTIFICAAUTHORSANTIAGORAMONYCAJALRELEASEDATESEPTEMBEREBOOKLANGUAGESPANISHCREDITSRAMONPAJARESBOXANDTHEONLINEDISTRIBUTEDPROOFREADINGTEAMATHTTPSWWWPGDPNETTHISFILEWASPRODUCEDFROMIMAGESGENEROUSLYMADEAVAILABLEBYTHEINTERNETARCHIVESTARTOFTHEPROJECTGUTENBERGEBOOKREGLASYCONSEJOSSOBREINVESTIGACIONCIENTIFICANOTADETRANSCRIPCIONLASCURSIVASSEMUESTRANENTRESUBRAYADOSYLASVERSALITASSEHANCONVERTIDOAMAYUSCULASLOSERRORESDEIMPRENTAHANSIDOCORREGIDOSLAORTOGRAFIADELTEXTOORIGINALHASIDOACTUALIZADADEACUERDOCONLASNORMASPUBLICADASENPORLAREALACADEMIAESPANOLASEHAN

## Preanálisis de la fuente de información

Ahora tenemos que definirnos unos métodos en nuestra clase para obtener la siguiente información:
- El alfabeto de nuestro texto (una lista con los caracteres).
- Dado un parámetro n, los n-gramas del texto.


In [4]:
class FuenteDeInformacion():
    def __init__(self, fichero):
        
        self._texto = self._leer_y_procesar(fichero)
        self._alfabeto = self._obtener_alfabeto(self._texto)

    @property
    def texto(self):
        return self._texto
    
    @property
    def alfabeto(self):
        return self._alfabeto

    @staticmethod
    def _quitar_tildes(texto):
        return unidecode(texto)

    @staticmethod
    def _conservar_caracteres_alfabeticos(texto):
        return "".join(char for char in texto if char.isalpha())

    @classmethod
    def _leer_y_procesar(cls, fichero):

        with open(fichero) as file:
            contenido = cls._conservar_caracteres_alfabeticos(
                cls._quitar_tildes(file.read())
            )

        return contenido.upper()

    @staticmethod
    def _obtener_alfabeto(texto):
        return sorted(set(texto))

    @staticmethod
    def _obtener_n_gramas(texto, n):
        return sorted(list(set(
            texto[i:i + n] for i in range(len(texto) - n + 1)
        )))
    
    def obtener_n_gramas(self, n):
        return self._obtener_n_gramas(self.texto, n)

In [5]:
fi = FuenteDeInformacion("texto.txt")
fi.alfabeto

['A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z']

In [6]:
fi.obtener_n_gramas(2)

['AA',
 'AB',
 'AC',
 'AD',
 'AE',
 'AF',
 'AG',
 'AH',
 'AI',
 'AJ',
 'AK',
 'AL',
 'AM',
 'AN',
 'AO',
 'AP',
 'AQ',
 'AR',
 'AS',
 'AT',
 'AU',
 'AV',
 'AW',
 'AX',
 'AY',
 'AZ',
 'BA',
 'BB',
 'BC',
 'BE',
 'BH',
 'BI',
 'BJ',
 'BL',
 'BN',
 'BO',
 'BP',
 'BR',
 'BS',
 'BT',
 'BU',
 'BV',
 'BY',
 'CA',
 'CB',
 'CC',
 'CD',
 'CE',
 'CF',
 'CH',
 'CI',
 'CJ',
 'CK',
 'CL',
 'CN',
 'CO',
 'CP',
 'CQ',
 'CR',
 'CS',
 'CT',
 'CU',
 'CW',
 'CY',
 'DA',
 'DB',
 'DC',
 'DD',
 'DE',
 'DF',
 'DG',
 'DH',
 'DI',
 'DJ',
 'DK',
 'DL',
 'DM',
 'DN',
 'DO',
 'DP',
 'DQ',
 'DR',
 'DS',
 'DT',
 'DU',
 'DV',
 'DW',
 'DY',
 'EA',
 'EB',
 'EC',
 'ED',
 'EE',
 'EF',
 'EG',
 'EH',
 'EI',
 'EJ',
 'EK',
 'EL',
 'EM',
 'EN',
 'EO',
 'EP',
 'EQ',
 'ER',
 'ES',
 'ET',
 'EU',
 'EV',
 'EW',
 'EX',
 'EY',
 'EZ',
 'FA',
 'FC',
 'FD',
 'FE',
 'FF',
 'FH',
 'FI',
 'FL',
 'FM',
 'FN',
 'FO',
 'FP',
 'FR',
 'FS',
 'FT',
 'FU',
 'FV',
 'FW',
 'FY',
 'GA',
 'GB',
 'GC',
 'GD',
 'GE',
 'GF',
 'GH',
 'GI',
 'GL',
 'GM',

_¿Cuáles son los bigramas presentes en el texto? ¿Hay menos de los que esperabas? ¿Por qué?_

Hay menos puesto que hay combinaciones de caracteres que no se suelen dar (o no se dan) en castellano. Una manera fácil de comprobar esto es ver que 

```python
len(fi.obtener_n_gramas(2)) <= (len(fi.alfabeto)**2)
```

## Fuente de Información de memoria nula

Nuestro siguiente paso es diseñar la fuente de información de memoria nula asociada al texto. Podéis representar la fuente de información como queráis, aunque yo os recomiendo que uséis un diccionario. Como probabilidades, debéis tomar las frecuencias de aparición de los caracteres en el texto.

In [7]:
class FuenteDeInformacion():
    def __init__(self, fichero):
        
        self._texto = self._leer_y_procesar(fichero)
        self._memoria_nula = self._fuente_de_informacion_de_memoria_nula() 

    @property
    def texto(self):
        return self._texto

    @property
    def alfabeto(self):
        return self._memoria_nula.keys()
    
    @property
    def fuente_de_informacion_de_memoria_nula(self):
        return self._memoria_nula
    

    @staticmethod
    def _quitar_tildes(texto):
        return unidecode(texto)

    @staticmethod
    def _conservar_caracteres_alfabeticos(texto):
        return "".join(char for char in texto if char.isalpha())

    @classmethod
    def _leer_y_procesar(cls, fichero):

        with open(fichero) as file:
            contenido = cls._conservar_caracteres_alfabeticos(
                cls._quitar_tildes(file.read())
            )

        return contenido.upper()

    @staticmethod
    def _obtener_alfabeto(texto):
        return sorted(set(texto))

    @staticmethod
    def _obtener_n_gramas(texto, n):
        return sorted(list(set(
            texto[i:i + n] for i in range(len(texto) - n + 1)
        )))

    @staticmethod
    def _calcular_frecuencias(alfabeto, texto):

        n = len(texto)

        return {char: texto.count(char)/n for char in alfabeto}

    def _fuente_de_informacion_de_memoria_nula(self):
        return self._calcular_frecuencias(
            self._obtener_alfabeto(self.texto),
            self.texto
        )
    
    def obtener_n_gramas(self, n):
        return self._obtener_n_gramas(self.texto, n)

In [8]:
fi = FuenteDeInformacion("texto.txt")
fi.fuente_de_informacion_de_memoria_nula

{'A': 0.11519287718708376,
 'B': 0.013261518964424731,
 'C': 0.04771172522598249,
 'D': 0.048426204916654815,
 'E': 0.12851582200726766,
 'F': 0.010025346247850096,
 'G': 0.012362761706474932,
 'H': 0.008250462310388082,
 'I': 0.07567988723506058,
 'J': 0.0038568971537198205,
 'K': 0.0006045597382611956,
 'L': 0.05291352532685021,
 'M': 0.0263193627229112,
 'N': 0.07224650519210128,
 'O': 0.09337053369369835,
 'P': 0.02576329708130197,
 'Q': 0.006582265385560398,
 'R': 0.06631082776190045,
 'S': 0.08085582381771392,
 'T': 0.048930543521835276,
 'U': 0.03641583364585085,
 'V': 0.009934823934099755,
 'W': 0.0010701030661200842,
 'X': 0.002285688422196071,
 'Y': 0.01000271566941251,
 'Z': 0.00311008806527952}

## Fuente de Información de memoria nula extendida

Ahora vamos a diseñar la fuente de información de memoria nula extendida asociada al texto. En este caso, las probabilidades las podemos calcular como las frecuencias de aparición de los n-gramas en el texto. Para ello, tenemos que pasarle al constructor de la clase el parámetro n.

In [9]:
class FuenteDeInformacion():
    def __init__(self, fichero, n=1):

        assert n > 0, "El valor de n debe ser mayor que 0"
        
        self._n = n
        self._texto = self._leer_y_procesar(fichero)
        self._memoria_nula = self._fuente_de_informacion_de_memoria_nula() 

    @property
    def texto(self):
        return self._texto

    @property
    def alfabeto(self):
        return self._memoria_nula.keys()
    
    @property
    def fuente_de_informacion_de_memoria_nula(self):
        return self._memoria_nula

    @property
    def n(self):
        return self._n

    @staticmethod
    def _quitar_tildes(texto):
        return unidecode(texto)

    @staticmethod
    def _conservar_caracteres_alfabeticos(texto):
        return "".join(char for char in texto if char.isalpha())

    @classmethod
    def _leer_y_procesar(cls, fichero):

        with open(fichero) as file:
            contenido = cls._conservar_caracteres_alfabeticos(
                cls._quitar_tildes(file.read())
            )

        return contenido.upper()

    @staticmethod
    def _obtener_alfabeto(texto):
        return sorted(set(texto))

    @staticmethod
    def _obtener_n_gramas(texto, n):
        return sorted(list(set(
            texto[i:i + n] for i in range(len(texto) - n + 1)
        )))

    @staticmethod
    def _calcular_frecuencias(alfabeto, texto):

        n = len(texto)

        return {char: texto.count(char)/n for char in alfabeto}

    def _fuente_de_informacion_de_memoria_nula(self):

        if self._n == 1:
            return self._calcular_frecuencias(
                self._obtener_alfabeto(self.texto),
                self.texto
            )

        else:
            return self._calcular_frecuencias(
                self.obtener_n_gramas(self._n),
                self.texto
            )
    
    def obtener_n_gramas(self, n):
        return self._obtener_n_gramas(self.texto, n)

In [10]:
fi = FuenteDeInformacion("texto.txt", 3)
fi.fuente_de_informacion_de_memoria_nula

{'AAA': 9.698819330393514e-06,
 'AAB': 5.4959976205563244e-05,
 'AAC': 0.00028126576058141187,
 'AAD': 0.00014224935017910487,
 'AAE': 3.232939776797838e-05,
 'AAF': 5.172703642876541e-05,
 'AAG': 5.4959976205563244e-05,
 'AAH': 1.9397638660787027e-05,
 'AAI': 1.616469888398919e-05,
 'AAJ': 9.698819330393514e-06,
 'AAL': 0.0005366680029484411,
 'AAM': 9.37552535271373e-05,
 'AAN': 0.00018427756727747675,
 'AAO': 3.232939776797838e-06,
 'AAP': 0.00022307284459905082,
 'AAQ': 1.9397638660787027e-05,
 'AAR': 0.00010345407285753082,
 'AAS': 0.0001713458081702854,
 'AAT': 0.0001454822899559027,
 'AAU': 9.37552535271373e-05,
 'AAV': 5.172703642876541e-05,
 'AAY': 1.616469888398919e-05,
 'AAZ': 3.232939776797838e-06,
 'ABA': 0.0009666489932625536,
 'ABB': 6.465879553595676e-06,
 'ABE': 0.00045584450852849515,
 'ABI': 0.0009019901977265968,
 'ABL': 0.0007953031850922681,
 'ABN': 2.5863518214382704e-05,
 'ABO': 0.0006756844133507481,
 'ABR': 0.0003265269174565816,
 'ABS': 0.00010991995241112649

## Fuente de Markov

A continuación construiremos una fuente de Markov (de orden 2, para no perder mucho tiempo computacional) a partir del texto. Para ello hay que construir una matriz de probabilidades condicionales, donde las filas (y columnas) representan los bigramas del texto. Para el alfabeto usual (que tiene 27 caracteres), tendremos una matriz $27\times 27$, es decir 729 entradas. Evidentemente, como algunos bigramas no aparecen, tendremos filas (y columnas) enteras que serán 0 (y las podremos eliminar para ahorrar espacio).

Para calcular las probabilidades de transición entre bigramas, obtendremos los trigramas que aparecen en el texto y después calcularemos las probabilidades de transición a partir de estos. Por ejemplo, el trigrama `XYZ` nos proporciona información de transición del bigrama `XY` al bigrama `YZ`. Por lo tanto, si obtenemos todos los trigramas que comienzan por `XY`, podremos obtener las frecuencias de transición desde `XY` a `YZ` para cualquier valor `Z`.

### Ejemplo

Supongamos que nuestro texto es `ABCBCBABBA`. Los trigramas que aparecen en el texto y su número de ocurrencia es:

| Trigrama | Conteo     |
|----------|------------|
| `ABC`    | 1          |
| `BCB`    | 2          |
| `CBC`    | 1          |
| `CBA`    | 1          |
| `BAB`    | 1          |
| `ABB`    | 1          |
| `BBA`    | 1          |

Podemos ver que hay dos trigramas que comienzan por AB (`ABC` y `ABB`) cada uno de ellos con una (1) aparición, por lo que las probabilidades de obtener `BC` a partir de `AB` es 0.5 (ya que de `AB` podemos pasar con la misma probabilidad a `ABC` o a `ABB`), y por ende la probabilidad de obtener `BB` a partir de `AB` sería 0.5. Con la anterior tabla,obtendríamos obtener la correspondiente matriz de probabilidades condicionales:


$$
\Pi = \begin{matrix}
& \begin{matrix} AB & BC & CB & BA & BB \end{matrix} \\
\begin{matrix} AB \\ BC \\ CB \\ BA \\ BB \end{matrix} & \begin{pmatrix} 0 & 0.5 & 0 & 0 & 0.5 \\ 0 & 0 & 1 & 0 & 0 \\ 0 & 0.5 & 0 & 0.5 & 0 \\ 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 \end{pmatrix}
\end{matrix} 
$$

Por lo tanto, para obtener esta matriz, tenemos que seguir el siguiente algoritmo:
1. Calcular los trigramas del texto y su número de apariciones
2. Para cada trigrama que comience por `XY`, calcularemos la probabilidad de `XY` a `YZ` de la siguiente forma:

$$
P(YZ|XY) = \frac{\text{Conteo}(XYZ)}{\text{Conteo}(XY\star)}
$$

donde $\star$ representa cualquier caracter.

In [11]:
class FuenteDeInformacion():
    def __init__(self, fichero, n=1):

        assert n > 0, "El valor de n debe ser mayor que 0"
        
        self._n = n
        self._texto = self._leer_y_procesar(fichero)
        self._memoria_nula = self._fuente_de_informacion_de_memoria_nula()
        self._matriz_transicion_markov = self._fuente_de_markov_orden_2()

    @property
    def texto(self):
        return self._texto

    @property
    def alfabeto(self):
        return self._memoria_nula.keys()
    
    @property
    def fuente_de_informacion_de_memoria_nula(self):
        return self._memoria_nula

    @property
    def n(self):
        return self._n

    @property
    def matriz_transicion_markov(self):
        return self._matriz_transicion_markov

    @property
    def pretty_matriz_transicion_markov(self):
        n, m = self._matriz_transicion_markov.shape
        matrix = np.zeros((n + 1, m + 1), dtype=object)
        matrix[1:, 1:] = self._matriz_transicion_markov
        bigramas = self.obtener_n_gramas(2)
        matrix[0, 1:] = bigramas
        matrix[1:, 0] = bigramas
        return matrix

    @staticmethod
    def _quitar_tildes(texto):
        return unidecode(texto)

    @staticmethod
    def _conservar_caracteres_alfabeticos(texto):
        return "".join(char for char in texto if char.isalpha())

    @classmethod
    def _leer_y_procesar(cls, fichero):

        with open(fichero) as file:
            contenido = cls._conservar_caracteres_alfabeticos(
                cls._quitar_tildes(file.read())
            )

        return contenido.upper()

    @staticmethod
    def _obtener_alfabeto(texto):
        return sorted(set(texto))

    @staticmethod
    def _obtener_n_gramas(texto, n):
        return sorted(list(set(
            texto[i:i + n] for i in range(len(texto) - n + 1)
        )))

    @staticmethod
    def _calcular_frecuencias(alfabeto, texto):

        n = len(texto)

        return {char: texto.count(char)/n for char in alfabeto}

    def _fuente_de_informacion_de_memoria_nula(self):

        if self._n == 1:
            return self._calcular_frecuencias(
                self._obtener_alfabeto(self.texto),
                self.texto
            )

        else:
            return self._calcular_frecuencias(
                self.obtener_n_gramas(self._n),
                self.texto
            )

    def _fuente_de_markov_orden_2(self):
        bigramas = self.obtener_n_gramas(2)
        trigramas = self.obtener_n_gramas(3)

        matriz_transicion = np.zeros((len(bigramas), len(bigramas)))

        for i, bigrama in enumerate(bigramas):
            trigramas_relacionados = [
                trigrama for trigrama in trigramas
                if trigrama[:2] == bigrama
            ]

            n = len(trigramas_relacionados)
            trigramas_unicos = set(trigramas_relacionados)

            freqs = {
                trig: trigramas_relacionados.count(trig)/n
                for trig in trigramas_unicos
            }

            for trigrama in trigramas_unicos:
                j = bigramas.index(trigrama[-2:])
                matriz_transicion[i, j] = freqs[trigrama]

        return matriz_transicion
    
    def obtener_n_gramas(self, n):
        return self._obtener_n_gramas(self.texto, n)

In [12]:
fi = FuenteDeInformacion("texto.txt")
fi.pretty_matriz_transicion_markov

array([[0, 'AA', 'AB', ..., 'ZU', 'ZV', 'ZY'],
       ['AA', 0.043478260869565216, 0.043478260869565216, ..., 0.0, 0.0,
        0.0],
       ['AB', 0.0, 0.0, ..., 0.0, 0.0, 0.0],
       ...,
       ['ZU', 0.0, 0.0, ..., 0.0, 0.0, 0.0],
       ['ZV', 0.0, 0.0, ..., 0.0, 0.0, 0.0],
       ['ZY', 0.0, 0.0, ..., 0.0, 0.0, 0.0]], dtype=object)

## Obtención de Mensajes a partir de una Fuente de Markov

Vamos a implementar ahora un método que, dada nuestra fuente de Markov, emita un mensaje arbitrario. Esto lo hacemos de la siguiente manera:
- Elegimos un n-grama de forma aleatoria.
- Fijamos la longitud máxima del mensaje (`MAXLENGTH`).
- Elegimos un valor `m` de forma que `n <= m <= MAXLENGTH`.
- Partiendo del n-grama inicial, hay que elegir `m - n` n-gramas de forma secuencial, siguiendo la distribución de probabilidades de la matriz de transición.

### Ejemplo

Recordemos que nuestro ejemplo anterior tenía la siguiente matriz de transición:

$$
\Pi = \begin{matrix}
& \begin{matrix} AB & BC & CB & BA & BB \end{matrix} \\
\begin{matrix} AB \\ BC \\ CB \\ BA \\ BB \end{matrix} & \begin{pmatrix} 0 & 0.5 & 0 & 0 & 0.5 \\ 0 & 0 & 1 & 0 & 0 \\ 0 & 0.5 & 0 & 0.5 & 0 \\ 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 \end{pmatrix}
\end{matrix} 
$$

Elegimos (de forma arbitraria), una longitud de mensaje igual a 6. Elegimos de forma arbitraria un bigrama, por ejemplo el `BC`. A partir de aquí debemos elegir `6 - 2 = 4` bigramas adicionales de forma secuencial. 

Inicialmente, a partir de `BC` sólo podemos transitar a `CB`. A partir de `CB` podemos transitar con igual probabilidad a `BC` y `BA`; y elegimos `BA`. A partir de `BA` transitamos a `AB` y, por último, a partir de `AB` transitamos a `BC` (que hemos elegido arbitrariamente entre `BB` y `BC`). Por lo tanto, la secuencia de bigramas que hemos seguido es `BC`-`CB`-`BA`-`AB`-`BC` y el mensaje obtenido sería `BCBABC`.

In [13]:
class FuenteDeInformacion():

    MAXLENGTH = 20

    def __init__(self, fichero, n=1):

        assert n > 0, "El valor de n debe ser mayor que 0"
        
        self._n = n
        self._texto = self._leer_y_procesar(fichero)
        self._memoria_nula = self._fuente_de_informacion_de_memoria_nula()
        self._matriz_transicion_markov = self._fuente_de_markov_orden_2()

    @property
    def texto(self):
        return self._texto

    @property
    def alfabeto(self):
        return self._memoria_nula.keys()
    
    @property
    def fuente_de_informacion_de_memoria_nula(self):
        return self._memoria_nula

    @property
    def n(self):
        return self._n

    @property
    def matriz_transicion_markov(self):
        return self._matriz_transicion_markov

    @property
    def pretty_matriz_transicion_markov(self):
        n, m = self._matriz_transicion_markov.shape
        matrix = np.zeros((n + 1, m + 1), dtype=object)
        matrix[1:, 1:] = self._matriz_transicion_markov
        bigramas = self.obtener_n_gramas(2)
        matrix[0, 1:] = bigramas
        matrix[1:, 0] = bigramas
        return matrix

    @staticmethod
    def _quitar_tildes(texto):
        return unidecode(texto)

    @staticmethod
    def _conservar_caracteres_alfabeticos(texto):
        return "".join(char for char in texto if char.isalpha())

    @classmethod
    def _leer_y_procesar(cls, fichero):

        with open(fichero) as file:
            contenido = cls._conservar_caracteres_alfabeticos(
                cls._quitar_tildes(file.read())
            )

        return contenido.upper()

    @staticmethod
    def _obtener_alfabeto(texto):
        return sorted(set(texto))

    @staticmethod
    def _obtener_n_gramas(texto, n):
        return sorted(list(set(
            texto[i:i + n] for i in range(len(texto) - n + 1)
        )))

    @staticmethod
    def _calcular_frecuencias(alfabeto, texto):

        n = len(texto)

        return {char: texto.count(char)/n for char in alfabeto}

    def _fuente_de_informacion_de_memoria_nula(self):

        if self._n == 1:
            return self._calcular_frecuencias(
                self._obtener_alfabeto(self.texto),
                self.texto
            )

        else:
            return self._calcular_frecuencias(
                self._obtener_n_gramas(self.texto, self._n),
                self.texto
            )

    def _fuente_de_markov_orden_2(self):
        bigramas = self.obtener_n_gramas(2)
        trigramas = self.obtener_n_gramas(3)

        matriz_transicion = np.zeros((len(bigramas), len(bigramas)))

        for i, bigrama in enumerate(bigramas):
            trigramas_relacionados = [
                trigrama for trigrama in trigramas
                if trigrama[:2] == bigrama
            ]

            n = len(trigramas_relacionados)
            trigramas_unicos = set(trigramas_relacionados)

            freqs = {
                trig: trigramas_relacionados.count(trig)/n
                for trig in trigramas_unicos
            }

            for trigrama in trigramas_unicos:
                j = bigramas.index(trigrama[-2:])
                matriz_transicion[i, j] = freqs[trigrama]

        return matriz_transicion
    
    def emision_mensaje_markov(self):
        l = np.random.randint(2, self.MAXLENGTH)

        bigramas = self.obtener_n_gramas(2)

        secuencia = [np.random.choice(bigramas)]

        for _ in range(l):
            secuencia.append(np.random.choice(
                bigramas,
                p=self.matriz_transicion_markov[
                    bigramas.index(secuencia[-1]), :
                ]
            ))

        _pre_concat_secuencia = "".join(
            bigrama[0] for bigrama in secuencia
        )

        return _pre_concat_secuencia + secuencia[-1][-1]

    def obtener_n_gramas(self, n):
        return self._obtener_n_gramas(self.texto, n)

In [14]:
fi = FuenteDeInformacion("texto.txt")

for _ in range(15):
    print(fi.emision_mensaje_markov())

PWIEVAQUEZOMDOEVU
HAORDOIRQUEHIVOPEJA
LNOMAOACRU
NNESCUVOOTPOTOC
LWALJAMAUCULGROVUMYMI
WSTUPAJUPLIZ
KEPRUZARJALOURB
ROLLWIDPNERRAGEWAMPI
NBUHAZIU
TWWPGSSORVUMBEXTAHEAH
UGUEBARVUMEPOM
NPAAJEMAR
SULZULTZQUITAHLOIC
YKITHUBTIF
HRAOQUAVULITGIGMERK


## Obtención de la Entropía de un texto

Para terminar, vamos a definir un método que, dado un fichero de texto normalizado, obtenga su entropía.

En este caso, basta con calcular sobre el fichero la probabilidad de aparición de cada símbolo del alfabeto (lo cual ya hemos hecho). Por lo tanto, simplemente queda aplicar la definición de entropía:

$$
H(\mathcal{S}) = - \sum_{s\in\mathcal{S}}p(s)\log\left(p(s)\right)
$$

Realmente este caso sería para una fuente de memoria nula. Podemos extenderlo a fuentes de memoria nula de orden n con el resultado que hemos visto en clase de $H(\mathcal{S}^n)=nH(\mathcal{S})$

Además, usaremos nuestro generador de mensajes definido anteriormente para generar nuevos textos, y poder calcular su entropía.

In [15]:
class FuenteDeInformacion():

    MAXLENGTH = 20

    def __init__(self, fichero, n=1):

        assert n > 0, "El valor de n debe ser mayor que 0"
        
        self._n = n
        self._texto = self._leer_y_procesar(fichero)
        self._memoria_nula, self._entropia_memoria_nula = (
            self._fuente_de_informacion_de_memoria_nula()
        )
        self._matriz_transicion_markov = self._fuente_de_markov_orden_2()

    @property
    def texto(self):
        return self._texto

    @property
    def alfabeto(self):
        return self._memoria_nula.keys()
    
    @property
    def fuente_de_informacion_de_memoria_nula(self):
        return self._memoria_nula

    @property
    def entropia_memoria_nula(self):
        return self._entropia_memoria_nula

    @property
    def n(self):
        return self._n

    @property
    def matriz_transicion_markov(self):
        return self._matriz_transicion_markov

    @property
    def pretty_matriz_transicion_markov(self):
        n, m = self._matriz_transicion_markov.shape
        matrix = np.zeros((n + 1, m + 1), dtype=object)
        matrix[1:, 1:] = self._matriz_transicion_markov
        bigramas = self.obtener_n_gramas(2)
        matrix[0, 1:] = bigramas
        matrix[1:, 0] = bigramas
        return matrix

    @staticmethod
    def _quitar_tildes(texto):
        return unidecode(texto)

    @staticmethod
    def _conservar_caracteres_alfabeticos(texto):
        return "".join(char for char in texto if char.isalpha())

    @classmethod
    def _leer_y_procesar(cls, fichero):

        with open(fichero) as file:
            contenido = cls._conservar_caracteres_alfabeticos(
                cls._quitar_tildes(file.read())
            )

        return contenido.upper()

    @staticmethod
    def _obtener_alfabeto(texto):
        return sorted(set(texto))

    @staticmethod
    def _obtener_n_gramas(texto, n):
        return sorted(list(set(
            texto[i:i + n] for i in range(len(texto) - n + 1)
        )))

    @staticmethod
    def _calcular_frecuencias(alfabeto, texto):

        n = len(texto)

        return {char: texto.count(char)/n for char in alfabeto}

    @staticmethod
    def H(fuente_informacion):
        return -sum(p*np.log2(p) for p in fuente_informacion.values())

    @classmethod
    def entropia_de_texto(cls, texto):
        alfabeto = cls._obtener_alfabeto(texto)
        frecuencias = cls._calcular_frecuencias(alfabeto, texto)
        return cls.H(frecuencias)

    def _fuente_de_informacion_de_memoria_nula(self):

        caso_n1 = self._calcular_frecuencias(
            self._obtener_alfabeto(self.texto),
            self.texto
        )

        if self._n == 1:
            return (caso_n1, self.H(caso_n1))

        else:
            return (
                self._calcular_frecuencias(
                    self._obtener_n_gramas(self.texto, self._n),
                    self.texto
                ),
                self._n*self.H(caso_n1)
            )

    def _fuente_de_markov_orden_2(self):
        bigramas = self.obtener_n_gramas(2)
        trigramas = self.obtener_n_gramas(3)

        matriz_transicion = np.zeros((len(bigramas), len(bigramas)))

        for i, bigrama in enumerate(bigramas):
            trigramas_relacionados = [
                trigrama for trigrama in trigramas
                if trigrama[:2] == bigrama
            ]

            n = len(trigramas_relacionados)
            trigramas_unicos = set(trigramas_relacionados)

            freqs = {
                trig: trigramas_relacionados.count(trig)/n
                for trig in trigramas_unicos
            }

            for trigrama in trigramas_unicos:
                j = bigramas.index(trigrama[-2:])
                matriz_transicion[i, j] = freqs[trigrama]

        return matriz_transicion
    
    def emision_mensaje_markov(self):
        l = np.random.randint(2, self.MAXLENGTH)

        bigramas = self.obtener_n_gramas(2)

        secuencia = [np.random.choice(bigramas)]

        for _ in range(l):
            secuencia.append(np.random.choice(
                bigramas,
                p=self.matriz_transicion_markov[
                    bigramas.index(secuencia[-1]), :
                ]
            ))

        _pre_concat_secuencia = "".join(
            bigrama[0] for bigrama in secuencia
        )

        return _pre_concat_secuencia + secuencia[-1][-1]

    def obtener_n_gramas(self, n):
        return self._obtener_n_gramas(self.texto, n)

In [16]:
fi = FuenteDeInformacion("texto.txt")
print(f"Entropia de mi fuente: {fi.entropia_memoria_nula}")

for _ in range(15):
    m = fi.emision_mensaje_markov()
    print(f"Mensaje: {m} , Entropía: {fi.entropia_de_texto(m)}")

Entropia de mi fuente: 4.033020314609656
Mensaje: INHUMICAF , Entropía: 2.94770277922009
Mensaje: BYPE , Entropía: 2.0
Mensaje: ULNAFENEGMEEAJ , Entropía: 2.950212064914747
Mensaje: GTETWA , Entropía: 2.251629167387823
Mensaje: ZLAZQUIJ , Entropía: 2.75
Mensaje: JCOR , Entropía: 2.0
Mensaje: SBLOWYOM , Entropía: 2.75
Mensaje: KOERAPEZBAUXHIPR , Entropía: 3.5
Mensaje: LMHOWTOAYAJIDDEFIOLB , Entropía: 3.684183719779189
Mensaje: YHAKOWFFOWTO , Entropía: 2.8553885422075336
Mensaje: DYGAFOGNAHATMEFAFEC , Entropía: 3.3660913291191914
Mensaje: UXHIDDRFSA , Entropía: 3.121928094887362
Mensaje: MECPON , Entropía: 2.584962500721156
Mensaje: KMAJICEITMUTWALISC , Entropía: 3.4613201402110083
Mensaje: IGODSADDLAFODIVE , Entropía: 3.125
