# Ataques estadisticos: Analisis de frecuencias

## Funciones auxiliares

In [1]:
def ngramas(texto, n):
    """Divide el texto en ngramas."""
    texto = texto.replace(" ", "")
    return [texto[i:i+n] for i in range(len(texto)-n+1)]

In [2]:
from collections import Counter
import pandas as pd

def frec_ngramas(texto, n):
    """Calcula las frecuencias de los ngramas de un texto."""
    ng = ngramas(texto, n)
    frecuencias = Counter(ng)
    return pd.DataFrame(frecuencias.most_common(), columns=['letra', 'frecuencia'])

In [3]:
def leer_frecuencias(archivo):
    """Lee un fichero con las frecuencias de los ngramas para el idioma Espanol."""
    return pd.read_csv(archivo, sep=" ", names=["letra", "frecuencia"])

In [4]:
def leer_texto_cifrado(texto_cifrado, n):
    """Lee el texto cifrado y calcula las frecuencias de los ngramas."""
    with open(texto_cifrado) as f:
        texto_cifrado = f.readlines()[0]
    return frec_ngramas(texto_cifrado, n)

## Playfair Square

| <!-- -->    | <!-- -->    | <!-- -->    | <!-- -->    | <!-- -->    |
|-------------|-------------|-------------|-------------|-------------|
| A           | M           | Q           | R           | U           |
| L           | N           | B           | C           | O           |
| I           | Y           | Z           | K           | W           |
| P           | V           | F           | H           | T           |
| G           | S           | X           | D           | E           |

## Analisis Bigramas

In [5]:
bigramas_cifrado = leer_texto_cifrado('texto_cifrado.txt', 2)
bigramas_cifrado.head(10)

Unnamed: 0,letra,frecuencia
0,EG,174
1,SO,141
2,UM,133
3,MG,132
4,OL,124
5,ML,120
6,LM,118
7,IL,115
8,GO,112
9,NE,97


In [6]:
bigramas_es = leer_frecuencias("spanish_bigrams.txt")
bigramas_es.head(10)

Unnamed: 0,letra,frecuencia
0,DE,2088635
1,ES,1882962
2,EN,1850294
3,EL,1638128
4,LA,1464005
5,OS,1460757
6,ON,1307790
7,AS,1268034
8,ER,1239281
9,RA,1197125
