# Ataques estadisticos: Analisis de frecuencias

## Funciones auxiliares

In [None]:
def ngramas(texto, n):
    """Divide el texto en ngramas."""
    texto = texto.replace(" ", "")
    return [texto[i:i+n] for i in range(len(texto)-n+1)]

In [None]:
from collections import Counter
import pandas as pd

def frec_ngramas(texto, n):
    """Calcula las frecuencias de los ngramas de un texto."""
    ng = ngramas(texto, n)
    frecuencias = Counter(ng)
    return pd.DataFrame(frecuencias.most_common(), columns=['letra', 'frecuencia'])

In [None]:
def leer_frecuencias(archivo):
    """Lee un fichero con las frecuencias de los ngramas para el idioma Espanol."""
    return pd.read_csv(archivo, sep=" ", names=["letra", "frecuencia"])

In [None]:
def leer_texto_cifrado(texto_cifrado, n):
    """Lee el texto cifrado y calcula las frecuencias de los ngramas."""
    with open(texto_cifrado) as f:
        texto_cifrado = f.readlines()[0]
    return frec_ngramas(texto_cifrado, n)

## Cifrado Vigenere

No conocemos la palabra clave pero sabemos que **tiene 4 letras**

## Analisis Monogramas

In [None]:
with open('texto_cifrado.txt') as f:
    texto_cifrado = f.readlines()[0]

In [None]:
texto_cifrado

In [None]:
lkeyword = 4

In [None]:
texto_cifrado_1 = ""

for i in range(0, len(texto_cifrado), lkeyword):
    texto_cifrado_1 += texto_cifrado[i]

In [None]:
texto_cifrado_1

In [None]:
monogramas_cifrado_1 = frec_ngramas(texto_cifrado_1, 1)
monogramas_cifrado_1.head(10)

In [None]:
monogramas_es = leer_frecuencias("spanish_monograms.txt")
monogramas_es.head(10)

## Texto Plano

In [None]:
with open('texto_plano.txt', encoding='latin-1') as f:
    texto_plano = f.readlines()[0]

In [None]:
texto_plano = texto_plano.replace(" ", "").replace(",", "").replace(".", "")

In [None]:
texto_plano_1 = ""

for i in range(0, len(texto_plano), 4):
    texto_plano_1 += texto_plano[i]

In [None]:
texto_plano_1