$\huge{Pablo\ Cuesta\ Sierra}$
> Nota: el ejercicio a entregar es el 5, pero como las funciones anteriores son necesarias, no las he borrado.

# **Laboratorio 2020-21** #


# **Semana 11** #

Como vimos la semana pasada, los cifrados de permutación son bastante frágiles: un análisis de frecuencias sencillo puede ser suficiente para *romperlos* (lograr descifrar). Una forma de hacer métodos criptográficos más seguros es no usar siempre la misma permutación del alfabeto, de forma que las frecuencias de los diferentes caracteres en el texto cifrado se igualen. Esta es la idea del sistema criptográfico de Vigenère.

## **Cifrado de Vigènere** ##

Se elige como clave una palabra de cierta longitud $k+1$. Lo relevante va a ser la lista ordenada
$n_0, n_1, \ldots , n_k$ de los $k+1$ números que designan las posiciones en el alfabeto de cada una de las $k+1$ letras de la clave. El cifrado de Vigenère consiste en combinar a la vez $k+1$ cifrados César de claves $n_0$, $n_1$... Se hace:

- Un cifrado César de clave $n_0$ sobre los caracteres del texto en las posiciones 0, k+1, 2(k+1), etc. (llamamos posición 0 a la inicial, como hace Sage).

- Un cifrado César de clave $n_1$ sobre los caracteres del texto en las posiciones 1, 1+(k+1), 1+2(k+1), etc.

- Etcétera, hasta el último, que es un cifrado César de clave $n_k$ que actúa sobre los caracteres que ocupan las posiciones k, k+(k+1), k+2(k+1), etc.

Tomemos, por ejemplo, como clave la palabra 'Sage' y como texto 'Voy a poner un ejemplo'. Tomemos como alfabeto u' ABCDEFGHIJKLMNÑOPQRSTUVWXYZabcdefghijklmnñopqrstuvwxyz' (en realidad, el espacio en blanco no es parte del alfabeto para cifrar en el método original, pero bueno). 

La clave 'Sage', de longitud 4 (corresponde a k=3 en la explicación de arriba), corresponde a los números [20,28,34,32] (buscando la posición de cada letra de la clave en el alfabeto). Las letras en posiciones 0 ('V'), 4 ('a'), 8 ('n'), etc, del texto 'Voy a poner un ejemplo' que queremos cifrar, deben codificarse según un cifrado César de clave 20, las que ocupan posiciones 1 ('o'), 5 (' '), etcétera deben cifrarse con un cifrado César de clave 28, etcétera.

El resultado debe ser 'oOeetaVSFEXeNNgIBERTDO'. Para descifrar, basta aplicar la operación inversa.

La fuerza del cifrado de Vigenère reside en que no es susceptible de un análisis de frecuencias, debido a que el cifrado rota por diferentes desplazamientos, de forma que la misma letra en el texto original no siempre se encripta con la misma letra. Así, por ejemplo, aunque la "P" sea la letra más común en el texto cifrado, no podemos suponer que corresponda a la "E" en el texto original.

Para saber más visitar el artículo de la <a href="http://es.wikipedia.org/wiki/Cifrado_de_Vigen%C3%A8re" target="_blank">wikipedia</a>.

### **Ejercicio 1** ###

Construye una función $\tt cifradoVigenere(texto,clave,alfabeto)$ para cifrar (también servirá, obviamente, para descifrar) con el sistema de Vigénere.  La función debe devolver el texto cifrado y la contraclave (la clave que hay que usar para descifrar un texto cifrado con la clave usada). 
Puedes hacer admisible que el texto contenga caracteres que no están en el alfabeto: si hay alguno así, no se codifica y queda inalterado y en la misma posición.

In [3]:
def cifradoVigenere(texto, clave, alfabeto):
    u'''
    Esta función espera un texto, una palabra clave y un alfabeto
    y devuelve el texto cifrado (Vigenere) con esta clave y la
    contraclave para deshacer el cifrado
    '''
    if any([(letra not in alfabeto) for letra in clave]):
        print (u'Alguna letra en la clave no es válida')
        return None
    
    len_cla,len_alf = len(clave),len(alfabeto)
    clavenum=[alfabeto.index(letra) for letra in clave]
    contraclave=''.join([alfabeto[-j] for j in clavenum])
    
    encriptado=u''
    for k in [0..(len(texto)-1)]:
        letra=texto[k]
        if letra in alfabeto:
            letra=alfabeto[(alfabeto.index(letra)+clavenum[k%len_cla])%len_alf]
        encriptado+=letra
        
    return encriptado, contraclave

In [4]:
alfabeto=u'ABCDEFGHIJKLMNÑOPQRSTUVWXYZ'
alfabeto+=alfabeto.lower()
alfabeto+='.,;[]()'
cifradoVigenere('Hola', 'PARIS', alfabeto)

(u'Wo;i', u'rApzo')

## **Rompiendo Vigenère** ##

Como hemos visto, el cifrado de Vigenère en realidad es una colección de cifrados de César, tantos como longitud tenga la clave. Si se conoce la longitud de la clave, el descifrado es sencillo: basta hacer un análisis de frecuencias para cada uno de los códigos de César. Ten en cuenta que cuál sea el carácter más frecuente depende del idioma, de si se han codificado los espacios o no, etcétera.

### **Ejercicio 2** ###

Sabiendo que la clave del siguiente cifrado tenía longitud 5, y que no se encriptó el espacio en blanco, desencripta el texto en inglés que se cargará cuando ejecutes la celda siguiente. Como no se sabe cuál ha sido el alfabeto utilizado, lo suyo es probar como alfabeto el que forman los caracteres que aparecen en el texto cifrado.

In [5]:
##Descomenta y ejecuta
load('VigenereEj2.py')
len(texto_cifrado)

1000

_Sugerencia_: crear y utilizar una función ${\tt MasFrecuente}({\tt cadena,k})$ que dada una cadena y un número $k$, devuelva el $k$-ésimo carácter más frecuente de la cadena.

Por ejemplo, ${\tt MasFrecuente}($'${\tt aaaabb}$'$,2)$ devolvería '${\tt b}$'.

In [6]:
def MasFrecuente(cadena, k):
    char=list(set(cadena))
    if k>len(char):
        print u'error'
        return None
    frecs=dict(zip(char, [0]*len(char)))
    for letra in cadena:
        frecs[letra]+=1
    FrecCar=zip(frecs.values(),frecs.keys())
    FrecCar.sort(reverse=True)
    return FrecCar[k-1][-1]

In [7]:
MasFrecuente('aaaabb', 2)

'b'

In [8]:
#como la clave tiene longitud 5:
pista=''.join([MasFrecuente(texto_cifrado[j::5], 2) for j in range(5)])
pista

u'mvk;o'

Ahora sabemos que 'eeeee'(+Vigenere)clave='muk;o', por lo que 
clave = 'muk;o'(+Vigenere)(-'eeeee')

In [9]:
alf_list = list(set(texto_cifrado))
alf_list.sort()
alfabeto = ''.join(alf_list)
alfabeto

u" '(),.;abcdefghijklmnopqrstuvwxyz"

In [10]:
prueba,contraclave=cifradoVigenere('holaaa', 'eeeee', alfabeto[1:])#3er arg: para quitar el espacio
contraclave #esto es lo opuesto a 'eeeee'

u'qqqqq'

In [11]:
posible_clave,c=cifradoVigenere(pista, contraclave, alfabeto[1:])#3er arg: para quitar el espacio
posible_clave

u'clave'

In [12]:
p,contraclave=cifradoVigenere('HOLAAa', posible_clave, alfabeto[1:])
contraclave

u'sju;q'

In [13]:
solucion,c=cifradoVigenere(texto_cifrado, contraclave, alfabeto[1:])
print solucion

once the length of the key is known, the ciphertext can be rewritten into that many columns, with each column corresponding o a single letter of the key. each column consists of plaintext that has been encrypted by a single caesar cipher; the caesar key (shift) is just the letter of the vigenere key that was used for that column. using methods similar to those used to break the caesar cipher, the letters in the ciphertext can be discovered. an improvement to the kasiski examination, known as kerckhoffs' method, matches each column's letter frequencies to shifted plaintext frequencies to discover the key letter (caesar shift) for that column. once every letter in the key is known, the cryptanalyst can simply decrypt the ciphertext and reveal the plaintext. kerckhoffs' method is not applicable when the vigenere table has been scrambled, rather than using normal alphabetic sequences, although kasiski examination and coincidence tests can still be used to determine key length in that case.

### **Ejercicio 3** ###

Desencripta el texto en inglés que se cargará cuando ejecutes la celda siguiente. Se sabe que se han codificado sólo las letras (no los símbolos de puntuación ni los números ni los espacios) por un cifrado de Vigenère con una clave de cuatro letras.


In [14]:
##Descomenta y ejecuta
load('VigenereEj3.py')
len(textocif)

1398

In [15]:
e_enc=''.join([MasFrecuente(textocif[j::4],2) for j in range(4)])
e_enc

u'pnki'

### **Ejercicio 4** ###

Obviamente, conocer algo del texto original también ayuda

Sabiendo que el texto original empezaba por “The machine”, y que el alfabeto utilizado es el que se da a continuación, descifra el siguiente texto cifrado (en inglés). Averigua también la clave.

*Pista*: comparar el principio conocido del texto real con el principio del texto codificado nos permite deducir qué traslación se ha efectuado en cada uno de los primeros caracteres, y eso puede permitir averiguar la longitud de la clave usada... e incluso la clave misma.

In [16]:
##Descomenta y ejecuta
alfabeto = u''' abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'''
alfabeto+=u'''!"#$%&'()*+,-./:;<=>?@[\\]^_`{|}~\t\n\x0b\x0c\r0123456789áéíóúñ'''
load('VigenereEj4.py')
len(texto_cifrado)

478

In [17]:
inicio_real='The Machine'
inicio_final=texto_cifrado[:len(inicio_real)]
inicio_final

'Yvngzbhvrur'

In [18]:
lista=[]
for k in [0..len(inicio_real)-1]:
    lista.append(abs(alfabeto.index(inicio_final[k])-alfabeto.index(inicio_real[k])))
lista

[5, 14, 9, 7, 13, 1, 5, 14, 9, 7, 13]

In [19]:
clave=''.join([alfabeto[k] for k in lista[:6]])
clave

u'enigma'

__________________

Pero, ¿qué sucede si no tenemos ningún conocimiento previo ni del texto original ni de la clave?


## **Método de Kasiski** ##

Durante siglos se creyó que el cifrado de Vigenère era irrompible. Se sabe que Charles Babbage rompió algunas de sus variantes hacia 1854, pero nunca publicó sus resultados al respecto. Fue Friedrich W. Kasiski, un oficial militar prusiano, el primero en publicar, en 1863, una explicación detallada de cómo romper el cifrado de Vigenère que no dependía de ningún conocimiento previo ni del texto original ni de la clave. 

Aunque hemos igualado las frecuencias de las letras en el texto cifrado usando un desplazamiento diferente para cada letra, la seguridad del cifrado de Vigenère tiene una debilidad: la clave se repite. Cuando se encuentran n-gramas (palabras de longitud n) repetidos en el texto cifrado con n >= 3, lo más probable es que esos n-gramas sean también iguales en el texto original. Esto implica que han sido cifrados con la misma sustitución, con lo que la distancia entre los comienzos de dos n-gramas iguales dentro del texto cifrado será un múltiplo del periodo que se usó para cifrar el texto. Si el texto es largo, suelen encontrarse varias parejas de n-gramas repetidos con varias distancias que los separan. En estos casos, la longitud de la clave  que se tomó para cifrar el texto será un divisor común de todas las distancias que separen n-gramas iguales, con lo que las posibilidades se reducen bastante.

### **Ejercicio 5** ###

Evalua la siguiente celda. Al hacerlo, se genera una cadena de nombre $\tt encriptado$, resultado de encriptar mediante el método de Vigenère un texto escrito en español, sin tildes y todo en letras mayúsculas, que usa el alfabeto

abc=u'''!"&'(),-.125789:;?ABCDEFGHIJLMNOPQRSTUVWY[]abcdefghijlmnopqrstuvwxyz¡¿ÉÍÑÚáéíïñóúü'''

Intenta averiguar el texto original usando un análisis de Kasiski combinado con un análisis de frecuencias. Las frecuencias con las que suelen aparecer las distintas letras del alfabeto en textos escritos en español se puede consultar por ejemplo en:

http://es.wikipedia.org/wiki/Frecuencia_de_aparición_de_letras

*Sugerencia*: Comienza por definir una función McdNgramas(texto,k,m=10) que, dado un texto, encuentre las m cadenas de longitud k más repetidas en el texto y devuelva el máximo común divisor de las distancias entre las diversas repeticiones de cada una de estas m cadenas.

 

 

In [20]:
##Descomenta y ejecuta
load('VigenereEj5.py')
len(kasiski)

138174

In [21]:
abc=u'''!"&'(),-.125789:;?ABCDEFGHIJLMNOPQRSTUVWY[]abcdefghijlmnopqrstuvwxyz¡¿ÉÍÑÚáéíïñóúü'''
print abc

!"&'(),-.125789:;?ABCDEFGHIJLMNOPQRSTUVWY[]abcdefghijlmnopqrstuvwxyz¡¿ÉÍÑÚáéíïñóúü


In [22]:
def mcd_list(L):
    if L==[]:
        return 1
    elif L[0]==0:
        return 1
    else:
        div=set(divisors(L[0]))
    for j in L:
        if j==0:
            return 1
        div=div.intersection(divisors(j))
    return max(div)

In [27]:
def McdNgramas(texto,k,m=10):
    ltexto=len(texto)
    kgramas=[texto[j:j+k] for j in [0..(ltexto-k)]]
    kgramas_=list(set(kgramas))
    frec_dic=dict(zip(kgramas_,[0]*len(kgramas_)))
    for palabra in kgramas:
        frec_dic[palabra]+=1
    frec_lis=zip(frec_dic.values(),frec_dic.keys())
    frec_lis.sort(reverse=True)
    
    if m<len(frec_lis):
        minimo=m
    else:
        minimo=len(frec_lis)
    
    kgramas=[frec_lis[j][-1] for j in range(minimo)]
    distancias=[]
    s=0#índice en la lista distancias (que contiene las listas de las distancias de cada kgrama)
    for pal in kgramas:
        distancias+=[[]]
        j=texto.find(pal)#encontramos primera ocurrencia
        l=j
        while l!=-1 and j+k<ltexto:
            l=texto[j+k:].find(pal)#buscamos desde la última aparición, el índice que nos de, será la distancia (falta añadir k elementos desde el inicio de la cadena anterior)
            if l!=-1:
                distancias[s].append(l+k)#incluímos en la s-ésima lista de distancias l+k
                j+=k+l#actualizamos j para que contenga el índice de la última aparición encontrada
        s+=1
    mcds=[mcd_list(lista) for lista in distancias]
    return set(mcds)

In [28]:
McdNgramas('hoho hoho',2,10)#para probar

{1, 5}

In [30]:
McdNgramas(kasiski, 3, 1000)

{1, 3, 9}

In [31]:
McdNgramas(kasiski, 4, 100)

{1, 3, 9}

In [32]:
McdNgramas(kasiski, 5, 100)

{1, 3, 9}

In [385]:
def MasFrecuente_aux(cadena, k, abc):
    u'''
    esta función hace lo mismo que MasFrecuente(cadena, k)
    pero primero elimina todas las letras de cadena que no están en el alfabeto abc
    '''
    cadena_aux=u''
    for letra in cadena:
        if letra in abc:
            cadena_aux+=letra
    return MasFrecuente(cadena_aux, k)

In [395]:
#suponemos que la clave tiene longitud 9 (he probado con 3 y con 18 y ninguno tiene sentido):
pista=''.join([MasFrecuente_aux(kasiski[j::9], 1, abc) for j in range(9)])
print pista

Ñ;ED9G;8D


Ahora sabemos que 'eeeeeeeee'(+Vigenere)clave='Ñ;ED9G;8D
', por lo que 
clave = 'Ñ;ED9G;8D'(+Vigenere)(-'eeeeeeeee')

In [396]:
prueba,contraclave=cifradoVigenere('holaaa', 'eeeeeeeee', abc)
contraclave #esto es lo opuesto a 'eeeeeeeee'

u'SSSSSSSSS'

In [397]:
posible_clave,c=cifradoVigenere(pista, contraclave, abc)
posible_clave#tiene sentido que sea Hipogrifo

u'Hipogrifo'

In [398]:
p,posible_contraclave=cifradoVigenere('', posible_clave, abc)
print posible_contraclave

pOHIQFORI


In [401]:
solucion,c=cifradoVigenere(kasiski, posible_contraclave, abc)
print solucion

LA VIDA ES SUEÑO
 
Personas que hablan en ella: 
ROSAURA, dama 
SEGISMUNDO, príncipe 
CLOTALDO, viejo 
ESTRELLA, infanta 
CLARÍN, gracioso 
BASILIO, rey de Polonia 
ASTOLFO, infante 
GUARDAS 
SOLDADOS 
MÚSICOS 
 
ACTO PRIMERO
[En las montañas de Polonia]

Salen en lo alto de un monte ROSAURA, en hábito de hombre, de
camino, y en representado los primeros versos va bajando

ROSAURA:   Hipogrifo violento
           que corriste parejas con el viento,
           ¿dónde, rayo sin llama,
           pájaro sin matiz, pez sin escama,
           y bruto sin instinto
           natural, al confuso laberinto
           de esas desnudas peñas
           te desbocas, te arrastras y despeñas?
           Quédate en este monte,
           donde tengan los brutos su Faetonte;
           que yo, sin más camino
           que el que me dan las leyes del destino,
           ciega y desesperada
           bajaré la cabeza enmarañada
           de este monte eminente,
           que arruga al sol el ceño d