## 1 Generamos claves

In [1]:
def generar_claves(N):
    p,q=1,1
    n=p*q
    while n>26^(N+1) or 26^N>n:
        p = random_prime(26^(N//2),lbound=26^(N//3))
        q = random_prime(26^(N+1)//p,lbound=26^N//p)
        n = p*q
    return n,p,q

Esta función para generar claves RSA,  para un alfabeto de $26$ caracteres,  parece ser mejor que la propuesta durante la clase, pero no deja de ser arbitraria.  

In [2]:
n,p,q = generar_claves(20)

In [3]:
print factor(n);print p;print q

90260620715347 * 1602719730586067
90260620715347
1602719730586067


In [4]:
print p-q

-1512459109870720


In [5]:
Phi = (p-1)*(q-1)

In [6]:
def invertible(Phi):
    for int in xsrange(16^7,16^10):
        if gcd(int,Phi)==1:
            return int,xgcd(int,Phi)
            break

In [7]:
SOL = invertible(Phi);SOL

(268435457, (1, 42577915311413748024142810073, -79007510))

In [8]:
SOL[0]*SOL[1][1]+Phi*SOL[1][2]

1

In [9]:
clave_pr=SOL[1][1]%Phi;print clave_pr

42577915311413748024142810073


In [10]:
26^21 > n > 26^20 #Deben cumplirse

True

La clave pública que hemos generado  es (n,SOL[0]) y la correspondiente  clave privada es *clave_pr*.

## 2 Comprobamos

Queremos entender el motivo por el que un mensaje de $N$ caracteres encriptado con RSA produce, casi siempre,  un mensaje con $N$ o $N+1$ caracteres. 

In [11]:
alfb = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ';len(alfb)

26

In [12]:
L_alfb = list(alfb)

def ord2(c):
    return L_alfb.index(c)

def chr2(n):
    return L_alfb[n]


In [13]:
def codifica(text,alfb):
    L = list(text)
    L1 = map(ord2,L)
    m,i,base = 0,0,len(alfb)
    for j in L1:
        m += j*base^i
        i += 1
    return m

In [14]:
def generador(N,alfb):
    C = ''
    for muda in srange(N):
        C += alfb[randint(0,N-1)]
    return C

In [15]:
generador(20,alfb)

'RJKFJLSLERHLNDLHGJLI'

In [16]:
from string import join
def descodifica(m,alfb):
    L = m.digits(base=len(alfb))
    L.reverse
    L1 = map(chr2,L)
    return  join(L1,sep = '')

In [17]:
def comprobador(N,k):
    L = []
    L1 = []
    for muda in xsrange(k):
        C = generador(N,alfb)
        m = codifica(C,alfb)
        if gcd(m,n) != 1:
            break
        m_encript = power_mod(m,SOL[0],n)
        C1 = descodifica(m_encript,alfb)
        L.append(len(C1))
        if len(C1)<N:
            L1.append((C,m,C1,m_encript))
    return L,L1
        

In [18]:
L,L1 = comprobador(20,1000);print max(L);print min(L)

21
18


In [19]:
print L1

[('HLKKSTBGCKTQECGLMHJA', 273794530240711855203629405, 'SFIOMHJPKLZATKGEYCY', 710829631986178032019031748), ('PASIJQBRCCGARTGMTNJI', 6412642597555127420509067047, 'ASTVHDSRMQLKQLAWZNL', 340141514436066789636754200), ('MQEDQBJMQOGGASTFSNBH', 5410284735744674863256402196, 'GOUTKRYGTYEFIKDTNZI', 264780765193871340863573754), ('JKDEGSKBBOKLTNTRKHHN', 10178833670849829793777189177, 'MBPSRLUNSEDTNZOFDX', 26218207258497928967192834), ('OSALIJPGSPNQBJBMPLKA', 307941547721400165652670202, 'LXZTDFCMSEGPTKDYIPQ', 489068917308941013470615213), ('MGBMAAORFNGNTHOPLBHQ', 12471472419352800218485867564, 'EDFNBOVSQPVBWUPHJGK', 302003304772775801545199646)]


Vemos que, salvo en unos pocos casos, siempre se obtienen cadenas de al menos $20$ caracteres. 

In [20]:
L1[0][3]<26^20

True

In [21]:
L1[0][3]<26^19

True

In [22]:
L1[0][3]<26^18

False

In [23]:
C2 = descodifica(L1[0][3],alfb);print C2

SFIOMHJPKLZATKGEYCY


Vemos que es posible que el texto encriptado y descodificado tenga menos de $20$ caracteres. El caso extremo de esta situación es, como se indicó durante la clase,  un texto que se codifique como $0$ ($AAAAA...$) o como $1$ ($BAAAA...$), y es claro que, con las funciones anteriores no recuperamos el texto original (en el primer caso obtenemos $'\  '$ y en el segundo $'B'$). Pensando un poco vemos que el problema viene de la función *descodifica*, y en particular de la primera línea,  que no rellena con ceros la lista de dígitos y entonces pierde las Aes finales. 

In [24]:
from string import join
def descodifica2(m,alfb):
    L = m.digits(base=len(alfb),padto=20)
    L.reverse
    L1 = map(chr2,L)
    return  join(L1,sep = '')

In [25]:
def comprobador2(N,k):
    L = []
    L1 = []
    for muda in xsrange(k):
        C = generador(N,alfb)
        m = codifica(C,alfb)
        if gcd(m,n) != 1:
            break
        m_encript = power_mod(m,SOL[0],n)
        C1 = descodifica2(m_encript,alfb)
        L.append(len(C1))
        if len(C1)<N:
            L1.append((C,m,C1,m_encript))
    return L,L1

In [26]:
L,L1 = comprobador2(20,1000);print max(L);print min(L); print len(L) ;print len(L1)

21
20
1000
0


In [27]:
L,L1 = comprobador2(20,10000);print max(L);print min(L); print len(L) ;print len(L1)

21
20
10000
0


Este experimento parece 'probar' que si descodificamos como en *descodifica2* no vamos a obtener mensajes encriptados de longitud menor que la del mensaje original. Lo hemos comprobado para las cadenas aleatorias producidas por *generador*, en las que todos los caracteres tienen la misma probabilidad $1/20$, y es fácil ver que también se cumple para cadenas que tienen Aes al final, que son los dos casos extremos. Debemos esperar que también se cumpla para los casos intermedios en los que la probabilidad de que los caracteres aparezcan en el mensage generado no sea la misma para todos. 

In [28]:
def comprobador3(C):
    m = codifica(C,alfb)
    if gcd(m,n) != 1:
        return "ERROR"
    else:
        m_encript = power_mod(m,SOL[0],n)
        C1 = descodifica2(m_encript,alfb)
        return C,m,C1,len(C1),m_encript

In [29]:
comprobador3('BAAAAAAAAAAAAAAAAAAA')

('BAAAAAAAAAAAAAAAAAAA', 1, 'BAAAAAAAAAAAAAAAAAAA', 20, 1)

In [30]:
T3 = comprobador3('BCDAAAAAAAAAAAAAAAAA'); print T3

('BCDAAAAAAAAAAAAAAAAA', 2081, 'GERGADZKLPSYLJTBKLIE', 20, 3314616256719458993158500962)


In [31]:
power_mod(T3[4],clave_pr,n)

2081

Llegados a este punto nos debemos preguntar si podemos demostrar que partiendo de una cadena de caracteres de longitud $20$ la cadena obtenida mediante RSA, con *descodifica2*,  es siempre de longitud $20$ o $21$, y la respuesta es (trivialmente)  que sí: dado un entero menor que $n$ cualquiera la función *descodifica2* siempre le asocia una cadena que tiene al menos $20$ caracteres, porque al rellenar la lista de dígitos con ceros estamos rellenando la lista de caracteres con Aes. 