Nota: este ejercicio sirve para empezar a introducir conceptos que usaremos y explicaremos mejor durante el curso. **No te preocupes si no lo entiendes todo, la intención es que te empiecen a sonar algunas palabras.**

Este ejercicio está pensado para hacerse en clase con explicación del profesor.

# Diferencias entre codificar y cifrar

El primer concepto importante es distinguir entre codificar y cifrar:

- **codificar**: representar un mensaje de una forma adecuada para los siguientes pasos de la comunicación. En criptografía, codificar significa representar los mensajes como números, sean lo que sean al principio. Para codificar no necesitamos una clave, ni pretendemos que nuestros mensajes sean secretos: cualquiera, sea legítimo o atacante, puede codificar y descodificar.
- **cifrar**: tomar el mensaje **previamente codificado** y aplicarle un algoritmo criptográfico que normalmente incluye un secreto llamado clave. Solo las personas legítimas que conocen la clave pueden cifrar y descifrar.

POr influencia del idioma inglés, en ocasiones se usa la palabra "encriptar" (del inglés *encrypt*) como sinónimo de cifrar. En este curso intentaremos usar siempre los verbos "cifrar/descifrar" y no "encriptar/desencriptar", pero son sinónimos.

Así que el proceso completo de protección de un mensaje tiene los pasos:

1. Codificar los textos/imágenes/lo que sea en forma de **números**
1. Ciframos el mensaje codificado con la clave
1. Algunos canales de comunicación pueden necesitar una codificación adicional para adaptar el texto cifrado al canal (correo electrónico, por ejemplo). Esto es una segunda codificación que muchas veces se hacen en Base64

Y para poder leer un mensaje protegido lo hacemos al revés:

1. Deshacemos la segunda codificación, si la hay (el Base64, si lo hay)
1. Desciframos el mensaje con la clave para obtener números
1. Descodificamos el mensaje para obtener textos/imágenes/lo que sea

Durante el curso hablaremos solo de las etapas de cifrar y descifrar, pero en la práctica real y en los ejercicios propuestos veréis que también hay que tener en cuenta las etapas de codificación/decodificación.

# Codificación de mensajes en sistemas informáticos

Como bien sabéis, los PCs guardan los datos como 0 y 1, es decir, en un sistema binario. Los humanos en cambios escribimos con letras ABCDE...

**Todos los sistemas de cifrado que veremos durante el curso se basan en fórmulas matemáticas, así que vamos a necesitar convertir nuestros textos, imágenes o archivos a números antes de poder cifrarlos**. Este proceso se llama codificación. Vamos a ver un ejemplo con letras, pero sería igual con imágenes, sonidos o películas.

Ya sabéis que hay diferentes sistemas de codificación de letras. ASCII fue el sistema norteamericano y no permitía codificar letras con signos especiales como `áé¿ñ`. Aunque se hicieron algunas extensiones de ASCII, en la actualidad el codificado más usado es quizá unicode en su variante utf-8. En utf-8 se pueden representar 1.112.064 símbolos y cada uno puede ocupar entre uno o cuatro bytes, según sea necesario.

Vamos a ver algunas formas de codificar mensajes en utf-8

In [None]:
msg = 'HOLA'
msg_bytes = bytes(msg, 'utf-8')
msg_listbytes = list(msg_bytes)
msg_binlist = [bin(c) for c in msg_listbytes]
msg_hexlist = [hex(c) for c in msg_listbytes]
msg_hex = msg_bytes.hex()
msg_int = int.from_bytes(msg_bytes)

print(f"""
msg: {msg}
msg en bytes: {msg_bytes}
lista de bytes: {msg_listbytes}
lista de bits: {msg_binlist}
lista de bytes (en hexadecimal): {msg_hexlist}
representación hexadecimal: {msg_hex}
bits de la cadena interpretados como número entero: {msg_int}
""")

In [None]:
msg = 'HÖLÁ'
msg_bytes = bytes(msg, 'utf-8')
msg_listbytes = list(msg_bytes)
msg_binlist = [bin(c) for c in msg_listbytes]
msg_hexlist = [hex(c) for c in msg_listbytes]
msg_hex = msg_bytes.hex()
msg_int = int.from_bytes(msg_bytes)

print(f"""
msg: {msg}
msg en bytes: {msg_bytes}
lista de bytes: {msg_listbytes}
lista de bits: {msg_binlist}
lista de bytes (en hexadecimal): {msg_hexlist}
representación hexadecimal: {msg_hex}
bits de la cadena interpretados como número entero: {msg_int}
""")

In [None]:
msg = '你好'
msg_bytes = bytes(msg, 'utf-8')
msg_listbytes = list(msg_bytes)
msg_binlist = [bin(c) for c in msg_listbytes]
msg_hexlist = [hex(c) for c in msg_listbytes]
msg_hex = msg_bytes.hex()
msg_int = int.from_bytes(msg_bytes)

print(f"""
msg: {msg}
msg en bytes: {msg_bytes}
lista de bytes: {msg_listbytes}
lista de bits: {msg_binlist}
lista de bytes (en hexadecimal): {msg_hexlist}
representación hexadecimal: {msg_hex}
bits de la cadena interpretados como número entero: {msg_int}
""")

Una vez que tenemos un mensaje representado en hexadecimal o como número entero, ya podemos cifrarlo. Así que codificarlo es el primer paso para cifrar, y descodificar es el último paso después de cifrar.

Por razones técnicas e históricas, estos bytes se suelen enviar en una representación llamada base64.

In [None]:
import base64
msg = 'Esto es un texto más largo con tildes y símbolos especiales como 你好'
msg_bytes = bytes(msg, 'utf-8')
msg_base64 = base64.b64encode(msg_bytes)

print(msg)
print(msg_bytes)
print(msg_base64)

Y fíjate que si queremos recuperar el texto original desde su representación base 64 tenemos que hacerlo en dos pasos: primero decodificamos el base64 y después decodificamos los bytes en utf-8

In [None]:
print(bytes.decode(base64.b64decode(msg_base64), 'utf-8'))

Fíjate: todo lo que hemos hecho hasta ahora es representar una cadena como un conjunto de bytes, con varias codificaciones. **No hemos cifrado nada**.

Que no sepas qué representa la cadena `RXN0byBlcyB1biBtZW5zYWplIHN1cGVyIHNlY3JldG8=` no significa que esté cifrada. Simplemente, no podemos leerla porque está en un formato pensado para las máquinas, no los humanos.

Recuerda: Base64 no es un cifrado, es una **forma de codificar información útil para las comunicaciones electrónicas**. En criptografía usaremos mucho Base64 para representar la información binaria, pero no es un cifrado en sí.

In [None]:
base64.b64decode(b'RXN0byBlcyB1biBtZW5zYWplIHN1cGVyIHNlY3JldG8=')


# Cifrado de bytes con XOR

Para que un mensaje se mantenga secreto no solo tenemos que codificarlo, también tenemos que cifrarlo usando un elemento secreto que se llama **CLAVE**.

Con una clave ciframos lo que llamamos un **TEXTO EN CLARO**.

La función XOR puede usarse para cifrar bytes de un texto en claro $T$ con una clave $K$.

Nota: en lo que sigue voy a usar cadenas como `b'HOLA'` que es un "atajo" en Python equivalente a `bytes('HOLA', 'ascii')`. Así me ahorro escribir algunas líneas.

XOR, o-exclusivo, con el símbolo $\oplus$  es la función $C=T \oplus K$ que tiene la siguiente tabla de verdad:

T|K|T XOR K
--|--|--
0|0|0
0|1|1
1|0|1
1|1|0

Se puede interpretar de estas dos estas formas

- Lógica booleana: $C=T \oplus K$ solo es verdad si $T$ es verdad ó $K$ es verdad pero no los dos a la vez
- Cifrado: cambio de bits: $C=T \oplus K$ cambia el valor de $T$ si $K=1$, y no lo cambia si $K=0$

Vamos a ver este lío con un ejemplo. En python, XOR se calcula con el operador `^`

In [None]:
T = 47
K = 52
C = T ^ K

print(f'{bin(T)} xor {bin(K)} = {bin(C)}')


XOR es una función que podemos usar para cifrar. Debido a sus propiedades conmutativas y asociativas y elemento neutro, podemos usar la misma función para cifrar y para descifrar:

In [None]:
clave = b'1234'

# esta función simplemente recorre los bytes el mensaje uno a uno y aplica un xor
def cifrado(texto, clave):
  c = [texto[i] ^ clave[i] for i in range(0, len(texto))]
  return bytes(c)

# el descifrado con xor usa la misma función que el cifrado. Esto es una curiosidad, no siempre pasará así
descifrado = cifrado

c = cifrado(b'HOLA', clave)
m = descifrado(c, clave)

print(f'Cifrado: {c}')
print(f'Descifrado: {m}')

XOR no solo es una función de cifrado simple: **es una función de cifrado perfecta**. Eso significa que si se usa "bien", es totalmente **imposible** que el atacante puede descifrar el texto sin conocer la clave de cifrado.

Esto sucede porque pueden existir otras claves de cifrado que den mensaje totalmente coherentes. Observa: con la clave `1234` se descifra una cosa, pero con la clave `48,4` se descifra otra. ¿Qué es lo que el emisor ha dicho realmente, HOLA o MESA? El atacante no tiene forma de saberlo porque no sabe cuál de las dos claves se ha usado.

In [None]:
c = cifrado(b'HOLA', b'1234')
print(c)

print(descifrado(c, b'1234'))
print(descifrado(c, b'48,4'))


XOR también tiene problemas graves: el mismo mensaje siempre se cifra igual.

Veremos que esto es una ventaja para el atacante. Aunque no sepa lo que estamos diciendo porque no tiene la clave, el atacante sí que va a saber que siempre decimos lo mismo. Esto puede ser suficiente para que consiga sus objetivos. Además, en algunas circunstancias, puede usar mensajes repetidos para descifrar el mensaje completo.

Observa:

- El mensaje `HOLA` siempre se cifra igual
- ¿Qué sucede si ciframos un mensaje que solo tiene ceros?

In [None]:
print(f'Cifrado: {cifrado(b'HOLA', clave)}')
print(f'Cifrado: {cifrado(b'HOLA', clave)}')
print(f'Cifrado: {cifrado(b'HOLA', clave)}')
print(f'Cifrado: {cifrado(b'HOLA', clave)}')
print(f'Cifrado: {cifrado(b'HOLA', clave)}')
print()
print(f'Cifrado: {cifrado(bytes([0, 0, 0, 0]), clave)}')

XOR es un cifrado perfecto y si se usa "bien", es totalmente imposible que el atacante puede descifrar el texto sin conocer la clave de cifrado. Ahora, usar "bien" una función XOR para que ofrezca cifrado perfecto es muy, muy difícil. Durante todo el curso aprenderemos por qué no estamos simplemente usando XOR si ofrece un cifrado perfecto, y qué "trucos" usamos para esquivar los problemas que tiene XOR.

# Seguridad por oscuridad: introducción al criptoanálisis

Varias editoriales de todo el mundo han publicado una línea de cuentos infantiles en forma de coleccionable por entregas. El producto de ambas es similar: venden un altavoz y unas figuras coleccionables, y el cuento asociado a una figura suena cuando se acerca la figura al altavoz.

En algunos de estos productos, los cuentos se guardan en una tarjeta SD en el altavoz. El cuento no está en la figura porque eso provocaría que las figuras fuesen demasiado caras. Las figuras tienen etiquetas NFC o RFID pasivas con un identificador, que desbloquean el cuento que está en el altavoz. Una de las editoriales, para evitar que se pueda acceder a los cuentos sin comprar la figura, ha decidido cifrar los archivos de audio...pero han confiado en la seguridad por oscuridad

¿Podremos desbloquear los cuentos que están en el altavoz sin tener que comprar las figuras coleccionables?

![](https://github.com/Juanvvc/crypto/blob/master/ejercicios/01/images/caperu.jpg?raw=1)

**Atención**: este producto y el protocolo que usa la editorial es real. Lo único que no es real es la contraseña que utiliza la editorial para proteger sus cuentos, pero se puede obtener tal y como se describe en este ejercicio.

Vamos a analizar el sistema de cifrado que se utiliza en los audiocuentos.

La clase HexView que está a continuación es simplemente una forma sencilla de mostrar el contenido de un archivo en hexadecimal en estos notebook. Podrías también ejecutar un hexdump en línea de comandos. No es importante que entiendas esta clase, simplemente ejecútala porque la usaremos después

In [None]:
import os

class HexViewer():
    def __init__(self, filename, bs=16, count=32):
        self.filename = filename
        self.bs = bs
        self.count = count
    def get_blocks(self, offset=0):
        assert self.filename
        with open(self.filename, "rb") as file:
            try:
                file.seek(offset, os.SEEK_SET)
                block = file.read(self.bs * self.count)
            except ValueError: # Empty offsetSpinbox
                return
        rows = [block[i:i + self.bs]
                for i in range(0, len(block), self.bs)]
        for row in rows:
            yield '{} - {}'.format(self.get_bytes(row), self.get_ascii(row))
    def get_bytes(self, row):
        output = " ".join(map(lambda b:"{:02X}".format(b), row))
        if len(row) < self.bs:
            output += " " * (self.bs - len(row)) * 3
        return output
    def get_ascii(self, row, not_printable='.'):
        output = []
        for char in row.decode('ascii', errors="replace"):
            if char in "\u2028\u2029\t\n\r\v\f\uFFFD":
                char = not_printable
            elif not 0x20 <= ord(char) <= 0xFF:
                char = not_printable
            output.append(char)
        return "".join(output)
    def print_blocks(self, offset=0):
        print('\n'.join(self.get_blocks(offset)))


## ¿Cómo es un archivo MP3 real?

Bien, en este enlace: https://github.com/Juanvvc/crypto/raw/master/ejercicios/01/test.mp3 puedes encontrar un archivo `test.mp3` de prueba, que nos servirá para explorar cómo es un archivo MP3 real.

(Nota: el archivo MP3 original se descargó de esta web: <https://file-examples.com/index.php/sample-audio-files/sample-mp3-download/>)

Que el archivo cifrado en la memoria del altavoz es un MP3 y no otro formato es una suposición razonable. Podría ser también WAV, OGG, o algún otro formato de audio. En este caso son MP3. Si no lo hubiesen sido, un adversario tardaría un poco más tratando de descubrir en qué formato está el audio, pero no demasiado más: no hay tantos formatos de audio legibles por un altavoz de bajo coste.

Vamos a ver los primeros 512 bytes (32 bloques de 16 bytes) del archivo para conocer el formato que tiene un archivo MP3 de audio:

In [None]:
import urllib.request
if not os.path.exists('test.mp3'): urllib.request.urlretrieve('https://github.com/Juanvvc/crypto/raw/master/ejercicios/01/test.mp3', 'test.mp3')
HexViewer('test.mp3', bs=16, count=32).print_blocks()

Observa:

- El inicio de un archivo es conocido: `ID3`. Es muy común que los archivos empiecen con unas pocos letras que los identifican: DOCX, JPG, ZIP... tienen todos una cabera inicial que los identifica.
- Los archivos MP3 como este en ocasiones tienen "secciones de padding", que son secciones con muchos ceros

## ¿Cómo es el archivo de un cuento "protegido"?

Veamos ahora el archivo `01.enc`. Este archivo está cifrado utilizando el mismo método que los audiocuentos que se pueden encontrar en el quiosco. Lo puedes encontrar en este enlace https://github.com/Juanvvc/crypto/raw/master/ejercicios/01/test.mp3, aunque el código de más abajo lo descarga y muestra sin que tengas que hacerlo tú.

Observa:

- El archivo protegido no empieza como empezaba el archivo MP3 real
- En las partes que un MP3 tendría ceros, aquí aparece otra cadena

Vamos a suponer que este archivo es un MP3 cifrado. Entonces, **sabemos** que tiene que empezar con la cadena "ID3" porque todos los archivos MP3 empiezan con esa cadena. Así que tenemos que encontrar una clave que descifre el inicio a la cadeba "ID3". Además, sabemos que es muy posible que partes del archivo descifrado contengan largas secciones con "ceros". Esto de conocer al menos partes de un mensaje y aprovechar el conocimiento para descifrar partes del mismo se llama "ataque de texto en claro conocido" ( https://en.wikipedia.org/wiki/Known-plaintext_attack ) y se usa en algunos ataques a sistemas criptográficos

In [None]:
if not os.path.exists('01.enc'): urllib.request.urlretrieve('https://github.com/Juanvvc/crypto/raw/master/ejercicios/01/01.enc', '01.enc')
HexViewer('01.enc', bs=16, count=32).print_blocks()

Pregunta:

- ¿Sabrías cómo se ha cifrado este archivo?
- ¿Puedes crear un código para descifrarlo?

Pistas:

- XOR rotativo:https://en.wikipedia.org/wiki/XOR_cipher
- https://www.mikrocontroller.net/topic/503014
- Recomendación: utiliza la librería de Python PyCryptodome, porque la usaremos en el resto del curso: https://pycryptodome.readthedocs.io/en/latest/

Desde línea de comandos podrías intentar algo así, pero la idea es que escribas tu propio código:
    
```
# pip install xortool ; hash xortool-xor
file test.mp3
hexdump -C -n 32 test.mp3
hexdump -C 01.enc | less
cat 01.enc |  xortool-xor -r "secret" -f - > 01.mp3
```

## Otros ejercicios

Para completar conocimientos, te recomiendo que hagas los ejercicios del curso "Introducción a Cryptohack" de www.cryptohack.org. Necesitarás tener conocimientos básicos de Python.