# Esteganografía, Compresión y Encriptación de Imágenes en Python

Proyecto para Fisica Computacional 2017-1 con Rich

#### Autores:
- [Adriana Rosalia Sanchez Montes](https://github.com/adriross "adriross")
- [Ismael Velázquez Gómez](https://github.com/iselplabo93 "iselplabo93")
- [Raúl Ramírez](https://github.com/jatib "jatib")
- [Ignacio Vargas Cordero](https://github.com/ignacio-vc "ignacio-vc")

## Esteganografía

### Introducción

El término esteganografía proviene de la unión de dos palabras griegas: steganos, (oculto) y graphos (escritura). La esteganografía se ha empleado con éxito a lo largo de la Historia con distintos procedimientos y en particular durante la Segunda Guerra Mundial.

La esteganografía es una técnica que permite ocultar mensajes dentro de un objeto, de forma que no se detecte su presencia y pasen desapercibidos. La técnica que así se emplea consiste  en sustituir ciertos bits de una imagen por los de la información a ocultar. La ventaja de este enfoque es que el tamaño  de la imagen no se ve alterado y, en muchas ocasiones tampoco su calidad. 

Consiste en sustituir los bits menos significativos (LSB), en una escala de color de 24  bits. Esto se traduce tan sólo en que un píxel con  un tono rojo se ve un 1% más oscuro. En muchos casos son cambios imperceptibles a los sentidos humanos que tan sólo pueden ser detectados mediante análisis computacional de la estructura de los objetos. 

### Programación

Se realizó un código (encode_image) en el cual se utilizó una imagen para esconder o encriptar en ella un mensaje. En primer lugar se convirtió el mensaje original en codigo ASCII y se verificó que este no contenga más de 255 caracteres ya que este es el límite de bits en un pixel. Se empleó el método de los bits menos significativos (LSB) por lo cual, la imagen se debe de encontrar en formato RGB ya que se usó la porción roja de una imagen (r,g,b) para esconder el mensaje y el valor rojo del primer pixel se utilizó como la longitud de la cadena y este primer valor seria asi la longitud del mensaje.

<img src="proof.png">

Para decodificar la imagen (decode_image), justamente se revisó la porción roja en el mensaje en busca de carácteres (en este caso valores ASCII) escondidos. Se revisó el primer pixel r para obtener la longitud del mensaje y se codificó el mensaje.

<img src="enc_proof.png">

Posteriormente se llevó un programa en el cual realizaba ambos procesos (steganography.py), se ocultaron varios mensajes en distintas imágenes implementando la esteganografía en python. Por medio de definiciones de funciones en el programa, una de ellas,  convirtió el mensaje introducido por el usuario a binario y lo ocultó en la imagen. En el siguiente proceso recuperó un mensaje oculto en una imagen, así como los bloques de 8 bits que ocupó ese mensaje.

Con esto se pudo realizar otra programación con diferente códigos para verificar ambos procesos de encriptacion y desencriptacion de imágenes. (Steg2.py, steganography.py)

<img src="luna.jpeg">
<img src="imgsecret23.png">
<img src="imgsecret42.png">

Por otra parte, tambien se realizó un código (stegaLSB.py) que permitió realizar la técnica LSB en imágenes,  con la cual se pudo ocultar textosen los bits menos significativos de la imagen, 
El funcionamiento fue llevado a cabo mediante la ocultación de textos dentro de las imágenes (se trato también de realizar el caso inverso, a partir de una imagen con un secreto, recuperándola, se intentó este funcionamiento pero se descarto debido al tipo de programación que se opto).

<img src="camaleon.png">
<img src="imgsecret41.png">

## Compresión de imágenes

### Aplicaciones de la descomposición en valores singulares.

La descomposición en valores singulares de una matriz $A$ es la factorización de $A$ como el producto de dos o más matrices de tal forma que sus factores satisfagan ciertas propiedades deseadas, según el problema a resolver.

Es usual procede factorizando la matriz en el producto de matrices triangulares, sea el caso de $LU$ y sus variantes ($LDU,LUP,LL^T$) para resolver ecuaciones lineales como: $Ax=b$ dónde $A\in\mathbb{R}^{n\times n}$ es una matriz cuadrada  y $b\in\mathbb{R}^n$ es un vector. Diremos que $L$ es una matriz triangular inferior con $1$s en la diagonal y $U$ es una matriz triangular superior.

Una vez que podemos escribir $A$ como $A=LU$, podemos ver el problema origianl como $LUx=b$, lo cual es equivalente al sistema de ecuaciones $Ly=b$ y $Ux=y$. La solución al sistema resulta sencilla, ya que las matrices $U$ y $L$ son triangulares. 


## Cuestiones computacionales.

### Tiempo de computo y espacio de alamcenamiento de métodos tipo DVS

La solución del sistema debe ser rápida, dado que $U$ y $L$ son matrices triangulares, se tiene pues que el costo computacional de este tipo de problemas es $O(n^2)$, lo que implica que el tiempo de computo es del tipo $T(n)=4n^2 − 2n + 2$.

"Las matrices $ L $ y $ U $ son esencialmente "subproductos" de la eliminación gaussiana, donde - $ L $ almacena los pasos del proceso de eliminación y $ U $ almacena la matriz resultante después de la eliminación. Así que para resolver $ Ax = b $ usando la eliminación gaussiana se necesitan $ \frac {2} {3} n ^ 3 $ flops, mientras crea $ A = LU $, y resolver los dos sistemas triangulares resulta en $ \frac {2} { 3} n ^ 3 + O (n ^ 2) $ flops que tienen la misma magnitud, por lo que no está claro por qué este esfuerzo adicional marcaría la diferencia. La ganancia que obtenemos es más clara si la tarea consiste en resolver muchas ecuaciones lineales que tienen la misma matriz $ A $ y sólo el lado derecho $ b $ cambia. En este caso, el procedimiento de eliminación, es decir, la creación de la $ LU $ -decomposición debe hacerse sólo una vez. Otra buena aplicación de esta descomposición es calcular el determinante de $ A $. Debido a las formas de $ L $ y $ U $ $$\det(A) = \det(LU) = \det(L)\cdot\det(U) = \det(U) = \prod_{i=1}^nu_{ii},$$  Así que $ \ det (A) $ se puede calcular en $ O (n ^ 3) $ flops también (en lugar de usar la regla de Cramer que tiene $ O (n \cdot n!) $ Complejidad asintótica que lo hace prácticamente inútil)."

<img src="Comparison_computational_complexity.png">

### Descomponiendo una matriz arbitraria

Sea $ A \in \mathbb {R} ^ {n \times m} $ una matriz arbitraria (no necesariamente cuadrada). También puede tener valores complejos. Tomando en cuenta sólo casos con valores reales, podemos decir que existen las matrices $ U \in \mathbb {R} ^ {n \times n} $, $ D \in \mathbb {R} ^ {n \ \times m} $ y $ V \in \mathbb {R} ^ {M \times m} $, tales que 
$$ A = UDV ^ *, $$ 

donde $ U $ y $ V $ son matrices unitarias, es decir $U^*U = UU^* = I_n$ y $ V ^ * V = VV ^ * = I_m $ y $ D $ es una matriz diagonal, es decir, es tal que $ d_ {ij} = 0 $ si $ i \ne j $. La operación estelar significa transposición conjugada, que es $ (V ^ *) _ {ij} = \overline V_ {ji} $, pero como ahora estamos tratando con matrices reales, esto es lo mismo que la transposición de la matriz. Los elementos diagonales en $ D $ son números no negativos, en orden decreciente:  $d_{ii} = \sigma_i$, $\sigma_1\geq\sigma_2\geq\ldots\geq\sigma_r > \sigma_{r+1} = \ldots = \sigma_{\min(n,m)} = 0$, donde $ r $ es el rango de la matriz $ A $. Estos $ \sigma $ valores en la diagonal de $ D $ se llaman los valores singulares de $ A $.

### Aproximaciones de "bajo rango" de $ A $

Sea $ k \in \mathbb {N} $ un número natural dado, donde  $k\leq\text{rank}(A)\leq\min\{n, m\}$. Lo que buscamos es una matriz $ A_k $ con $ \ text {rank} (A_k) = k $ que es la mejor aproximación de $ A $ entre las matrices que tienen rango igual a $ k $. Para formular el problema de aproximación de rango bajo, queremos resolver el siguiente problema de minimización: $$ \left|\left| A - B \right|\right|_F \to \min !\qquad \mbox{ subject to }\quad B\in\mathbb{R}^{n\times m}, \ \text{rank}(B) = k. $$ Aquí $ \left | \left | X \right | \right | _F $ denota la norma Frobenius de una matriz $ X $ que es el raíz cuadrada de la suma de cuadrados de los elementos de $ X $.

La solución de este problema puede obtenerse de la descomposición SVD de $ A $. Si $ A = UDV ^ T $, entonces mantenemos los primeros $ k $ valores en $ D $ como es y establecemos los valores singulares posteriores a cero. Denotemos la matriz diagonal resultante por $ D_k $. Es fácil ver que sólo tenemos que mantener las primeras $ k $ columnas de $ U $ y las primeras $ k $ filas de $ V $, ya que sus otras columnas serían multiplicadas por ceros de todos modos. En resumen, la matriz $ A_k: = U_kD_kV_k ^ * $ es la matriz más cercana a $ A $ (en la norma de Frobenius) con rango $ k $, donde $ U_k $ y $ V_k $ consisten en las primeras $ k $ columnas y Filas de $ U $ y $ V $, respectivamente.

### Compresión de imagenes usando DVS

Las imágenes se representan en una matriz rectangular donde cada elemento corresponde al valor de escala de grises para ese píxel. Para las imágenes a color tenemos una matriz $ 3 $-dimensional de tamaño $ n \times m \times 3 $, donde $ n $ y $ m $ representan el número de píxeles verticalmente y horizontalmente, respectivamente, y para cada píxel almacenamos la intensidad Para los colores rojo, verde y azul.

Lo que vamos a hacer es repetir el procedimiento de aproximación de rango inferior arriba en una matriz más grande, es decir, creamos la aproximación de rango bajo de una matriz que representa una imagen para cada color por separado. La matriz resultante $ 3 $-dimensional será una buena aproximación de la imagen original, como veremos pronto.

Imagen Original
<img src="test.jpg">

Imagen reconstruida usando la mejor aproximacion rango (Indice 1)
<img src="indice1.png">

Imagen reconstruida usando la mejor aproximacion rango (Indice 10)
<img src="indice10.png">

Imagen reconstruida usando la mejor aproximacion rango (Indice 200)
<img src="indice200.png">



## Encriptación de Imágenes

### La Criptografia

La criptografia es la ciencia de usar matematicas para encriptar y desencriptar informacion. La seguridad de la informacion encriptada depende de la calidad del algoritmo utilizado y la secrecia de la llave.

La proteccion de nuestra informacion se vuelve cada vez mas importante en el mundo en el que vivimos. Un metodo muy efectivo de proteccion es mediante la encriptacion de nuestros datos. Existen muchas technicas disponibles para prevenir acceso no autorizado a nuestras bases de datos, archivos personales, imagenes, etc. 

<img src="operation.png">

### Librerias de Python

In [None]:
#math: funciones matematicas
import math

#os: da habilidad de usar funciones dependientes en el sistema operativo 
import os

#PyCrypto: nos da funciones de hash seguras y algoritmos de encripcion
from Crypto.Cipher import AES

#hashlib: implementa una interface comun a varios algoritmos de hash seguros
import hashlib

#binascii: contiene metodos para convertir entre binario y representarios de binario codificadas con ASCII
import binascii

#PIL: Python Image Library, agrega la capacidad de manipular imagenes
from PIL import Image

### AES

Advanced Encryption Standard (AES) es un esquema de cifrado por bloques adoptado como un estándar de cifrado por el gobierno de los Estados Unidos.

Desde 2006, el AES es uno de los algoritmos más populares usados en criptografía simétrica.

AES tiene un tamaño de bloque fijo de 128 bits y tamaños de llave de 128, 192 o 256 bits.

AES opera en una matriz de 4×4 bytes, llamada state

<img src="algorithm.png">

AES encripta un 'plaintext' para convertirse en 'ciphertext', el cual puede ser desencriptado de vuelta al 'plaintext original' utilizando una "llave privada" comun. Es muy importante que el 'ciphertext' sea muy diferente del original y no de pistas del contenido.


<img src="aes1.png">
En la fase de SubBytes, cada byte en el state es reemplazado con su entrada en una tabla de búsqueda fija de 8 bits, S; bij = S(aij)

<img src="aes2.png">
En el paso ShiftRows, los bytes en cada fila del state son rotados de manera cíclica hacia la izquierda. El número de lugares que cada byte es rotado difiere para cada fila.

<img src="aes3.png">
En el paso MixColumns, cada columna del state es multiplicada por un polinomio constante c(x).

<img src="aes4.png">
En el paso AddRoundKey, cada byte del state se combina con un byte de la subclave usando la operación XOR (⊕).

### Procedimiento y Resultados

<img src="test.jpg">

Primero, encriptamos la imagen con el algoritmo AES incluido en las librerias de Python. 

Para hacer esto, importamos la imagen con PIL, tomamos en cuenta sus dimensiones, y la rompemos en listas. Estas listas de datos son las que se mandan al modulo PyCrypto para que le aplique AES, con el usuario eligiendo un Password. En efecto, la imagen ahora queda disuelta en el llamado "Ciphertext".

Para poder ver la imagen encriptada, la "hexificamos" (regresamos la representacion hexadecimal de la informacion en binario) a formato ASCII del binario (gracias a la libreria binascii) , quitamos todos los caracteres de letras y los reemplazamos con numeros aleatorios. De aqui, reconstruimos una imagen de las mismas dimensiones que la original.

<img src="result.png">

Desencriptar la imagen en si que esta lockeada con un password es relativamente sencillo, el mismo modulo de AES simplemente aplica nuestro password como llave criptografica y nos devuelve la imagen original.

<img src="filenames.png">