# Quantum Annealing and Feature Selection for Big Data 

## Teoría de la Información

### Entropía de Shannon (ES)

Se denota por $H(X)$, y se usa para cuantificar la información que una variable aleatoria tiene. Si tenemos una variable aleatoria X, entonces la entropia de Shannon es:

$$H(X) = - \sum_{x \in X} p(x) \log p(x)$$

$$= \sum_{x \in X} p(x) \log p(x)^{-1}$$

Esta formula podría entenderse: "mientras menos probable es que ocurra un evento, más información contiene".

### Entropía condicional de Shannon (ECS)

La entropía condicional mide la información que contiene una variable aleatoria $X$ cuando ya se sabe el valor de otra variable aleatoria $Y$.

$$H(X|Y)  = H(X,Y)-H(Y) = - \sum_{x \in X} p(x, y) \log p(x, y) - H(Y)$$

### Información Mutual (IM)

Cuantifica cuanto podemos saber de una variable observando a otra:

$$I(X;Y)= H(Y) - H(Y|X)  = \sum_{y \in Y} \sum_{x \in X} p(x, y) \log \frac{p(x,y)}{p(x)p(y)}$$

### Información Mutual Condicional (IMC)

La información condicional mutua entre una variable de interés $X$, y un atributo Y dada la selección de un atributo Z se da por:

$$I(X;Y|Z) = H(X|Z)-H(X|Y,Z)$$

## Recalentamiento Cuántico

Recalentamiento cuántico es un paradigma de computación cuántica que deriva de un paradigma de computación cuántica universal conocido como <strong>computación adiábatica</strong>. En la siguiente imagen se puede observar la division de estos paradigmas (siendo <strong>Quantum Annealing</strong> aquella con la que estamos tratando en el presente trabajo).

<img src="./img/types_qc.png" alt="tipos de computación cuántica">

A diferencia de los paradigmas universales que son computadoras cuánticas hechas para resolver todo tipo de problemas, las computadoras basadas en recalentamiento cuántico solo resuelven problemas de optimización. A pesar de parecer un inconveniente, el hecho de que sea especializado es que lo ha permitido escalar más que otros paradigmas, llegando a desarrollar computadoras cuánticas de hasta 2048 qubits.

En este caso vamos a usar una computadora cuántica de D-Wave basada en este paradigma. Para poder resolver un problema con recalentamiento cuántico debemos poder formular nuestro problema en un <strong>QUBO</strong>:

$$\sum_i^N q_ix_i + \sum_{i<j}^N q_{i,j}x_i  x_j$$

Dados unos coeficientes $q_i$ y $q_{ij}$, el la máquina cuántica encontrara la configuración de las variables binarias $x_{i}$, tal que esta expresión sea lo mínima posible. 

Se deben tener en cuenta las siguientes consideraciones:
    - los coeficientes de los términos lineales representan un campo de fuerza que se aplica a un qubit (x) para su giro represente un 1 o un 0.
    - los coeficientes de los términos cuadráticos representan un fenómeno en el mundo subatómico llamado entrelazamiento cuántico, y el valor de este determina si 2 qubits van a ser iguales o diferentes.

Una computadora cuantica tiene una unidad de procesamiento que se puede visualizar como un unidades de un grafo $K_{4,4}$ y estas se conectan entre sí:

<img src="./img/chimera.png" alt="chimera">

En esta imagen los circulos rojos representan qubits, y las aristas tienen como peso los coeficientes cuadráticos del QUBO. Este grafo se conoce como <strong>Quimera</strong>.

El problema de asignar de la mejor forma los qubits tal que las conexiones existan se conoce como <u>Minor Embedding</u>.

Cuando el problema es muy grande se tiene que ver la forma de procesar por lotes, y asignar así una función de pérdida o ganancia (parecido a minimos cuadrados) y ademas tienen que duplicarse qubits, o formar qubits logicos con 2 o más qubits físicos.