## Kostenfunktionen

In dieser Lektion lernen wir, wie man eine *Kostenfunktion* auswertet:

- Zuerst lernen wir [Qiskit Runtime-Primitive](https://qiskit.org/documentation/partners/qiskit_ibm_runtime/primitives.html) kennen
- Definieren Sie eine *Kostenfunktion* $C(\vec\theta)$. Dies ist eine problemspezifische Funktion, die das Ziel des Problems definiert, das der Optimierer minimieren (oder maximieren) soll.
- Definieren einer Messstrategie mit den Qiskit Runtime-Primitiven zur Optimierung von Geschwindigkeit und Genauigkeit

&nbsp;

![Kostenfunktions-Workflow](images/cost_function_workflow.png)

## Grundelemente

Alle physikalischen Systeme, ob klassisch oder quantenmechanisch, können in verschiedenen Zuständen existieren. Ein Auto auf einer Straße kann beispielsweise eine bestimmte Masse, Position, Geschwindigkeit oder Beschleunigung haben, die seinen Zustand charakterisieren. Ebenso können Quantensysteme verschiedene Konfigurationen oder Zustände haben, unterscheiden sich jedoch von klassischen Systemen in der Art und Weise, wie wir mit Messungen und Zustandsentwicklung umgehen. Dies führt zu einzigartigen Eigenschaften wie *Superposition* und *Verschränkung* , die ausschließlich der Quantenmechanik vorbehalten sind. So wie wir den Zustand eines Autos anhand physikalischer Eigenschaften wie Geschwindigkeit oder Beschleunigung beschreiben können, können wir auch den Zustand eines Quantensystems anhand von *Observablen* beschreiben, die mathematische Objekte sind.

In der Quantenmechanik werden Zustände durch normalisierte komplexe Spaltenvektoren oder *Kets* ($|\psi\rangle$) dargestellt, und Observablen sind hermitesche lineare Operatoren ( $\hat{H}=\hat{H}^{\dagger}$ ), die auf die Kets einwirken. Ein Eigenvektor ($|\lambda\rangle$) einer Observablen wird als *Eigenzustand* bezeichnet. Wenn wir eine Observable für einen ihrer Eigenzustände ($|\lambda\rangle$) messen, erhalten wir den entsprechenden Eigenwert ( $\lambda$ ) als Messwert.

Wenn Sie sich fragen, wie man ein Quantensystem misst und was man messen kann, bietet Qiskit zwei hilfreiche [Grundelemente](gloss:primitives) :

- `Sampler` : Bei einem gegebenen Quantenzustand $|\psi\rangle$ ermittelt dieses Primitiv die Wahrscheinlichkeit jedes möglichen Berechnungsbasiszustands.
- `Estimator` : Gegeben sei eine Quantenobservable $\hat{H}$ und ein Zustand $|\psi\rangle$. Dieses Primitiv berechnet den erwarteten Wert von $\hat{H}$ .


### Das Sampler-Primitiv

Das `Sampler` Primitiv berechnet die Wahrscheinlichkeit, jeden möglichen Zustand $|k\rangle$ aus der Berechnungsbasis zu erhalten, vorausgesetzt, es gibt einen Quantenschaltkreis, der den Zustand $|\psi\rangle$ vorbereitet. Es berechnet

$$
p_k = |\langle k | \psi \rangle|^2 \quad \forall k \in \mathbb{Z}_2^n \equiv \{0,1,\cdots,2^n-1\},
$$

Wobei $n$ die Anzahl der Qubits und $k$ die Ganzzahldarstellung einer möglichen binären Ausgabezeichenfolge $\{0,1\}^n$ (d. h. ganze Zahlen zur Basis $2$) ist.

`Sampler` [von Qiskit Runtime](https://qiskit.org/documentation/partners/qiskit_ibm_runtime/stubs/qiskit_ibm_runtime.Sampler.html) führt den Schaltkreis mehrere Male auf einem Quantengerät aus, führt bei jedem Durchlauf Messungen durch und rekonstruiert die Wahrscheinlichkeitsverteilung aus den wiederhergestellten Bitfolgen. Je mehr Durchläufe (oder *Schüsse* ) durchgeführt werden, desto genauer sind die Ergebnisse, aber dies erfordert mehr Zeit und Quantenressourcen.

Da die Anzahl der möglichen Ausgaben jedoch exponentiell mit der Anzahl der Qubits $n$ wächst (also $2^n$), muss auch die Anzahl der Aufnahmen exponentiell wachsen, um eine *dichte* Wahrscheinlichkeitsverteilung zu erfassen. Daher ist `Sampler` nur für *spärliche* Wahrscheinlichkeitsverteilungen effizient; dabei muss der Zielzustand $|\psi\rangle$ als lineare Kombination der rechnerischen Basiszustände ausgedrückt werden können, wobei die Anzahl der Terme höchstens polynomisch mit der Anzahl der Qubits wächst:

$$
|\psi\rangle = \sum^{\text{Poly}(n)}_k w_k |k\rangle.
$$

Der `Sampler` kann auch so konfiguriert werden, dass er Wahrscheinlichkeiten aus einem Unterabschnitt des Schaltkreises abruft, der eine Teilmenge aller möglichen Zustände darstellt.

### Das Schätzer-Primitiv

Das `Estimator` Primitiv berechnet den Erwartungswert einer Observablen $\hat{H}$ für einen Quantenzustand $|\psi\rangle$; wobei die Observablenwahrscheinlichkeiten als $p_\lambda = |\langle\lambda|\psi\rangle|^2$ ausgedrückt werden können, wobei $|\lambda\rangle$ die Eigenzustände der Observablen $\hat{H}$ sind. Der Erwartungswert wird dann als Durchschnitt aller möglichen Ergebnisse $\lambda$ (also der Eigenwerte der Observablen) einer Messung des Zustands $|\psi\rangle$ definiert, gewichtet mit den entsprechenden Wahrscheinlichkeiten:

$$
\langle\hat{H}\rangle_\psi := \sum_\lambda p_\lambda \lambda = \langle \psi | \hat{H} | \psi \rangle
$$

Allerdings ist es nicht immer möglich, den Erwartungswert einer Observablen zu berechnen, da wir ihre Eigenbasis oft nicht kennen. `Estimator` [von Qiskit Runtime](https://qiskit.org/documentation/partners/qiskit_ibm_runtime/stubs/qiskit_ibm_runtime.Estimator.html) verwendet einen komplexen algebraischen Prozess, um den Erwartungswert auf einem realen Quantengerät zu schätzen, indem er die Observable in eine Kombination anderer Observablen zerlegt, deren Eigenbasis wir kennen.

Einfacher ausgedrückt zerlegt `Estimator` alle Observablen, für die es keine Messung kennt, in einfachere, messbare Observablen, sogenannte [Pauli-Operatoren](gloss:pauli) .

Jeder Operator kann als Kombination von $4^n$ Pauli-Operatoren ausgedrückt werden.

$$
\hat{P}_k := 
\sigma_{k_{n-1}}\otimes \cdots \otimes \sigma_{k_0} \quad 
\forall k \in \mathbb{Z}_4^n \equiv \{0,1,\cdots,4^n-1\}, \\
$$

so dass

$$
\hat{H} = \sum^{4^n-1}_{k=0} w_k \hat{P}_k
$$

wobei $n$ die Anzahl der Qubits ist, $k \equiv k_{n-1} \cdots k_0$ für $k_l \in \mathbb{Z}_4 \equiv {0, 1, 2, 3}$ (also ganze Zahlen zur Basis 4) und $(\sigma_0, \sigma_1, \sigma_2, \sigma_3) := (I, X, Y, Z)$.

Nach der Durchführung dieser Zerlegung leitet `Estimator` für jede Observable $\hat{P}_k$ (also aus der ursprünglichen Schaltung) einen neuen Schaltkreis $V_k|\psi\rangle$ ab, um die Pauli-Observable in der Berechnungsbasis effektiv zu *diagonalisieren* und zu messen. Wir können Pauli-Observablen leicht messen, da wir $V_k$ im Voraus kennen, was bei anderen Observablen im Allgemeinen nicht der Fall ist.

Für jedes `{latex} \hat{P}_{k}` führt der `Estimator` den entsprechenden Schaltkreis auf einem Quantengerät mehrere Male aus, misst den Ausgabezustand in der Berechnungsbasis und berechnet die Wahrscheinlichkeit $p_{kj}$, jede mögliche Ausgabe $j$ zu erhalten. Anschließend sucht er nach dem Eigenwert $\lambda_{kj}$ von $P_k$, der jeder Ausgabe $j$ entspricht, multipliziert mit $w_k$ und addiert alle Ergebnisse, um den erwarteten Wert der Observablen $\hat{H}$ für den gegebenen Zustand $|\psi\rangle$ zu erhalten.

$$
\langle\hat{H}\rangle_\psi = 
\sum_{k=0}^{4^n-1} w_k \sum_{j=0}^{2^n-1}p_{kj} \lambda_{kj},
$$

Da die Berechnung des Erwartungswerts von 4^n Paulis nicht praktikabel ist (d. h. exponentiell wächst), kann `Estimator` nur dann effizient sein, wenn ein großer Anteil von w_k Null ist (d. h. *spärliche* Pauli-Zerlegung statt *dichter* ). Formal sagen wir, dass die Anzahl der von Null verschiedenen Terme höchstens polynomisch mit der Anzahl der Qubits n wachsen muss, damit diese Berechnung *effizient lösbar* ist: $\hat{H} = \sum^{\text{Poly}(n)}_k w_k \hat{P}_k.$

Dem Leser fällt vielleicht die implizite Annahme auf, dass die [Wahrscheinlichkeitsauswahl](gloss:sampling) auch effizient sein muss, wie für `Sampler` erklärt, was bedeutet

$$
\langle\hat{H}\rangle_\psi = 
\sum_{k}^{\text{Poly}(n)} w_k \sum_{j}^{\text{Poly}(n)}p_{kj} \lambda_{kj}.
$$

### Geführtes Beispiel zur Berechnung von Erwartungswerten

Nehmen wir den Einzel-Qubit-Zustand $|+\rangle := H|0\rangle = \frac{1}{\sqrt{2}}(|0\rangle + |1\rangle)$ an und beobachtbare

$$
\begin{aligned}
\hat{H}
& = \begin{pmatrix} 
-1 & 2 \\
2 & -1 \\
\end{pmatrix}\\[1mm]
& = 2X - Z

\end{aligned}
$$

mit folgendem theoretischen Erwartungswert $\langle\hat{H}\rangle_+ = \langle+|\hat{H}|+\rangle = 2.$

Da wir nicht wissen, wie wir diese Observable messen sollen, können wir ihren Erwartungswert nicht direkt berechnen und müssen ihn als $\langle\hat{H}\rangle_+ = 2\langle X \rangle_+ - \langle Z \rangle_+ $ neu ausdrücken. Man kann zeigen, dass die Auswertung dasselbe Ergebnis liefert, wenn man feststellt, dass $\langle+|X|+\rangle = 1$ und $\langle+|Z|+\rangle = 0$ .

Sehen wir uns an, wie man $\langle X \rangle_+$ und $\langle Z \rangle_+$ direkt berechnet. Da $X$ und $Z$ nicht kommutieren (d. h. nicht dieselbe Eigenbasis haben), können sie nicht gleichzeitig gemessen werden. Daher benötigen wir die Hilfsschaltungen:

In [None]:
from qiskit import QuantumCircuit
from qiskit.quantum_info import SparsePauliOp

# The following code will work for any other initial single-qubit state and observable
original_circuit = QuantumCircuit(1)
original_circuit.h(0)

H = SparsePauliOp(["X", "Z"], [2, -1])

aux_circuits = []
for pauli in H.paulis:
    aux_circ = original_circuit.copy()
    aux_circ.barrier()
    if str(pauli) == "X":
        aux_circ.h(0)
    elif str(pauli) == "Y":
        aux_circ.sdg(0)
        aux_circ.h(0)
    else:
        aux_circ.i(0)
    aux_circ.measure_all()
    aux_circuits.append(aux_circ)


print("Original circuit:")
display(original_circuit.draw("mpl"))
for (circuit, pauli) in zip(aux_circuits, H.paulis):
    print(f"Auxiliary circuit for {str(pauli)}")
    display(circuit.draw("mpl"))

Wir können die Berechnung jetzt manuell mit `Sampler` durchführen und die Ergebnisse mit `Estimator` überprüfen:

In [None]:
from qiskit.primitives import Sampler, Estimator
from qiskit.circuit.library import IGate, ZGate
import numpy as np


## SAMPLER
sampler = Sampler()
job = sampler.run(aux_circuits)
probability_dists = job.result().quasi_dists

expvals = []
for dist, pauli in zip(probability_dists, H.paulis):
    val = 0
    if str(pauli) == "I":
        Lambda = IGate().to_matrix().real
    else:
        Lambda = ZGate().to_matrix().real
    val += Lambda[0][0] * dist.get(0, 0)
    val += Lambda[1][1] * dist.get(1, 0)
    expvals.append(val)


print("Sampler results:")
for (pauli, expval) in zip(H.paulis, expvals):
    print(f"  >> Expected value of {str(pauli)}: {expval:.5f}")

total_expval = np.sum(H.coeffs * expvals).real
print(f"  >> Total expected value: {total_expval:.5f}")


## ESTIMATOR
observables = [
    *H.paulis,
    H,
]  # Note: run for individual Paulis as well as full observable H

estimator = Estimator()
job = estimator.run([original_circuit] * len(observables), observables)
estimator_expvals = job.result().values

print("Estimator results:")
for (obs, expval) in zip(observables, estimator_expvals):
    if obs is not H:
        print(f"  >> Expected value of {str(obs)}: {expval:.5f}")
    else:
        print(f"  >> Total expected value: {expval:.5f}")

### Mathematische Genauigkeit (optional)

Wenn wir $|\psi\rangle$ bezüglich der Basis der Eigenzustände von $\hat{H}$ ausdrücken, $|\psi\rangle = \sum_\lambda a_\lambda |\lambda\rangle$, folgt:

$$
\begin{aligned}
\langle \psi | \hat{H} | \psi \rangle
& = \bigg(\sum_{\lambda'}a^*_{\lambda'} \langle \lambda'|\bigg) \hat{H} 
  \bigg(\sum_{\lambda} a_\lambda | \lambda\rangle\bigg)\\[1mm]

& = \sum_{\lambda}\sum_{\lambda'} a^*_{\lambda'}a_{\lambda} 
  \langle \lambda'|\hat{H}| \lambda\rangle\\[1mm]

& = \sum_{\lambda}\sum_{\lambda'} a^*_{\lambda'}a_{\lambda} \lambda 
\langle \lambda'| \lambda\rangle\\[1mm]

& = \sum_{\lambda}\sum_{\lambda'} a^*_{\lambda'}a_{\lambda} \lambda 
\cdot \delta_{\lambda, \lambda'}\\[1mm]

& = \sum_\lambda |a_\lambda|^2 \lambda\\[1mm]

& = \sum_\lambda p_\lambda \lambda\\[1mm]

\end{aligned}
$$

Da wir die Eigenwerte oder Eigenzustände der Zielobservable $\hat{H}$ nicht kennen, müssen wir zunächst ihre Diagonalisierung betrachten. Da $\hat{H}$ [hermitesch](gloss:hermitian) ist, gibt es eine unitäre Transformation $V$, sodass $\hat{H}=V^\dagger \Lambda V,$ wobei $\Lambda$ die diagonale Eigenwertmatrix ist, also $\langle j | \Lambda | k \rangle = 0$ wenn $j\neq k$ und $\langle j | \Lambda | j \rangle = \lambda_j$ .

Dies bedeutet, dass der erwartete Wert wie folgt umgeschrieben werden kann:

$$
\begin{aligned}
\langle\psi|\hat{H}|\psi\rangle
& = \langle\psi|V^\dagger \Lambda V|\psi\rangle\\[1mm]

& = \langle\psi|V^\dagger \bigg(\sum_{j=0}^{2^n-1} |j\rangle 
\langle j|\bigg) \Lambda \bigg(\sum_{k=0}^{2^n-1} |k\rangle \langle k|\bigg) V|\psi\rangle\\[1mm]

& = \sum_{j=0}^{2^n-1} \sum_{k=0}^{2^n-1}\langle\psi|V^\dagger |j\rangle 
\langle j| \Lambda  |k\rangle \langle k| V|\psi\rangle\\[1mm]

& = \sum_{j=0}^{2^n-1}\langle\psi|V^\dagger |j\rangle 
\langle j| \Lambda  |j\rangle \langle j| V|\psi\rangle\\[1mm]

& = \sum_{j=0}^{2^n-1}|\langle j| V|\psi\rangle|^2 \lambda_j\\[1mm]

\end{aligned}
$$

Wenn sich ein System im Zustand $|\phi\rangle = V |\psi\rangle$ befindet und die Wahrscheinlichkeit, $| j\rangle$ zu messen, $p_j = |\langle j|\phi \rangle|^2$ beträgt, kann der obige Erwartungswert wie folgt ausgedrückt werden:

$$
\langle\psi|\hat{H}|\psi\rangle = 
\sum_{j=0}^{2^n-1} p_j \lambda_j.
$$

Es ist sehr wichtig zu beachten, dass die Wahrscheinlichkeiten aus dem Zustand $V |\psi\rangle$ und nicht aus $|\psi\rangle$ entnommen werden. Aus diesem Grund ist die Matrix $V$ unbedingt erforderlich.

Sie fragen sich vielleicht, wie Sie die Matrix $V$ und die Eigenwerte $\Lambda$ erhalten. Wenn Sie die Eigenwerte bereits hätten, bräuchten Sie keinen Quantencomputer, da das Ziel von Variationsalgorithmen darin besteht, diese Eigenwerte von $\hat{H}$ zu finden.

Glücklicherweise gibt es einen Weg, das zu umgehen: jede $2^n \times 2^n$-Matrix kann als lineare Kombination von $4^n$-Tensorprodukten von $n$ Pauli-Matrizen und Identitäten geschrieben werden, die alle sowohl hermitesch als auch unitär mit bekanntem $V$ und $\Lambda$ sind. Dies ist, was `Estimator` der Runtime intern tut, indem er jedes [Operatorobjekt](https://qiskit.org/documentation/stubs/qiskit.quantum_info.Operator.html) in einen [SparsePauliOp](https://qiskit.org/documentation/stubs/qiskit.quantum_info.SparsePauliOp.html) zerlegt.

Hier sind die Operatoren, die verwendet werden können:

$$
\begin{array}{c|c|c|c}
  \text{Operator} & \sigma & V & \Lambda \\[1mm]
  \hline
  I & \sigma_0 = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} & V_0 = I & \Lambda_0 = I = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \\[4mm]

  X & \sigma_1 = \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix} & V_1 = H =\frac{1}{\sqrt{2}} \begin{pmatrix} 1 & 1 \\ 1 & -1 \end{pmatrix} & \Lambda_1 = \sigma_3 = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix} \\[4mm]

  Y & \sigma_2 = \begin{pmatrix} 0 & -i \\ i & 0 \end{pmatrix} & V_2 = HS^\dagger  =\frac{1}{\sqrt{2}} \begin{pmatrix} 1 & 1 \\ 1 & -1 \end{pmatrix}\cdot  \begin{pmatrix} 1 & 0 \\ 0 & -i \end{pmatrix} = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & -i \\ 1 & i \end{pmatrix}\quad & \Lambda_2 = \sigma_3 = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix} \\[4mm]

  Z & \sigma_3 = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix} & V_3 = I & \Lambda_3 = \sigma_3 = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}
\end{array}
$$

Schreiben wir also $\hat{H}$ in Bezug auf die Paulis und Identitäten neu:

$$
\hat{H} = 
\sum_{k_{n-1}=0}^3...
\sum_{k_0=0}^3 w_{k_{n-1}...k_0} 
\sigma_{k_{n-1}}\otimes ... \otimes \sigma_{k_0} = \sum_{k=0}^{4^n-1} w_k \hat{P}_k,
$$

wobei $k = \sum_{l=0}^{n-1} 4^l k_l \equiv k_{n-1}...k_0$ für $k_{n-1},...,k_0\in {0,1,2,3}$ (also Basis $4$), und `{latex} \hat{P}_{k} := \sigma_{k_{n-1}}\otimes ... \otimes \sigma_{k_0}` :

$$
\begin{aligned}
\langle\psi|\hat{H}|\psi\rangle
& = \sum_{k=0}^{4^n-1} w_k 
\sum_{j=0}^{2^n-1}|\langle j| V_k|\psi\rangle|^2 \langle j| \Lambda_k |j\rangle \\[1mm]

& = \sum_{k=0}^{4^n-1} w_k \sum_{j=0}^{2^n-1}p_{kj} \lambda_{kj}, \\[1mm]


\end{aligned}
$$

wobei $V_k := V_{k_{n-1}}\otimes ... \otimes V_{k_0}$ und $\Lambda_k := \Lambda_{k_{n-1}}\otimes ... \otimes \Lambda_{k_0}$ , so dass: $\hat{P_k}=V_k^\dagger \Lambda_k V_k.$

## Kostenfunktionen

Im Allgemeinen werden Kostenfunktionen verwendet, um das Ziel eines Problems zu beschreiben und um zu ermitteln, wie gut ein Versuchszustand in Bezug auf dieses Ziel abschneidet. Diese Definition kann auf verschiedene Beispiele in Chemie, maschinellem Lernen, Finanzen, Optimierung usw. angewendet werden.

Betrachten wir ein einfaches Beispiel für die Ermittlung des Grundzustands eines Systems. Unser Ziel ist es, den Erwartungswert der Observablen, die die Energie darstellen (Hamilton-Funktion $\hat{\mathcal{H}}$ ), zu minimieren:

$$
\min_{\vec\theta} \langle\psi(\vec\theta)|\hat{\mathcal{H}}|\psi(\vec\theta)\rangle
$$

Wir können das [*Estimator-* Primitiv](https://github.com/qiskit-community/prototype-zne/blob/main/docs/tutorials/0-estimator.ipynb) verwenden, um den Erwartungswert zu ermitteln und diesen Wert zur Minimierung an einen Optimierer weiterzuleiten. Wenn die Optimierung erfolgreich ist, wird ein Satz optimaler Parameterwerte $\vec\theta^*$ zurückgegeben, aus dem wir den vorgeschlagenen Lösungszustand $|\psi(\vec\theta^ *)\rangle$ konstruieren und den beobachteten Erwartungswert als $C(\vec\theta^ )$ berechnen* können.

Beachten Sie, dass wir die Kostenfunktion nur für die begrenzte Anzahl von Zuständen minimieren können, die wir betrachten. Dies führt uns zu zwei unterschiedlichen Möglichkeiten:

- **Unser Ansatz definiert den Lösungszustand nicht im gesamten Suchraum** : Wenn dies der Fall ist, wird unser Optimierer nie die Lösung finden und wir müssen mit anderen Ansätzen experimentieren, die unseren Suchraum möglicherweise genauer darstellen können.
- **Unser Optimierer kann diese gültige Lösung nicht finden** : Optimierung kann global und lokal definiert werden. Was das bedeutet, werden wir im späteren Abschnitt untersuchen.

Alles in allem werden wir eine klassische Optimierungsschleife durchführen, uns dabei aber auf die Auswertung der Kostenfunktion durch einen Quantencomputer verlassen. Aus dieser Perspektive könnte man die Optimierung als ein rein klassisches Unterfangen betrachten, bei dem wir jedes Mal, wenn der Optimierer die Kostenfunktion auswerten muss, ein [*Black-Box-Quantenorakel*](gloss:oracle) aufrufen.

In [None]:
from qiskit.circuit.library import TwoLocal
from qiskit import QuantumCircuit
from qiskit_ibm_runtime import QiskitRuntimeService, Estimator

# Add your token below
service = QiskitRuntimeService(channel="ibm_quantum")

def cost_function_vqe(theta):
    observable = SparsePauliOp.from_list([("XX", 1), ("YY", -3)])

    reference_circuit = QuantumCircuit(2)
    reference_circuit.x(0)

    variational_form = TwoLocal(
        2,
        rotation_blocks=["rz", "ry"],
        entanglement_blocks="cx",
        entanglement="linear",
        reps=1,
    )
    ansatz = reference_circuit.compose(variational_form)

    backend = service.backend("ibmq_qasm_simulator")
    
    # Use estimator to get the expected values corresponding to each ansatz
    estimator = Estimator(session=backend)
    job = estimator.run(ansatz, observable, theta)
    values = job.result().values

    return values


theta_list = (2 * np.pi * np.random.rand(1, 8)).tolist()
cost_function_vqe(theta_list)

### Beispielhafte Zuordnung zu nicht-physischen Systemen

Das Maximum-Cut-Problem (Max-Cut) ist ein kombinatorisches Optimierungsproblem, bei dem die Knoten eines Graphen in zwei disjunkte Mengen aufgeteilt werden, so dass die Anzahl der Kanten zwischen den beiden Mengen maximiert wird. Formaler ausgedrückt: Bei einem ungerichteten Graphen $G=(V,E)$, wobei $V$ die Menge der Knoten und $E$ die Menge der Kanten ist, besteht das Max-Cut-Problem darin, die Knoten in zwei disjunkte Teilmengen, $S$ und $T$, aufzuteilen, so dass die Anzahl der Kanten mit einem Endpunkt in $S$ und dem anderen in $T$ maximiert wird.

Wir können Max-Cut anwenden, um verschiedene Probleme zu lösen, darunter: Clustering, Netzwerkdesign, Phasenübergänge usw. Wir beginnen mit der Erstellung eines Problemdiagramms:

In [None]:
import networkx as nx

n = 4
G = nx.Graph()
G.add_nodes_from(range(n))
edge_list = [(0, 1, 1.0), (0, 2, 1.0), (0, 3, 1.0), (1, 2, 1.0), (2, 3, 1.0)]
G.add_weighted_edges_from(edge_list)

colors = ["red" for i in range(n)]


def draw_graph(G, colors):
    """Draws the graph with the chose colors"""
    layout = nx.shell_layout(G)
    nx.draw_networkx(G, node_color=colors, pos=layout)
    edge_labels = nx.get_edge_attributes(G, "weight")
    nx.draw_networkx_edge_labels(G, pos=layout, edge_labels=edge_labels)


draw_graph(G, colors)

Dieses Problem kann als binäres Optimierungsproblem ausgedrückt werden. Für jeden Knoten $0 \leq i &lt; n$, wobei $n$ die Anzahl der Knoten des Graphen ist (in diesem Fall $n=4$), betrachten wir die binäre Variable $x_i$. Diese Variable hat den Wert $1$, wenn Knoten $i$ eine der Gruppen ist, die wir als $1$ bezeichnen, und $0$, wenn er in der anderen Gruppe ist, die wir als $0$ bezeichnen. Wir bezeichnen auch als $w_{ij}$ (Element $(i,j)$ der Adjazenzmatrix $w$) das Gewicht der Kante, die von Knoten $i$ zu Knoten $j$ führt. Da der Graph ungerichtet ist, ist $w_{ij}=w_{ji}$. Dann können wir unser Problem als Maximierung der folgenden Kostenfunktion formulieren:

$$
\begin{aligned}
C(\vec{x})
& =\sum_{i,j=0}^n w_{ij} x_i(1-x_j)\\[1mm]

& = \sum_{i,j=0}^n w_{ij} x_i - \sum_{i,j=0}^n w_{ij} x_ix_j\\[1mm]

& = \sum_{i,j=0}^n w_{ij} x_i - \sum_{i=0}^n \sum_{j=0}^i 2w_{ij} x_ix_j
\end{aligned}
$$

Um dieses Problem mit einem Quantencomputer zu lösen, werden wir die Kostenfunktion als den erwarteten Wert einer Observable ausdrücken. Die Observablen, die Qiskit nativ zulässt, bestehen jedoch aus Pauli-Operatoren, die Eigenwerte von 1 und -1 anstelle von 0 und 1 haben. Deshalb werden wir die folgende Variablenänderung vornehmen:

Wobei $\vec{x}=(x_0,x_1,\cdots ,x_{n-1})$ . Wir können die Adjazenzmatrix $w$ verwenden, um bequem auf die Gewichte aller Kanten zuzugreifen. Dies wird verwendet, um unsere Kostenfunktion zu erhalten:

$$
z_i = 1-2x_i \rightarrow x_i = \frac{1-z_i}{2}
$$

Dies bedeutet:

$$
\begin{array}{lcl} x_i=0 & \rightarrow & z_i=1 \\ x_i=1 & \rightarrow & z_i=-1.\end{array}
$$

Die neue Kostenfunktion, die wir maximieren möchten, lautet also:

$$
\begin{aligned}
C(\vec{z})
& = \sum_{i,j=0}^n w_{ij} \bigg(\frac{1-z_i}{2}\bigg)\bigg(1-\frac{1-z_j}{2}\bigg)\\[1mm]

& = \sum_{i,j=0}^n \frac{w_{ij}}{4} - \sum_{i,j=0}^n \frac{w_{ij}}{4} z_iz_j\\[1mm]

& = \sum_{i=0}^n \sum_{j=0}^i \frac{w_{ij}}{2} -  \sum_{i=0}^n \sum_{j=0}^i \frac{w_{ij}}{2} z_iz_j
\end{aligned}
$$

Darüber hinaus besteht die natürliche Tendenz eines Quantencomputers darin, Minima (normalerweise die niedrigste Energie) anstelle von Maxima zu finden. Anstatt also $C(\vec{z})$ zu maximieren, minimieren wir:

$$
-C(\vec{z}) =  \sum_{i=0}^n \sum_{j=0}^i \frac{w_{ij}}{2} z_iz_j -  \sum_{i=0}^n \sum_{j=0}^i \frac{w_{ij}}{2}
$$

Nachdem wir nun eine zu minimierende Kostenfunktion haben, deren Variablen die Werte -1 und 1 annehmen können, können wir die folgende Analogie mit dem Pauli-Z herstellen:

$$
z_i \equiv Z_i = \overbrace{I}^{n-1}\otimes ... \otimes \overbrace{Z}^{i} \otimes ... \otimes \overbrace{I}^{0}
$$

Mit anderen Worten, die Variable $z_i$ entspricht einem $Z$-Gatter, das auf Qubit $i$ einwirkt. Außerdem:

$$
Z_i|x_{n-1}\cdots x_0\rangle = z_i|x_{n-1}\cdots x_0\rangle \rightarrow \langle x_{n-1}\cdots x_0 |Z_i|x_{n-1}\cdots x_0\rangle = z_i
$$

Dann betrachten wir folgende Observable:

$$
\hat{H} = \sum_{i=0}^n \sum_{j=0}^i \frac{w_{ij}}{2} Z_iZ_j
$$

zu dem wir anschließend den unabhängigen Term hinzufügen müssen:

$$
\texttt{offset} = - \sum_{i=0}^n \sum_{j=0}^i \frac{w_{ij}}{2}
$$

Diese Transformation kann mit [`QuadraticProgram.to_ising()`](https://qiskit.org/documentation/optimization/stubs/qiskit_optimization.QuadraticProgram.to_ising.html) durchgeführt werden.

In [None]:
from qiskit_optimization.applications import Maxcut
from qiskit.algorithms.optimizers import COBYLA

w = nx.to_numpy_array(G)

max_cut = Maxcut(w)
quadratic_program = max_cut.to_quadratic_program()
observable, offset = quadratic_program.to_ising()


def cost_function_max_cut_vqe(theta):

    ansatz = TwoLocal(
        observable.num_qubits, "rx", reps=1
    )

    backend = service.backend("ibmq_qasm_simulator")

    # Use estimator to get the expected values corresponding to each ansatz
    estimator = Estimator(session=backend)
    job = estimator.run(ansatz, observable, theta)
    values = job.result().values

    return values


optimizer = COBYLA()

initial_theta = np.ones(8)

optimizer_result = optimizer.minimize(fun=cost_function_max_cut_vqe, x0=initial_theta)

optimal_parameters = optimizer_result.x
print(optimal_parameters)

Wir werden dieses Beispiel in Anwendungen noch einmal aufgreifen, um zu untersuchen, wie man einen Optimierer nutzen kann, um den Suchraum zu durchlaufen. Im Allgemeinen umfasst dies:

- Nutzung eines Optimierers zur Ermittlung optimaler Parameter
- Bindung optimaler Parameter an den Ansatz zur Ermittlung der Eigenwerte
- Übersetzen der Eigenwerte in unsere Problemdefinition

## Messstrategie: Geschwindigkeit vs. Genauigkeit

Wie erwähnt verwenden wir einen verrauschten Quantencomputer als *Black-Box-Orakel* , wobei Rauschen die abgerufenen Werte nichtdeterministisch machen kann, was zu zufälligen Schwankungen führt, die wiederum die Konvergenz bestimmter Optimierer zu einer vorgeschlagenen Lösung beeinträchtigen oder sogar vollständig verhindern. Dies ist ein allgemeines Problem, das wir angehen müssen, während wir schrittweise auf den Quantenvorteil hinarbeiten:

![Vorteil](images/cost_function_path_to_quantum_advantage.png)

Wir können die Optionen zur Fehlerunterdrückung und Fehlerminderung von Qiskit Runtime Primitive nutzen, um Rauschen zu beseitigen und den Nutzen der heutigen Quantencomputer zu maximieren.

### Fehlerunterdrückung

[Fehlerunterdrückung](https://qiskit.org/documentation/partners/qiskit_ibm_runtime/how_to/error-suppression.html) bezieht sich auf Techniken, die verwendet werden, um einen Schaltkreis während der Kompilierung zu optimieren und zu transformieren, um Fehler zu minimieren. Dies ist eine grundlegende Fehlerbehandlungstechnik, die normalerweise zu einem klassischen Vorverarbeitungs- [Overhead](gloss:overhead) für die gesamte Laufzeit führt. Der Overhead umfasst das Transpilieren von Schaltkreisen, um sie auf Quantenhardware auszuführen, durch:

- Darstellung der Schaltung mit den nativen Gattern, die in einem Quantensystem verfügbar sind
- Zuordnung der virtuellen Qubits zu physischen Qubits
- Hinzufügen von SWAPs basierend auf Konnektivitätsanforderungen
- Optimierung von 1Q- und 2Q-Gattern
- Hinzufügen einer dynamischen Entkopplung zu inaktiven Qubits, um die Auswirkungen der Dekohärenz zu verhindern.

Primitive ermöglichen die Verwendung von [Fehlerunterdrückungstechniken](https://qiskit.org/documentation/partners/qiskit_ibm_runtime/how_to/error-suppression.html) durch Festlegen der Option `optimization_level` und Auswählen erweiterter Transpilierungsoptionen. In einem späteren Kurs werden wir uns mit verschiedenen Schaltungskonstruktionsmethoden zur Verbesserung der Ergebnisse befassen, aber in den meisten Fällen empfehlen wir die Festlegung von `optimization_level=3` .

### Fehlerminderung

[Fehlerminderung](https://qiskit.org/documentation/partners/qiskit_ibm_runtime/how_to/error-mitigation.html) bezieht sich auf Techniken, mit denen Benutzer Schaltungsfehler reduzieren können, indem sie das Geräterauschen zum Zeitpunkt der Ausführung modellieren. Dies führt normalerweise zu einem Quanten-Vorverarbeitungsaufwand im Zusammenhang mit dem Modelltraining und einem klassischen Nachverarbeitungsaufwand, um Fehler in den Rohergebnissen durch Verwendung des generierten Modells zu mindern.

Die Option `resilience_level` des Qiskit Runtime-Primitivs gibt den Grad der Widerstandsfähigkeit gegen Fehler an. Höhere Levels erzeugen genauere Ergebnisse auf Kosten längerer Verarbeitungszeiten aufgrund des Quantum-Sampling-Overheads. Widerstandslevel können verwendet werden, um den Kompromiss zwischen Kosten und Genauigkeit zu konfigurieren, wenn Sie Fehlerminderung auf Ihre primitive Abfrage anwenden.

Bei der Implementierung einer Fehlerminderungstechnik erwarten wir, dass die [Verzerrung](gloss:bias) in unseren Ergebnissen im Vergleich zur vorherigen, ungeminderten Verzerrung reduziert wird. In einigen Fällen kann die Verzerrung sogar verschwinden. Dies hat jedoch seinen Preis. Wenn wir die Verzerrung in unseren geschätzten Mengen reduzieren, erhöht sich die statistische Variabilität (d. h. die Varianz), was wir berücksichtigen können, indem wir die Anzahl der Aufnahmen pro Schaltkreis in unserem Sampling-Prozess weiter erhöhen. Dies führt zu einem Overhead, der über den zur Reduzierung der Verzerrung erforderlichen hinausgeht, daher wird dies nicht standardmäßig durchgeführt. Wir können dieses Verhalten problemlos aktivieren, indem wir die Anzahl der Aufnahmen pro Schaltkreis in options.executions.shots anpassen, wie im folgenden Beispiel gezeigt.

![Kompromiss zwischen Bias und Varianz](images/cost_function_bias_variance_trade_off.png)

In diesem Kurs werden wir diese Fehlerminderungsmodelle auf hoher Ebene untersuchen, um die Fehlerminderung zu veranschaulichen, die Qiskit Runtime-Grundelemente durchführen können, ohne dass vollständige Implementierungsdetails erforderlich sind.

### Auslöschung von verwirbelten Auslesefehlern (T-REx)

Twirled Readout Error Extinction (T-REx) verwendet eine als Pauli-Twirling bekannte Technik, um das während der Quantenmessung entstehende Rauschen zu reduzieren. Diese Technik geht von keiner bestimmten Form von Rauschen aus, was sie sehr allgemein und effektiv macht.

Gesamtablauf:

1. Erfassung von Daten für den Nullzustand mit randomisierten Bit-Flips (Pauli X vor der Messung)
2. Erfassen Sie Daten für den gewünschten (verrauschten) Zustand mit randomisierten Bit-Flips (Pauli X vor der Messung).
3. Berechnen Sie für jeden Datensatz die spezielle Funktion und dividieren Sie.

&nbsp;

![T-REX](images/cost_function_trex_data_collection.png)

Wir können dies mit `options.resilience_level = 1` festlegen, wie im folgenden Beispiel gezeigt.

### Keine Rauschextrapolation

Bei der Zero-Noise-Extrapolation (ZNE) wird zunächst das Rauschen in dem Schaltkreis verstärkt, der den gewünschten Quantenzustand vorbereitet. Anschließend werden Messungen für mehrere unterschiedliche Rauschpegel durchgeführt und anhand dieser Messungen wird das rauschfreie Ergebnis abgeleitet.

Gesamtablauf:

1. Verstärken Sie das Schaltungsrauschen für mehrere Rauschfaktoren
2. Führen Sie alle rauschverstärkten Schaltkreise aus
3. Extrapolieren Sie zurück zur Null-Rauschgrenze

&nbsp;

![ZNE](images/cost_function_zne_stages.png)

Wir können dies mit `options.resilience_level = 2` einstellen. Wir können dies weiter optimieren, indem wir verschiedene `noise_factors` , `noise_amplifiers` und `extrapolators` untersuchen, aber das liegt außerhalb des Rahmens dieses Kurses. Wir ermutigen Sie, mit diesen [Optionen zu experimentieren, wie hier beschrieben](https://qiskit.org/documentation/partners/qiskit_ibm_runtime/how_to/error-mitigation.html#advanced-resilience-options) .

### Probabilistische Fehlerstornierung

Probabilistische Fehlerunterdrückung (PEC)-Abtastungen für eine Sammlung von Schaltkreisen, die im Durchschnitt einen Rauschinvertierungskanal nachahmen, um das Rauschen in der gewünschten Berechnung zu unterdrücken. Dieser Prozess ähnelt ein wenig der Funktionsweise von Kopfhörern zur Rauschunterdrückung und liefert großartige Ergebnisse. Er ist jedoch nicht so allgemein wie andere Methoden und der Abtastaufwand ist exponentiell.

Gesamtablauf:

![PEC](images/cost_function_pec_layers.png)

Schritt 1: Pauli-Wirbeln

![PEC-Wirbeln](images/cost_function_pec_pauli_twirling.png)

Schritt 2: Ebene wiederholen und das Rauschen lernen

![PEC-Lernen](images/cost_function_pec_learn_layer.png)

Schritt 3: Ermitteln der Wiedergabetreue (Fehler für jeden Rauschkanal)

![PEC-Treue](images/cost_function_pec_curve_fitting.png)

Jede Methode ist mit einem eigenen Mehraufwand verbunden: einem Kompromiss zwischen der Anzahl der erforderlichen Quantenberechnungen (Zeit) und der Genauigkeit unserer Ergebnisse:

$$
\begin{array}{c|c|c|c}
  \text{Methods} & R=1 \text{, T-REx} & R=2 \text{, ZNE} & R=3 \text{, PEC} \\[1mm]
  \hline
  \text{Assumptions} & \text{None} & \text{Ability to scale noise} & \text{Full knowledge of noise} \\[1mm]
  \text{Qubit overhead} & 1 & 1 & 1 \\[1mm]
  \text{Sampling overhead} & 2 & N_{\text{noise-factors}} & \mathcal{O}(e^{\lambda N_{layers}}) \\[1mm]
  \text{Bias} & 0 & \mathcal{O}(\lambda^{N_{\text{noise-factors}}}) & 0 \\[1mm]
\end{array}
$$

### Verwenden der Minderungs- und Unterdrückungsoptionen von Qiskit Runtime

So berechnen Sie einen Erwartungswert bei Verwendung der Fehlerminderung und -unterdrückung in Qiskit Runtime. Dieser Prozess wird während einer Optimierungsschleife mehrmals wiederholt, wir haben das Beispiel jedoch einfach gehalten, um zu demonstrieren, wie die Fehlerminderung und -unterdrückung konfiguriert wird.

In [None]:
from qiskit.circuit import Parameter, QuantumCircuit
from qiskit.quantum_info import SparsePauliOp

theta = Parameter("theta")

qc = QuantumCircuit(2)
qc.x(1)
qc.h(0)
qc.cp(theta, 0, 1)
qc.h(0)
observables = SparsePauliOp.from_list([("ZZ", 1)])

qc.draw("mpl")

In [None]:
## Setup phases
import numpy as np

phases = np.linspace(0, 2 * np.pi, 50)

# phases need to be expressed as a list of lists in order to work
individual_phases = [[phase] for phase in phases]

In [None]:
## Create noise model
from qiskit.providers.fake_provider import FakeManila
from qiskit_aer.noise import NoiseModel
from qiskit_ibm_runtime import Options


# Make a noise model
fake_backend = FakeManila()
noise_model = NoiseModel.from_backend(fake_backend)

# Set options to include the noise model
options = Options()
options.simulator = {
    "noise_model": noise_model,
    "basis_gates": fake_backend.configuration().basis_gates,
    "coupling_map": fake_backend.configuration().coupling_map,
    "seed_simulator": 42,
}

In [None]:
from qiskit_ibm_runtime import Session, QiskitRuntimeService, Estimator

# Add your token below
service = QiskitRuntimeService(channel="ibm_quantum")

noisy_exp_values = []
exp_values_with_em_es = []

with Session(service=service, backend="ibmq_qasm_simulator") as session:
    # generate noisy results
    estimator = Estimator(options=options)
    job = estimator.run(
        circuits=[qc] * len(phases),
        parameter_values=individual_phases,
        observables=[observables] * len(phases),
        shots=1000,
    )
    result = job.result()
    noisy_exp_values = result.values

    options.optimization_level = 2
    options.resilience_level = 1

    # leverage mitigation and suppression
    estimator = Estimator(options=options)
    job = estimator.run(
        circuits=[qc] * len(phases),
        parameter_values=individual_phases,
        observables=[observables] * len(phases),
        shots=1000,
    )
    result = job.result()
    exp_values_with_em_es = result.values

    session.close()

In [None]:
import matplotlib.pyplot as plt

plt.plot(phases, noisy_exp_values, "o", label="Noisy")
plt.plot(phases, exp_values_with_em_es, "o", label="Mitigation + Suppression")
plt.plot(phases, 2 * np.sin(phases / 2) ** 2 - 1, label="Theory")
plt.xlabel("Phase")
plt.ylabel("Expectation")
plt.legend()
plt.show()

In dieser Lektion haben Sie gelernt, wie Sie eine Kostenfunktion erstellen:

- Erstellen einer Kostenfunktion
- So nutzen Sie [Qiskit Runtime-Primitive](https://qiskit.org/documentation/partners/qiskit_ibm_runtime/primitives.html) zur Minderung und Unterdrückung von Rauschen
- So definieren Sie eine Messstrategie zur Optimierung von Geschwindigkeit und Genauigkeit

Hier ist unsere hochrangige Variationsarbeitslast:

![Kostenfunktionsschaltung](images/cost_function_circuit.png)

Unsere Kostenfunktion wird während jeder Iteration der Optimierungsschleife ausgeführt. In der nächsten Lektion erfahren Sie, wie der klassische Optimierer unsere Kostenfunktionsauswertung verwendet, um neue Parameter auszuwählen.