# Projeto - Introdução à Computação Quântica

### Desenvolvedores:
* José Rafael Martins Fernandes
* Thiago Hampl Pierri da Rocha

## Introdução

Os *kernel algorithms* desempenham um papel crucial em *machine learning*, permitindo a transformação de dados complexos em espaços de alta dimensão, tornando possível a resolução de problemas não linearmente separáveis. No entanto, o desenvolvimento destes algoritmos utilizando a computação clássica enfrenta desafios significativos quando se trata de lidar com grandes conjuntos de dados e tarefas complexas de *machine learning*. Dessa forma, a computação quântica pode ser uma utilizada como uma maneira de tentar melhorar o desempenho destes algoritmos. Assim, vamos analisar uma pesquisa recente que investiga a interseção entre os s *kernel algorithms* e a computação quântica, com um foco especial na avaliação das possíveis vantagens dos modelos quânticos em tarefas de aprendizado. 

## Revisão do Artigo

No artigo *Power of data in quantum machine learning*, os autores exploram o campo da computação quântica para *machine learning* e buscam avaliar as possíveis vantagens de modelos quânticos em tarefas de aprendizado. Eles começam enfatizando que tarefas de aprendizado de máquina que envolvem dados podem ser significativamente diferentes de outras tarefas computacionais comumente estudadas no domínio da computação quântica. Apesar dessa diferença, os autores demonstram que modelos clássicos de aprendizado de máquina, quando fornecidos com dados, podem competir com modelos quânticos, mesmo em situações em que a complexidade computacional é alta para a computação clássica.

Para avaliar as possíveis vantagens de modelos quânticos em tarefas de aprendizado, os autores introduzem o conceito de uma diferença geométrica, que mede a dissimilaridade entre modelos de *machine learning* clássicos e quânticos com base em suas medidas de similaridade. Eles demonstram como essa diferença geométrica pode ser calculada e usada como uma ferramenta para avaliar o potencial de vantagem quântica na previsão. Se a diferença geométrica for pequena, espera-se que os modelos clássicos de aprendizado de máquina forneçam um desempenho semelhante ou até superior aos modelos quânticos, independentemente dos valores ou rótulos de funções específicas. Por outro lado, uma grande diferença geométrica indica o potencial de uma vantagem quântica.

Assim, os autores realizam experimentos numéricos em conjuntos de dados projetados. Os resultados mostram que os modelos clássicos podem superar os modelos quânticos quando a diferença geométrica é pequena. No entanto, os autores também demonstram que um modelo quântico projetado pode apresentar uma significativa vantagem de previsão sobre os modelos clássicos quando a diferença geométrica é grande. Os experimentos destacam o papel dos dados na determinação das vantagens dos modelos de aprendizado de máquina quântica e enfatizam o potencial dos modelos quânticos projetados em fornecer um aumento na velocidade quântica em tarefas de aprendizado específicas.

## Nosso projeto

O objetivo do projeto consiste em empregar os experimentos mencionados no artigo a fim de verificar ou refutar as conclusões relativas às previsões entre os modelos clássicos e quânticos. Uma vez que o referido artigo aborda as condições que favorecem cada um desses modelos com base na geometria dos dados, planejamos aplicar tanto Kernels Clássicos quanto Quantum Kernels para avaliar tais vantagens, enquanto também examinamos a capacidade de previsão dos modelos quânticos em situações com diferenças significativas na geometria dos dados. Além disso, pretendemos realizar testes em múltiplas bases de dados, a fim de compreender a variabilidade dos resultados e demonstrar o impacto da estrutura dos dados nas conclusões do artigo.

## Problema

O principal desafio que enfrentamos no âmbito deste projeto reside na árdua tarefa de conduzir uma pesquisa para identificar e selecionar as bases de dados mais apropriadas que possam ser empregadas nas Provas de Conceito delineadas no artigo. Adicionalmente, nosso empenho se estende à aplicação de modelos tanto clássicos quanto quânticos, fazendo uso das bibliotecas que dão suporte a esses modelos, notadamente o scikit-learn e o Qiskit, a fim de alcançar resultados robustos e conclusivos em nossa análise.

## Referências
* https://www.nature.com/articles/s41467-021-22539-9
* https://qiskit.org/ecosystem/machine-learning/tutorials/03_quantum_kernel.html
* https://qiskit.org/ecosystem/machine-learning/tutorials/08_quantum_kernel_trainer.html

In [2]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

from qiskit_machine_learning.algorithms import QSVC
from qiskit_machine_learning.kernels import FidelityQuantumKernel
from qiskit.primitives import Sampler
from qiskit_algorithms.state_fidelities import ComputeUncompute
from qiskit import Aer
from qiskit.circuit.library import ZZFeatureMap

In [3]:
def classic_SVC(X, y, test_size=0.2, random_state=42):
    # Split the data into train and test sets
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=random_state)

    # Create an SVC model
    svc_model = SVC(kernel='linear', random_state=random_state)

    # Train the model
    svc_model.fit(X_train, y_train)

    # Make predictions on the test set
    y_pred = svc_model.predict(X_test)

    # Calculate accuracy
    accuracy = accuracy_score(y_test, y_pred)

    return accuracy, y_pred


In [4]:
def quantum_SVC(X, y, test_size=0.2, random_state=42):
    # Split the data into train and test sets
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=random_state)

    feature_map = ZZFeatureMap(feature_dimension=len(X.columns), reps=2, entanglement="linear")

    sampler = Sampler()

    fidelity = ComputeUncompute(sampler=sampler)

    quantum_kernel = FidelityQuantumKernel(fidelity=fidelity, feature_map=feature_map)

    # Create the QSVC model
    qsvc_model = QSVC(quantum_kernel=quantum_kernel)
    
    # Train the QSVC model
    qsvc_model.fit(X_train, y_train)

    # Test the model
    y_pred = qsvc_model.predict(X_test)

    # Calculate accuracy
    accuracy = accuracy_score(y_test, y_pred)

    return accuracy, y_pred

In [10]:
df = pd.read_csv("data/fetal_health_data.csv", header = 0)

df.drop_duplicates(inplace=True)

X = df.drop("fetal_health", axis=1)
y = df["fetal_health"]

accuracy_fetal_health, y_pred_fetal_health = classic_SVC(X, y)
print(f"Accuracy of the SVC model: {accuracy_fetal_health}")

# accuracy_fetal_health_quantum_svc, y_fetal_health_pred_quantum_svc = quantum_SVC(X, y)
# print(f"Accuracy of the Quantum SVC model: {accuracy_fetal_health_quantum_svc}")

Unnamed: 0,baseline value,accelerations,fetal_movement,uterine_contractions,light_decelerations,severe_decelerations,prolongued_decelerations,abnormal_short_term_variability,mean_value_of_short_term_variability,percentage_of_time_with_abnormal_long_term_variability,...,histogram_min,histogram_max,histogram_number_of_peaks,histogram_number_of_zeroes,histogram_mode,histogram_mean,histogram_median,histogram_variance,histogram_tendency,fetal_health
0,120.0,0.0,0.0,0.0,0.0,0.0,0.0,73.0,0.5,43.0,...,62.0,126.0,2.0,0.0,120.0,137.0,121.0,73.0,1.0,2.0
1,132.0,0.006,0.0,0.006,0.003,0.0,0.0,17.0,2.1,0.0,...,68.0,198.0,6.0,1.0,141.0,136.0,140.0,12.0,0.0,1.0
2,133.0,0.003,0.0,0.008,0.003,0.0,0.0,16.0,2.1,0.0,...,68.0,198.0,5.0,1.0,141.0,135.0,138.0,13.0,0.0,1.0
3,134.0,0.003,0.0,0.008,0.003,0.0,0.0,16.0,2.4,0.0,...,53.0,170.0,11.0,0.0,137.0,134.0,137.0,13.0,1.0,1.0
4,132.0,0.007,0.0,0.008,0.0,0.0,0.0,16.0,2.4,0.0,...,53.0,170.0,9.0,0.0,137.0,136.0,138.0,11.0,1.0,1.0
5,134.0,0.001,0.0,0.01,0.009,0.0,0.002,26.0,5.9,0.0,...,50.0,200.0,5.0,3.0,76.0,107.0,107.0,170.0,0.0,3.0
6,134.0,0.001,0.0,0.013,0.008,0.0,0.003,29.0,6.3,0.0,...,50.0,200.0,6.0,3.0,71.0,107.0,106.0,215.0,0.0,3.0
7,122.0,0.0,0.0,0.0,0.0,0.0,0.0,83.0,0.5,6.0,...,62.0,130.0,0.0,0.0,122.0,122.0,123.0,3.0,1.0,3.0
8,122.0,0.0,0.0,0.002,0.0,0.0,0.0,84.0,0.5,5.0,...,62.0,130.0,0.0,0.0,122.0,122.0,123.0,3.0,1.0,3.0
9,122.0,0.0,0.0,0.003,0.0,0.0,0.0,86.0,0.3,6.0,...,62.0,130.0,1.0,0.0,122.0,122.0,123.0,1.0,1.0,3.0


In [9]:
df = pd.read_csv("data/breast_cancer_data.csv", header = 0)

df.drop('id', axis=1, inplace=True)
df.drop('Unnamed: 32', axis=1, inplace=True)

df['diagnosis'] = df['diagnosis'].map({'M':1,'B':0})
df = df[["radius_mean", "texture_mean", "perimeter_mean", "area_mean", "smoothness_mean", "compactness_mean", "concavity_mean", "symmetry_mean", "fractal_dimension_mean", "diagnosis"]]

X = df.drop("diagnosis", axis=1)
y = df["diagnosis"]

accuracy_breast_cancer, y_pred_breast_cancer = classic_SVC(X, y)
print(f"Accuracy of the SVC model: {accuracy_breast_cancer}")

# accuracy_breast_cancer_quantum_svc, y_breast_cancer_pred_quantum_svc = quantum_SVC(X, y)
# print(f"Accuracy of the Quantum SVC model: {accuracy_breast_cancer_quantum_svc}")

Unnamed: 0,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,symmetry_mean,fractal_dimension_mean,diagnosis
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.2419,0.07871,1
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.1812,0.05667,1
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.2069,0.05999,1
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.2597,0.09744,1
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1809,0.05883,1
5,12.45,15.7,82.57,477.1,0.1278,0.17,0.1578,0.2087,0.07613,1
6,18.25,19.98,119.6,1040.0,0.09463,0.109,0.1127,0.1794,0.05742,1
7,13.71,20.83,90.2,577.9,0.1189,0.1645,0.09366,0.2196,0.07451,1
8,13.0,21.82,87.5,519.8,0.1273,0.1932,0.1859,0.235,0.07389,1
9,12.46,24.04,83.97,475.9,0.1186,0.2396,0.2273,0.203,0.08243,1


In [27]:
df = pd.read_csv("data/credit_card.csv", header = 0)
y = pd.read_csv("data/credit_card_label.csv", header = 0)

df = df.dropna()

df = df.drop(['Housing_type', 'Type_Occupation', 'Type_Income'], axis = 1)

df_encoded = pd.get_dummies(df, columns=['GENDER', 'Car_Owner', 'Propert_Owner', 'EDUCATION', 'Marital_status'])

df_encoded = pd.merge(df_encoded, y, on='Ind_ID', how='inner')

X = df_encoded.drop("label", axis=1)
y = df_encoded["label"]

accuracy_credit_card, y_pred_credit_card = classic_SVC(X, y)
print(f"Accuracy of the SVC model: {accuracy_credit_card}")

# accuracy_credit_card_quantum_svc, y_credit_card_pred_quantum_svc = quantum_SVC(X, y)
# print(f"Accuracy of the Quantum SVC model: {accuracy_credit_card_quantum_svc}")

Accuracy of the SVC model: 0.8780487804878049
