# Analýza datasetu `BoltzmannEntropy/QuantumLLMInstruct`

Tento notebook načte dataset z Hugging Face Hubu, převede ho na Pandas DataFrame a provede základní analýzu dat s důrazem na přehledné zobrazení v Jupyter prostředí.

In [3]:
import pandas as pd
from datasets import load_dataset
from IPython.display import display, Markdown

# --- Konfigurace ---
# Název datasetu na Hugging Face Hubu
DATASET_NAME = "BoltzmannEntropy/QuantumLLMInstruct"

# Nastavení Pandas pro lepší zobrazení v notebooku
pd.set_option('display.max_colwidth', 150) # Zobrazí delší text v buňkách
pd.set_option('display.max_rows', 100)     # Umožní zobrazit více řádků
pd.set_option('display.width', 1000)      # Rozšíří šířku zobrazení

## 1. Načtení a příprava datasetu

Načteme trénovací část datasetu a převedeme ji na Pandas DataFrame pro snadnou manipulaci.

In [4]:
print(f"Načítám dataset '{DATASET_NAME}'...")
try:
    # Načteme pouze trénovací split
    dataset = load_dataset(DATASET_NAME, split="train")
    # Převedeme dataset na Pandas DataFrame
    df = dataset.to_pandas()
    print("✅ Dataset úspěšně načten a převeden na DataFrame.")
    print(f"   Počet záznamů: {len(df)}")
except Exception as e:
    print(f"❌ Nepodařilo se načíst dataset. Chyba: {e}")

Načítám dataset 'BoltzmannEntropy/QuantumLLMInstruct'...
✅ Dataset úspěšně načten a převeden na DataFrame.
   Počet záznamů: 5150


## 2. Základní přehled (prvních 5 řádků)

Podívejme se na strukturu a ukázku dat.

In [None]:
df.head()

Unnamed: 0,uuid,timestamp,problem,sub_domain,main_domain,model_name,solution,solution_model_name
0,fb82fc81-6dc2-47ed-9312-ff93fe73a92f,2024-12-25 21:44:13.453089,Consider a two-qubit system initially prepared in the state \( |\psi_0\rangle = \frac{|00\rangle + |11\rangle}{\sqrt{2}} \). The Hamiltonian of th...,QUANTUM THERMODYNAMICS,Quantum Thermodynamics,Qwen2.5-Coder-3B-Instruct,"To solve this problem, we need to follow these steps:\n\n1. **Express the initial state in matrix form:**\n The initial state \( |\psi_0\rangle ...",Qwen2.5-Coder-32B-Instruct
1,37c6341e-667a-4d06-bcd8-304a17f77ca8,2024-12-25 21:44:27.299583,Calculate the ground state energy of the Heisenberg spin chain with the Hamiltonian:\n\[\nH = J \sum_{i=1}^{N-1} (\sigma_i^z \sigma_{i+1}^z + \sig...,HEISENBERG SPIN CHAIN,Gibbs State Preparation,Qwen2.5-Coder-3B-Instruct,"To calculate the ground state energy of the Heisenberg spin chain with the given Hamiltonian for \( N = 4 \) spins and \( J = 1 \), we need to fol...",Qwen2.5-Coder-32B-Instruct
2,8347ea30-21ab-4a20-9587-984f5d1fe9b9,2024-12-25 21:44:36.251547,Design a divide-and-conquer algorithm for solving the Traveling Salesman Problem (TSP) on a graph with \( n \) cities using Quantum Approximate Op...,QUANTUM APPROXIMATE OPTIMIZATION ALGORITHM,Large-scale QAOA via Divide-and-Conquer,Qwen2.5-Coder-3B-Instruct,To design a divide-and-conquer algorithm for solving the Traveling Salesman Problem (TSP) on a graph using the Quantum Approximate Optimization Al...,Qwen2.5-Coder-32B-Instruct
3,a83f873f-fd48-47d1-b787-aa8804900425,2024-12-25 21:44:49.299625,"Prepare the Gibbs state for the Hamiltonian:\n\[\nH = \sigma^z_1 + \sigma^z_2 + \sigma^x_1 + \sigma^x_2,\n\]\nat a temperature \( T = 0.75 \). Use...",GIBBS STATE PREPARATION,Gibbs State Preparation,Qwen2.5-Coder-3B-Instruct,"To solve this problem, we need to calculate the first-order correction to the energy of the state \( |\psi\rangle = e^{-\beta H}|00\rangle \) for ...",Qwen2.5-Coder-32B-Instruct
4,850192b8-8db0-46c4-8763-084bc1d03a06,2024-12-25 21:45:00.601605,"Given a quantum system described by a density matrix \( \rho \), estimate the purity \( \text{Tr}(\rho^2) \) using classical shadow techniques. De...",QUANTUM STATE PROPERTY ESTIMATION,Estimation of Quantum State Properties Based on the Classical Shadow,Qwen2.5-Coder-3B-Instruct,"To estimate the purity \( \text{Tr}(\rho^2) \) of a quantum system using classical shadow techniques, we can follow these steps:\n\n### Step 1: Un...",Qwen2.5-Coder-32B-Instruct


In [7]:
# Vytvoříme si vlastní, hezčí přehled
info_df = pd.DataFrame({
    'Datový typ': df.dtypes,
    'Počet ne-nulových hodnot': df.count(),
    'Počet unikátních hodnot': df.nunique()
})
info_df['Počet chybějících (NaN)'] = len(df) - info_df['Počet ne-nulových hodnot']

display(info_df)

Unnamed: 0,Datový typ,Počet ne-nulových hodnot,Počet unikátních hodnot,Počet chybějících (NaN)
uuid,object,5150,5150,0
timestamp,object,5150,5150,0
problem,object,5150,5006,0
sub_domain,object,5150,696,0
main_domain,object,5150,90,0
model_name,object,5150,2,0
solution,object,46,46,5104
solution_model_name,object,46,1,5104
