# Analýza datasetu `BoltzmannEntropy/QuantumLLMInstruct`

Tento notebook načte dataset z Hugging Face Hubu, převede ho na Pandas DataFrame a provede základní analýzu dat s důrazem na přehledné zobrazení v Jupyter prostředí.

In [1]:
import pandas as pd
from datasets import load_dataset
from IPython.display import display, Markdown

# --- Konfigurace ---
# Název datasetu na Hugging Face Hubu
DATASET_NAME = "0xZee/dataset-CoT-Quantum-Mechanics-1224"

# Nastavení Pandas pro lepší zobrazení v notebooku
pd.set_option('display.max_colwidth', 150) # Zobrazí delší text v buňkách
pd.set_option('display.max_rows', 100)     # Umožní zobrazit více řádků
pd.set_option('display.width', 1000)      # Rozšíří šířku zobrazení

  from .autonotebook import tqdm as notebook_tqdm


## 1. Načtení a příprava datasetu

Načteme trénovací část datasetu a převedeme ji na Pandas DataFrame pro snadnou manipulaci.

In [2]:
print(f"Načítám dataset '{DATASET_NAME}'...")
try:
    # Načteme pouze trénovací split
    dataset = load_dataset(DATASET_NAME, split="train")
    # Převedeme dataset na Pandas DataFrame
    df = dataset.to_pandas()
    print("✅ Dataset úspěšně načten a převeden na DataFrame.")
    print(f"   Počet záznamů: {len(df)}")
except Exception as e:
    print(f"❌ Nepodařilo se načíst dataset. Chyba: {e}")

Načítám dataset '0xZee/dataset-CoT-Quantum-Mechanics-1224'...


Generating train split: 100%|██████████| 1224/1224 [00:00<00:00, 13014.03 examples/s]

✅ Dataset úspěšně načten a převeden na DataFrame.
   Počet záznamů: 1224





## 2. Základní přehled (prvních 5 řádků)

Podívejme se na strukturu a ukázku dat.

In [3]:
df.head()

Unnamed: 0,question,response,CoT
0,"Using the shell model, find the spin–isospin dependence of the wavefunctions for the tritium (3H) and helium (3He) nuclear ground-states.","In the nuclei considered, the three nucleons are in the 1s-shell. Such a configuration could be considered as one hole in the 1s-state, which defi...",So I need to find the spin-isospin dependence of the wavefunctions for tritium (3H) and helium-3 (3He) nuclear ground-states using the shell model...
1,"Let us introduce the operators\n\n\[\n\hat{Q} = \hat{A}^+\hat{f}, \quad \hat{Q}^+ = \hat{A}\hat{f}^+, \quad \hat{H} = \hat{Q}\hat{Q}^+ + \hat{Q}^+...","1) It is easy to prove that\n\n\{ \hat{Q}, \hat{Q}^+ \} = \hat{H}, \quad [\hat{Q}, \hat{H}] = [\hat{Q}^+, \hat{H}] = 0, \quad \hat{Q}^2 = (\hat{Q}...","So I'm trying to understand this problem about supersymmetry in quantum mechanics. We have these operators: Q, Q dagger, and H, defined in terms o..."
2,"Express the photon scattering cross-section in the small-frequency limit, \(\hbar\omega \rightarrow 0\), from an atom in a stationary state with z...","We are interested in the transition probability between the states\n\n\[\n\psi_{i,f} = \psi_0 |1k_i,\sigma_i,f,0,\ldots\rangle, \quad E_{i,f} = E_...","So I have this problem here about expressing the photon scattering cross-section in the small-frequency limit, where \(\hbar\omega\) approaches ze..."
3,"Prove the optical theorem for elastic scattering, that is \(\sigma_T \equiv \int \mathrm{d}\Omega \frac{\mathrm{d}\sigma}{\mathrm{d}\Omega} = \fra...",The partial wave expansion of an elastic scattering amplitude is\n\n\[f_k(\theta) = \frac{1}{k} \sum_{\ell = 0}^{\infty} (2\ell + 1) e^{i\delta_\e...,"To prove the optical theorem for elastic scattering, which states that\n\n\[\n\sigma_T \equiv \int \mathrm{d}\Omega \frac{\mathrm{d}\sigma}{\mathr..."
4,The Stark effect in atoms (shift of energy levels by a uniform electric field) is usually observed to be quadratic in the field strength. Explain ...,"To within an uninteresting overall constant, the wave functions are\n\n\[ \psi_{100} = 4\sqrt{2a_0^3} e^{-r/a_0}, \]\n\n\[ \psi_{200} = (2a_0 - r)...","So, the Stark effect is this phenomenon where energy levels of atoms shift when you apply an external electric field. Normally, this shift is quad..."


In [4]:
# Vytvoříme si vlastní, hezčí přehled
info_df = pd.DataFrame({
    'Datový typ': df.dtypes,
    'Počet ne-nulových hodnot': df.count(),
    'Počet unikátních hodnot': df.nunique()
})
info_df['Počet chybějících (NaN)'] = len(df) - info_df['Počet ne-nulových hodnot']

display(info_df)

Unnamed: 0,Datový typ,Počet ne-nulových hodnot,Počet unikátních hodnot,Počet chybějících (NaN)
question,object,1224,1209,0
response,object,1224,1213,0
CoT,object,1224,1209,0
