# Semantic Trajectory Notebook (Robust Extraction)
This notebook replicates your working script that extracts contextual trajectories of the token 'run' using robust substring matching and token diagnostics.

## 1. Contextual Sentences

In [1]:
sentences = [
    "She likes to run early in the morning before work.",
    "The software failed to run on the outdated system.",
    "He decided to run for office in the next election.",
    "The faucet was left on and water began to run.",
    "The marathon runner collapsed after a grueling 26-mile run.",
    "They run a small family-owned bakery downtown.",
    "The rumor began to run through the school like wildfire.",
    "The machine will run continuously for 48 hours.",
    "He was caught in a run of bad luck at the poker table.",
    "They run tests on the samples before publishing results.",
    "Run the idea by me one more time.",
    "Let the engine run for five minutes before starting.",
    "Run for your life!",
    "She decided to run the experiment again with new variables.",
    "They‚Äôre running a sale on electronics this weekend.",
    "She‚Äôs running for president of the council.",
    "The manager ran the meeting efficiently.",
    "He used to run track in college.",
    "They run a family-owned bakery downtown.",
    "He decided to run for office in the next election.",
    "Please run this report by end of day.",
    "Run the installer before rebooting."
]

## 2. Extract BERT Trajectories

In [2]:
from transformers import BertTokenizer, BertModel
import torch, numpy as np
from tqdm import tqdm

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = BertModel.from_pretrained("bert-base-uncased", output_hidden_states=True)
model.eval()

trajectories = []
valid_sentences = []

print("üîç Matching token: 'run'")

for sent in tqdm(sentences):
    inputs = tokenizer(sent, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs)
    input_ids = inputs["input_ids"][0]
    tokens = tokenizer.convert_ids_to_tokens(input_ids)

    print(f"üßæ Sentence: {sent}")
    print(f"üî§ Tokens: {tokens}")

    match_indices = [i for i, tok in enumerate(tokens) if "run" in tok.lower()]
    if not match_indices:
        print("‚ö†Ô∏è No 'run' token found ‚Äî skipping.")
        continue

    idx = match_indices[0]
    layers = outputs.hidden_states
    curve = torch.stack([layer[0, idx] for layer in layers])  # shape: (13, 768)
    curve = curve[-12:]  # last 12 layers only

    if curve.shape == (12, 768):
        trajectories.append(curve.numpy())
        valid_sentences.append(sent)
    else:
        print("‚ùå Unexpected shape ‚Äî skipping.")

print(f"\n‚úÖ Extracted {len(trajectories)} valid trajectories.")

  from .autonotebook import tqdm as notebook_tqdm


üîç Matching token: 'run'


  0%|                                                                                                                        | 0/22 [00:00<?, ?it/s]

üßæ Sentence: She likes to run early in the morning before work.
üî§ Tokens: ['[CLS]', 'she', 'likes', 'to', 'run', 'early', 'in', 'the', 'morning', 'before', 'work', '.', '[SEP]']


  9%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                                                                                                     | 2/22 [00:00<00:02,  9.36it/s]

üßæ Sentence: The software failed to run on the outdated system.
üî§ Tokens: ['[CLS]', 'the', 'software', 'failed', 'to', 'run', 'on', 'the', 'outdated', 'system', '.', '[SEP]']


 14%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                                                                                                | 3/22 [00:00<00:02,  7.05it/s]

üßæ Sentence: He decided to run for office in the next election.
üî§ Tokens: ['[CLS]', 'he', 'decided', 'to', 'run', 'for', 'office', 'in', 'the', 'next', 'election', '.', '[SEP]']


 18%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                                                                                           | 4/22 [00:00<00:02,  7.29it/s]

üßæ Sentence: The faucet was left on and water began to run.
üî§ Tokens: ['[CLS]', 'the', 'fa', '##uce', '##t', 'was', 'left', 'on', 'and', 'water', 'began', 'to', 'run', '.', '[SEP]']


 23%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                                                                                      | 5/22 [00:00<00:02,  6.82it/s]

üßæ Sentence: The marathon runner collapsed after a grueling 26-mile run.
üî§ Tokens: ['[CLS]', 'the', 'marathon', 'runner', 'collapsed', 'after', 'a', 'gr', '##uel', '##ing', '26', '-', 'mile', 'run', '.', '[SEP]']


 27%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                                                                                 | 6/22 [00:00<00:02,  7.23it/s]

üßæ Sentence: They run a small family-owned bakery downtown.
üî§ Tokens: ['[CLS]', 'they', 'run', 'a', 'small', 'family', '-', 'owned', 'bakery', 'downtown', '.', '[SEP]']
üßæ Sentence: The rumor began to run through the school like wildfire.
üî§ Tokens: ['[CLS]', 'the', 'rumor', 'began', 'to', 'run', 'through', 'the', 'school', 'like', 'wild', '##fire', '.', '[SEP]']


 36%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                                                                       | 8/22 [00:00<00:01,  8.91it/s]

üßæ Sentence: The machine will run continuously for 48 hours.
üî§ Tokens: ['[CLS]', 'the', 'machine', 'will', 'run', 'continuously', 'for', '48', 'hours', '.', '[SEP]']


 41%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                                                                  | 9/22 [00:01<00:01,  8.55it/s]

üßæ Sentence: He was caught in a run of bad luck at the poker table.
üî§ Tokens: ['[CLS]', 'he', 'was', 'caught', 'in', 'a', 'run', 'of', 'bad', 'luck', 'at', 'the', 'poker', 'table', '.', '[SEP]']


 45%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                                                            | 10/22 [00:01<00:01,  7.92it/s]

üßæ Sentence: They run tests on the samples before publishing results.
üî§ Tokens: ['[CLS]', 'they', 'run', 'tests', 'on', 'the', 'samples', 'before', 'publishing', 'results', '.', '[SEP]']


 55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                                                  | 12/22 [00:01<00:01,  9.37it/s]

üßæ Sentence: Run the idea by me one more time.
üî§ Tokens: ['[CLS]', 'run', 'the', 'idea', 'by', 'me', 'one', 'more', 'time', '.', '[SEP]']
üßæ Sentence: Let the engine run for five minutes before starting.
üî§ Tokens: ['[CLS]', 'let', 'the', 'engine', 'run', 'for', 'five', 'minutes', 'before', 'starting', '.', '[SEP]']
üßæ Sentence: Run for your life!
üî§ Tokens: ['[CLS]', 'run', 'for', 'your', 'life', '!', '[SEP]']


 64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                                        | 14/22 [00:01<00:00,  9.94it/s]

üßæ Sentence: She decided to run the experiment again with new variables.
üî§ Tokens: ['[CLS]', 'she', 'decided', 'to', 'run', 'the', 'experiment', 'again', 'with', 'new', 'variables', '.', '[SEP]']
üßæ Sentence: They‚Äôre running a sale on electronics this weekend.
üî§ Tokens: ['[CLS]', 'they', '‚Äô', 're', 'running', 'a', 'sale', 'on', 'electronics', 'this', 'weekend', '.', '[SEP]']


 73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                              | 16/22 [00:01<00:00, 10.78it/s]

üßæ Sentence: She‚Äôs running for president of the council.
üî§ Tokens: ['[CLS]', 'she', '‚Äô', 's', 'running', 'for', 'president', 'of', 'the', 'council', '.', '[SEP]']


 82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                    | 18/22 [00:01<00:00, 10.98it/s]

üßæ Sentence: The manager ran the meeting efficiently.
üî§ Tokens: ['[CLS]', 'the', 'manager', 'ran', 'the', 'meeting', 'efficiently', '.', '[SEP]']
‚ö†Ô∏è No 'run' token found ‚Äî skipping.
üßæ Sentence: He used to run track in college.
üî§ Tokens: ['[CLS]', 'he', 'used', 'to', 'run', 'track', 'in', 'college', '.', '[SEP]']


 91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ          | 20/22 [00:02<00:00,  8.12it/s]

üßæ Sentence: They run a family-owned bakery downtown.
üî§ Tokens: ['[CLS]', 'they', 'run', 'a', 'family', '-', 'owned', 'bakery', 'downtown', '.', '[SEP]']
üßæ Sentence: He decided to run for office in the next election.
üî§ Tokens: ['[CLS]', 'he', 'decided', 'to', 'run', 'for', 'office', 'in', 'the', 'next', 'election', '.', '[SEP]']


 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ     | 21/22 [00:02<00:00,  6.81it/s]

üßæ Sentence: Please run this report by end of day.
üî§ Tokens: ['[CLS]', 'please', 'run', 'this', 'report', 'by', 'end', 'of', 'day', '.', '[SEP]']


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 22/22 [00:02<00:00,  7.68it/s]

üßæ Sentence: Run the installer before rebooting.
üî§ Tokens: ['[CLS]', 'run', 'the', 'install', '##er', 'before', 're', '##boot', '##ing', '.', '[SEP]']

‚úÖ Extracted 21 valid trajectories.





## 3. Summary

In [3]:
print(f'Total valid trajectories: {len(trajectories)}')

Total valid trajectories: 21
