## Open File

In [64]:
import pandas as pd

df = pd.DataFrame()

for i in range(1,6):
    df = pd.concat([df, pd.read_excel('ratnavali.xlsx', header=None, sheet_name=str(i))])
df.head()

Unnamed: 0,0,1
0,0,
1,¡Homenaje a todos los Budas y Bodhisatvas!,སངས་རྒྱས་དང་བྱང་ཆུབ་སེམས་དཔའ་ཐམས་ཅད་ལ་ཕྱག་འཚལ་ལོ།
2,1,
3,"Me postro ante el Omnisciente,",།ཉེས་པ་ཀུན་ལས་རྣམ་གྲོལ་ཞིང༌།
4,"el cuál está libre de cualquier defecto,",།ཡོན་ཏན་ཀུན་གྱིས་བརྒྱན་པ་པོ།


In [65]:
import pandas as pd

# Rename columns
df.columns = ['spanish', 'tibetan']

grouped_data = []
current_section_id = None
spanish_lines = []
tibetan_lines = []

for _, row in df.iterrows():
    spanish = row['spanish']
    tibetan = row['tibetan']

    # If spanish is a digit and tibetan is NaN -> new section
    if pd.isna(tibetan) and isinstance(spanish, (int, float)) or (isinstance(spanish, str) and spanish.strip().isdigit()):
        # Save previous section if exists
        if current_section_id is not None:
            grouped_data.append({
                'section_id': current_section_id,
                'spanish_text': ' '.join(spanish_lines),
                'tibetan_text': ' '.join(tibetan_lines)
            })

        # Start new section
        current_section_id = int(float(spanish))  # handles both '2' and 2.0
        spanish_lines = []
        tibetan_lines = []
    else:
        # Accumulate lines
        if isinstance(spanish, str):
            spanish_lines.append(spanish.strip())
        if isinstance(tibetan, str):
            tibetan_lines.append(tibetan.strip())

# Add the last section
if current_section_id is not None:
    grouped_data.append({
        'section_id': current_section_id,
        'spanish_text': ' '.join(spanish_lines),
        'tibetan_text': ' '.join(tibetan_lines)
    })

# Final DataFrame
grouped_df = pd.DataFrame(grouped_data)
print(grouped_df.head())


   section_id                                       spanish_text  \
0           0         ¡Homenaje a todos los Budas y Bodhisatvas!   
1           1  Me postro ante el Omnisciente, el cuál está li...   
2           2  ¡Oh, Rey! Yo explicaré las prácticas solamente...   
3           3  En alguien que primero practica alto estatus p...   
4           4  Alto estatus es considerado felicidad, el bien...   

                                        tibetan_text  
0  སངས་རྒྱས་དང་བྱང་ཆུབ་སེམས་དཔའ་ཐམས་ཅད་ལ་ཕྱག་འཚལ་ལོ།  
1  །ཉེས་པ་ཀུན་ལས་རྣམ་གྲོལ་ཞིང༌། །ཡོན་ཏན་ཀུན་གྱིས་...  
2  །རྒྱལ་པོ་ཁྱོད་ལ་ཆོས་སྒྲུབ་ཕྱིར། །གཅིག་ཏུ་དགེ་བ...  
3  །དང་པོར་མངོན་པར་མཐོ་བའི་ཆོས། །ཕྱིས་ནི་ངེས་པར་ལ...  
4  །དེ་ལ་མངོན་མཐོ་བདེ་བ་སྟེ། །ངེས་པར་ལེགས་པ་ཐར་པར...  


In [66]:
len(grouped_df)

501

## Swap Column Order, Name Columns, Drop Nan

In [67]:
df = grouped_df

In [68]:
df.head()

Unnamed: 0,section_id,spanish_text,tibetan_text
0,0,¡Homenaje a todos los Budas y Bodhisatvas!,སངས་རྒྱས་དང་བྱང་ཆུབ་སེམས་དཔའ་ཐམས་ཅད་ལ་ཕྱག་འཚལ་ལོ།
1,1,"Me postro ante el Omnisciente, el cuál está li...",།ཉེས་པ་ཀུན་ལས་རྣམ་གྲོལ་ཞིང༌། །ཡོན་ཏན་ཀུན་གྱིས་...
2,2,"¡Oh, Rey! Yo explicaré las prácticas solamente...",།རྒྱལ་པོ་ཁྱོད་ལ་ཆོས་སྒྲུབ་ཕྱིར། །གཅིག་ཏུ་དགེ་བ...
3,3,En alguien que primero practica alto estatus p...,།དང་པོར་མངོན་པར་མཐོ་བའི་ཆོས། །ཕྱིས་ནི་ངེས་པར་ལ...
4,4,"Alto estatus es considerado felicidad, el bien...",།དེ་ལ་མངོན་མཐོ་བདེ་བ་སྟེ། །ངེས་པར་ལེགས་པ་ཐར་པར...


In [69]:
cols = list(df.columns)
a, b = cols.index('spanish_text'), cols.index('tibetan_text')
cols[b], cols[a] = cols[a], cols[b]
df = df[cols]
df = df.rename(columns={'spanish_text':'es', 'tibetan_text':'bo'})
df = df.dropna()
df.head()

Unnamed: 0,section_id,bo,es
0,0,སངས་རྒྱས་དང་བྱང་ཆུབ་སེམས་དཔའ་ཐམས་ཅད་ལ་ཕྱག་འཚལ་ལོ།,¡Homenaje a todos los Budas y Bodhisatvas!
1,1,།ཉེས་པ་ཀུན་ལས་རྣམ་གྲོལ་ཞིང༌། །ཡོན་ཏན་ཀུན་གྱིས་...,"Me postro ante el Omnisciente, el cuál está li..."
2,2,།རྒྱལ་པོ་ཁྱོད་ལ་ཆོས་སྒྲུབ་ཕྱིར། །གཅིག་ཏུ་དགེ་བ...,"¡Oh, Rey! Yo explicaré las prácticas solamente..."
3,3,།དང་པོར་མངོན་པར་མཐོ་བའི་ཆོས། །ཕྱིས་ནི་ངེས་པར་ལ...,En alguien que primero practica alto estatus p...
4,4,།དེ་ལ་མངོན་མཐོ་བདེ་བ་སྟེ། །ངེས་པར་ལེགས་པ་ཐར་པར...,"Alto estatus es considerado felicidad, el bien..."


In [71]:
from datasets import Dataset

ds = Dataset.from_pandas(df)
ds[0]

{'section_id': 0,
 'bo': 'སངས་རྒྱས་དང་བྱང་ཆུབ་སེམས་དཔའ་ཐམས་ཅད་ལ་ཕྱག་འཚལ་ལོ།',
 'es': '¡Homenaje a todos los Budas y Bodhisatvas!'}

In [72]:
ds.push_to_hub('billingsmoore/montano-bo-es')

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

CommitInfo(commit_url='https://huggingface.co/datasets/billingsmoore/montano-bo-es/commit/482d4545efde9ff5fa1eeb8ca2f3947672e459de', commit_message='Upload dataset', commit_description='', oid='482d4545efde9ff5fa1eeb8ca2f3947672e459de', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/billingsmoore/montano-bo-es', endpoint='https://huggingface.co', repo_type='dataset', repo_id='billingsmoore/montano-bo-es'), pr_revision=None, pr_num=None)

In [73]:
ds

Dataset({
    features: ['section_id', 'bo', 'es'],
    num_rows: 501
})

In [74]:
from datasets import load_dataset

check = load_dataset('billingsmoore/montano-bo-es')

README.md:   0%|          | 0.00/337 [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/107k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/501 [00:00<?, ? examples/s]

In [75]:
check

DatasetDict({
    train: Dataset({
        features: ['section_id', 'bo', 'es'],
        num_rows: 501
    })
})