In [1]:
"""
01_explore_raw_data.py

Exploratory notebook (script form) for:
- Inspecting clean_Rigveda / clean_Yajurveda / clean_Samveda CSVs
- Understanding Chanda distributions
- Sanity-checking key columns and potential anomalies

Run from project root with:
    python -m notebooks.01_explore_raw_data
or open as a notebook and run cell-by-cell.
"""

'\n01_explore_raw_data.py\n\nExploratory notebook (script form) for:\n- Inspecting clean_Rigveda / clean_Yajurveda / clean_Samveda CSVs\n- Understanding Chanda distributions\n- Sanity-checking key columns and potential anomalies\n\nRun from project root with:\n    python -m notebooks.01_explore_raw_data\nor open as a notebook and run cell-by-cell.\n'

In [13]:
import os

import pandas as pd

# 1. Get the current directory (which is 'notebooks')
NOTEBOOK_DIR = os.getcwd() 

# 2. Go up one level to the project root ('vedic-chandas')
BASE_DIR = os.path.dirname(NOTEBOOK_DIR)

# 3. Construct the path to the 'data/raw' folder inside the root
DATA_DIR = os.path.join(BASE_DIR, "data", "raw")

# 4. Define the full paths to your files
rig_path = os.path.join(DATA_DIR, "only_Rigveda.csv")
yaj_path = os.path.join(DATA_DIR, "only_Yajurveda.csv")
sam_path = os.path.join(DATA_DIR, "only_Samveda.csv")

In [14]:
print("Rigveda path:", rig_path)
print("Yajurveda path:", yaj_path)
print("Samaveda path:", sam_path)

Rigveda path: E:\After School Years\Hackathons\SIH 2025\final-mvp\vedic-chandas\data\raw\only_Rigveda.csv
Yajurveda path: E:\After School Years\Hackathons\SIH 2025\final-mvp\vedic-chandas\data\raw\only_Yajurveda.csv
Samaveda path: E:\After School Years\Hackathons\SIH 2025\final-mvp\vedic-chandas\data\raw\only_Samveda.csv


In [15]:
rig = pd.read_csv(rig_path)
yaj = pd.read_csv(yaj_path)
sam = pd.read_csv(sam_path)

In [16]:
print("=== Rigveda head ===")
display(rig.head())  # in script mode you can use print(rig.head())
print("=== Yajurveda head ===")
display(yaj.head())
print("=== Samaveda head ===")
display(sam.head())

=== Rigveda head ===


Unnamed: 0,Mandal,Sukta,Mantra Number,Mantra,Chanda,Devata,Rishi,Padpath,Transliteration,URL,ScrapedAtUTC
0,1,1,1,अ॒ग्निमी॑ळे पु॒रोहि॑तं य॒ज्ञस्य॑ दे॒वमृ॒त्विज॑...,गायत्री,अग्निः,मधुच्छन्दाः वैश्वामित्रः,अ॒ग्निम्। ई॒ळे॒। पु॒रःऽहि॑तम्। य॒ज्ञस्य॑। दे॒व...,agnim īḻe purohitaṁ yajñasya devam ṛtvijam | h...,https://www.xn--j2b3a4c.com/rigveda/1/1/1,2025-12-07T04:29:52.616221
1,1,1,4,अग्ने॒ यं य॒ज्ञम॑ध्व॒रं वि॒श्वतः॑ परि॒भूरसि॑। ...,गायत्री,अग्निः,मधुच्छन्दाः वैश्वामित्रः,अग्ने॒। यम्। य॒ज्ञम्। अ॒ध्व॒रम्। वि॒श्वतः॑। प॒...,agne yaṁ yajñam adhvaraṁ viśvataḥ paribhūr asi...,https://www.xn--j2b3a4c.com/rigveda/1/1/4,2025-12-07T04:30:00.067546
2,1,1,8,राज॑न्तमध्व॒राणां॑ गो॒पामृ॒तस्य॒ दीदि॑विम्। वर...,यवमध्याविराड्गायत्री,अग्निः,मधुच्छन्दाः वैश्वामित्रः,राज॑न्तम्। अ॒ध्व॒राणा॑म्। गो॒पाम्। ऋ॒तस्य॑। दी...,rājantam adhvarāṇāṁ gopām ṛtasya dīdivim | var...,https://www.xn--j2b3a4c.com/rigveda/1/1/8,2025-12-07T04:30:08.743373
3,1,1,9,स नः॑ पि॒तेव॑ सू॒नवेऽग्ने॑ सूपाय॒नो भ॑व। सच॑स्...,विराड्गायत्री,अग्निः,मधुच्छन्दाः वैश्वामित्रः,सः। नः॒। पि॒ताऽइ॑व। सू॒नवे॑। अग्ने॑। सु॒ऽउ॒पा॒...,sa naḥ piteva sūnave gne sūpāyano bhava | saca...,https://www.xn--j2b3a4c.com/rigveda/1/1/9,2025-12-07T04:30:11.505001
4,1,2,1,वाय॒वा या॑हि दर्शते॒मे सोमा॒ अरं॑कृताः। तेषां॑...,पिपीलिकामध्यानिचृद्गायत्री,वायु:,मधुच्छन्दाः वैश्वामित्रः,वायो॒ इति॑। आ। या॒हि॒। द॒र्श॒त॒। इ॒मे। सोमाः॑।...,vāyav ā yāhi darśateme somā araṁkṛtāḥ | teṣām ...,https://www.xn--j2b3a4c.com/rigveda/1/2/1,2025-12-07T04:30:14.674161


=== Yajurveda head ===


Unnamed: 0,Adhyay,Mantra Number,Mantra,Chanda,Devata,Rishi,Padpath,URL,ScrapedAtUTC
0,1,1,इ॒षे त्वो॒र्जे त्वा॑ वा॒यव॑ स्थ दे॒वो वः॑ सवि॒...,"स्वराड्बृहती, ब्राह्मी उष्णिक्,",सविता देवता,परमेष्ठी प्रजापतिर्ऋषिः,इ॒षे। त्वा॒। ऊ॒र्ज्जे। त्वा॒। वा॒यवः॑। स्थ॒। द...,https://www.xn--j2b3a4c.com/yajurveda/1/1,2025-12-05T02:43:34.701006
1,1,2,वसोः॑ प॒वित्र॑मसि॒ द्यौर॑सि पृथि॒व्य᳖सि मात॒रि...,"स्वराट् आर्षी त्रिष्टुप्,",यज्ञो देवता,परमेष्ठी प्रजापतिर्ऋषिः,वसोः॑। प॒वित्र॑म्। अ॒सि॒। द्यौः। अ॒सि॒। पृ॒थि॒...,https://www.xn--j2b3a4c.com/yajurveda/1/2,2025-12-05T02:43:36.853442
2,1,4,सा वि॒श्वायुः॒ सा वि॒श्वक॑र्मा॒ सा वि॒श्वधा॑या...,अनुष्टुप्,विष्णुर्देवता,परमेष्ठी प्रजापतिर्ऋषिः,सा। वि॒श्वायु॒रिति॑ वि॒श्वऽआ॑युः। सा। वि॒श्वक॒...,https://www.xn--j2b3a4c.com/yajurveda/1/4,2025-12-05T02:43:42.541388
3,1,5,अग्ने॑ व्रतपते व्र॒तं च॑रिष्यामि॒ तच्छ॑केयं॒ त...,आर्ची त्रिष्टुप्,अग्निर्देवता,परमेष्ठी प्रजापतिर्ऋषिः,अग्ने॑। व्र॒त॒प॒त॒ इति॑ व्रतऽपते। व्र॒तं। च॒रि...,https://www.xn--j2b3a4c.com/yajurveda/1/5,2025-12-05T02:43:44.636611
4,1,6,कस्त्वा॑ युनक्ति॒ स त्वा॑ युनक्ति॒ कस्मै॑ त्वा...,आर्ची पङ्क्तिः,प्रजापतिर्देवता,परमेष्ठी प्रजापतिर्ऋषिः,कः। त्वा॒। यु॒न॒क्ति॒। सः। त्वा॒। यु॒न॒क्ति॒। ...,https://www.xn--j2b3a4c.com/yajurveda/1/6,2025-12-05T02:43:47.276940


=== Samaveda head ===


Unnamed: 0,Mantra Number,Mantra,Chanda,Devata,Rishi,Padpath,URL,ScrapedAtUTC
0,2,त्व꣡म꣢ग्ने य꣣ज्ञा꣢ना꣣ꣳ हो꣢ता꣣ वि꣡श्वे꣢षाꣳ हि꣣त...,गायत्री,अग्निः,भरद्वाजो बार्हस्पत्यः,त्व꣢म् । अ꣣ग्ने । यज्ञा꣡ना꣢म् । हो꣡ता꣢꣯ । वि꣡श...,https://www.xn--j2b3a4c.com/samveda/2,2025-12-06T06:34:17.971111
1,3,अ꣣ग्निं꣢ दू꣣तं꣡ वृ꣢णीमहे꣣ हो꣡ता꣢रं वि꣣श्व꣡वे꣢द...,गायत्री,अग्निः,मेधातिथिः काण्वः,अ꣣ग्नि꣢म् । दू꣣त꣢म् । वृ꣣णीमहे । हो꣡ता꣢꣯रम् । ...,https://www.xn--j2b3a4c.com/samveda/3,2025-12-06T06:34:19.818520
2,4,अ꣣ग्नि꣢र्वृ꣣त्रा꣡णि꣢ जङ्घनद्द्रविण꣣स्यु꣡र्वि꣢प...,गायत्री,अग्निः,भरद्वाजो बार्हस्पत्यः,अ꣣ग्निः꣢ । वृ꣣त्रा꣡णि꣢ । ज꣣ङ्घनत् । द्रविणस्यु...,https://www.xn--j2b3a4c.com/samveda/4,2025-12-06T06:34:21.187222
3,5,प्रे꣡ष्ठं꣢ वो꣣ अ꣡ति꣢थिꣳ स्तु꣣षे꣢ मि꣣त्र꣡मि꣢व प...,गायत्री,अग्निः,उशना काव्यः,प्रे꣡ष्ठ꣢꣯म् । वः꣣ । अ꣡ति꣢꣯थिम् । स्तु꣣षे꣢ । म...,https://www.xn--j2b3a4c.com/samveda/5,2025-12-06T06:34:23.013147
4,6,त्वं꣡ नो꣢ अग्ने꣣ म꣡हो꣢भिः पा꣣हि꣡ विश्व꣢꣯स्या꣣ ...,गायत्री,अग्निः,सुदीतिपुरुमीढावाङ्गिरसौ तयोर्वान्यतरः,त्व꣢म् । नः꣢ । अग्ने । म꣡हो꣢꣯भिः । पा꣣हि꣢ । वि...,https://www.xn--j2b3a4c.com/samveda/6,2025-12-06T06:34:24.337243


In [17]:
print("=== Rigveda columns ===")
print(rig.columns.tolist())
print("=== Yajurveda columns ===")
print(yaj.columns.tolist())
print("=== Samaveda columns ===")
print(sam.columns.tolist())

=== Rigveda columns ===
['Mandal', 'Sukta', 'Mantra Number', 'Mantra', 'Chanda', 'Devata', 'Rishi', 'Padpath', 'Transliteration', 'URL', 'ScrapedAtUTC']
=== Yajurveda columns ===
['Adhyay', 'Mantra Number', 'Mantra', 'Chanda', 'Devata', 'Rishi', 'Padpath', 'URL', 'ScrapedAtUTC']
=== Samaveda columns ===
['Mantra Number', 'Mantra', 'Chanda', 'Devata', 'Rishi', 'Padpath', 'URL', 'ScrapedAtUTC']


In [18]:
print("Rigveda row count:", len(rig))
print("Yajurveda row count:", len(yaj))
print("Samaveda row count:", len(sam))

Rigveda row count: 10200
Yajurveda row count: 1975
Samaveda row count: 1564


In [19]:
print("Rigveda row count:", len(rig))
print("Yajurveda row count:", len(yaj))
print("Samaveda row count:", len(sam))

Rigveda row count: 10200
Yajurveda row count: 1975
Samaveda row count: 1564


In [20]:
# Look at some heterometric / comma-separated Chanda labels
print("=== Example heterometric chanda labels (Rigveda) ===")
print(rig[rig["Chanda"].astype(str).str.contains(",")]["Chanda"].head(20))

print("=== Example heterometric chanda labels (Yajurveda) ===")
print(yaj[yaj["Chanda"].astype(str).str.contains(",")]["Chanda"].head(20))

print("=== Example heterometric chanda labels (Samaveda) ===")
print(sam[sam["Chanda"].astype(str).str.contains(",")]["Chanda"].head(20))

=== Example heterometric chanda labels (Rigveda) ===
Series([], Name: Chanda, dtype: object)
=== Example heterometric chanda labels (Yajurveda) ===
0                       स्वराड्बृहती, ब्राह्मी उष्णिक्,
1                             स्वराट् आर्षी त्रिष्टुप्,
7                                    निचृत् त्रिष्टुप्,
8                                         भूरिग् बृहती,
9                                         स्वराड् जगती,
10                                    भूरिग् अत्यष्टिः,
11    निचृद् उष्णिक्, भूरिग् आर्ची गायत्री, भुरिग् उ...
12                                        स्वराड् जगती,
13                        निचृद् जगती, याजुषी पङ्क्तिः,
14         स्वराड् ब्राह्मी त्रिष्टुप्, विराड् गायत्री,
15                            निचृद् ब्राह्मी पङ्क्तिः,
16                          निचृद् ब्राह्मी त्रिष्टुप्,
17                          विराड् ब्राह्मी त्रिष्टुप्,
18                             गायत्री, निचृत् पङ्क्तिः
19                           भुरिक् त्रिष्टुप्, गायत्री
21          

In [21]:
# Check presence of Padpath / Transliteration columns
print("Rigveda Padpath non-null:", rig["Padpath"].notna().mean())
print("Rigveda Transliteration non-null:", rig["Transliteration"].notna().mean())
print("Yajurveda Padpath non-null:", yaj["Padpath"].notna().mean())
print("Samaveda Padpath non-null:", sam["Padpath"].notna().mean())

Rigveda Padpath non-null: 1.0
Rigveda Transliteration non-null: 1.0
Yajurveda Padpath non-null: 1.0
Samaveda Padpath non-null: 1.0


In [22]:
# Inspect some famous mantras by ID to ensure they look right.
# Example: RV 1.1.1
rv_111 = rig[
    (rig["Mandal"] == 1) & (rig["Sukta"] == 1) & (rig["Mantra Number"] == 1)
]
print("=== RV 1.1.1 row ===")
display(rv_111)

=== RV 1.1.1 row ===


Unnamed: 0,Mandal,Sukta,Mantra Number,Mantra,Chanda,Devata,Rishi,Padpath,Transliteration,URL,ScrapedAtUTC
0,1,1,1,अ॒ग्निमी॑ळे पु॒रोहि॑तं य॒ज्ञस्य॑ दे॒वमृ॒त्विज॑...,गायत्री,अग्निः,मधुच्छन्दाः वैश्वामित्रः,अ॒ग्निम्। ई॒ळे॒। पु॒रःऽहि॑तम्। य॒ज्ञस्य॑। दे॒व...,agnim īḻe purohitaṁ yajñasya devam ṛtvijam | h...,https://www.xn--j2b3a4c.com/rigveda/1/1/1,2025-12-07T04:29:52.616221


In [23]:
# Save small debug subsets for prototyping and tests if desired
OUT_DIR = os.path.join(BASE_DIR, "data", "interim")
os.makedirs(OUT_DIR, exist_ok=True)

rig.head(50).to_csv(os.path.join(OUT_DIR, "rigveda_sample_50.csv"), index=False)
yaj.head(50).to_csv(os.path.join(OUT_DIR, "yajurveda_sample_50.csv"), index=False)
sam.head(50).to_csv(os.path.join(OUT_DIR, "samaveda_sample_50.csv"), index=False)

print("Wrote sample CSVs to", OUT_DIR)

Wrote sample CSVs to E:\After School Years\Hackathons\SIH 2025\final-mvp\vedic-chandas\data\interim
