In [9]:
import os
import banglanltk as bn
from docx import Document

def extract_lines_from_docx(file_path):
    lines = []
    if os.path.getsize(file_path) == 0:
        return None
    doc = Document(file_path)
    for paragraph in doc.paragraphs:
        # Split the paragraph text into lines
        paragraph_lines = paragraph.text.split('\n')
        # Add each line to the list of lines
        lines.extend(paragraph_lines)
    return lines

def clean_sentences(lines):
    cleaned_lines = []
    for line in lines:
        # Remove punctuation from each line
        cleaned_line = bn.clean_text(line)
        # remove empty spaces
        if(cleaned_line==""):
            continue
        cleaned_lines.append(cleaned_line)
    return cleaned_lines


poem_lines = extract_lines_from_docx('../../Dataset/Data/Raihan Sharif/song2_শাহবাগ তোমার আওয়াজ.docx')
cleaned_poem_lines = clean_sentences(poem_lines)
print(cleaned_poem_lines)

['কিলোমিটারে বার হাজার আর', 'মাইলে হাজার সাত', 'এত দূর থেকেও সাথে আছি', 'জেনো স্বপ্নের শাহবাগ', 'পাহাড়া দিচ্ছি তোমার শরীর', 'তোমার আত্মাটাও', 'শাহবাগ তুমি শত কুয়াশায়', 'এবার পথ দেখাও', 'কত শোষণ আর কত অপমান', 'মুখ বুজে সয়ে সয়ে', 'তোমায় নিয়েই রুখতে আমি', 'দাঁড়াই নির্ভয়ে', 'আশার যে দীপ জ্বেলেছো তুমি', 'নিভবে না তো আর', 'শাহবাগ তুমি প্রাণে প্রাণে আজ', 'খুলেছো নতুন দ্বার', 'ভেদাভেদ ভুলে দলাদলি ভুলে', 'আমরা হয়েছি এক', 'আমাদের নিয়ে খেলেছিলি যারা', 'তারা তাকিয়ে দ্যাখ', 'শাহবাগ তুমি জ্বলে উঠো', 'আজ নতুন চেতনায়', 'গণ বিমুখ রাজনীতি', 'আজ মরণ যন্ত্রণায়', 'শ্লোগানে শ্লোগানে মুখরিত স্বদেশ', 'মুক্তির গান গায়', 'এত দূর থেকেও শাহবাগ তোমার', 'আওয়াজ শোনা যায়']


In [10]:
rootpath = "../../Dataset/Data/"

In [11]:
authors = os.listdir(rootpath)
authors = authors[1:]
print(authors)

['Abdul Alim', 'Abdul Hai Al Hadi', 'Abdul Latif', 'Abu Hena Mostafa Kamal', 'Abu Jafor', 'Abu Owahed', 'Adnan Babu', 'Ador', 'Agun', 'Ahmed Fojol Karim', 'Ahmed Imtiaz Bulbul', 'Ahmed Jaman Chowdhury', 'Ahmed Rabbani', 'Ahmed Rizvi', 'Ahsan Fahmid Sumit', 'Ahsan Kamrul', 'Ahsan Sarwar', 'Ajijur Rahman', 'Ajoy Vattacharga', 'Akhter Feroj', 'Al Sanib Sakib', 'Aladin', 'Alauddin Ali', 'Alom Khan', 'Amitav Reza', 'Amzad Hossain', 'Ananda', 'Anik Khan', 'Animesh', 'Anjan Dutta', 'Anondo Bokshi', 'Anowar Parvez', 'Anowar Uddin Khan', 'Anupom Roy', 'Anurup Aich', 'Apel Mahmud', 'Arefin Rumey', 'Ark', 'Arnob Chowdhury', 'Ashraf Babu', 'Ashraf Hossain', 'Asif Iqbal', 'Asikuzzaman Tulu', 'Atul Prasad Sen', 'Azom Khan', 'Babna', 'Bakiul Alom', 'Bani Kumar', 'Bappi Khan', 'Barun Bishas', 'Basonti Gomez', 'Bipu Rahman', 'Borun Bishas', 'caim', 'Charu', 'Chomok Hasan', 'Choncol', 'Cirkut', 'Deholovi', 'Delowar Arjuda Shorof', 'Deowan Nazrul Islam', 'Dhijendrolal Roy', 'Dipon', 'Dr. Enamul Haque', '

In [14]:
song_db = dict()
# will carry songs in sentence lists

In [15]:
for author in authors:
    print(f"Collecting songs of {author}...")
    authorpath = rootpath+author+"/"
    for root, dirs, files in os.walk(authorpath):
        for file in files:
            if file[:4] != "song":
                continue

            filepath = authorpath + file
            song_num = file.split("_")[0]
            poem_lines = extract_lines_from_docx(filepath)

            if poem_lines == None:
                continue

            song_db[(author, song_num)] = clean_sentences(poem_lines)
            print(f"Added {song_num} to database")

Collecting songs of Abdul Alim...
Added song1 to database
Added song2 to database
Collecting songs of Abdul Hai Al Hadi...
Added song1 to database
Added song2 to database
Added song3 to database
Added song4 to database
Added song5 to database
Added song6 to database
Added song7 to database
Collecting songs of Abdul Latif...
Added song1 to database
Added song2 to database
Added song3 to database
Added song4 to database
Added song5 to database
Added song6 to database
Added song7 to database
Added song8 to database
Collecting songs of Abu Hena Mostafa Kamal...
Added song10 to database
Added song1 to database
Added song2 to database
Added song3 to database
Added song4 to database
Added song5 to database
Added song6 to database
Added song7 to database
Added song8 to database
Added song9 to database
Collecting songs of Abu Jafor...
Added song1 to database
Added song2 to database
Collecting songs of Abu Owahed...
Added song1 to database
Added song2 to database
Collecting songs of Adnan Babu..

In [16]:
count = 0
for key, val in song_db.items():
    print(f"author:{key[0]}")
    print(f"#{key[1]}: {val}")
    count += 1
    if count == 3:
        break

author:Abdul Alim
#song1: ['আর কতকাল ভাসবো আমি', 'দুঃখের সারী গাইয়া', 'জনম গেল ঘাটে ঘাটে আমার', 'জনম গেল ঘাটে ঘাটে', 'ভাঙা তরী বাইয়া রে আমার', 'ভাঙ্গা তরী বাইয়া', 'পরের বোঝা বইয়া বইয়া', 'নৌকার গলুই গেছে খইয়ারে', 'আমার নিজের বোঝা কে বলিবে রে', 'রাখবো কোথায় যাওয়ারে আমি', 'রাখবো কোথায় যাওয়া', 'এই জীবনে দেখলাম নদীর', 'কতই ভাঙা গড়া', 'আমার দেহতরী ভাঙলো শুধু', 'না জাগিলো চড়া', 'আমার ভবে কেউ কি আছে', 'দুঃখ কবো তাহার কাছে রে', 'আমি রইলাম শুধু দয়াল আল্লাহ রে', 'আমি রইলাম শুধু দয়াল আল্লাহ', 'তোমার পানে চাইয়া রে', 'আমি তোমার পানে চাইয়া']
author:Abdul Alim
#song2: ['পরের জায়গা পরের জমিন', 'ঘর বানাইয়া আমি রই', 'আমি তো এই ঘরের মালিক নই', 'সেই ঘরখানা যার জমিদারি', 'আমি পাইনা তাহার হুকুমদারী', 'আমি পাইনা জমিদারের দেখা', 'মনের দুঃখ কারে কই', 'জমিদারের ইচ্ছামত দেই না জমি চাষ', 'তাইতো ফসল ফলে না রে', 'দুঃখ বারো মাস', 'আমি খাজনাপাতি সবই দিলাম', 'তবু জমিন আমার হয় যে নীলাম', 'আমি চলি যে তার মন জোগাইয়া', 'দাখিলায় মেলে না সই', 'পরের জায়গা পরের জমিন', 'ঘর বানাইয়া আমি রই', 'আমি তো এই ঘরের মালিক নই']
author:Abdu

In [19]:
import json

polished_db = {(key[0]+"_"+key[1]): value for key, value in song_db.items()}

with open("song_db.json", 'w', encoding='utf-8') as file:
    json.dump(polished_db, file, ensure_ascii=False)

print(f"JSON data has been saved to ./song_db.json")


JSON data has been saved to ./song_db.json
