In [28]:
# !pip install readability-lxml
# !pip install lxml_html_clean
# !pip install google-genai

In [29]:
from bs4 import BeautifulSoup
import urllib.request
from urllib.error import HTTPError, URLError
import re
import requests
from readability import Document
from google import genai
import time
import json
import urllib.parse

# Save/Read songs utils



In [30]:
def save_songs_to_json(songs, filename='mkd_songs.json'):
    with open(filename, 'w', encoding='utf-8') as json_file:
        json.dump(songs, json_file, indent=4, ensure_ascii=False)

def read_json_songs_to_list(filename='mkd_songs.json'):
    with open(filename, 'r', encoding='utf-8') as json_file:
        return json.load(json_file)

# Simple web mining

In [31]:
class SongScraperSimple:
  def __init__(self, urls):
    self.urls = urls  # List of URLs to scrape
    self.songs = []

  @staticmethod
  def _clean_text(text):
    '''
    Clean/Preprocess the text by:
    - Replacing non-breaking spaces (xa0) with regular spaces.
    - Adding spaces after punctuation symbols (.,!?) if missing.
    - Preserving line breaks for strophes.
    '''
    text = text.replace('\xa0', ' ')
    text = re.sub(r'([.?!])(?=\S)', r'\1 ', text)
    lines = [line.strip() for line in text.splitlines()]
    return '\n'.join(lines)

  def _add_song(self, text):
    self.songs.append(('\n'.join(text)).strip())

  def scrape_songs_from_url(self, url):
    '''
    Scrapes a URL to extract songs, where songs are separated by <h4> tags.
    '''
    try:
      html = urllib.request.urlopen(url)
      html_parse = BeautifulSoup(html, 'html.parser')

      current_song = []
      counter = 0
      for tag in html_parse.find_all(['h4', 'h3', 'p']):
        tag_text = tag.get_text()
        if tag.name == 'h4' or tag.name == 'h3':
          if current_song:  # Save the previously found song
            self._add_song(current_song)
            counter += 1
          current_song = [tag_text]  # Start a new song (add title)
        elif tag.name == "p" and current_song and tag_text.strip():  # Add paragraph to the current song
          current_song.append(self._clean_text(tag_text))
      if current_song:
        self._add_song(current_song)
        counter += 1
      print(f'Found {counter} songs.')

    except (HTTPError, URLError) as e:
      print(f"Failed to scrape URL {url}: {str(e)}")

  def scrape_all_songs(self):
    '''
    Scrape songs from all URLs in the list.
    '''
    for idx, url in enumerate(self.urls):
      print(f'Scraping URL #{idx+1}.')
      self.scrape_songs_from_url(url)

  def get_songs(self):
    '''
    Returns the list of scraped songs.
    '''
    return self.songs

In [32]:
mkd_songs_simple_urls = [
    # Beli mugri - Koco Racin
    'https://makedonskijazik.mk/2015/03/%D0%B1%D0%B5%D0%BB%D0%B8-%D0%BC%D1%83%D0%B3%D1%80%D0%B8-%D1%86%D0%B5%D0%BB%D0%B0%D1%82%D0%B0-%D1%81%D1%82%D0%B8%D1%85%D0%BE%D0%B7%D0%B1%D0%B8%D1%80%D0%BA%D0%B0.html',
    # Pesni - Konstantin Miladinov
    'https://makedonskijazik.mk/2015/04/%D0%BF%D0%B5%D1%81%D0%BD%D0%B8-%D0%BE%D0%B4-%D0%BA%D0%BE%D0%BD%D1%81%D1%82%D0%B0%D0%BD%D1%82%D0%B8%D0%BD-%D0%BC%D0%B8%D0%BB%D0%B0%D0%B4%D0%B8%D0%BD%D0%BE%D0%B2.html',
    # Oginot - Venko Markovski
    'https://makedonskijazik.mk/2015/04/%d0%be%d0%b3%d0%b8%d0%bd%d0%be%d1%82-%d0%be%d0%b4-%d0%b2%d0%b5%d0%bd%d0%ba%d0%be-%d0%bc%d0%b0%d1%80%d0%ba%d0%be%d0%b2%d1%81%d0%ba%d0%b8.html',
    # Krvava kosulja - Rajko Zinzifov:
    'https://makedonskijazik.mk/2015/04/%d0%ba%d1%80%d0%b2%d0%b0%d0%b2%d0%b0-%d0%ba%d0%be%d1%88%d1%83%d1%99%d0%b0-%d0%be%d0%b4-%d1%80%d0%b0%d1%98%d0%ba%d0%be-%d0%b6%d0%b8%d0%bd%d0%b7%d0%b8%d1%84%d0%be%d0%b2.html',
    ]

In [33]:
simple_song_scraper = SongScraperSimple(mkd_songs_simple_urls)
simple_song_scraper.scrape_all_songs()
songs = simple_song_scraper.get_songs()
print(f'Total {len(songs)} found.')

Scraping URL #1.
Found 12 songs.
Scraping URL #2.
Found 15 songs.
Scraping URL #3.
Found 1 songs.
Scraping URL #4.
Found 1 songs.
Total 29 found.


In [34]:
print(songs[0])

Денови
Како на вратот ѓердани
ниски камења студени,
така на плешки денови
легнале та натежнале
Денови ли се — денови
аргатски маки големи!
Стани си утре порано
дојди си вечер подоцна,
наутро радост понеси
навечер тага донеси —
ај пуст да е, пуст да би
останал живот кучешки!
Роди се човек — роб биди
роди се човек — скот умри
скотски цел живот работи
за други, туѓи имоти.
За туѓи бели дворови,
копај си црни гробови!
За себе само ’ргај си
за себе маки тргај си —
нижи си ѓердан денови
нижи си алки ковани,
нижи си синџир железен
околу вратот навезен!


In [35]:
# for song in songs:
#   print(song)
#   print(50*'-')

In [36]:
save_songs_to_json(songs, 'mkd_songs_1.json')

In [37]:
len(read_json_songs_to_list('mkd_songs_1.json'))

29

Code works. But this class is very specific: we need the title to be in a \<h4> tag, and the strophes to follow it in \<p> tags. Let's try to use an LLM to help us with the processing.

# Web mining + LLM post processing

TODO: Try another model from the list bellow.

(Free) Models with large context window:
- 4k context:
  - https://artificialanalysis.ai/models/llama-2-chat-13b
  - https://artificialanalysis.ai/models/arctic-instruct
  - https://artificialanalysis.ai/models/phi-3-mini
- 1m context:
  - https://artificialanalysis.ai/models/gemini-2-0-flash-experimental/providers
- 2m context:
  - https://artificialanalysis.ai/models/gemini-experimental-dec-2024

In [38]:
class SongExtractorLLM:
  def __init__(self, urls, model_id='gemini-2.0-flash-exp'):
    self.urls = urls
    self.client = genai.Client(api_key="AIzaSyA_aWKW9XMafspt_vZHeuTwbIg0waOY1wk")
    self.model_id = model_id
    self.songs_list = []

  def _scrape_text_from_url(self, url):
    try:
      session = requests.Session()
      session.max_redirects = 10

      response = session.get(url)
      response.raise_for_status()  # raise an exception for non-2xx status codes

      if response.status_code == 200:  # the request was successful
        doc = Document(response.content)
        title = doc.title()
        summary = doc.summary()

        # Use BeautifulSoup to parse the summary HTML and extract text
        soup = BeautifulSoup(summary, 'html.parser')
        text = soup.get_text(separator=' ', strip=True)

        return f"{title}\n{text}"
      else:
        print(f"\nFailed to fetch webpage. Status code: {response.status_code} for URL: {url}")
        return None

    except requests.RequestException as e:
      print(f"\nAn error occurred: {e}")
      return None

  def _call_llm_to_extract_songs(self, text):
    first_prompt = 'If there are songs in the following text in Macedonian, return me the song titles. If there are no songs, return an empty string:\n\n'
    song_titles = self.client.models.generate_content(model=self.model_id, contents=first_prompt+text).text.strip().split('\n')
    if not song_titles:
      return None
    print(f'Found {len(song_titles)} songs.')
    print('Extracting songs:')
    for idx, song_title in enumerate(song_titles):
      print(f'{idx+1}. {song_title}')
      time.sleep(1.5)
      second_prompt = f'If the song {song_title}, exists in {text} return me the whole song. If it does not, return an empty string:\n\n'
      song_content = self.client.models.generate_content(model='gemini-2.0-flash-exp', contents=second_prompt).text.strip()
      if song_content:
        self.songs_list.append(song_content)

  def _extract_songs_from_url(self, url):
    '''
    Extracts songs from the URL by scraping the text and calling the LLM.
    '''
    html_text = self._scrape_text_from_url(url)
    print('Scraping and parsing HTML done.')
    if html_text:
      self._call_llm_to_extract_songs(html_text)


  def extract_songs_from_all_urls(self):
    sleep_interval = 10
    total_urls = len(self.urls)
    for idx, url in enumerate(self.urls):
      print(50*'-')
      print(f"Processing URL #{idx+1}...")
      self._extract_songs_from_url(url)
      if idx <= total_urls - 2:
        print(f'Sleeping for {sleep_interval} seconds...')
        time.sleep(sleep_interval)
        print('Continuing.')

  def get_songs(self):
    '''
    Returns the list of scraped songs.
    '''
    return self.songs_list

In [39]:
mkd_songs_complex_urls = [
    # Izbor pesni - Kole Nedelkovski
     'https://makedonskijazik.mk/2011/03/%d0%b8%d0%b7%d0%b1%d0%be%d1%80-%d0%bf%d0%b5%d1%81%d0%bd%d0%b8-%d0%be%d0%b4-%d0%ba%d0%be%d0%bb%d0%b5-%d0%bd%d0%b5%d0%b4%d0%b5%d0%bb%d0%ba%d0%be%d0%b2%d1%81%d0%ba%d0%b8.html',
    # Makedonski narodni pesni
    'https://makedonskijazik.mk/2009/10/%d0%bc%d0%b0%d0%ba%d0%b5%d0%b4%d0%be%d0%bd%d1%81%d0%ba%d0%b8-%d0%bd%d0%b0%d1%80%d0%be%d0%b4%d0%bd%d0%b8-%d0%bf%d0%b5%d1%81%d0%bd%d0%b8.html'
    ]

In [40]:
llm_song_extractor = SongExtractorLLM(mkd_songs_complex_urls)
llm_song_extractor.extract_songs_from_all_urls()
songs = llm_song_extractor.get_songs()
print(f'Found {len(songs)} songs.')

--------------------------------------------------
Processing URL #1...
Scraping and parsing HTML done.
Found 6 songs.
Extracting songs:
1. Стојан на Ордановци
2. Раткина неволја
3. На кинисување
4. Скитник
5. Причинуење
6. Пеш по светот
Sleeping for 10 seconds...
Continuing.
--------------------------------------------------
Processing URL #2...
Scraping and parsing HTML done.
Found 10 songs.
Extracting songs:
1. Нели ти стига
2. Ајде дали знаеш паметиш Милице
3. На Струга дуќан да имам
4. Распукала Шар Планина
5. Зајко младоженец
6. Учи ме мајко, карај ме
7. Марко Крале ја одменува свадбарината
8. Болен Дојчин
9. Болен ми лежи Миле Поп Орданов
10. Слушам кај шумат шумите
Found 16 songs.


In [41]:
# for song in songs:
#   print(50*"-")
#   print(song)

In [42]:
save_songs_to_json(songs, 'mkd_songs_2.json')

In [43]:
len(read_json_songs_to_list('mkd_songs_2.json'))

16

# Wiki Web mining

In [44]:
main_url = "https://mk.wikisource.org/wiki/%D0%9C%D0%B0%D0%BA%D0%B5%D0%B4%D0%BE%D0%BD%D1%81%D0%BA%D0%B8_%D0%BD%D0%B0%D1%80%D0%BE%D0%B4%D0%BD%D0%B8_%D0%BF%D0%B5%D1%81%D0%BD%D0%B8"

response = requests.get(main_url)
soup = BeautifulSoup(response.content, 'html.parser')

song_links = soup.find_all('a', href=True)
song_urls = [link['href'] for link in song_links if '/wiki/' in link['href']]

song_urls = [song_url for song_url in song_urls if song_url.startswith('/wiki/')]
song_urls = song_urls[27:-4]


In [45]:
song_urls_decoded = [urllib.parse.unquote(url) for url in song_urls]
song_urls_decoded

['/wiki/Абер_дојде_Донке',
 '/wiki/Абер_иде_од_Могила',
 '/wiki/Ај_да_бегаме_мори_Васе',
 '/wiki/Ај_засвирете_ми_чалгии',
 '/wiki/Ај_што_ми_е_мило_ем_драго',
 '/wiki/Ај!_В_Македонија_глас_се_чует',
 '/wiki/Ајде_дали_знаеш_паметиш_Милице',
 '/wiki/Ајде_жалај_ме,_Малино',
 '/wiki/Ајде_Милке_да_бегаме',
 '/wiki/Ајде_мори_Стојно_ле,_мој_соколе',
 '/wiki/Ајде_поминувам_заминувам',
 '/wiki/Ајде_слушај,_слушај,_Калеш_бре_Анѓо',
 '/wiki/Ајде_ќе_те_прашам_бре_Донке',
 '/wiki/Ајде_шана_мана_на_кантарот',
 '/wiki/Ајде_што_пијана_шеташ_Фиме',
 '/wiki/Ајде_што_ти_текна',
 '/wiki/Ајде,_брала_мома_бело_ми_грозје,_ем_црно',
 '/wiki/Ајде,_ред_се_редат,_мале',
 '/wiki/Ако_пијам_рујно_вино',
 '/wiki/Ако_умрам_ил_загинам',
 '/wiki/Ангелино_моме',
 '/wiki/Антице_жална_душице',
 '/wiki/Ах_љубов,_пак_љубов',
 '/wiki/Бело_лице_љубам_јас',
 '/wiki/Билбил_пее_во_планина',
 '/wiki/Билјана_платно_белеше',
 '/wiki/Битола,_мој_роден_крај',
 '/wiki/Бог_да_бие_мојта_мајка',
 '/wiki/Бог_да_бие_Русе_твојта_мајка',
 '/w

In [46]:
songs = []
base_url = "https://mk.wikisource.org"

for song_url in song_urls:
  full_url = base_url + song_url
  response = requests.get(full_url)
  soup = BeautifulSoup(response.content, 'html.parser')

  song_div = soup.find('div', {'class': 'mw-content-ltr mw-parser-output'})

  # <dl> and <dd> tags
  if song_div:
    song_lyrics = []
    title = urllib.parse.unquote(song_url[6:].replace('_', ' '))

    for dl in song_div.find_all('dl'):
      for dd in dl.find_all('dd'):
        song_lyrics.append(dd.get_text())

    if song_lyrics:
      song_title_lyrics = title + '\n' + '\n'.join(song_lyrics)
      songs.append(song_title_lyrics)
      print(title)

Абер дојде Донке
Абер иде од Могила
Ај да бегаме мори Васе
Ај засвирете ми чалгии
Ај што ми е мило ем драго
Ај! В Македонија глас се чует
Ајде дали знаеш паметиш Милице
Ајде жалај ме, Малино
Ајде Милке да бегаме
Ајде мори Стојно ле, мој соколе
Ајде поминувам заминувам
Ајде слушај, слушај, Калеш бре Анѓо
Ајде ќе те прашам бре Донке
Ајде шана мана на кантарот
Ајде што пијана шеташ Фиме
Ајде што ти текна
Ајде, ред се редат, мале
Ако пијам рујно вино
Ако умрам ил загинам
Ангелино моме
Антице жална душице
Ах љубов, пак љубов
Бело лице љубам јас
Билбил пее во планина
Билјана платно белеше
Битола, мој роден крај
Бог да бие мојта мајка
Бог да бие Русе твојта мајка
Бог да го убие мамо
Болен лежи катил Ѓорѓи
Болен лежи Миле Поп Јорданов
Болен лежи млад Стојан
Бор садила мома Евгенија
Брала мома капини
Буките развиват
Великина
Виена лоза виена
Вино пијам, ем ракија
Во влашкото маало жолти куќи високи
Врана коња јавам јас
Гледај ме, гледај либе
Го фатиле клети Турци едно моме
Градел Илија манастир

In [47]:
len(songs)

253

In [48]:
save_songs_to_json(songs, 'mkd_songs_3.json')

In [49]:
len(read_json_songs_to_list('mkd_songs_3.json'))

253

In [50]:
songs[-1]

'Што се срамиш калеш Кирчо\nШто се срамиш калеш Кирчо\nМене да погледаш\nМене да погледаш лудо\nВо црниве очи.\nНе се срамам лично моме\nТебе да погледам\nТук се плашам лично Севде\nТебе да заљубам.\nКој те тебе лично моме\nСал еднаш догледнал\nЉута рана лично Севде\nНа срце си ставил.\nЗемј мене калеш Кирчо\nЗа млада невеста\nДа не ставаш љута рана\nНа твоето срце.'