# Arabic

In [8]:
import re
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.util import ngrams

# Arabic stopwords from nltk
stop_words = set(stopwords.words('arabic'))

def extract_keywords_with_counts(text, ngram_range=1):
    # Normalize Arabic text (optional: can add stemming/lemmatization here)
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
    words = word_tokenize(text)
    
    # Remove stopwords and non-Arabic tokens
    filtered_words = [word for word in words if word not in stop_words and re.match(r'^[\u0600-\u06FF]+$', word)]
    
    # Generate n-grams if ngram_range > 1
    if ngram_range == 1:
        ngram_words = [' '.join(ng) for ng in ngrams(filtered_words, ngram_range)]
        keywords = Counter(ngram_words).most_common(20)  # Top 10 ngrams
    else:
        keywords = Counter(filtered_words).most_common(20)  # Top 10 words
    
    # Format output: keyword and count
    return [(keyword, count) for keyword, count in keywords]

# Example usage
arabic_text = """
Unfold: محرر الفيديو والصو‪ر‬
قوالب صور وفيديو Insta
AI لتعديل الفيديو ب Videoleap
محرر مقاطع فيديو بالفلات‪ر‬
محرّر الفيديو VideoShow
اصنع فيديو بالموسيقى والصو‪ر‬
InStories: قصص للإنستغرا‪م‬
قوالب ملصقة للفيدي‪و‬
CutStory － محرّر الفيدي‪و‬
موسيقى انستقرام صانع الفيدي‪و‬
Video Up! برنامج تصميم فيدي‪و‬
تصميم فيديو & زخرفة النصو‪ص‬
قوالب ل تصميم الفيدي‪و‬
قوالب فيديو لبكرة IG الخاصة ب‪ك‬
AI لتعديل الفيديوانستا قص‪ة‬
محرر الفيديو و القوالب :Muse
قوالب فيديو للبكرات و القص‪ص‬
"""
keywords_with_counts = extract_keywords_with_counts(arabic_text, ngram_range=2)

# Print output in a clean format
for keyword, count in keywords_with_counts:
    print(f"{keyword}: {count}")


الفيديو: 7
فيديو: 6
محرر: 5
قوالب: 5
تصميم: 3
والصور: 2
لتعديل: 2
صور: 1
وفيديو: 1
مقاطع: 1
بالفلاتر: 1
اصنع: 1
بالموسيقى: 1
قصص: 1
للإنستغرام: 1
ملصقة: 1
للفيديو: 1
موسيقى: 1
انستقرام: 1
صانع: 1


# English

In [25]:
import re
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.util import ngrams

# English stopwords from nltk
stop_words = set(stopwords.words('english'))

def extract_keywords_with_counts(text, ngram_range=1):
    # Normalize English text
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
    words = word_tokenize(text.lower())  # Tokenize and convert to lowercase
    
    # Remove stopwords and non-alphabetic tokens
    filtered_words = [word for word in words if word not in stop_words and word.isalpha()]
    
    # Generate n-grams if ngram_range > 1
    if ngram_range == 2:
        ngram_words = [' '.join(ng) for ng in ngrams(filtered_words, ngram_range)]
        keywords = Counter(ngram_words).most_common(20)  # Top 10 ngrams
    else:
        keywords = Counter(filtered_words).most_common(20)  # Top 10 words
    
    # Format output: keyword and count
    return [(keyword, count) for keyword, count in keywords]

# Example usage
english_text = """
InShot - Video Editor
Splice - Video Editor & Maker
Editing movie and music videos
Unfold: Video & Photo Editor
InStories Reels & Story Maker
unavailable
Storybeat: Reels & Story Maker
Templates, Filters, Music
Vids AI - Reels Video Editor
Trending Filters & Effects
VEED - Captions for videos
Auto subtitles & translation
Video Editor : Video Maker
video crop & edit video
VITA - Video Editor & Maker
Reelsapp: reel & video editor
Reelsy Reel Maker IG Templates
Storyluxe: Templates & Filters
Vixer: Captions & Video Editor
Reels Templates & Maker
ReelTrends Templates & Sounds
Muse: Video Reels & Stories IG
Music Video Maker - inMelo
SlideShow Maker Photo Video ‪·‬
Reels Templates Maker - Temply
Reel Maker
Template Planner for Instagram
Recap: Reels Editor Templates
Shox: Reel Maker, Video Editor
Reel Maker & Templates ・ Flix
Reel Creator. Video Editor‪.‬
Reel Maker & Templates
Reel & Story Maker - ReelsAI
Reel Maker - Templates for IG
Reels Templates & Reel Maker
Reel Maker: Video Templates
Reel Maker - Insta Story Maker
"""
keywords_with_counts = extract_keywords_with_counts(english_text, ngram_range=2)

# Print output in a clean format
for keyword, count in keywords_with_counts:
    print(f"{keyword}: {count}")


video editor: 9
reel maker: 9
story maker: 4
maker templates: 4
maker video: 3
reels templates: 3
templates reel: 3
editor maker: 2
reels story: 2
templates filters: 2
video maker: 2
templates maker: 2
video reels: 2
editor reel: 2
inshot video: 1
editor splice: 1
splice video: 1
maker editing: 1
editing movie: 1
movie music: 1


# French

In [12]:
import re
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.util import ngrams

# French stopwords from nltk
stop_words = set(stopwords.words('french'))

def extract_keywords_with_counts(text, ngram_range=1):
    # Normalize French text
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
    words = word_tokenize(text.lower())  # Tokenize and convert to lowercase
    
    # Remove stopwords and non-alphabetic tokens
    filtered_words = [word for word in words if word not in stop_words and word.isalpha()]
    
    # Generate n-grams if ngram_range > 1
    if ngram_range == 1:
        ngram_words = [' '.join(ng) for ng in ngrams(filtered_words, ngram_range)]
        keywords = Counter(ngram_words).most_common(20)  # Top 20 ngrams
    else:
        keywords = Counter(filtered_words).most_common(20)  # Top 20 words
    
    # Format output: keyword and count
    return [(keyword, count) for keyword, count in keywords]

# Example usage
french_text = """
Éditeur de vidéo en musique
Éditeur Vidéo avec AI Captions
Unfold : éditeur vidéo/photo
Modèles photos et vidéos Insta
Videoleap: Éditeur Vidéo IA
Logiciel de Montage Vidéo
VideoShow - Éditeur de vidéo
Créez vidéos avec musique
Histoires Animées Avec Musique
Teleprompteur・Auto Sous Titre
CapCut - Éditeur vidéo & photo
Montage video avec musique
Video Up! Montage Vidéo・Photo
Editeur musique・Collage Vidéos
Reel・Vidéo pour Instagram・BEAT
Montage Photo avec Musique
Vids - Editeur Reels & Stories
Modèles Vidéos et Slideshows
Sous-titres et traduction
Storyluxe: Modèles et Collage
Modèles et Filtres de Story
Éditeur de Vidéos - Vixer
Reel, Diaporama, Musique
Modèles pour vidéos Insta
Muse: Montage Reels pour Insta
Editeur Story pour Instagram
Montage video avec des modèles
Temply — Créateur de vidéos
Modèles IA, musique
Reel Modèles Maker - Recap
Reels pour Vidéo Instagram
Éditeur de Stories Insta
Éditeur vidéo et photo
"""

# Extract keywords with counts for bigrams (2-grams)
keywords_with_counts = extract_keywords_with_counts(french_text, ngram_range=1)

# Print output in a clean format
for keyword, count in keywords_with_counts:
    print(f"{keyword}: {count}")


éditeur: 9
vidéo: 8
modèles: 8
musique: 7
vidéos: 7
montage: 6
insta: 4
photo: 3
video: 3
editeur: 3
reels: 3
vidéophoto: 2
ia: 2
stories: 2
story: 2
reel: 2
instagram: 2
captions: 1
unfold: 1
photos: 1


# Vietnamese

In [4]:
import re
from collections import Counter
from pyvi import ViTokenizer

def generate_stopwords(text, top_n=30):
    """
    Generate a list of candidate stopwords based on token frequency.
    :param text: Input Vietnamese text
    :param top_n: Number of most common words to consider as stopwords
    :return: Set of stopwords
    """
    # Tokenize the text
    tokens = ViTokenizer.tokenize(text).split()
    
    # Count token frequencies
    token_counts = Counter(tokens)
    
    # Get the top_n most common words
    most_common = token_counts.most_common(top_n)
    
    # Extract just the words (not counts) to create stopwords
    stopwords = {word for word, count in most_common}
    
    return stopwords

def extract_ngrams(text, stopwords=None, ngram_range=1, top_n=20):
    """
    Extract n-grams from text and return the most common ones.
    :param text: Input Vietnamese text
    :param stopwords: Set of stopwords to exclude
    :param ngram_range: The size of n-grams (1 for unigrams, 2 for bigrams, etc.)
    :param top_n: Number of most common n-grams to return
    :return: List of n-grams with their counts
    """
    # Normalize text by removing special characters
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
    tokens = ViTokenizer.tokenize(text).split()  # Tokenize the text
    
    # Remove stopwords if provided
    if stopwords:
        tokens = [word for word in tokens if word not in stopwords]
    
    # Generate n-grams
    ngrams = [' '.join(tokens[i:i+ngram_range]) for i in range(len(tokens) - ngram_range + 1)]
    
    # Count n-gram frequencies
    ngram_counts = Counter(ngrams)
    
    # Return the top_n most common n-grams
    return ngram_counts.most_common(top_n)

# Example Vietnamese text
vietnamese_text = """
InShot - chỉnh sửa video
ghép nhạc vào video
Mojo: Phụ đề & Reels
Trình chỉnh sửa video
VideoShow trình biên tập video
Tạo video với ảnh và âm nhạc
CapCut - Chỉnh sửa video
Ghép nhạc vào video
Video Up! Chỉnh sửa video
biên tập ghép ảnh và nhạc
làm video từ ảnh và nhạc・BEAT
inMelo - Trình chỉnh sửa video
làm video từ ảnh và nhạc
Reel Maker: Tạo Reel Video Hay
Tạo reel với nhiều templates
"""

# Generate stopwords
stopwords = generate_stopwords(vietnamese_text, top_n=30)
print("Generated Stopwords:")
print(stopwords)

# Extract unigrams
unigrams = extract_ngrams(vietnamese_text, stopwords=stopwords, ngram_range=1, top_n=20)
print("\nTop Unigrams:")
for word, count in unigrams:
    print(f"{word}: {count}")

# Extract bigrams
bigrams = extract_ngrams(vietnamese_text, stopwords=stopwords, ngram_range=2, top_n=20)
print("\nTop Bigrams:")
for word, count in bigrams:
    print(f"{word}: {count}")

# Extract trigrams
trigrams = extract_ngrams(vietnamese_text, stopwords=stopwords, ngram_range=3, top_n=20)
print("\nTop Trigrams:")
for word, count in trigrams:
    print(f"{word}: {count}")


Generated Stopwords:
{'Up', 'video', 'trình', '・', 'từ', 'vào', 'Chỉnh_sửa', 'làm', 'InShot', 'Trình', 'Phụ_đề', 'biên_tập', 'chỉnh_sửa', 'nhạc', '!', 'Tạo', 'ảnh', '-', 'và', ':', 'VideoShow', 'ghép', 'với', 'Video', 'Ghép', 'Reels', 'CapCut', 'âm_nhạc', '&', 'Mojo'}

Top Unigrams:
nhạcBEAT: 1
inMelo: 1
Reel: 1
Maker: 1
Reel_Video: 1
Hay: 1
reel: 1
nhiều: 1
templates: 1

Top Bigrams:
nhạcBEAT inMelo: 1
inMelo Reel: 1
Reel Maker: 1
Maker Reel_Video: 1
Reel_Video Hay: 1
Hay reel: 1
reel nhiều: 1
nhiều templates: 1

Top Trigrams:
nhạcBEAT inMelo Reel: 1
inMelo Reel Maker: 1
Reel Maker Reel_Video: 1
Maker Reel_Video Hay: 1
Reel_Video Hay reel: 1
Hay reel nhiều: 1
reel nhiều templates: 1


# German

In [8]:
import re
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.util import ngrams

# French stopwords from nltk
stop_words = set(stopwords.words('german'))

def extract_keywords_with_counts(text, ngram_range=1):
    # Normalize French text
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
    words = word_tokenize(text.lower())  # Tokenize and convert to lowercase
    
    # Remove stopwords and non-alphabetic tokens
    filtered_words = [word for word in words if word not in stop_words and word.isalpha()]
    
    # Generate n-grams if ngram_range > 1
    if ngram_range == 2:
        ngram_words = [' '.join(ng) for ng in ngrams(filtered_words, ngram_range)]
        keywords = Counter(ngram_words).most_common(20)  # Top 20 ngrams
    else:
        keywords = Counter(filtered_words).most_common(20)  # Top 20 words
    
    # Format output: keyword and count
    return [(keyword, count) for keyword, count in keywords]

# Example usage
german_text = """
Mojo: Untertitel & Reels
Unfold: Video- und Foto-Editor
Videoleap KI-Video Erstellen
Videos Bearbeiten & Schneiden
VideoShow- Video Bearbeiten
Videos mit Musik erstellen
Video bearbeiten & schneiden
Video Up! Videos Bearbeiten
Reels erstellen mit Musik
Reels Maker für Instagram・BEAT
Video Vorlagen mit Musik・Clip
Untertitel & Übersetzen
Storyluxe: Vorlagen & Collagen
Story-Vorlagen und Filter
Vixer — Videos Bearbeiten
Rolle, Diashow, Musik, Foto
Reels Templates & Erstellen
Vorlagen für Instagram-Videos
Muse:Reels Maker für Instagram
inMelo - Video Bearbeiten
KI-Vorlagen, Musik, Untertitel
Templify・Reels&Story Erstellen
Vorlagen für Video und Foto
Machen Sie Ihre Rolle mit 2s
"""

# Extract keywords with counts for bigrams (2-grams)
keywords_with_counts = extract_keywords_with_counts(german_text, ngram_range=2)

# Print output in a clean format
for keyword, count in keywords_with_counts:
    print(f"{keyword}: {count}")


videos bearbeiten: 3
video bearbeiten: 3
bearbeiten schneiden: 2
erstellen vorlagen: 2
mojo untertitel: 1
untertitel reels: 1
reels unfold: 1
unfold video: 1
video fotoeditor: 1
fotoeditor videoleap: 1
videoleap kivideo: 1
kivideo erstellen: 1
erstellen videos: 1
schneiden videoshow: 1
videoshow video: 1
bearbeiten videos: 1
videos musik: 1
musik erstellen: 1
erstellen video: 1
schneiden video: 1


# Portugese

In [13]:
import re
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.util import ngrams

# French stopwords from nltk
stop_words = set(stopwords.words('portuguese'))

def extract_keywords_with_counts(text, ngram_range=1):
    # Normalize French text
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
    words = word_tokenize(text.lower())  # Tokenize and convert to lowercase
    
    # Remove stopwords and non-alphabetic tokens
    filtered_words = [word for word in words if word not in stop_words and word.isalpha()]
    
    # Generate n-grams if ngram_range > 1
    if ngram_range == 2:
        ngram_words = [' '.join(ng) for ng in ngrams(filtered_words, ngram_range)]
        keywords = Counter(ngram_words).most_common(20)  # Top 20 ngrams
    else:
        keywords = Counter(filtered_words).most_common(20)  # Top 20 words
    
    # Format output: keyword and count
    return [(keyword, count) for keyword, count in keywords]

# Example usage
portugese_text = """
InShot Editor de Vídeo Música
Efeito,Adesivos,Slideshow,Meme
Mojo: Legendas & Reels
Editor Vídeo com IA Captions
Unfold: editor de vídeo/foto
Insta foto e template de vídeo
Videoleap - IA Editor de Vídeo
Montagem e edição de vídeos
VideoShow - Editor de Vídeo
Faça vídeos com fotos e música
InStories: Desenho De IG Vídeo
Modelos de Histórias Animadas
CutStory : Editor de Vídeo
Crie Story e Reels com Musica
Lift: Cria IG Reels e Stories
Modelos de Vídeo e Fotos
Editar vídeo com música
Edição de Vídeos com Música
Modelos, Filtros, Música
Reels para Instagram Trends
Cria Video com Musica, Editor
Vids AI - Cria Reels e Stories
Legendas e tradução de vídeos
VITA-Editor e Criador de Vídeo
Edite como um pro
Storyluxe: Templates e Colagem
Modelos e filtros de story
Editor de Vídeo - Vixer
Reels, Apresentação, Música
Modelos do Instagram
Muse:Cria Reels para Instagram
Modelos AI de Video e Stories
Temply — Criador de vídeos
Cria Reels para Instagram
Modelos de Postagem e História
Unreels: Editor de Reels vídeo
Modelos para vídeo com música
Templify: Cria Reels e Stories
Modelos: Editar Vídeo e Fotos
Reel Maker: Crieum Vídeo Legal
Crieum vídeo legal com modelos
Mojo: Legendas & Reels
Editor Vídeo com IA Captions
Unfold: editor de vídeo/foto
Insta foto e template de vídeo
Montagem e edição de vídeos
VideoShow - Editor de Vídeo
Criar clipe com video, meme
CutStory Criar Video e Stories
Juntar, editar & fazer videos
Lift: Editor de Histórias
Modelos para Stories & Reels
Editar vídeo com música
Video Up! Criar e fazer videos
Editar com fotos musica texto
Modelos, Filtros, Música
Reels Video para Instagram
Editor・Modelos com Musica・BEAT
Vids AI - Cria Reels e Stories
Modelos de Vídeo e Fotos
Legendas e Tradutor por IA
VITA-Editor e Criador de Vídeo
Edite como um pro
Storyluxe: Modelos e Colagem
Modelos e filtros de histórias
Editor de Vídeo - Vixer
Reels, Apresentação, Música
Modelos do Instagram
Story & Video para Instagram
Editar video com efeitos
Temply — Criador de vídeos
Cria Reels para Instagram
Modelos de Postagem e História
Unreels: Editor de Reels vídeo
Modelos para vídeo com música
Templify: Cria Reels e Stories
Modelos: Editar Vídeo e Fotos
Reel Maker: Crieum Vídeo Legal
Crieum vídeo legal com modelos
"""

# Extract keywords with counts for bigrams (2-grams)
keywords_with_counts = extract_keywords_with_counts(portugese_text, ngram_range=2)

# Print output in a clean format
for keyword, count in keywords_with_counts:
    print(f"{keyword}: {count}")


editor vídeo: 9
cria reels: 6
vídeo música: 5
reels stories: 5
stories modelos: 4
modelos vídeo: 4
vídeo fotos: 4
editar vídeo: 4
modelos filtros: 4
reels instagram: 4
crieum vídeo: 4
vídeo legal: 4
edição vídeos: 3
vídeo modelos: 3
música modelos: 3
instagram modelos: 3
mojo legendas: 2
legendas reels: 2
reels editor: 2
vídeo ia: 2


# Russian

In [17]:
import re
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.util import ngrams

# French stopwords from nltk
stop_words = set(stopwords.words('russian'))

def extract_keywords_with_counts(text, ngram_range=1):
    # Normalize French text
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
    words = word_tokenize(text.lower())  # Tokenize and convert to lowercase
    
    # Remove stopwords and non-alphabetic tokens
    filtered_words = [word for word in words if word not in stop_words and word.isalpha()]
    
    # Generate n-grams if ngram_range > 1
    if ngram_range == 2:
        ngram_words = [' '.join(ng) for ng in ngrams(filtered_words, ngram_range)]
        keywords = Counter(ngram_words).most_common(20)  # Top 20 ngrams
    else:
        keywords = Counter(filtered_words).most_common(20)  # Top 20 words
    
    # Format output: keyword and count
    return [(keyword, count) for keyword, count in keywords]

# Example usage
russian_text = """
InShot - Видео редактор и фот‪о‬
Видеоредактор с музыко‪й‬
Mojo: Субтитры & Reels
Видеоредактор с AI субтитрам‪и‬
Unfold — редактор фото и виде‪о‬
Фото- и видеошаблоны для Insta
Обработка, Эффекты, Ускорени‪е‬
Создние видеоблога с музыко‪й‬
CutStory－Редактор Видео・Стори‪с‬
Шаблоны ・ Субтитры ・Стикер‪ы‬
Шаблоны, Фильтры, Музык‪а‬
Рилс・Видео Клипы из Фото・BEAT
Рилсы с Музыкой, Видеоредакто‪р‬
Видеоредактор для соц сете‪й‬
Субтитры и переводы к виде‪о‬
ReelsApp видео - тренд‪ы‬
Видео редактор с музыко‪й‬
Шаблоны историй и фильтр‪ы‬
Vixer - монтаж виде‪о‬
Ролик, Слайд-шоу, музык‪а‬
Шаблоны рилс для Инстагра‪м‬
Редактор Сториc с Музыко‪й‬
InMelo - Видеоредактор с бит‪ь‬
Создание Рилс Клипов с Музыко‪й‬
слайд-шоу с музыкой видео фот‪о‬
Temply — Cоздание виде‪о‬
ИИ-шаблоны, музыка, субтитр‪ы‬
Шаблоны Insta видео с музыко‪й‬
Шаблоны для Рилс.Видеоредакто‪р‬
Reel Maker: видеошаблон‪ы‬
сделайте свой ролик виде‪о‬
"""

# Extract keywords with counts for bigrams (2-grams)
keywords_with_counts = extract_keywords_with_counts(russian_text, ngram_range=2)

# Print output in a clean format
for keyword, count in keywords_with_counts:
    print(f"{keyword}: {count}")


видео редактор: 2
редактор фото: 2
видео фото: 2
музыкой шаблоны: 2
inshot видео: 1
фото видеоредактор: 1
видеоредактор музыкой: 1
музыкой mojo: 1
mojo субтитры: 1
субтитры reels: 1
reels видеоредактор: 1
видеоредактор ai: 1
ai субтитрами: 1
субтитрами unfold: 1
unfold редактор: 1
фото видео: 1
фото видеошаблоны: 1
видеошаблоны insta: 1
insta обработка: 1
обработка эффекты: 1


# Ukrainian

In [21]:
from stopwordsiso import stopwords

# Get Ukrainian stopwords
ukrainian_stopwords = stopwords("uk")

print(ukrainian_stopwords)


{'всіх', 'до', 'вздовж', 'який', 'й', 'та', 'також', 'вони', 'вас', 'ми', 'від', 'він', 'нам', 'адже', 'майже', 'якої', 'коли', 'давай', 'був', 'внизу', 'весь', 'чого', 'її', 'із', 'тож', 'так', 'отож', 'під', 'було', 'з', 'замість', 'це', 'цей', 'навіть', 'без', 'отже', 'їх', 'як', 'от', 'завжди', 'вниз', 'все', 'тощо', 'інших', 'тобто', 'давати', 'ти', 'була', 'да', 'більш', 'те', 'поза', 'були', 'хоча', 'дещо', 'бути', 'воно', 'де', 'про', 'чи', 'навколо', 'але', 'є', 'такий', 'для', 'вам', 'що', 'всередині', 'вона', 'ледве', 'б', 'авжеж', 'ви'}


In [23]:
import re
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.util import ngrams

# French stopwords from nltk
stop_words = ukrainian_stopwords

def extract_keywords_with_counts(text, ngram_range=1):
    # Normalize French text
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
    words = word_tokenize(text.lower())  # Tokenize and convert to lowercase
    
    # Remove stopwords and non-alphabetic tokens
    filtered_words = [word for word in words if word not in stop_words and word.isalpha()]
    
    # Generate n-grams if ngram_range > 1
    if ngram_range == 1:
        ngram_words = [' '.join(ng) for ng in ngrams(filtered_words, ngram_range)]
        keywords = Counter(ngram_words).most_common(20)  # Top 20 ngrams
    else:
        keywords = Counter(filtered_words).most_common(20)  # Top 20 words
    
    # Format output: keyword and count
    return [(keyword, count) for keyword, count in keywords]

# Example usage
ukrainian_text = """
Відеоредактор + AI Captions
Videoleap - Відеомонтаж AI
Монтування відео, ефекти, Ш‪І‬
VideoShow - редактор віде‪о‬
Vlog Maker з музикою, фот‪о‬
Lift: Редактор Сторіс & Ріл‪с‬
Фото та Відео Редакто‪р‬
Відео Сторіс з Фото, Шаблон‪и‬
Unreels: Редактор Рілз віде‪о‬
Шаблони, ефекти для Інстагра‪м‬
Відеомонтаж і Музык‪а‬ бо Ріл‪с‬
AI Інстагра‪м‬ Рілз і Reelsapp
Templify・Рілс і Шаблони Сторі‪с‬
Редактор Фото та Відео Монта‪ж‬
"""

# Extract keywords with counts for bigrams (2-grams)
keywords_with_counts = extract_keywords_with_counts(ukrainian_text, ngram_range=1)

# Print output in a clean format
for keyword, count in keywords_with_counts:
    print(f"{keyword}: {count}")


відео: 6
редактор: 5
фото: 4
ai: 3
сторіс: 3
шаблони: 3
і: 3
відеомонтаж: 2
ефекти: 2
рілс: 2
рілз: 2
інстаграм: 2
відеоредактор: 1
captions: 1
videoleap: 1
монтування: 1
ші: 1
videoshow: 1
vlog: 1
maker: 1
