# Arabic

In [8]:
import re
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.util import ngrams

# Arabic stopwords from nltk
stop_words = set(stopwords.words('arabic'))

def extract_keywords_with_counts(text, ngram_range=1):
    # Normalize Arabic text (optional: can add stemming/lemmatization here)
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
    words = word_tokenize(text)
    
    # Remove stopwords and non-Arabic tokens
    filtered_words = [word for word in words if word not in stop_words and re.match(r'^[\u0600-\u06FF]+$', word)]
    
    # Generate n-grams if ngram_range > 1
    if ngram_range == 1:
        ngram_words = [' '.join(ng) for ng in ngrams(filtered_words, ngram_range)]
        keywords = Counter(ngram_words).most_common(20)  # Top 10 ngrams
    else:
        keywords = Counter(filtered_words).most_common(20)  # Top 10 words
    
    # Format output: keyword and count
    return [(keyword, count) for keyword, count in keywords]

# Example usage
arabic_text = """
Unfold: محرر الفيديو والصو‪ر‬
قوالب صور وفيديو Insta
AI لتعديل الفيديو ب Videoleap
محرر مقاطع فيديو بالفلات‪ر‬
محرّر الفيديو VideoShow
اصنع فيديو بالموسيقى والصو‪ر‬
InStories: قصص للإنستغرا‪م‬
قوالب ملصقة للفيدي‪و‬
CutStory － محرّر الفيدي‪و‬
موسيقى انستقرام صانع الفيدي‪و‬
Video Up! برنامج تصميم فيدي‪و‬
تصميم فيديو & زخرفة النصو‪ص‬
قوالب ل تصميم الفيدي‪و‬
قوالب فيديو لبكرة IG الخاصة ب‪ك‬
AI لتعديل الفيديوانستا قص‪ة‬
محرر الفيديو و القوالب :Muse
قوالب فيديو للبكرات و القص‪ص‬
"""
keywords_with_counts = extract_keywords_with_counts(arabic_text, ngram_range=2)

# Print output in a clean format
for keyword, count in keywords_with_counts:
    print(f"{keyword}: {count}")


الفيديو: 7
فيديو: 6
محرر: 5
قوالب: 5
تصميم: 3
والصور: 2
لتعديل: 2
صور: 1
وفيديو: 1
مقاطع: 1
بالفلاتر: 1
اصنع: 1
بالموسيقى: 1
قصص: 1
للإنستغرام: 1
ملصقة: 1
للفيديو: 1
موسيقى: 1
انستقرام: 1
صانع: 1


# English

In [14]:
import re
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.util import ngrams

# English stopwords from nltk
stop_words = set(stopwords.words('english'))

def extract_keywords_with_counts(text, ngram_range=1):
    # Normalize English text
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
    words = word_tokenize(text.lower())  # Tokenize and convert to lowercase
    
    # Remove stopwords and non-alphabetic tokens
    filtered_words = [word for word in words if word not in stop_words and word.isalpha()]
    
    # Generate n-grams if ngram_range > 1
    if ngram_range == 1:
        ngram_words = [' '.join(ng) for ng in ngrams(filtered_words, ngram_range)]
        keywords = Counter(ngram_words).most_common(20)  # Top 10 ngrams
    else:
        keywords = Counter(filtered_words).most_common(20)  # Top 10 words
    
    # Format output: keyword and count
    return [(keyword, count) for keyword, count in keywords]

# Example usage
english_text = """
InShot - Montage video & photo
Mojo: Sous-titres & Reels
Splice - Video Editor & Maker
Editing movie and music videos
InStories Reels & Story Maker
CutStory : Montage Video・Reels
Lift: Reels & Stories Maker
Video Editor for Instagram
Storybeat: Reels & Story Maker
Templates, Filters, Music
VEED - Captions for videos
Video Editor : Video Maker
video crop & edit videos
VITA - Video Editor & Maker
Reelsapp: reel & video editor
Reelsy: Insta Reels IG Trends
Reels Templates & Maker
ReelTrends Templates & Sounds
Track, Analyze Social Trends
inMelo - Video montage
SlideShow Maker Photo Video ‪·‬
Reel Maker
Template Planner for Instagram
Shox pour Story Instagram
Unreels: Reel Video Editor
unavailable
Reel Maker & AI Templates
Reel Maker & Templates ・ Flix
Reels Creator. Video Editor‪.‬
Reel Maker & Templates
Reel & Story Maker for Insta
Reels Templates & Creator IG
Templify・Montage Video & Reels
Reel Maker - Templates for IG
Reels Templates & Reel Maker
Reel Maker: Video Templates
Reel Maker - Insta Story Maker
"""
keywords_with_counts = extract_keywords_with_counts(english_text, ngram_range=1)

# Print output in a clean format
for keyword, count in keywords_with_counts:
    print(f"{keyword}: {count}")


maker: 18
video: 14
reel: 11
reels: 10
templates: 10
editor: 7
story: 5
montage: 3
videos: 3
instagram: 3
insta: 3
ig: 3
photo: 2
music: 2
trends: 2
creator: 2
inshot: 1
mojo: 1
soustitres: 1
splice: 1


# French

In [12]:
import re
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.util import ngrams

# French stopwords from nltk
stop_words = set(stopwords.words('french'))

def extract_keywords_with_counts(text, ngram_range=1):
    # Normalize French text
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
    words = word_tokenize(text.lower())  # Tokenize and convert to lowercase
    
    # Remove stopwords and non-alphabetic tokens
    filtered_words = [word for word in words if word not in stop_words and word.isalpha()]
    
    # Generate n-grams if ngram_range > 1
    if ngram_range == 1:
        ngram_words = [' '.join(ng) for ng in ngrams(filtered_words, ngram_range)]
        keywords = Counter(ngram_words).most_common(20)  # Top 20 ngrams
    else:
        keywords = Counter(filtered_words).most_common(20)  # Top 20 words
    
    # Format output: keyword and count
    return [(keyword, count) for keyword, count in keywords]

# Example usage
french_text = """
Éditeur de vidéo en musique
Éditeur Vidéo avec AI Captions
Unfold : éditeur vidéo/photo
Modèles photos et vidéos Insta
Videoleap: Éditeur Vidéo IA
Logiciel de Montage Vidéo
VideoShow - Éditeur de vidéo
Créez vidéos avec musique
Histoires Animées Avec Musique
Teleprompteur・Auto Sous Titre
CapCut - Éditeur vidéo & photo
Montage video avec musique
Video Up! Montage Vidéo・Photo
Editeur musique・Collage Vidéos
Reel・Vidéo pour Instagram・BEAT
Montage Photo avec Musique
Vids - Editeur Reels & Stories
Modèles Vidéos et Slideshows
Sous-titres et traduction
Storyluxe: Modèles et Collage
Modèles et Filtres de Story
Éditeur de Vidéos - Vixer
Reel, Diaporama, Musique
Modèles pour vidéos Insta
Muse: Montage Reels pour Insta
Editeur Story pour Instagram
Montage video avec des modèles
Temply — Créateur de vidéos
Modèles IA, musique
Reel Modèles Maker - Recap
Reels pour Vidéo Instagram
Éditeur de Stories Insta
Éditeur vidéo et photo
"""

# Extract keywords with counts for bigrams (2-grams)
keywords_with_counts = extract_keywords_with_counts(french_text, ngram_range=1)

# Print output in a clean format
for keyword, count in keywords_with_counts:
    print(f"{keyword}: {count}")


éditeur: 9
vidéo: 8
modèles: 8
musique: 7
vidéos: 7
montage: 6
insta: 4
photo: 3
video: 3
editeur: 3
reels: 3
vidéophoto: 2
ia: 2
stories: 2
story: 2
reel: 2
instagram: 2
captions: 1
unfold: 1
photos: 1
