In [4]:
import os
from collections import Counter
import string

In [12]:
def load_text_files(folder_path):
    """Load all text files from the folder."""
    text_data = {}
    for filename in os.listdir(folder_path):
        if filename.endswith('.txt'):
            with open(os.path.join(folder_path, filename), 'r', encoding='utf-8') as file:
                text_data[filename] = file.read()
    return text_data


In [14]:
folder_path = "/home/alikhan/Desktop/Data/Parsing/Рынок"
text_data = load_text_files(folder_path)

In [15]:
print(text_data)

{'Ішкі рынокта тұрақтылық керек.txt': 'Ішкі рынокта тұрақтылық керек\n\nӘлемдік қаржы рыногында доллар бағамының\xa0 төмендеуі АҚШ экономикасының көтерілуіне алып келді. Долларға қарағанда басқа ұлттық валюталар бағамының көтерілуі көптеген елдердің экономикасына кері әсерін тигізе бастады. Осыдан келіп, соңғы уақытта 22 дамушы елдің ұлттық валюталары әлсіреді. Әлемдік экономикаға барынша интеграцияланған Қазақстан бұл жағдайдан сырт қала алмады. Осыған байланысты қаржы реттеушісі ретінде Ұлттық банк\xa0 теңге бағамын өзгерту туралы шешім қабылдады. Ел экономикасы үшін, отандық тауар өндірушілер үшін бұл өте тиімді қолдау болып табылады. «АЛЗ» ЖШС осы жағдайға байланысты өзіне қатысты 2-басымдықты ерекше атап өтеді. Біріншіден, біздің серіктестіктің несиелік міндеттемелерінің бәрі ұлттық валютаға негізделген. Біз доллар бағамының ауытқуына тәуелді емеспіз. Сонымен қатар, экспортқа шығаратын өнімдерімізден түсетін кіріс АҚШ доллары есебінен болады.\n\nЕкіншіден, біз табысымыздың 90 пайы

In [16]:
print(len(text_data))

7


In [6]:
def analyze_text(text):
    """Analyze a single text for word counts and top words."""
    # Remove punctuation and convert to lowercase
    translator = str.maketrans('', '', string.punctuation)
    text = text.translate(translator).lower()
    words = text.split()
    
    word_count = len(words)
    word_frequencies = Counter(words)
    return word_count, word_frequencies

In [7]:
def main(folder_path, keywords):
    """Main function to analyze all text files."""
    text_data = load_text_files(folder_path)
    
    analysis_results = {}
    total_word_counts = []
    total_word_frequencies = Counter()
    
    for filename, text in text_data.items():
        word_count, word_frequencies = analyze_text(text)
        total_word_counts.append(word_count)
        total_word_frequencies.update(word_frequencies)
        
        keyword_counts = {keyword: word_frequencies.get(keyword, 0) for keyword in keywords}
        top_words = word_frequencies.most_common(10)
        
        analysis_results[filename] = {
            "word_count": word_count,
            "keyword_counts": keyword_counts,
            "top_words": top_words
        }
    
    # Overall statistics
    overall_top_words = total_word_frequencies.most_common(10)
    
    return analysis_results, total_word_counts, overall_top_words

In [20]:
if __name__ == "__main__":
    # Specify the folder path and keywords
    folder_path = "/home/alikhan/Desktop/Data/Parsing/Рынок"
    keywords = input("Enter you keywords with a comma:")

    # Execute the analysis
    results, word_counts, overall_top_words = main(folder_path, keywords)

    # Print results
    for file, analysis in results.items():
        print(f"File: {file}")
        print(f"Total Words: {analysis['word_count']}")
    

Enter you keywords with a comma:рынок
File: Ішкі рынокта тұрақтылық керек.txt
Total Words: 278
File: Қазақстан титаны әлемдік рынокқа қадам басты.txt
Total Words: 750
File: Ғарыштық егіншілік қазақстандық стартап Egistic рынокқа шықты.txt
Total Words: 291
File: Бәсекелестік – рынокты байытудың өркениетті жолы.txt
Total Words: 4167
File: Мақсат – ішкі рынокты қамтамасыз етіп, экспорт әлеуетін арттыру.txt
Total Words: 308
File: Ирандық вектор жаңа рыноктар,  жаңа мүмкіндіктер.txt
Total Words: 949
File: Әлемдік рынокқа шығудың басты жолы – бәсекеге қабілеттілік.txt
Total Words: 721


In [21]:
print(results)

{'Ішкі рынокта тұрақтылық керек.txt': {'word_count': 278, 'keyword_counts': {'р': 0, 'ы': 0, 'н': 0, 'о': 0, 'к': 0}, 'top_words': [('ішкі', 5), ('бағамының', 5), ('рынокта', 4), ('ұлттық', 4), ('бұл', 4), ('отандық', 4), ('импорттық', 4), ('қаржы', 3), ('байланысты', 3), ('теңге', 3)]}, 'Қазақстан титаны әлемдік рынокқа қадам басты.txt': {'word_count': 750, 'keyword_counts': {'р': 0, 'ы': 0, 'н': 0, 'о': 0, 'к': 0}, 'top_words': [('титан', 16), ('жаңа', 13), ('титанмагний', 9), ('мен', 8), ('ақ', 7), ('бірлескен', 7), ('әлемдік', 6), ('отырған', 6), ('«өтмк»', 6), ('–', 6)]}, 'Ғарыштық егіншілік қазақстандық стартап Egistic рынокқа шықты.txt': {'word_count': 291, 'keyword_counts': {'р': 0, 'ы': 0, 'н': 0, 'о': 0, 'к': 0}, 'top_words': [('egistic', 6), ('–', 5), ('мүмкіндік', 3), ('іске', 3), ('үшін', 3), ('жобаның', 3), ('немесе', 3), ('енді', 2), ('командасы', 2), ('мен', 2)]}, 'Бәсекелестік – рынокты байытудың өркениетті жолы.txt': {'word_count': 4167, 'keyword_counts': {'р': 0, 'ы'