In [3]:
import os
from tqdm import tqdm

def merge_txt_files_by_region(base_dirs, region_name, output_file):
    """
    # Fusionner les fichiers texte par région
    # Paramètres:
    # base_dirs: Répertoires de base contenant les données
    # region_name: Nom de la région à traiter
    # output_file: Fichier de sortie pour stocker les résultats fusionnés
    """
    all_content = []
    
    for dir_path in base_dirs:
        region_path = os.path.join(dir_path, region_name, 'txt')
        if os.path.exists(region_path):
            # Obtenir la liste des fichiers texte
            files = [f for f in os.listdir(region_path) if f.endswith('.txt')]
            for file in tqdm(files, desc=f"Traitement de {os.path.basename(dir_path)} - {region_name}"):
                with open(os.path.join(region_path, file), 'r', encoding='utf-8') as f:
                    content = f.read()
                    all_content.append(content)
    
    # Écrire le contenu fusionné dans le fichier de sortie
    with open(output_file, 'w', encoding='utf-8') as f:
        f.write('\n'.join(all_content))
    print(f'Fusion terminée pour {region_name}: {output_file}')

# Répertoires de base
base_dirs = ['output_audio_test', 'output_audio_val']

# Configuration des régions
regions = {
    'England_English': 'england_texts.txt',
    'India_and_South_Asia_(India,_Pakistan,_Sri_Lanka)': 'india_texts.txt',
    'United_States_English': 'us_texts.txt'
}

# Traiter chaque région
for region, output_file in regions.items():
    print(f"\nDébut du traitement pour la région: {region}")
    merge_txt_files_by_region(base_dirs, region, output_file)

print("\nTraitement terminé pour toutes les régions.")


Début du traitement pour la région: England_English


Traitement de output_audio_test - England_English: 100%|██████████| 214/214 [00:00<00:00, 3834.29it/s]
Traitement de output_audio_val - England_English: 100%|██████████| 222/222 [00:00<00:00, 5324.12it/s]


Fusion terminée pour England_English: england_texts.txt

Début du traitement pour la région: India_and_South_Asia_(India,_Pakistan,_Sri_Lanka)


Traitement de output_audio_test - India_and_South_Asia_(India,_Pakistan,_Sri_Lanka): 100%|██████████| 346/346 [00:00<00:00, 5580.73it/s]
Traitement de output_audio_val - India_and_South_Asia_(India,_Pakistan,_Sri_Lanka): 100%|██████████| 385/385 [00:00<00:00, 6820.44it/s]


Fusion terminée pour India_and_South_Asia_(India,_Pakistan,_Sri_Lanka): india_texts.txt

Début du traitement pour la région: United_States_English


Traitement de output_audio_test - United_States_English: 100%|██████████| 727/727 [00:00<00:00, 7506.55it/s]
Traitement de output_audio_val - United_States_English: 100%|██████████| 931/931 [00:00<00:00, 7128.25it/s]

Fusion terminée pour United_States_English: us_texts.txt

Traitement terminé pour toutes les régions.





In [None]:
from collections import Counter
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import nltk
import pandas as pd
import matplotlib.pyplot as plt

# Télécharger les ressources NLTK nécessaires
nltk.download('punkt')
nltk.download('stopwords')

def analyze_word_frequency(file_path):
    """
    Analyser la fréquence des mots dans un fichier texte
    Retourne les 10 mots les plus fréquents
    """
    with open(file_path, 'r', encoding='utf-8') as f:
        text = f.read().lower()
    
    # Tokenisation du texte
    words = word_tokenize(text)
    
    # Suppression des mots vides et de la ponctuation
    stop_words = set(stopwords.words('english'))
    words = [word for word in words if word.isalnum() and word not in stop_words]
    
    # Comptage des mots
    word_counts = Counter(words)
    
    return word_counts.most_common(10)

def plot_word_frequency(region_results, output_file):
    """
    Créer un graphique de fréquence des mots
    """
    plt.figure(figsize=(12, 6))
    words, counts = zip(*region_results)
    plt.bar(words, counts)
    plt.xticks(rotation=45)
    plt.title(f"Top 10 mots les plus fréquents")
    plt.tight_layout()
    plt.savefig(f"{output_file}.png")
    plt.close()

# Fichiers à analyser
files = {
    'Anglais britannique': 'england_texts.txt',
    'Anglais indien': 'india_texts.txt',
    'Anglais américain': 'us_texts.txt'
}

# Analyse et sauvegarde des résultats
results = {}
with open('word_frequency_results.txt', 'w', encoding='utf-8') as result_file:
    for region, file_path in tqdm(files.items(), desc="Analyse des régions"):
        if os.path.exists(file_path):
            top_words = analyze_word_frequency(file_path)
            results[region] = top_words
            
            # Écriture des résultats
            result_file.write(f"\n{region} - Top 10 mots:\n")
            for word, count in top_words:
                result_file.write(f"{word}: {count}\n")
            
            # Création du graphique
            plot_word_frequency(top_words, f"word_frequency_{region}")
        else:
            print(f"Fichier non trouvé: {file_path}")

print("\nAnalyse terminée! Résultats sauvegardés dans word_frequency_results.txt")

[nltk_data] Downloading package punkt to /Users/keming/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/keming/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
Analyse des régions: 100%|██████████| 3/3 [00:00<00:00,  6.55it/s]


Analyse terminée! Résultats sauvegardés dans word_frequency_results.txt





In [8]:
def analyze_sentence_length(filename):
    try:
        # Read all sentences from file
        with open(filename, 'r', encoding='utf-8') as f:
            sentences = f.readlines()
        
        # Remove empty lines and strip whitespace
        sentences = [s.strip() for s in sentences if s.strip()]
        
        if not sentences:
            print("Error: File is empty")
            return 0
            
        # Calculate length of each sentence
        word_counts = [len(sentence.split()) for sentence in sentences]
        
        # Calculate statistics
        total_sentences = len(sentences)
        total_words = sum(word_counts)
        avg_length = total_words / total_sentences
        
        # Print results
        print(f"Total sentences: {total_sentences}")
        print(f"Total words: {total_words}")
        print(f"Average sentence length: {avg_length:.2f} words")
        
        return avg_length
        
    except FileNotFoundError:
        print(f"Error: File '{filename}' not found")
        return 0
    except Exception as e:
        print(f"Error occurred: {str(e)}")
        return 0

analyze_sentence_length("us_texts.txt")

Total sentences: 1658
Total words: 15833
Average sentence length: 9.55 words


9.549457177322076