Dans le code python suivant, on prend tous les fichiers « xlsx » dans « content » dans mon environnement colab pour générer un seul fichier « xlsx » contenant le contenu de TOUS les fichiers xlsx précédents. Puisque tous les sujets sont seulement dans la première colonne de chaque fichiers, la fusion totale de tous les fichiers xlsx contient la somme du nombre de lignes dans tous les fichiers xlsx.

On considère deux variables :

- d'une part, le nombre total de sujets, qui correspond au nombre de lignes (on suppose que les sujets commencent à la première ligne et se répartissent exclusivement dans la première colonne. C'est la variable « total ».

- d'autre part, la variable « nombre de questions des sujets ». Cette variable est facile à obtenir : lorsqu'un sujet est un sujet de question, il contient un point d'interrogation « ? Par conséquent, il suffit de chercher le nombre total de «  ? » dans le fichier xslx pour connaître le nombre de sujets de questions. Normalement, d'ailleurs, le «  ? » est placé à la fin du sujet, et la variable « nombre de sujets de questions » doit être strictement inférieure à la variable précédente : la liste contient des sujets qui n'en sont pas.

A partir de ces deux variables, il est facile de calculer le pourcentage de sujets de questions dans le total de la liste.


In [1]:
import pandas as pd
import os
from glob import glob

# Path to the directory containing your xlsx files
input_directory = "/content"

# Step 1: Merge all the xlsx files into a single file
all_files = glob(os.path.join(input_directory, "*.xlsx"))
merged_data = []

# Read each file and append its content to the list
for file in all_files:
    df = pd.read_excel(file, usecols=[0], header=None)  # Read only the first column
    merged_data.append(df)

# Concatenate all dataframes vertically
merged_df = pd.concat(merged_data, ignore_index=True)

# Save the merged data to a new xlsx file
merged_filename = os.path.join(input_directory, "merged.xlsx")
merged_df.to_excel(merged_filename, index=False, header=False)

# Step 2: Calculate the total number of topics and the number of question topics
# Total number of topics
total_topics = len(merged_df)

# Count the number of topics ending with a question mark
question_topics = merged_df[merged_df[0].str.endswith("?")].shape[0]

# Step 3: Calculate the percentage of question topics
percentage_question_topics = (question_topics / total_topics) * 100

# Print the results
print(f"Total number of topics: {total_topics}")
print(f"Number of question topics: {question_topics}")
print(f"Percentage of question topics: {percentage_question_topics:.2f}%")

Total number of topics: 3352
Number of question topics: 1365
Percentage of question topics: 40.72%


Le code python suivant sert à avoir une idée de la variabilité entre les listes. Il en ressort que le pourcentage reste assez stable.

In [2]:
import pandas as pd
import os
from glob import glob

# Path to the directory containing your xlsx files
input_directory = "/content"

# Step 1: List all the xlsx files in the directory
all_files = glob(os.path.join(input_directory, "*.xlsx"))

# Step 2: Process each file independently and calculate the percentage of question topics
results = []

for file in all_files:
    # Read the first column of the current file
    df = pd.read_excel(file, usecols=[0], header=None)

    # Total number of topics in the file
    total_topics = len(df)

    # Count the number of topics ending with a question mark
    question_topics = df[df[0].str.endswith("?")].shape[0]

    # Calculate the percentage of question topics
    percentage_question_topics = (question_topics / total_topics) * 100 if total_topics > 0 else 0

    # Store the results for this file
    results.append({
        "file": os.path.basename(file),
        "total_topics": total_topics,
        "question_topics": question_topics,
        "percentage_question_topics": percentage_question_topics,
    })

# Step 3: Display the results
for result in results:
    print(f"File: {result['file']}")
    print(f"  Total topics: {result['total_topics']}")
    print(f"  Question topics: {result['question_topics']}")
    print(f"  Percentage of question topics: {result['percentage_question_topics']:.2f}%")
    print()

# Optional: Save the results to a new Excel file
output_filename = os.path.join(input_directory, "summary.xlsx")
summary_df = pd.DataFrame(results)
summary_df.to_excel(output_filename, index=False)

File: agreg_externe_2022_philo_generale.xlsx
  Total topics: 316
  Question topics: 113
  Percentage of question topics: 35.76%

File: agreg_externe_2024_les sciences humaines.xlsx
  Total topics: 469
  Question topics: 185
  Percentage of question topics: 39.45%

File: agreg_externe_2022_esthetique.xlsx
  Total topics: 320
  Question topics: 158
  Percentage of question topics: 49.38%

File: agreg_externe_2021_metaphysique.xlsx
  Total topics: 286
  Question topics: 136
  Percentage of question topics: 47.55%

File: merged.xlsx
  Total topics: 3352
  Question topics: 1365
  Percentage of question topics: 40.72%

File: agreg_externe_2023_sciences_humaines.xlsx
  Total topics: 469
  Question topics: 185
  Percentage of question topics: 39.45%

File: agreg_externe 2024 philosophie générale.xlsx
  Total topics: 406
  Question topics: 175
  Percentage of question topics: 43.10%

File: agreg_externe_2023_philosophie_generale.xlsx
  Total topics: 376
  Question topics: 134
  Percentage of qu