# stats journaux

In [4]:
import pandas as pd
import plotly.graph_objects as go
import os

# Dossier contenant les fichiers CSV source
folder_path = './data/cleanScopus'

# Dossier de sortie pour les résultats
output_folder = './data/scopus_results'
os.makedirs(output_folder, exist_ok=True)  # Créer le dossier s'il n'existe pas

# DataFrame global pour regrouper toutes les données
overall_df = pd.DataFrame()

# Parcourir tous les fichiers CSV dans le dossier
for file_name in os.listdir(folder_path):
    if file_name.endswith('.csv'):
        # Charger le fichier CSV
        file_path = os.path.join(folder_path, file_name)
        df = pd.read_csv(file_path)
        
        # Ajouter les données au DataFrame global
        overall_df = pd.concat([overall_df, df], ignore_index=True)
        
        # Compter le nombre de publications par ISSN
        publication_counts = df['prism:issn'].value_counts()
        
        # Sauvegarder les comptes de publications par ISSN dans un fichier CSV
        output_file_1 = os.path.join(output_folder, f'{file_name.replace(".csv", "")}_issn_publication_counts.csv')
        publication_counts.to_csv(output_file_1, header=['Nombre de publications'], index_label='ISSN')
        print(f"Fichier CSV sauvegardé avec le nombre de publications par ISSN : {output_file_1}")
        
        # Créer un DataFrame explicite pour l'histogramme
        count_of_counts = pd.DataFrame({'Nombre de journaux': publication_counts.value_counts()}).reset_index()
        count_of_counts.columns = ['Nombre de publications', 'Nombre de journaux']
        
        # Trier par le nombre de publications
        count_of_counts = count_of_counts.sort_values(by='Nombre de publications')
        count_dict = count_of_counts.set_index('Nombre de publications')['Nombre de journaux'].to_dict()
        
        # Créer un histogramme avec Plotly
        fig = go.Figure(data = [go.Bar(
            x=list(count_dict.keys()),  # Nombre de publications
            y=list(count_dict.values()),  # Nombre de journaux
            marker=dict(color='blue'),  # Couleur du graphique
            name="Distribution des publications"
        )])
        
        # Ajouter des labels et un titre
        fig.update_layout(
            title=f"Distribution du nombre de publications par journal ({file_name})",
            xaxis_title="Nombre de publications",
            yaxis_title="Nombre de journaux",
            template="plotly_white"
        )
        
        # Enregistrer le graphique
        output_file_2 = os.path.join(output_folder, f'{file_name.replace(".csv", "")}_publication_distribution.html')
        fig.write_html(output_file_2)
        print(f"Graphique sauvegardé : {output_file_2}")

# Générer les résultats "overall"
overall_publication_counts = overall_df['prism:issn'].value_counts()

# Sauvegarder le compte total par ISSN
overall_file_1 = os.path.join(output_folder, 'overall_issn_publication_counts.csv')
overall_publication_counts.to_csv(overall_file_1, header=['Nombre de publications'], index_label='ISSN')
print(f"Fichier CSV global sauvegardé avec le nombre de publications par ISSN : {overall_file_1}")

# Créer un DataFrame explicite pour l'histogramme global
overall_count_of_counts = pd.DataFrame({'Nombre de journaux': overall_publication_counts.value_counts()}).reset_index()
overall_count_of_counts.columns = ['Nombre de publications', 'Nombre de journaux']

# Trier par le nombre de publications
overall_count_of_counts = overall_count_of_counts.sort_values(by='Nombre de publications')
overall_count_dict = overall_count_of_counts.set_index('Nombre de publications')['Nombre de journaux'].to_dict()

# Créer un histogramme global avec Plotly
overall_fig = go.Figure(data = [go.Bar(
    x=list(overall_count_dict.keys()),  # Nombre de publications
    y=list(overall_count_dict.values()),  # Nombre de journaux
    marker=dict(color='green'),  # Couleur du graphique global
    name="Distribution globale des publications"
)])

# Ajouter des labels et un titre
overall_fig.update_layout(
    title="Distribution globale du nombre de publications par journal",
    xaxis_title="Nombre de publications",
    yaxis_title="Nombre de journaux",
    template="plotly_white"
)

# Enregistrer l'histogramme global
overall_file_2 = os.path.join(output_folder, 'overall_publication_distribution.html')
overall_fig.write_html(overall_file_2)
print(f"Graphique global sauvegardé : {overall_file_2}")


Fichier CSV sauvegardé avec le nombre de publications par ISSN : ./data/scopus_results\clean_AGRI_issn_publication_counts.csv
Graphique sauvegardé : ./data/scopus_results\clean_AGRI_publication_distribution.html
Fichier CSV sauvegardé avec le nombre de publications par ISSN : ./data/scopus_results\clean_ARTS_issn_publication_counts.csv
Graphique sauvegardé : ./data/scopus_results\clean_ARTS_publication_distribution.html
Fichier CSV sauvegardé avec le nombre de publications par ISSN : ./data/scopus_results\clean_BIOC_issn_publication_counts.csv
Graphique sauvegardé : ./data/scopus_results\clean_BIOC_publication_distribution.html
Fichier CSV sauvegardé avec le nombre de publications par ISSN : ./data/scopus_results\clean_BUSI_issn_publication_counts.csv
Graphique sauvegardé : ./data/scopus_results\clean_BUSI_publication_distribution.html
Fichier CSV sauvegardé avec le nombre de publications par ISSN : ./data/scopus_results\clean_CENG_issn_publication_counts.csv
Graphique sauvegardé : ./d


Columns (6) have mixed types. Specify dtype option on import or set low_memory=False.



Fichier CSV sauvegardé avec le nombre de publications par ISSN : ./data/scopus_results\clean_HEAL_issn_publication_counts.csv
Graphique sauvegardé : ./data/scopus_results\clean_HEAL_publication_distribution.html
Fichier CSV sauvegardé avec le nombre de publications par ISSN : ./data/scopus_results\clean_IMMU_issn_publication_counts.csv
Graphique sauvegardé : ./data/scopus_results\clean_IMMU_publication_distribution.html
Fichier CSV sauvegardé avec le nombre de publications par ISSN : ./data/scopus_results\clean_MATE_issn_publication_counts.csv
Graphique sauvegardé : ./data/scopus_results\clean_MATE_publication_distribution.html
Fichier CSV sauvegardé avec le nombre de publications par ISSN : ./data/scopus_results\clean_MATH_issn_publication_counts.csv
Graphique sauvegardé : ./data/scopus_results\clean_MATH_publication_distribution.html
Fichier CSV sauvegardé avec le nombre de publications par ISSN : ./data/scopus_results\clean_MULT_issn_publication_counts.csv
Graphique sauvegardé : ./d

In [8]:
sum(count_dict.values())
fig.write_html('./statsJournaux.html')