In [1]:
# Import des packages
import pandas as pd

  from pandas.core.computation.check import NUMEXPR_INSTALLED


In [2]:
# Lecture des données
df = pd.read_csv(r'data_cleaned/corpus_cleaned_PAMPLEMOUSSE.csv',sep=";")
df["annee"] = df.Date.apply(lambda date: date[:4])

In [3]:
# Calcule de la df_distri de chaque journal par année
df_distri = df.groupby(['CJournal', 'annee']).size().reset_index(name='count')

# Calcule du le nombre total d'articles par journal et par année
total_articles = df_distri['count'].sum()

# Déterminantion du nombre d'articles qui doivent être sélectionnés 
# On vise 300 articles pour commencer
df_distri['nombre_sample'] = (df_distri['count'] / total_articles * 300).round().astype(int)

# Initialisation d'une liste pour stocker les articles sélectionnés
gs = []

# Sélection des articles par une boucle sur les journaux X années
for index, row in df_distri.iterrows():
    journal = row['CJournal']
    year = row['annee']
    nombre_sample = row['nombre_sample']
    
    filtered_df = df.loc[(df['CJournal'] == journal) & (df['annee'] == year)]
    
    selected_articles = filtered_df.sample(n=nombre_sample, random_state=42)
    
    gs.append(selected_articles)

# Assemblage final
df_gs = pd.concat(gs)

# Stockage du GS en csv
#df_gs.to_csv('data_cleaned/gs.csv', index=False)

In [4]:
# Stat desc du GS
df_gs[['CJournal', 'annee','Texte']].groupby(['CJournal', 'annee']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Texte
CJournal,annee,Unnamed: 2_level_1
Croix,2015,4
Croix,2016,4
Croix,2017,2
Croix,2018,6
Croix,2019,3
Croix,2020,2
Croix,2021,2
Croix,2022,1
Echos,2015,11
Echos,2016,14


In [5]:
print(f"""
    Le GS initial compte {len(df_gs)} articles
""")


    Le GS initial compte 295 articles



### Complement au GS

Les résultats initiaux n'étaient pas concluant avec le Gold Standard intial.  
Nous avons donc décidé de le compléter avec une centaines d'articles supplémentaires pour améliorer les prévisions des modèles

In [18]:
# Lecture des données
gs = pd.read_csv('./data_cleaned/gold_standard.csv')
corpus = pd.read_csv(r'data_cleaned/corpus_cleaned_PAMPLEMOUSSE.csv',sep=";")

In [19]:
# Ne pas reprendre les mêmes articles
df_filtered = corpus[~(corpus.Texte.isin(gs.Texte.unique()))].copy()

In [20]:
df_filtered["annee"] = df_filtered.Date.apply(lambda x: x[:4])
# Calcule de la df_distri de chaque journal par année
df_distri = df_filtered.groupby(['CJournal', 'annee']).size().reset_index(name='count')

# Calcule du le nombre total d'articles par journal et par année
total_articles = df_distri['count'].sum()

# Déterminantion du nombre d'articles qui doivent être sélectionnés 
# On vise 300 articles pour commencer
df_distri['nombre_sample'] = (df_distri['count'] / total_articles * 100).round().astype(int)

# Initialisation d'une liste pour stocker les articles sélectionnés
gs = []

# Sélection des articles par une boucle sur les journaux X années
for index, row in df_distri.iterrows():
    journal = row['CJournal']
    year = row['annee']
    nombre_sample = row['nombre_sample']
    
    filtered_df = df.loc[(df['CJournal'] == journal) & (df['annee'] == year)]
    
    selected_articles = filtered_df.sample(n=nombre_sample, random_state=42)
    
    gs.append(selected_articles)

# Assemblage final
df_filtered_gs = pd.concat(gs)

# Stockage du GS complémentaire en csv
#df_filtered_gs.to_csv('data_cleaned/gold_standard_complement.csv', index=False)

In [23]:
# Stat desc du GS complet
GS = pd.concat([
    df_gs, df_filtered_gs
])[['CJournal', 'annee','Texte']]

GS.groupby(['CJournal', 'annee']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Texte
CJournal,annee,Unnamed: 2_level_1
Croix,2015,5
Croix,2016,5
Croix,2017,3
Croix,2018,8
Croix,2019,4
Croix,2020,3
Croix,2021,3
Croix,2022,1
Echos,2015,15
Echos,2016,19


In [24]:
print(f"""
    Le GS final compte {len(GS)} articles
""")


    Le GS final compte 394 articles

