# Exploration des données du corpus d'articles scientifiques

In [1]:
# Imports des bibliothèques et modules nécessaires
import os
import sys
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from collections import Counter
from wordcloud import WordCloud

# Ajouter le répertoire parent au chemin de recherche
sys.path.append(os.path.abspath('..'))

# Import des modules du projet
from src.config.config import load_config
from src.data_acquisition.data_loader import DataLoader
from src.data_acquisition.data_cleaner import DataCleaner
from src.data_acquisition.data_explorer import DataExplorer

## 1. Chargement des données

In [14]:
# Chargement de la configuration (par defaut, on peut par exemple en définir une par corpus etc dans le fichier ./config/config.py))
config = load_config()

# Chemin vers le fichier de données
data_path = Path("../data/raw/data_project.csv")

# Vérifier si le fichier existe
if not data_path.exists():
    raise FileNotFoundError(f"Le fichier {data_path} n'existe pas.")

# Créer un objet DataLoader
data_loader = DataLoader(config)

# Charger les données
df = data_loader.load_from_csv(data_path)

# Afficher les premières lignes
print(f"Dimensions du DataFrame: {df.shape}")
df.head()

## 2. Prétraitement des données

In [15]:
# Créer un objet DataCleaner
data_cleaner = DataCleaner(config)

# Convertir le DataFrame en liste de dictionnaires
documents = df.to_dict('records')

# Nettoyage des données
cleaned_docs = []
for doc in documents:
    # Assurer que tous les champs nécessaires existent
    if 'abstract' not in doc or doc['abstract'] is None:
        doc['abstract'] = ""
    
    # Nettoyer le texte de l'abstract
    if doc['abstract']:
        doc['abstract'] = data_cleaner.clean_text(doc['abstract'])
    
    # Convertir les références en liste si ce n'est pas déjà le cas
    if 'references' in doc and isinstance(doc['references'], str):
        # Si les références sont une chaîne sous forme de liste Python
        if doc['references'].startswith('[') and doc['references'].endswith(']'):
            try:
                doc['references'] = eval(doc['references'])
            except:
                doc['references'] = []
        else:
            # Sinon, diviser sur les virgules
            doc['references'] = [ref.strip() for ref in doc['references'].split(',') if ref.strip()]
    
    # Assurer que class est un entier
    if 'class' in doc and doc['class']:
        try:
            doc['class'] = int(doc['class'])
        except:
            doc['class'] = None
    
    # Convertir les auteurs en liste si ce n'est pas déjà le cas
    if 'authors' in doc and isinstance(doc['authors'], str):
        if doc['authors'].startswith('[') and doc['authors'].endswith(']'):
            try:
                doc['authors'] = eval(doc['authors'])
            except:
                doc['authors'] = []
        else:
            doc['authors'] = [author.strip() for author in doc['authors'].split(',') if author.strip()]
    
    cleaned_docs.append(doc)

print(f"Nombre de documents après nettoyage: {len(cleaned_docs)}")
cleaned_docs[0]  # Afficher le premier document nettoyé

## 3. Analyse statistique de base

In [4]:
# Créer un objet DataExplorer
data_explorer = DataExplorer(cleaned_docs)

# Obtenir les statistiques de base
stats = data_explorer.get_basic_stats()

# Afficher les statistiques
print("Statistiques du corpus:")
for key, value in stats.items():
    if isinstance(value, dict):
        print(f"- {key}:")
        for subkey, subvalue in value.items():
            print(f"  - {subkey}: {subvalue}")
    else:
        print(f"- {key}: {value}")

## 4. Visualisation de la distribution des classes

In [5]:
# Visualiser la distribution des classes
data_explorer.visualize_class_distribution()

# Afficher les noms des classes avec leur description
class_descriptions = {
    1: "Intelligence Artificielle",
    2: "Science des Données",
    3: "Interface",
    4: "Vision par Ordinateur",
    5: "Réseau",
    6: "Informatique Théorique",
    7: "Applications Spécifiques",
    8: "Autres"
}

print("\nClasses et leurs descriptions:")
for cls, desc in class_descriptions.items():
    print(f"- Classe {cls}: {desc}")

## 5. Analyse temporelle

In [6]:
# Obtenir la distribution temporelle
temporal_dist = data_explorer._get_temporal_distribution()

# Convertir en DataFrame pour faciliter la visualisation
temp_df = pd.DataFrame(list(temporal_dist.items()), columns=['Year', 'Count'])
temp_df = temp_df.sort_values('Year')

# Visualiser la distribution temporelle
plt.figure(figsize=(12, 6))
plt.bar(temp_df['Year'], temp_df['Count'])
plt.title('Distribution des documents par année')
plt.xlabel('Année')
plt.ylabel('Nombre de documents')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Statistiques sur la distribution temporelle
if len(temp_df) > 0:
    print(f"Année la plus ancienne: {temp_df['Year'].min()}")
    print(f"Année la plus récente: {temp_df['Year'].max()}")
    print(f"Année avec le plus de publications: {temp_df.loc[temp_df['Count'].idxmax(), 'Year']} avec {temp_df['Count'].max()} documents")

## 6. Analyse des auteurs

In [7]:
# Compter le nombre de publications par auteur
author_counts = Counter()
for doc in cleaned_docs:
    if 'authors' in doc and doc['authors']:
        for author in doc['authors']:
            author_counts[author] += 1

# Obtenir les auteurs les plus prolifiques
top_authors = author_counts.most_common(10)

# Visualiser les auteurs les plus prolifiques
plt.figure(figsize=(12, 6))
plt.bar([author for author, count in top_authors], [count for author, count in top_authors])
plt.title('Top 10 des auteurs les plus prolifiques')
plt.xlabel('Auteur')
plt.ylabel('Nombre de publications')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

# Statistiques sur les auteurs
print(f"Nombre total d'auteurs: {len(author_counts)}")
print(f"Nombre moyen d'auteurs par document: {sum(len(doc.get('authors', [])) for doc in cleaned_docs) / len(cleaned_docs):.2f}")
print("\nTop 10 des auteurs les plus prolifiques:")
for author, count in top_authors:
    print(f"- {author}: {count} publications")

## 7. Analyse des mots-clés

In [8]:
# Concaténer tous les abstracts
all_abstracts = " ".join([doc.get('abstract', '') for doc in cleaned_docs if doc.get('abstract')])

# Nettoyer le texte des abstracts
cleaned_abstracts = data_cleaner.clean_text(all_abstracts)

# Tokeniser
tokens = cleaned_abstracts.split()

# Supprimer les mots vides
tokens_without_stopwords = data_cleaner.remove_stop_words(tokens)

# Compter les occurrences des termes
term_counts = Counter(tokens_without_stopwords)

# Obtenir les termes les plus fréquents
top_terms = term_counts.most_common(20)

# Visualiser les termes les plus fréquents
plt.figure(figsize=(12, 6))
plt.bar([term for term, count in top_terms], [count for term, count in top_terms])
plt.title('Top 20 des termes les plus fréquents dans les abstracts')
plt.xlabel('Terme')
plt.ylabel('Fréquence')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

# Créer un nuage de mots
wordcloud = WordCloud(width=800, height=400, background_color='white', max_words=100).generate_from_frequencies(term_counts)

plt.figure(figsize=(12, 8))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Nuage de mots des termes les plus fréquents')
plt.show()

## 8. Analyse des références

In [9]:
# Calculer le nombre de références par document
ref_counts = [len(doc.get('references', [])) for doc in cleaned_docs]

# Visualiser la distribution du nombre de références
plt.figure(figsize=(10, 6))
plt.hist(ref_counts, bins=20)
plt.title('Distribution du nombre de références par document')
plt.xlabel('Nombre de références')
plt.ylabel('Nombre de documents')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Statistiques sur les références
print(f"Nombre moyen de références par document: {np.mean(ref_counts):.2f}")
print(f"Nombre médian de références par document: {np.median(ref_counts):.2f}")
print(f"Nombre maximum de références pour un document: {np.max(ref_counts)}")
print(f"Nombre de documents sans références: {sum(1 for count in ref_counts if count == 0)}")

## 9. Analyse des venues (lieux de publication)

In [10]:
# Compter les occurrences des venues
venue_counts = Counter([doc.get('venue', '') for doc in cleaned_docs if doc.get('venue')])

# Obtenir les venues les plus fréquentes
top_venues = venue_counts.most_common(10)

# Visualiser les venues les plus fréquentes
plt.figure(figsize=(14, 6))
plt.bar([venue for venue, count in top_venues], [count for venue, count in top_venues])
plt.title('Top 10 des lieux de publication les plus fréquents')
plt.xlabel('Lieu de publication')
plt.ylabel('Nombre de documents')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

# Statistiques sur les venues
print(f"Nombre total de lieux de publication distincts: {len(venue_counts)}")
print("\nTop 10 des lieux de publication:")
for venue, count in top_venues:
    print(f"- {venue}: {count} documents")

Cette analyse exploratoire nous a permis de mieux comprendre la structure du corpus :

- les principales classes et leur distribution
- l'évolution temporelle des publications
- les auteurs les plus prolifiques
- les termes les plus fréquents
- la structure des références
- les lieux de publication les plus courants

