# Analyse de l'évolution des documents SOLR

## Objectif du notebook
Ce notebook analyse l'évolution temporelle du nombre de documents sur deux serveurs SOLR.

### Contexte
- Source des données : fichier TSV
- Serveurs analysés : SOLR1 et SOLR2
- Période : déterminée par les timestamps dans le fichier

## Préparation de l'environnement

Nous allons importer les bibliothèques nécessaires pour notre analyse :

In [None]:
# Importation des bibliothèques
import pandas as pd
import matplotlib.pyplot as plt

# Vérification des versions des bibliothèques
print(f"Pandas version : {pd.__version__}")
print(f"Matplotlib version : {plt.__version__}")

## Chargement et prétraitement des données

In [None]:
# Chemin du fichier de données
file_path = 'numDocs.tsv'

# Chargement des données
data = pd.read_csv(file_path, sep='\t')

# Affichage des premières lignes
print(data.head())

# Conversion du timestamp
data['TIMESTAMP'] = pd.to_datetime(data['TIMESTAMP'], unit='s')

# Informations de base sur le jeu de données
print("\nInformations sur le jeu de données :")
print(data.info())

## Visualisation des données

In [None]:
# Configuration du graphique
plt.figure(figsize=(16, 9))

# Tracé des courbes SOLR1 et SOLR2
plt.plot(data['TIMESTAMP'], data['SOLR1'], label='SOLR1', color='blue')
plt.plot(data['TIMESTAMP'], data['SOLR2'], label='SOLR2', color='orange')

# Personnalisation du graphique
plt.title('Évolution du nombre de documents SOLR1 et SOLR2', fontsize=14)
plt.xlabel('Temps', fontsize=12)
plt.ylabel('Nombre de documents', fontsize=12)
plt.xticks(rotation=45)
plt.grid(alpha=0.5)
plt.legend()

# Ajustement automatique de la mise en page
plt.tight_layout()

# Sauvegarde du graphique
plt.savefig('solr_documents_evolution.png')

# Affichage du graphique
plt.show()

## Analyse statistique comparative

Calcul de quelques statistiques descriptives pour SOLR1 et SOLR2 :

In [None]:
# Statistiques descriptives
print("Statistiques pour SOLR1 :")
print(data['SOLR1'].describe())

print("\nStatistiques pour SOLR2 :")
print(data['SOLR2'].describe())

## Conclusions

- Analyse réalisée sur les documents SOLR1 et SOLR2
- Graphique généré et sauvegardé
- Statistiques descriptives calculées