In [1]:
import pandas as pd

# Charger le fichier original
df = pd.read_csv('data/EDdA_dataframe_withContent.tsv', sep='\t')

# Nettoyage des colonnes non nécessaires
columns_to_drop = ['firstParagraph', 'contentWithoutClass', 'ensemble_domaine_enccre', 'domaine_enccre', 'normClass']
df_cleaned = df.drop(columns=columns_to_drop)

# Enlever les trois premières lignes
df_cleaned = df_cleaned.iloc[3:]

# Sauvegarder les données nettoyées
df_cleaned.to_csv('data/EDdA_dataframe_cleaned.tsv', sep='\t', index=False)

In [3]:
df_cleaned

Unnamed: 0,volume,numero,head,classEDdA,author,id_enccre,content,nb_words
3,1,5,"A, a & a","ordre Encyclopéd. Entend. Science de l'homme, ...",Dumarsais5,v1-1-0,"A, a & a s.m. (ordre Encyclopéd.\nEntend. Scie...",1092
4,1,6,A,unclassified,Dumarsais5,v1-1-1,"A, mot, est 1. la troisieme personne du présen...",381
5,1,7,A,unclassified,Dumarsais,v1-1-2,"A, préposition vient du latin à, à dextris, à ...",3067
6,1,8,A,unclassified,Mallet,v1-1-3,"A, étoit une lettre numérale parmi les Anciens...",285
7,1,9,"A, lettre symbolique",unclassified,Mallet,v1-1-4,"A, lettre symbolique, étoit un hiéroglyphe che...",118
...,...,...,...,...,...,...,...,...
74185,17,3204,TRANSFUGE,Art. milit.,Saint-Lambert5,v17-2197-0,"TRANSFUGE, s. m. (Art. milit.) La plus grande\...",9576
74186,17,3205,VÉNUS,Astronom.,unsigned,v17-2198-0,"VÉNUS, (Astronom.) satellites de Vénus. Depuis...",3754
74187,17,3206,VERS falisque,Poésie latine.,Jaucourt,v17-2199-0,"VERS falisque, (Poésie latine.) vers latin de\...",97
74188,17,3207,"VIBRATION, ou OSCILLATION",Horlog.,Romilly5,v17-2200-0,"VIBRATION, ou OSCILLATION, s. f. (Horlog.) ter...",4945


In [13]:
# Afficher la distribution de nb_words
df_cleaned['nb_words'].describe()

count    74187.000000
mean       350.745912
std       1468.369292
min          0.000000
25%         40.000000
50%         79.000000
75%        201.000000
max      76360.000000
Name: nb_words, dtype: float64

In [2]:
# Faire un sample de 100 lignes
df_sample = df_cleaned.sample(3333)
df_sample.to_csv('data/EDdA_dataframe_sample.tsv', sep='\t', index=False)

In [3]:
import pandas as pd
import tiktoken

# Charger le fichier nettoyé
df_cleaned = pd.read_csv('data/EDdA_dataframe_cleaned.tsv', sep='\t')

# Instancier le tokenizer pour l'encodage des tokens
tokenizer = tiktoken.get_encoding("cl100k_base")

# Convertir la colonne 'content' en chaîne de caractères pour éviter les erreurs
df_cleaned['content'] = df_cleaned['content'].astype(str)

# Calculer le nombre total de tokens pour chaque texte de la colonne 'content'
df_cleaned['token_count'] = df_cleaned['content'].apply(lambda x: len(tokenizer.encode(x)))

# Calculer le nombre total de tokens dans le fichier
total_tokens = df_cleaned['token_count'].sum()

print(f"Nombre total de tokens : {total_tokens}")


Nombre total de tokens : 36356811


In [3]:
# Regarder les 5 premières lignes du fichier EDdA_knowledge_graph.jsonld
import pandas as pd

# Charger le début du fichier EDdA_knowledge_graph.jsonld (en hexadécimal)
with open('data/EDdA_knowledge_graph.jsonld', 'rb') as f:
    data = f.read(10000)

# Convertir les données hexadécimales en chaîne de caractères
data_str = data.decode('utf-8')

# Afficher les 5 premières lignes
print(data_str)

[
  {
    "@context": "http://schema.org",
    "@type": "Article",
    "@id": "v1-1-0",
    "url": "http://enccre.academie-sciences.fr/encyclopedie/article/v1-1-0/",
    "title": "A, a & a",
    "authors": "Dumarsais5",
    "content": "A, a & a s.m. (ordre Encyclopéd.\nEntend. Science de l'homme,\nLogique, Art de communiquer,\nGramm.) caractere ou figure\nde la premiere lettre de l'Alphabet, en latin, en françois,\n& en presque toutes les\nLangues de l'Europe.\nOn peut considérer ce caractere, ou comme lettre,\nou comme mot.\nI. A, en tant que lettre, est le signe du son a, qui\nde tous les sons de la voix est le plus facile à prononcer.\nIl ne faut qu'ouvrir la bouche & pousser l'air des\npoumons:\nOn dit que l'a vient de l'aleph des Hébreux : mais\nl'a en tant que son ne vient que de la conformation\ndes organes de la parole ; & le caractere ou figure\ndont nous nous servons pour représenter ce son,\nnous vient de l'alpha des Grecs. Les Latins & les autres \nPeuples de l'Europe ont i

In [3]:
import json
import numpy as np

def int8_quantize_embeddings(embeddings):
    """
    Quantifie les embeddings en int8.
    :param embeddings: Liste de vecteurs d'embeddings float32.
    :return: Embeddings quantifiés en int8.
    """
    embeddings = np.array(embeddings, dtype=np.float32)
    
    # Trouver les minimums et maximums des embeddings pour chaque dimension
    min_val = embeddings.min(axis=0)
    max_val = embeddings.max(axis=0)
    
    # Quantifier les embeddings en int8
    int8_embeddings = 255 * (embeddings - min_val) / (max_val - min_val) - 128
    int8_embeddings = np.clip(int8_embeddings, -128, 127).astype(np.int8)

    return int8_embeddings.tolist()

def process_jsonld_file(input_file, output_file):
    # Charger le fichier JSON-LD
    with open(input_file, 'r', encoding='utf-8') as f:
        data = json.load(f)
    
    # Parcourir chaque article et quantifier les embeddings
    for article in data:
        if "embedding" in article:
            original_embedding = article["embedding"]
            # Appliquer la quantization int8 sur les embeddings
            article["embedding"] = int8_quantize_embeddings(original_embedding)
    
    # Enregistrer les modifications dans un nouveau fichier JSON-LD
    with open(output_file, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=2)
    
    print(f"Fichier JSON-LD avec embeddings quantifiés sauvegardé dans : {output_file}")

# Utilisation
input_file = 'data/EDdA_knowledge_graph.jsonld'
output_file = 'data/EDdA_knowledge_graph_int8.jsonld'
process_jsonld_file(input_file, output_file)

  int8_embeddings = np.clip(int8_embeddings, -128, 127).astype(np.int8).tolist()


Fichier JSON-LD avec embeddings quantifiés sauvegardé dans : data/EDdA_knowledge_graph_int8.jsonld
