In [24]:
import ast
from collections import Counter
import math
import zlib
import pandas as pd
import numpy as np 
import mido

In [3]:
output_directory = "music_metrics.csv"

In [4]:
def extract_features(notes_dict):
    pitches = [note[0] for note in notes_dict.values()]
    durations = [note[1] for note in notes_dict.values()]
    velocities = [note[2] for note in notes_dict.values()]
    return pitches, durations, velocities
def calculate_entropy(sequence):
    counts = Counter(sequence)
    probabilities = [count / len(sequence) for count in counts.values()]
    return -sum(p * math.log2(p) for p in probabilities if p > 0)
def calculate_compression_ratio(sequence):
    # Convert the sequence to a string for compression
    sequence_str = ",".join(map(str, sequence))
    compressed = zlib.compress(sequence_str.encode('utf-8'))
    return len(compressed) / len(sequence_str.encode('utf-8'))

def calculate_metrix(df):
    complexity_scores = []
    for _, row in df.iterrows():
        notes_dict = ast.literal_eval(row["Notes"])  # Convert string back to dictionary
        pitches, durations, velocities = extract_features(notes_dict)

        metrics = {
        "pitch_entropy": calculate_entropy(pitches),
        "duration_entropy": calculate_entropy(durations),
        "velocity_entropy": calculate_entropy(velocities),
        "pitch_compression": calculate_compression_ratio(pitches),
        "duration_compression": calculate_compression_ratio(durations),
        "velocity_compression": calculate_compression_ratio(velocities),
        }

        complexity_scores.append(metrics)

    # Add the complexity column to the dataframe
    return complexity_scores

In [7]:
df = pd.read_csv(output_directory)
df["Metrix"] = calculate_metrix(df)
print(df["Metrix"])

0       {'pitch_entropy': 4.039494663005557, 'duration...
1       {'pitch_entropy': 3.3698373541095803, 'duratio...
2       {'pitch_entropy': 3.6740738464145557, 'duratio...
3       {'pitch_entropy': 4.404917585176534, 'duration...
4       {'pitch_entropy': 4.484162704131576, 'duration...
                              ...                        
2031    {'pitch_entropy': 4.346988230461985, 'duration...
2032    {'pitch_entropy': 4.517722105737881, 'duration...
2033    {'pitch_entropy': 4.0377172942187, 'duration_e...
2034    {'pitch_entropy': 3.960525399817489, 'duration...
2035    {'pitch_entropy': 4.226813284500464, 'duration...
Name: Metrix, Length: 2036, dtype: object


In [6]:
df.shape

(2036, 7)

In [10]:
def extract_notes_from_df(df):
    # Cr√©e trois nouvelles colonnes pour les pitches, durations et velocities
    df["pitches"] = df["Notes"].apply(lambda x: [note[0] for note in ast.literal_eval(x).values()])
    df["durations"] = df["Notes"].apply(lambda x: [note[1] for note in ast.literal_eval(x).values()])
    df["velocities"] = df["Notes"].apply(lambda x: [note[2] for note in ast.literal_eval(x).values()])
    return df


df = extract_notes_from_df(df)

In [16]:
#l = [df["pitches"][0],df["durations"][0],df["velocities"][0]]


print(df["pitches"][0][0]) #df["pitches"] est en 2D

55


Il n'y a que des partitions de piano dans le dataset, une seule piste √† chaque morceau/ligne (donc ce qu'on voulait nice)

In [29]:
#Je veux des listes des triplets 


def extract_triplets(df):
    """
    Convert the 'Notes' column in the DataFrame into a list of triplets (pitches, durations, velocities).
    
    Args:
        df (pd.DataFrame): DataFrame containing a 'Notes' column with dictionary-like strings.
        
    Returns:
        pd.DataFrame: Updated DataFrame with a new column 'triplets' containing the list of tuples.
    """
    df["triplets"] = df["Notes"].apply(lambda x: [tuple(note) for note in ast.literal_eval(x).values()])
    return df

In [30]:
df = extract_triplets(df)

**On encode notre musique en une s√©quence de mots, √©crits en bits. Les mots sont s√©par√©s par des espaces.**

S√©quence : position - p - d - v


Approche de la complexit√© de Kolmogorov
En gros une note c'est un triplet (p,d,v) (pitch, duratio,velocity)
Donc deux notes identiques c'est deux notes qui ont les m√™mes p,d,v
Si on a deux m√™mes p,d,v alors on a juste √† √©crire la note une fois, et √† mettre ses 2 emplacements. C'est moins long que d'encoder deux fois l'emplacement et le p,d,v. Donc premier facteur de r√©duction de complexit√©


Savoir qu'il y a plusieurs notes de m√™me p √ßa sert pas forc√©ment √† grand chose car il faut quand m√™me noter leur emplacement
Mais quand plusieurs notes de m√™me p ou d ou v se suivent la c'est int√©ressant et √ßa fait diminuer la complexit√©
Donc quand on a des notes qui se suivent avec m√™mes p ou d ou v, complexit√© diminue

pareil si c'est pour des couples de var : si deux notes se suivent avec m√™me p,v (mais d diff√©rent) alors √ßa fait quand m√™me bien diminuer la complexit√© 
Algo : 

1) on imagine que notre code code toutes les notes uniques et sans aucunes r√©petitions de p,d,v √† droite ou √† gauche, avec leurs emplacements

2) puis il prend celles qui se r√©p√®tentsur une ou 2 vars, et les codes ensemble

3) puis il prend les notes identiques et code juste leur emplacement

Si une note est √† la fois exactement √©gale √† une autre, et apparait dans une r√©p√©tition de p, alors comment on l'encode ? Ca c'est une bonne question (elle appartient aux notes de cat√©gorie 2 et 3 √† la fois)
-> Pour l'instant on consid√®re que la m√©thode 3 est toujours plus efficace, donc on classe ce genre de note dans la classe 3

--> En v√©rit√© √ßa va d√©pendre de la longueur de la r√©p√©tition d'une var. Si √ßa fait beaucoup diminuer la complexit√© des notes voisines alors il faudrait prendre encodage 2. Mais y a aussi un probl√®me avec cette esp√®ce de "valeur" de complexit√©. On fait des +1 -1 genre ?

Pour l'instant oui 

Plus long encodage : chaque triplet et son emplacement 

Taille de l'encodage d'un triplet (ùëù,ùëë,ùë£) : constante ùê∂_note
Taille de l'encodage de la position : constant ùê∂_position
nombre de notes : n 
Taille maximale de l'encodage : n x (ùê∂_note + ùê∂_position) 

In [None]:
mean_length = np.mean([len(df["triplets"][i]) for i in range(len(df["triplets"]))])
print(mean_length)

max_length = np.max([len(df["triplets"][i]) for i in range(len(df["triplets"]))])
print(max_length)

taille encodage p : p varie de 0 √† 127, il est donc √©crit sur 7 bits

d en millisecondes, ne d√©passe pas 10 000 ms :  14 bits

v varie de 0 √† 127 : 7 bits

ùê∂_note = 28 bits

la partition la plus longue comporte : 9824 notes
9824 se code sur 14 bits
donc la position se code sur 14 bits

ùê∂_position = 14 bits

Taille maximale de l'encodage = n x 42 bits

S√©quence :  p - d - v - position
Soit :      7   14  7      14       en bits

Si on voit plusieurs s√©quences de 14 bits d'affil√©es, c'est qu'on a un triplet identique √† plusieurs endroits, et qu'on encode √† la suite les positions

(peut-√™tre que ce serait bien de pr√©ciser la position que dans ce cas d'ailleurs, car sinon la suite se lit comme une s√©quence, les notes sont cod√©es les unes apr√®s les autres selon leur ordre d'apparition, donc on connait d√©j√† leur position)

il faut avoir une mani√®re de pr√©ciser dans le code qu‚Äôon a une r√©p√©tition et la taille de la r√©p√©tition. Il y a 5 types de r√©p√©titions possibles : d, p , v ou de doublets (p,v) , (p,d) (d,v), √ßa se code sur 4 bits. Ca tombe bien rien ne fait 4 bits dans ce qui pr√©c√©de, donc dans notre code c√®s qu'on voit 4 bits, √ßa veut dire qu'il y a r√©p√©tition. Ca dit qu'est-ce qui est r√©p√©t√©. Puis ensuite √ßa donne le nombre de r√©p√©titions. Pas sur que ce 'quand tu vois un mot de 4 bits c'est que c'est pour pr√©ciser une r√©p√©tition donc tu sais ce que √ßa veut dire' soit tr√®s correct. On suppose que les mots sont s√©par√©s par des espaces. Est-ce qu'on peut faire cette hypoth√®se ? 

In [34]:
partition = df["triplets"][0]

In [49]:
#print(partition)

In [39]:
def detect_continuous_repetitions(triplets):
    """
    D√©tecte les r√©p√©titions contigu√´s dans une liste de triplets (p, d, v) 
    et les classe par type de r√©p√©tition.
    
    Args:
        triplets (list of tuples): Liste des notes sous forme de triplets (p, d, v).
        
    Returns:
        dict: Dictionnaire contenant les r√©p√©titions d√©tect√©es sous forme de listes d'indices.
    """
    repetitions = {
        "p": [],       # R√©p√©titions de pitches
        "d": [],       # R√©p√©titions de durations
        "v": [],       # R√©p√©titions de velocities
        "p_v": [],     # R√©p√©titions de (p, v)
        "p_d": [],     # R√©p√©titions de (p, d)
        "d_v": []      # R√©p√©titions de (d, v)
    }
    
    n = len(triplets)
    
    # Fonction pour d√©tecter les r√©p√©titions sur une cl√© donn√©e
    def detect_repetition(key_func):
        result = []
        start = 0  # D√©but d'une r√©p√©tition
        for i in range(1, n):
            if key_func(triplets[i]) == key_func(triplets[i - 1]):
                continue  # La r√©p√©tition continue
            else:
                # Fin de la r√©p√©tition
                if i - start > 1:  # Une r√©p√©tition doit avoir au moins 2 √©l√©ments
                    result.append(list(range(start, i)))
                start = i  # Nouvelle r√©p√©tition
        # Ajouter la derni√®re r√©p√©tition
        if n - start > 1:
            result.append(list(range(start, n)))
        return result
    
    # Appliquer la d√©tection pour chaque type
    repetitions["p"] = detect_repetition(lambda t: t[0])  # R√©p√©titions sur p
    repetitions["d"] = detect_repetition(lambda t: t[1])  # R√©p√©titions sur d
    repetitions["v"] = detect_repetition(lambda t: t[2])  # R√©p√©titions sur v
    repetitions["p_v"] = detect_repetition(lambda t: (t[0], t[2]))  # R√©p√©titions sur (p, v)
    repetitions["p_d"] = detect_repetition(lambda t: (t[0], t[1]))  # R√©p√©titions sur (p, d)
    repetitions["d_v"] = detect_repetition(lambda t: (t[1], t[2]))  # R√©p√©titions sur (d, v)
    
    return repetitions

triplets = [(55, 305, 84), (55, 305, 84),(74, 600, 120),(55, 305, 84),(55, 305, 84),(55, 305, 84)]

dico_repet = detect_continuous_repetitions(triplets)

print(dico_repet)

{'p': [[0, 1], [3, 4, 5]], 'd': [[0, 1], [3, 4, 5]], 'v': [[0, 1], [3, 4, 5]], 'p_v': [[0, 1], [3, 4, 5]], 'p_d': [[0, 1], [3, 4, 5]], 'd_v': [[0, 1], [3, 4, 5]]}


In [44]:
def detect_prioritized_repetitions(partition):
    """
    D√©tecte les r√©p√©titions contigu√´s de doublets (p, d), (p, v), (d, v) 
    et les r√©p√©titions simples dans une liste de partition.
    """
    repetitions = {
        "p_d": [],
        "d_v": [],
        "p_v": [],
        "p": [],
        "d": [],
        "v": []
    }

    n = len(partition)
    used_indices = set()

    def detect_repetition(key_func, existing_indices):
        result = []
        start = 0
        for i in range(1, n):
            if key_func(partition[i]) == key_func(partition[i - 1]) and i not in existing_indices:
                continue
            else:
                if i - start > 1 and not any(j in existing_indices for j in range(start, i)):
                    result.append(list(range(start, i)))
                start = i
        if n - start > 1 and not any(j in existing_indices for j in range(start, n)):
            result.append(list(range(start, n)))
        return result

    # D√©tection des doublets
    repetitions["p_d"] = detect_repetition(lambda t: (t[0], t[1]), used_indices)
    used_indices.update([idx for group in repetitions["p_d"] for idx in group])

    repetitions["d_v"] = detect_repetition(lambda t: (t[1], t[2]), used_indices)
    used_indices.update([idx for group in repetitions["d_v"] for idx in group])

    repetitions["p_v"] = detect_repetition(lambda t: (t[0], t[2]), used_indices)
    used_indices.update([idx for group in repetitions["p_v"] for idx in group])

    # D√©tection des r√©p√©titions simples
    repetitions["p"] = detect_repetition(lambda t: t[0], used_indices)
    used_indices.update([idx for group in repetitions["p"] for idx in group])

    repetitions["d"] = detect_repetition(lambda t: t[1], used_indices)
    used_indices.update([idx for group in repetitions["d"] for idx in group])

    repetitions["v"] = detect_repetition(lambda t: t[2], used_indices)

    return repetitions

#TEST

partition = [(56, 305, 85), (55, 305, 85),(74, 600, 120),(53, 305, 85),(54, 305, 85),(51, 305, 85)]

dico_repet = detect_prioritized_repetitions(partition)

print(dico_repet)

{'p_d': [], 'd_v': [[0, 1], [3, 4, 5]], 'p_v': [], 'p': [], 'd': [], 'v': []}


In [48]:
from collections import Counter

def traiter_triplets(partition):
    """
    D√©tecte les triplets pr√©sents au moins deux fois dans la liste,
    renvoie un dictionnaire avec leur nombre d'occurrences
    et une liste sans aucune occurrence des triplets r√©p√©t√©s.

    Args:
        partition (list of tuples): Liste des triplets (p, d, v).

    Returns:
        dict: Dictionnaire avec les triplets r√©p√©t√©s comme cl√©s et leur occurrence comme valeurs.
        list: Liste des triplets sans aucune occurrence des r√©p√©titions.
    """
    # √âtape 1 : Compter les occurrences de chaque triplet
    compteur = Counter(partition)
    
    # √âtape 2 : Construire un dictionnaire des triplets ayant des occurrences >= 2
    dico_repetitions = {triplet: count for triplet, count in compteur.items() if count >= 2}
    
    # √âtape 3 : Construire une nouvelle liste en excluant les triplets dupliqu√©s
    liste_sans_repetitions = [triplet for triplet in partition if compteur[triplet] == 1]
    
    return dico_repetitions, liste_sans_repetitions



partition = [(55, 305, 85), (55, 305, 85),(74, 600, 120),(55, 305, 85),(55, 305, 85),(51, 305, 85)]

dico,liste = traiter_triplets(partition)

print(dico,liste)

{(55, 305, 85): 4} [(74, 600, 120), (51, 305, 85)]


In [51]:
def estim_complexite(partition) :
    """ partition : liste de tuples de 3 int. Chaque tuple repr√©sente une note
    Cette fonction estime la complexit√© de la partition, √† partir des hypoth√®ses √©mises pr√©c√©demment
    """
    worst_complexity = 42*len(partition) #Comme expliqu√© plus haut 
    #d√©tecter les triplets identiques
    same_triplets,partition_reduite = traiter_triplets(partition)
    #On utilisera le dictionnaire same_triplets, pour calculer la r√©duction de complexit√©, apr√®s

    #d√©tecter les r√©p√©titions de d, p , v ou de doublets (p,v),(p,d) (d,v)
    repetitions = detect_prioritized_repetitions(partition_reduite)

    #Maintenant on va utiliser nos deux dictionnaires 'same_triplets' et repetitions pour calculer la r√©duction de complexit√©

    #On commence par les triplets identiques 
    gain_triplets_identiques = sum((count - 1) * 28 for count in same_triplets.values())

    #Maintenant gain sur les r√©p√©titions de doublet ou simple variable
    # D√©finition des √©conomies par type
    gains_par_type = {
        "p": 7,
        "d": 14,
        "v": 7,
        "p_d": 21,
        "p_v": 14,
        "d_v": 21
    }
    
    gain_repetitions = 0
    
    # Boucle sur chaque type de r√©p√©tition
    for type_repet, repetitions in repetitions.items():
        for repetition in repetitions:
            taille = len(repetition)  # Taille de la r√©p√©tition
            if taille > 1:  # Les r√©p√©titions doivent √™tre d'au moins 2 notes
                # Calcul des bits √©conomis√©s pour cette r√©p√©tition
                bits_economises = (taille - 1) * gains_par_type[type_repet]
                
                # Bits pour encoder le type (4 bits) et la taille (log2(taille))
                bits_ajoutes = 4 + math.ceil(math.log2(taille))
                
                # Gain net
                gain_net = bits_economises - bits_ajoutes
                gain_repetitions += gain_net

    
    #Et le calcul final
    Complexity = worst_complexity - gain_triplets_identiques - gain_repetitions

    return Complexity

**Explication des calculs**
**Pour les triplets identiques :** 

On doit coder le triplet une seule fois, puis les positions. La complexit√© est alors de :
C = 28 + 14 x nb_repetition_du_triplet. On √©conomise 28 bits √† chaque fois qu'on a un triplet identique en +. On encode 1 fois pour tous les nb_repetition_du_triplet de la partition. Donc on gagne 28x(nb_repetition_du_triplet - 1). Pour chaque triplet r√©p√©t√©.

**Pour les r√©p√©titions de doublets ou simples variables :**

On doit coder de quel type de r√©p√©tition il s'agit. 6 types de r√©p√©tition possibles, donc cette info se code sur 4 bits. C'est d'ailleurs le seul mot de 4 bits possible dans notre s√©quence, donc quand on voit un mot de 4 bits on sait qu'on a √† faire √† une r√©p√©tition. Il faut aussi encoder la taille de la r√©p√©tition : sur combien de notes la r√©p√©tition a lieu. Cette valeur vaut log2(taille_r√©p√©tition). En fonction de la ou les variables qui se r√©p√®tent on √©conomise plus ou moins de bits. p fait 7 bits donc les r√©p√©titions de p √©conomisent 7 bits √† chaque fois (moins tous ceux qu'on a du ajouter pour encoder la r√©p√©tition). Pour une r√©p√©tition de d on √©conomise 14 bits √† chaque fois. Pour des doublets on √©conomise sur chaque variable. Si on a une r√©p√©tion d_p, on √©conomise 7 + 14 = 21 bits par r√©p√©tition. On encode donc cela.

In [56]:
#Tests
partition_test = df["triplets"][0]


print("Complexit√© estim√©e",estim_complexite(partition_test))
print("worst_case complexity = ",42*len(partition_test))

print("ratio de compression via ma m√©thode = ",(estim_complexite(partition_test))/(42*len(partition_test)))




Complexit√© estim√©e 27298
worst_case complexity =  55944
ratio de compression via ma m√©thode =  0.48795223795223797


In [57]:
#Calcul de la compression zip

def calculer_ratio_compression(partition):
    """
    Calcule le ratio de compression d'une partition de triplets en utilisant zlib.

    Args:
        partition (list of tuples): Liste de triplets (p, d, v).

    Returns:
        float: Ratio de compression (valeur entre 0 et 1, o√π plus proche de 0 = meilleure compression).
    """
    # √âtape 1 : Convertir la partition en cha√Æne de caract√®res
    partition_str = ",".join(f"{t[0]}_{t[1]}_{t[2]}" for t in partition)
    
    # √âtape 2 : Compresser la cha√Æne avec zlib
    partition_bytes = partition_str.encode('utf-8')  # Conversion en bytes
    compressed_bytes = zlib.compress(partition_bytes)
    
    # √âtape 3 : Calculer le ratio de compression
    ratio_compression = len(compressed_bytes) / len(partition_bytes)
    
    return ratio_compression

In [None]:
#Tests
partition_test = df["triplets"][0]


print("Complexit√© estim√©e",estim_complexite(partition_test))
print("worst_case complexity = ",42*len(partition_test))

print("ratio de compression via ma m√©thode = ",(estim_complexite(partition_test))/(42*len(partition_test)))
print("ratio de compression avec zip = ",calculer_ratio_compression(partition_test))