In [25]:
import os
import json
import music21 as m21
import numpy as np
import tensorflow.keras as keras

datosdatatema = "c:/Users/Davids/Documents/AplicaTesis/testCueca/"
datostemacodi = "c:/Users/Davids/Documents/AplicaTesis/temacodificado/"
datasetunido = "c:/Users/Davids/Documents/AplicaTesis/dataset/aplicatesis"
rutadiccionario = "c:/Users/Davids/Documents/AplicaTesis/diccionario/diccionario.json"
longitudsecuencia = 64

# las duraciones se expresan en longitud de negra
duraciones = [ 0.125, 0.5, 0.75,1.0,1.5,2,3,4,5,6]


In [26]:
def cargartemas(ruta_dataset):
   
    canciones = []

    # recorrer todos los archivos en el conjunto de datos y cargarlos con music21
    for ruta, subdirectorios, archivos in os.walk(ruta_dataset):
        for archivo in archivos:

            # considerar solo archivos kern
            if archivo[-3:] == "krn":
                cancion = m21.converter.parse(os.path.join(ruta, archivo))
                canciones.append(cancion)
    return canciones


In [27]:
def duracionespermitidas(cancion, duraciones_aceptables):
  
    for nota in cancion.flatten().notesAndRests:
        if nota.duration.quarterLength not in duraciones_aceptables:
            return False
    return True

In [28]:
def transponer(cancion):
    # obtener la tonalidad de la canción
    partes = cancion.getElementsByClass(m21.stream.Part)
    compases_parte0 = partes[0].getElementsByClass(m21.stream.Measure)
    tonalidad = compases_parte0[0][4]

    # estimar la tonalidad usando music21
    if not isinstance(tonalidad, m21.key.Key):
        tonalidad = cancion.analyze("key")

    # obtener el intervalo para la transposición. Por ejemplo, Si mayor -> Do mayor
    if tonalidad.mode == "major":
        intervalo = m21.interval.Interval(tonalidad.tonic, m21.pitch.Pitch("C"))
    elif tonalidad.mode == "minor":
        intervalo = m21.interval.Interval(tonalidad.tonic, m21.pitch.Pitch("A"))

    # transponer la canción por el intervalo calculado
    cancion_transpuesta = cancion.transpose(intervalo)
    return cancion_transpuesta


In [29]:
def codificar_cancion(cancion, paso_temporal=0.125):
    
    cancion_codificada = []

    for evento in cancion.flatten().notesAndRests:

        # manejar notas
        if isinstance(evento, m21.note.Note):
            simbolo = evento.pitch.midi # 60
        # manejar silencios
        elif isinstance(evento, m21.note.Rest):
            simbolo = "r"

        # convertir la nota/silencio en notación de serie temporal
        pasos = int(evento.duration.quarterLength / paso_temporal)
        for paso in range(pasos):

            # si es la primera vez que vemos una nota/silencio, la codificamos. De lo contrario, significa que estamos llevando el mismo
            # símbolo en un nuevo paso temporal
            if paso == 0:
                cancion_codificada.append(simbolo)
            else:
                cancion_codificada.append("_")

    # convertir la canción codificada a str
    cancion_codificada = " ".join(map(str, cancion_codificada))

    return cancion_codificada

In [30]:
def preprocesar(ruta_dataset):

    # cargar canciones folklóricas
    print("Cargando canciones...")
    canciones = cargar_canciones_en_kern(ruta_dataset)
    print(f"Se cargaron {len(canciones)} canciones.")

    for i, cancion in enumerate(canciones):

        # filtrar canciones que tienen duraciones no aceptables
        if not tiene_duraciones_aceptables(cancion, DURACIONES_ACEPTABLES):
            continue

        # transponer canciones a Do mayor/La menor
        cancion = transponer(cancion)

        # codificar canciones con representación musical de serie temporal
        cancion_codificada = codificar_cancion(cancion)

        # guardar canciones en archivo de texto
        ruta_guardado = os.path.join(DIRECTORIO_GUARDADO, str(i))
        with open(ruta_guardado, "w") as fp:
            fp.write(cancion_codificada)

In [31]:
def cargar(ruta_archivo):
    with open(ruta_archivo, "r") as fp:
        cancion = fp.read()
    return cancion


In [32]:

def crear_dataset_individual(dataset_ruta, dataset_archivo_ruta, longitud_secuencia):
    
    delimitador_nueva_cancion = "/ " * longitud_secuencia
    canciones = ""

    # cargar canciones codificadas y agregar delimitadores
    for ruta, _, archivos in os.walk(dataset_ruta):
        for archivo in archivos:
            ruta_archivo = os.path.join(ruta, archivo)
            cancion = cargar(ruta_archivo)
            canciones = canciones + cancion + " " + delimitador_nueva_cancion

    # eliminar espacio en blanco del último carácter de la cadena
    canciones = canciones[:-1]

    # guardar cadena que contiene todo el conjunto de datos
    with open(dataset_archivo_ruta, "w") as fp:
        fp.write(canciones)

    return canciones

In [33]:
def crear_mapeo(canciones, ruta_mapeo): 
  
    mapeos = {}

    # identificar el vocabulario
    canciones = canciones.split()
    vocabulario = list(set(canciones))

    # crear mapeos
    for i, simbolo in enumerate(vocabulario):
        mapeos[simbolo] = i

    # guardar vocabulario en un archivo json
    with open(ruta_mapeo, "w") as fp:
        json.dump(mapeos, fp, indent=4)


In [34]:
def convertir_canciones_a_enteros(canciones):
    canciones_enteros = []

    # cargar mapeos
    with open(RUTA_MAPEO, "r") as fp:
        mapeos = json.load(fp)

    # transformar cadena de canciones a lista
    canciones = canciones.split()

    # mapear canciones a enteros
    for simbolo in canciones:
        canciones_enteros.append(mapeos[simbolo])

    return canciones_enteros

In [35]:

def generar_secuencias_entrenamiento(longitud_secuencia):
    ver = 0
    # cargar canciones y mapearlas a enteros
    canciones = cargar(CONJUNTO_DATOS_UNICO)
    canciones_enteros = convertir_canciones_a_enteros(canciones)

    entradas = []
    objetivos = []

    # generar las secuencias de entrenamiento
    num_secuencias = len(canciones_enteros) - longitud_secuencia
    #print(num_secuencias)
    for i in range(num_secuencias):
        entradas.append(canciones_enteros[i:i+longitud_secuencia])
        objetivos.append(canciones_enteros[i+longitud_secuencia])
        #print("Secuencia de Entrada:", entradas)
        #print("Objetivo:", objetivos)
        #print("----")

    # codificar en one-hot las secuencias
    tamano_vocabulario = len(set(canciones_enteros))
    #print(tamano_vocabulario)
    # tamaño de entradas: (# de secuencias, longitud de secuencia, tamaño de vocabulario)
    
    entradas = keras.utils.to_categorical(entradas, num_classes=tamano_vocabulario)
    #subset_entradas = entradas[:1]
    #np.savetxt('subset_representacion_one_hot.txt', subset_entradas.reshape(subset_entradas.shape[0], -1), fmt='%d')     
    objetivos = np.array(objetivos)

    return entradas, objetivos


In [36]:

def main():
    preprocesar(datosdatatema)
    canciones = crear_dataset_individual(datostemacodi, datasetunido, longitudsecuencia)
    crear_mapeo(canciones, RUTA_MAPEO)
    entradas, objetivos = generar_secuencias_entrenamiento(longitudsecuencia)


if __name__ == "__main__":
    main()



Cargando canciones...
Se cargaron 17 canciones.
376098
52


In [None]:
#!jupyter nbconvert --to script preprocesamiento.ipynb

