# Luismi Bot

### Importación de Datos

In [10]:
import pandas as pd

# Leemos el archivo csv con las letras de Luis Miguel
dataset = pd.read_csv('luis_miguel_lyrics.csv')

# Guardamos solo la columna de lyrics
dataset = dataset['lyrics']
dataset.head()

0       Ah, ah, ah, ah\nAh, ah, ah, ah\nAh, ah, ah, ah
1    Quero, te abraçar apertado\nTe quero, te apert...
2    Quero, este fogo me queima\nTe quero, cada hor...
3    Somos dois, dois apaixonados\nNeste amor, doce...
4    Somos dois, dois apaixonados\nEu, você, é mara...
Name: lyrics, dtype: object

In [11]:
import re

# Reemplazamos las vocales acentuadas por vocales sin acento y eliminamos los caracteres
# que no se encuentren en el rango de caracteres [a-zA-Z0-9ñÑ,.:;?[]()!"\'‘’“”…¡¿\n ]
# incluyendo mayúsculas, minúsculas y espacios, en nueustro dataset de canciones
for i in range(len(dataset)):
    dataset[i] = re.sub(r'[ÁÀ]', 'A', str(dataset[i]))
    dataset[i] = re.sub(r'[áà]', 'a', str(dataset[i]))
    dataset[i] = re.sub(r'[ÉÈËЕ]', 'E', str(dataset[i]))
    dataset[i] = re.sub(r'[éèëе]', 'e', str(dataset[i]))
    dataset[i] = re.sub(r'[ÍÌ]', 'I', str(dataset[i]))
    dataset[i] = re.sub(r'[íì]', 'i', str(dataset[i]))
    dataset[i] = re.sub(r'[ÓÒŌ]', 'O', str(dataset[i]))
    dataset[i] = re.sub(r'[óòō]', 'o', str(dataset[i]))
    dataset[i] = re.sub(r'[ÚÙÜ]', 'U', str(dataset[i]))
    dataset[i] = re.sub(r'[úùü]', 'u', str(dataset[i]))
    dataset[i] = re.sub(r'[ćč]', 'c', str(dataset[i]))
    dataset[i] = re.sub(r'[ĆČ]', 'c', str(dataset[i]))
    dataset[i] = re.sub(r'[^a-zA-Z0-9ñÑ,.:;?[\]()!"\'‘’“”…¡¿\n ]', '', str(dataset[i]))

dataset.head()    

0       Ah, ah, ah, ah\nAh, ah, ah, ah\nAh, ah, ah, ah
1    Quero, te abraar apertado\nTe quero, te aperta...
2    Quero, este fogo me queima\nTe quero, cada hor...
3    Somos dois, dois apaixonados\nNeste amor, doce...
4    Somos dois, dois apaixonados\nEu, voc, e marav...
Name: lyrics, dtype: object

In [12]:
# Lo convertimos a un archivo de texto
dataset.to_csv('lyrics.txt', index=False, header=False)

In [13]:
# Abriendo el archivo de texto
with open('lyrics.txt', 'r') as file:
    data = file.read()

# Imprimimos un fragmento del texto
print(data[0:1000])

"Ah, ah, ah, ah
Ah, ah, ah, ah
Ah, ah, ah, ah"
"Quero, te abraar apertado
Te quero, te apertar no meu corpo
Te quero, te falar deste amor
E beijar voc pela vida inteira"
"Quero, este fogo me queima
Te quero, cada hora que passa
Te espero, de repente o que importa
E que somos dois, dois apaixonados"
"Somos dois, dois apaixonados
Neste amor, doce, limpo e claro
E nos dois, vamos pouco a pouco
Descobrindo todo o amor do mundo"
"Somos dois, dois apaixonados
Eu, voc, e maravilhoso
Encontrar a felicidade
Que nos dois achamos um no outro"
"Ah, ah, ah, ah
Ah, ah, ah, ah
Ah, ah, ah, ah"
"Quero, te abraar apertado
Te quero, te apertar no meu corpo
Te quero, te falar deste amor
E beijar voc pela vida inteira"
"Somos dois, dois apaixonados
Neste amor, doce, limpo e claro
E nos dois, vamos pouco a pouco
Descobrindo todo o amor do mundo"
"Somos dois, dois apaixonados
Eu, voc, e maravilhoso
Encontrar a felicidade
Que nos dois achamos um no outro"
"Ah, ah, ah, ah
Ah, ah, ah, ah
Ah, ah, ah, ah"
"Te des

In [14]:
# Imprimimos todos los caracteres que se encuentran en el texto
"".join(sorted(set(data.lower())))

'\n !"\'(),.023:;?[]abcdefghijklmnopqrstuvwxyz¡¿ñ…'

### Tokenización

In [15]:
import tensorflow as tf

# Creamos un tokenizador
tokenizer = tf.keras.preprocessing.text.Tokenizer(char_level=True)
tokenizer.fit_on_texts(data)

In [16]:
tokenizer.texts_to_sequences(['la incondicional'])

[[11, 3, 1, 8, 7, 15, 4, 7, 13, 8, 15, 8, 4, 7, 3, 11]]

In [17]:
tokenizer.sequences_to_texts([[11, 3, 1, 8, 7, 15, 4, 7, 13, 8, 15, 8, 4, 7, 3, 11]]) 

['l a   i n c o n d i c i o n a l']

In [18]:
# Obtenemos el número de caracteres únicos y el total de caracteres
max_id = len(tokenizer.word_index)
dataset_size = tokenizer.document_count

In [19]:
import numpy as np

# Creamos un arreglo con todos los caracteres del texto
[encoded] = np.array(tokenizer.texts_to_sequences([data])) - 1

# Impresión de los primeros 100 caracteres
print([encoded[:100]])

[array([16,  2, 21, 23,  0,  2, 21, 23,  0,  2, 21, 23,  0,  2, 21,  9,  2,
       21, 23,  0,  2, 21, 23,  0,  2, 21, 23,  0,  2, 21,  9,  2, 21, 23,
        0,  2, 21, 23,  0,  2, 21, 23,  0,  2, 21, 16,  9, 16, 17,  8,  1,
        5,  3, 23,  0, 11,  1,  0,  2, 20,  5,  2,  2,  5,  0,  2, 15,  1,
        5, 11,  2, 12,  3,  9, 11,  1,  0, 17,  8,  1,  5,  3, 23,  0, 11,
        1,  0,  2, 15,  1,  5, 11,  2,  5,  0,  6,  3,  0, 13,  1])]


### Preprocesamiento

In [20]:
import tensorflow as tf

# Creamos un dataset con los caracteres del texto
train_size = dataset_size * 90 // 100
dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size])

In [21]:
# Definimos el tamaño de la ventana
n_steps = 100
window_length = n_steps + 1

# Creamos un dataset con ventanas de tamaño 101
dataset = dataset.window(window_length, shift=1, drop_remainder=True)

In [22]:
# Convertimos el dataset a un arreglo de numpy
dataset = dataset.flat_map(lambda window: window.batch(window_length))

In [23]:
# Creamos una semilla para el generador de números aleatorios
np.random.seed(42)
tf.random.set_seed(42)

In [24]:
# Definimos el tamaño del batch
batch_size = 32

# Mezclamos el dataset y lo dividimos en batches
dataset = dataset.shuffle(10000).batch(batch_size)
dataset = dataset.map(lambda windows: (windows[:, :-1], windows[:, 1:]))

In [25]:
# Dividimos el dataset en entrenamiento y prueba
dataset = dataset.map(
    lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth=max_id), Y_batch))

In [26]:
# Obtenemos el tamaño del dataset
dataset = dataset.prefetch(1)

for X_batch, Y_batch in dataset.take(1):
    print(X_batch.shape, Y_batch.shape)

2023-05-22 09:12:17.130219: W tensorflow/tsl/platform/profile_utils/cpu_utils.cc:128] Failed to get CPU frequency: 0 Hz


(32, 100, 47) (32, 100)


### Entrenamiento

In [18]:
from tensorflow import keras

# Definimos el modelo
model = tf.keras.models.Sequential([
    keras.layers.GRU(128, return_sequences=True, input_shape=[None, max_id],
                        dropout=0.2),
    keras.layers.GRU(128, return_sequences=True,
                        dropout=0.2),
    keras.layers.TimeDistributed(keras.layers.Dense(max_id,
                                                    activation="softmax"))
])

# Compilamos el modelo
model.compile(loss="sparse_categorical_crossentropy", optimizer="adam")

# Entrenamos el modelo
history = model.fit(dataset, epochs=10)
    

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


### Predicción

In [27]:
# Función para preprocessar el texto
def preprocess(texts):
    X = np.array(tokenizer.texts_to_sequences(texts)) - 1
    return tf.one_hot(X, max_id)

In [42]:
# Predecimos el siguiente caracter
X_new = preprocess(["la incondicional"])
Y_pred = model.predict(X_new)
clases = np.argmax(Y_pred, axis=-1)
tokenizer.sequences_to_texts(clases + 1)[0][-1]



' '

In [43]:
# Función para obtener el siguiente caracter
def next_char(text, temperature=1):
    X_new = preprocess([text])
    Y_pred = model.predict(X_new, verbose=0)[0, -1:, :]
    rescaled_logits = tf.math.log(Y_pred) / temperature
    char_id = tf.random.categorical(rescaled_logits, num_samples=1) + 1
    return tokenizer.sequences_to_texts(char_id.numpy())[0]

In [44]:
# Función para generar texto
def complete_text(text, n_chars=50, temperature=1):
    for _ in range(n_chars):
        text += next_char(text, temperature)
    return text

### Generación de Texto

In [45]:
print(complete_text("amor", n_chars=500, temperature=0.1))

amor
de la vida en la palabra si te se siento y en el corazon"
"si te se siento y entre tu pelo y yo se tu pensar
en tu pelo y te se si te soñe
como si te soñe
como el sol amor
el sol amor
de la vida en la pasado con las contigo
y se al amor de la vida en la palabra si te siento y el sol como el sol
cuando calienta el sol
cuando calienta el sol
cuando calienta el sol
cuando calienta el sol
cuando calienta el sol
cuando calienta el sol
cuando calienta el sol
cuando calienta el sol
cuando calienta el 


### Guardado del Modelo

In [35]:
# Guardamos el modelo
model.save('luismi_bot.h5')

In [36]:
import pickle

# Guardamos el tokenizador
with open('tokenizer.pickle', 'wb') as handle:
    pickle.dump(tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)