In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import json

# Conformación de secuencias

Las secuencias de compras válidas y completas de cada usuario están disponibles en `sequences.csv`. Sin embargo, para entrenar el modelo de redes neuronales se necesitan entradas uniformes a la red, es decir, la cantidad de productos por entrada será siempre la misma. La realidad es que las secuencias recogidas varían de tamaño, por lo tanto hay que uniformarlas.

Para ello se propone extraer subsecuencias de productos, de una secuencia grande. Se emplea la técnica de ventana móvil, donde se define un tamaño de ventana igual a la dimensión de la entrada. Luego se coloca la ventana al inicio de la secuencia, se extrae la subsecuencia que coincide con la posición y el tamaño de ventan, se desplaza la ventana y se repite este procedimiento. Este acaba cuando la ventana sobresale del tamaño de la secuencia original.

Se debe tener en cuenta que este algoritmo genera subsecuencias de productos respetando el mismo orden cronológico en que fueron comprados, y cada productos de la subsecuencia respetan su adyacencia original. 

In [2]:
df_sequences = pd.read_csv('datasets/sequences.csv')
df_sequences.head()

Unnamed: 0,UserId,Sequences,Length
0,A0010876CNE3ILIM9HV0,"['B004MKEMPI', 'B005HKST1U', 'B001KYRVSO', 'B0...",4
1,A00262022JQPXX5SXEVJR,"['B0071H61FS', 'B005FYJB92', 'B003NEZ0R8', 'B0...",4
2,A00338282E99B8OR2JYTZ,"['B00AO6UKQO', 'B00B0RTA30', 'B00BM4GG9C']",3
3,A004205218STRNUW6PPPA,"['B005UG1YS6', 'B0002Z0R9C']",2
4,A00442102RVQB9UWAU5KD,"['B0056AJGU4', 'B00597GJAO']",2


In [3]:
head = df_sequences.head()

In [15]:
def sequence_moving_window(sequence, window):
    '''
    Extrae subsecuencias de productos adyacentes de un secuencia dada.

    Parámetros:
    ----------
        `sequence`: Secuencia original de la que se extraen todas las subsecuencias de productos.
        Debe ser de tipo `list`, cada elemento puede diferentes tipos.  
        `window`: El tamaño de cada subsecuencia.

    Retorna:
    -------
        `sequences`: Una lista con todas las subsecuencias. Debe ser un tipo `list`, con secuencias de tipo `list`.
    '''
    if len(sequences) < window:
        raise(ValueError('Tamaño de ventana menor a la secuencia'))
    else:
        all_sequences = []
        for i in range(0, len(sequences)-window+1):
            all_sequences.append(sequences[i:i+window])
        return all_sequences

In [43]:
'''
Se crean 9 tablas con las posibles subsecuencias de tamaño de ventana 2 hasta 10.
'''
for n in range(2, 3):
    df_all_sequences_n = pd.DataFrame()
    for original_sequence in df_sequences[df_sequences['Length'] >=n]['Sequences']:
        new_sequences = sequence_moving_window(json.loads(original_sequence.replace("'", '"')), n)
        df_all_sequences_n = pd.concat([df_all_sequences_n, pd.DataFrame(
                {
                    'Sequence': new_sequences,
                    'Length': [n]*len(new_sequences)
                }
            )])
    df_all_sequences_n.to_csv(f'datasets/all_sequences/all_sequences_{n}.csv', index=False)