## Exploración del Dataset

Confirmar la estructura del dataset, revisar valores nulos, duplicados e inconsistencias, y verificar los tipos de datos.

In [54]:
import pandas as pd

df = pd.read_csv('/content/search_data_how to get a job at.csv')
display(df.head())

Unnamed: 0,source,seed,is_words_added,search_term,auto_complete_suggestion,words_added,suggestion_count,order_in_results,length,region,language,user_agent,link_url,date_extracted
0,GOOGLE SEARCH,How to get a job at,N,How to get a job at,how to get a job at google,google,7,1,26,us,en,DESKTOP,http://suggestqueries.google.com/complete/sear...,2023-03-08T13:39:49+0000
1,GOOGLE SEARCH,How to get a job at,N,How to get a job at,how to get a job at 14,14,7,2,22,us,en,DESKTOP,http://suggestqueries.google.com/complete/sear...,2023-03-08T13:39:49+0000
2,GOOGLE SEARCH,How to get a job at,N,How to get a job at,how to get a job at walmart,walmart,7,3,27,us,en,DESKTOP,http://suggestqueries.google.com/complete/sear...,2023-03-08T13:39:49+0000
3,GOOGLE SEARCH,How to get a job at,N,How to get a job at,how to get a job at starbucks,starbucks,7,4,29,us,en,DESKTOP,http://suggestqueries.google.com/complete/sear...,2023-03-08T13:39:49+0000
4,GOOGLE SEARCH,How to get a job at,N,How to get a job at,how to get a job at costco,costco,7,5,26,us,en,DESKTOP,http://suggestqueries.google.com/complete/sear...,2023-03-08T13:39:49+0000


In [39]:
# Verificar la estructura: número de filas y columnas
print(f"Número de filas: {df.shape[0]}")
print(f"Número de columnas: {df.shape[1]}")

Número de filas: 1706
Número de columnas: 14


In [55]:
# Revisar valores nulos
print("\nValores nulos por columna:")
display(df.isnull().sum())


Valores nulos por columna:


Unnamed: 0,0
source,0
seed,0
is_words_added,0
search_term,0
auto_complete_suggestion,0
words_added,0
suggestion_count,0
order_in_results,0
length,0
region,0


In [56]:
# Revisar valores duplicados
print("\nNúmero de filas duplicadas:")
print(df.duplicated().sum())


Número de filas duplicadas:
0


In [42]:
# Revisar tipos de datos
print("\nTipos de datos por columna:")
display(df.dtypes)


Tipos de datos por columna:


Unnamed: 0,0
source,object
seed,object
is_words_added,object
search_term,object
auto_complete_suggestion,object
words_added,object
suggestion_count,int64
order_in_results,int64
length,int64
region,object


In [43]:
df.nunique()

Unnamed: 0,0
source,1
seed,1
is_words_added,2
search_term,73
auto_complete_suggestion,687
words_added,687
suggestion_count,12
order_in_results,8
length,33
region,3


### Descipción del Dataset

**source:** valor único (google search) <br>
**seed:** valor único - semilla -**Relevante**
**is_word_added:** booleano (Y/N)<br>
**search_term:** palabra o letra que se agrega a la semilla - **Relevante** <br>
**auto_complete_suggestion:** frase completa sugerida - **Relevante** <br>
**words_added:** palabras adicionadas
**suggestion_count:** cantidad de sugerencias de autocompletado obtenidas para el término de búsqueda - **Relevante**<br>
**order_in_results:** Posición en la que apareció la sugerencia de autocompletado para un search_term específico<br>
**length:** Tamaño del autocomplete_suggestion <br>
**region:** us, canada, uk<br>
**language:** valor único - en<br>
**user_agent:** valor único - DESKTOP<br>
**link_url:** <br>
**date_extracted:** <br>

In [50]:
df['search_term'].unique()

array(['How to get a job at', 'How to get a job at A',
       'How to get a job at B', 'How to get a job at C',
       'How to get a job at D', 'How to get a job at E',
       'How to get a job at F', 'How to get a job at G',
       'How to get a job at H', 'How to get a job at I',
       'How to get a job at J', 'How to get a job at K',
       'How to get a job at L', 'How to get a job at M',
       'How to get a job at N', 'How to get a job at O',
       'How to get a job at P', 'How to get a job at Q',
       'How to get a job at R', 'How to get a job at S',
       'How to get a job at T', 'How to get a job at U',
       'How to get a job at V', 'How to get a job at W',
       'How to get a job at X', 'How to get a job at Y',
       'How to get a job at Z', 'How to get a job at 0',
       'How to get a job at 1', 'How to get a job at 2',
       'How to get a job at 3', 'How to get a job at 4',
       'How to get a job at 5', 'How to get a job at 6',
       'How to get a job at 7', '

## Selección y preparación de variables útiles



**Por qué se incluye region en la concatenación?**<br>

porque la región geográfica del usuario puede influir en las sugerencias de autocompletado que recibe. Las sugerencias populares en Estados Unidos (us) podrían ser diferentes a las de Canadá (ca) o el Reino Unido (uk)

In [57]:
# Seleccionar columnas relevantes
df_filtered = df[['seed', 'search_term', 'auto_complete_suggestion', 'region', 'suggestion_count', 'words_added', 'order_in_results']].copy()

# Crear la nueva columna input_text
df_filtered['input_text'] = df_filtered['search_term'] + " (" + df_filtered['region'] + ")"

# Definir la variable objetivo
df_filtered['target_text'] = df_filtered['auto_complete_suggestion']

# Mostrar las primeras filas del DataFrame filtrado con las nuevas columnas
display(df_filtered.head())

Unnamed: 0,seed,search_term,auto_complete_suggestion,region,suggestion_count,words_added,order_in_results,input_text,target_text
0,How to get a job at,How to get a job at,how to get a job at google,us,7,google,1,How to get a job at (us),how to get a job at google
1,How to get a job at,How to get a job at,how to get a job at 14,us,7,14,2,How to get a job at (us),how to get a job at 14
2,How to get a job at,How to get a job at,how to get a job at walmart,us,7,walmart,3,How to get a job at (us),how to get a job at walmart
3,How to get a job at,How to get a job at,how to get a job at starbucks,us,7,starbucks,4,How to get a job at (us),how to get a job at starbucks
4,How to get a job at,How to get a job at,how to get a job at costco,us,7,costco,5,How to get a job at (us),how to get a job at costco


## Preprocesar los datos




Se debe Tokenizar primero porque sino se tendrían frases completas y el vocabulario se basaría en frases.

In [58]:
import string

# Convertir a minúscula
df['auto_complete_suggestion'] = df['auto_complete_suggestion'].str.lower()

# Remover puntuacion
df['auto_complete_suggestion'] = df['auto_complete_suggestion'].str.translate(str.maketrans('', '', string.punctuation))

# Tokenizar
df['auto_complete_suggestion'] = df['auto_complete_suggestion'].str.split()

display(df.head())

Unnamed: 0,source,seed,is_words_added,search_term,auto_complete_suggestion,words_added,suggestion_count,order_in_results,length,region,language,user_agent,link_url,date_extracted
0,GOOGLE SEARCH,How to get a job at,N,How to get a job at,"[how, to, get, a, job, at, google]",google,7,1,26,us,en,DESKTOP,http://suggestqueries.google.com/complete/sear...,2023-03-08T13:39:49+0000
1,GOOGLE SEARCH,How to get a job at,N,How to get a job at,"[how, to, get, a, job, at, 14]",14,7,2,22,us,en,DESKTOP,http://suggestqueries.google.com/complete/sear...,2023-03-08T13:39:49+0000
2,GOOGLE SEARCH,How to get a job at,N,How to get a job at,"[how, to, get, a, job, at, walmart]",walmart,7,3,27,us,en,DESKTOP,http://suggestqueries.google.com/complete/sear...,2023-03-08T13:39:49+0000
3,GOOGLE SEARCH,How to get a job at,N,How to get a job at,"[how, to, get, a, job, at, starbucks]",starbucks,7,4,29,us,en,DESKTOP,http://suggestqueries.google.com/complete/sear...,2023-03-08T13:39:49+0000
4,GOOGLE SEARCH,How to get a job at,N,How to get a job at,"[how, to, get, a, job, at, costco]",costco,7,5,26,us,en,DESKTOP,http://suggestqueries.google.com/complete/sear...,2023-03-08T13:39:49+0000


In [52]:
import numpy as np
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [53]:
"""
1. Aplanar lista de listas, combina rodas las listas en una sola lista all_words.
"""
all_words = [word for sublist in df['auto_complete_suggestion'] for word in sublist]

"""
2. Crear un vocabulario a partir de all_words. Obtiene palabras únicas de la lista all_words y las ordena alfabéticamente.
"""
vocab = sorted(list(set(all_words)))

"""
3. Crear diccionarios word_to_index y index_to_word. El primero asigna cada palabra en el vocabulario a un índice único,
y el segundo realiza la operación inversa, asignando cada índice único a una palabra en el vocabulario.
"""
word_to_index = {word: i for i, word in enumerate(vocab)}
index_to_word = {i: word for word, i in word_to_index.items()}


"""
4. Definir la longitud máxima de las secuencias de entrada.
Para asegurar más adelante que todas las secuencias de entrada al modelo tengan
la misma longitud rellenando con ceros si es necesario (padding).
"""
max_sequence_length = max(len(seq) for seq in df['auto_complete_suggestion']) -1



In [59]:
"""
5. Crear pares de sequeancias de entrada y salida. El modelo aprenda a predecir la siguiente palabra en la secuencia dada.
"""
input_sequences = []
output_words = []

for seq in df['auto_complete_suggestion']:
    for i in range(1, len(seq)):
        input_sequences.append(seq[:i])
        output_words.append(seq[i])

"""
6. Convertir las secuencias de entrada y las palabras de salida a índices numéricos utilizando el diccionario word_to_index.
Convierte las secuencias de palabras en representaciones numéricas que el modelo pueda procesar.
"""
input_sequences_indexed = [[word_to_index[word] for word in seq] for seq in input_sequences]
output_words_indexed = [word_to_index[word] for word in output_words]

"""
7. Rellenar las secuencias de entrada con ceros para que todas tengan la misma longitud.
Ya que las redes neuronales recurrentes requieren que todas las entradas tengan la misma longitud.
"""
input_sequences_padded = pad_sequences(input_sequences_indexed, maxlen=max_sequence_length, padding='pre')

# Dimensiones
print("Shape of input_sequences_padded:", input_sequences_padded.shape)
print("Shape of output_words_indexed:", np.array(output_words_indexed).shape)

Shape of input_sequences_padded: (11432, 12)
Shape of output_words_indexed: (11432,)


## Entrenar el modelo




In [64]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense
from tensorflow.keras.utils import to_categorical

# Determine vocabulary size
vocab_size = len(word_to_index)

# Convert output words to one-hot encoded format
output_words_one_hot = to_categorical(output_words_indexed, num_classes=vocab_size)

# Build the sequential model
model = Sequential()
# Remove input_length as it's deprecated
model.add(Embedding(input_dim=vocab_size, output_dim=100))
model.add(LSTM(128, return_sequences=True)) # Intermediate LSTM layers should return sequences
model.add(LSTM(128, return_sequences=False)) # The last LSTM layer should not return sequences
model.add(Dense(vocab_size, activation='softmax'))

# Compile the model
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Train the model
model.fit(input_sequences_padded, output_words_one_hot, epochs=10, batch_size=32)

# Store the trained model in a variable
trained_model = model

print("Model training complete.")

Epoch 1/10
[1m358/358[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m24s[0m 54ms/step - accuracy: 0.2029 - loss: 3.8611
Epoch 2/10
[1m358/358[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m19s[0m 53ms/step - accuracy: 0.7031 - loss: 1.8908
Epoch 3/10
[1m358/358[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m18s[0m 52ms/step - accuracy: 0.7287 - loss: 1.5938
Epoch 4/10
[1m358/358[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 56ms/step - accuracy: 0.7455 - loss: 1.4979
Epoch 5/10
[1m358/358[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m18s[0m 50ms/step - accuracy: 0.7432 - loss: 1.4225
Epoch 6/10
[1m358/358[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m22s[0m 55ms/step - accuracy: 0.7597 - loss: 1.3109
Epoch 7/10
[1m358/358[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m18s[0m 50ms/step - accuracy: 0.7613 - loss: 1.2767
Epoch 8/10
[1m358/358[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m18s[0m 50ms/step - accuracy: 0.7724 - loss: 1.2169
Epoch 9/10
[1m358/358[

## Predicción e Interacción con el Usuario

Crearemos una función para generar sugerencias de autocompletado basadas en la entrada del usuario utilizando el modelo entrenado.

In [68]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np

def generate_suggestion(model, tokenizer, max_sequence_length, seed_text, n_words=1):
    """
    Genera la siguiente palabra en una secuencia de texto.

    Args:
        model: El modelo Keras entrenado.
        tokenizer: El tokenizador utilizado para preprocesar los datos.
        max_sequence_length: La longitud máxima de las secuencias de entrada.
        seed_text: El texto inicial para generar la sugerencia.
        n_words: El número de palabras a generar (por defecto es 1).

    Returns:
        La secuencia de texto con la palabra predicha añadida.
    """
    for _ in range(n_words):
        # Preprocesar el texto semilla
        token_list = [tokenizer.word_to_index[word] for word in seed_text.split() if word in tokenizer.word_to_index]
        token_list = pad_sequences([token_list], maxlen=max_sequence_length, padding='pre')

        # Predecir la siguiente palabra
        predicted_probs = model.predict(token_list, verbose=0)
        predicted_word_index = np.argmax(predicted_probs, axis=-1)[0]

        # Convertir el índice a palabra
        predicted_word = tokenizer.index_to_word.get(predicted_word_index, "") # Use .get for safer lookup

        # Añadir la palabra predicha al texto semilla
        seed_text += " " + predicted_word
    return seed_text

# Nota: Necesitamos crear un "tokenizer" que mapee palabras a índices y viceversa.
# Usaremos los diccionarios word_to_index y index_to_word que ya creamos.
# Podemos crear una clase simple o usar los diccionarios directamente en la función.
# Para simplificar, adaptaremos la función para usar los diccionarios existentes.

In [69]:
# Adaptar la función de generación para usar los diccionarios existentes
def generate_suggestion_adapted(model, word_to_index, index_to_word, max_sequence_length, seed_text, n_words=1):
    """
    Genera la siguiente palabra en una secuencia de texto utilizando diccionarios existentes.

    Args:
        model: El modelo Keras entrenado.
        word_to_index: Diccionario que mapea palabras a índices.
        index_to_word: Diccionario que mapea índices a palabras.
        max_sequence_length: La longitud máxima de las secuencias de entrada.
        seed_text: El texto inicial para generar la sugerencia.
        n_words: El número de palabras a generar (por defecto es 1).

    Returns:
        La secuencia de texto con la palabra predicha añadida.
    """
    for _ in range(n_words):
        # Preprocesar el texto semilla
        token_list = [word_to_index[word] for word in seed_text.lower().split() if word.lower() in word_to_index]
        token_list = pad_sequences([token_list], maxlen=max_sequence_length, padding='pre')

        # Predecir la siguiente palabra
        predicted_probs = model.predict(token_list, verbose=0)
        predicted_word_index = np.argmax(predicted_probs, axis=-1)[0]

        # Convertir el índice a palabra
        predicted_word = index_to_word.get(predicted_word_index, "")

        # Añadir la palabra predicha al texto semilla
        seed_text += " " + predicted_word
    return seed_text

# Solicitar entrada al usuario
user_input = input("Introduce un fragmento inicial: ")

# Generar la sugerencia
completed_sentence = generate_suggestion_adapted(trained_model, word_to_index, index_to_word, max_sequence_length, user_input, n_words=5) # Generar 5 palabras como ejemplo

# Mostrar el resultado completo
print("Sugerencia completa:", completed_sentence)

Introduce un fragmento inicial: How to get a job at dev
Sugerencia completa: How to get a job at dev google with no experience aquarium


## Guardar el Modelo Entrenado

Guardaremos el modelo entrenado en un archivo para su uso posterior.

In [67]:
# Save the trained model to a file
trained_model.save('autocomplete_model.h5')

print("Modelo entrenado guardado como 'autocomplete_model.h5'")



Modelo entrenado guardado como 'autocomplete_model.h5'


## Evaluación del Modelo

Evaluaremos el rendimiento del modelo entrenado utilizando un conjunto de prueba y calcularemos métricas relevantes.

In [65]:
from sklearn.model_selection import train_test_split

# Split the data into training and testing sets
# We'll use a test size of 20%
X_train, X_test, y_train, y_test = train_test_split(input_sequences_padded, output_words_one_hot, test_size=0.2, random_state=42)

print("Shape of X_train:", X_train.shape)
print("Shape of X_test:", X_test.shape)
print("Shape of y_train:", y_train.shape)
print("Shape of y_test:", y_test.shape)

Shape of X_train: (9145, 12)
Shape of X_test: (2287, 12)
Shape of y_train: (9145, 732)
Shape of y_test: (2287, 732)


In [66]:
# Evaluate the model on the test set
loss, accuracy = trained_model.evaluate(X_test, y_test, verbose=0)

print(f"Loss on test set: {loss:.4f}")
print(f"Accuracy on test set: {accuracy:.4f}")

Loss on test set: 1.1482
Accuracy on test set: 0.7901
