##### Copyright 2019 The TensorFlow Hub Authors.

Licensed under the Apache License, Version 2.0 (the "License");

In [None]:
# Copyright 2018 The TensorFlow Hub Authors. All Rights Reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# ==============================================================================

# Búsqueda semántica con vecinos más cercanos aproximados e incorporaciones de texto


<table class="tfo-notebook-buttons" align="left">
  <td><a target="_blank" href="https://www.tensorflow.org/hub/tutorials/semantic_approximate_nearest_neighbors"><img src="https://www.tensorflow.org/images/tf_logo_32px.png">Ver en TensorFlow.org</a></td>
  <td><a target="_blank" href="https://colab.research.google.com/github/tensorflow/docs-l10n/blob/master/site/es-419/hub/tutorials/semantic_approximate_nearest_neighbors.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png">Ejecutar en Google Colab</a></td>
  <td>     <a target="_blank" href="https://github.com/tensorflow/docs-l10n/blob/master/site/es-419/hub/tutorials/semantic_approximate_nearest_neighbors.ipynb"><img src="https://www.tensorflow.org/images/GitHub-Mark-32px.png">Ver en GitHub</a>
</td>
  <td><a href="https://storage.googleapis.com/tensorflow_docs/docs-l10n/site/es-419/hub/tutorials/semantic_approximate_nearest_neighbors.ipynb"><img src="https://www.tensorflow.org/images/download_logo_32px.png">Descargar el bloc de notas</a></td>
  <td>     <a href="https://tfhub.dev/google/universal-sentence-encoder/2"><img src="https://www.tensorflow.org/images/hub_logo_32px.png">Ver modelos de TF Hub</a>
</td>
</table>

En este tutorial se ilustra cómo generar incorporaciones desde un módulo de [TensorFlow Hub](https://tfhub.dev) (TF-Hub) según los datos de entrada y crear un índice de vecinos más cercanos aproximados (ANN, por sus siglas en inglés) con las incorporaciones extraídas. Luego, el índice se puede usar para la coincidencia y recuperación de similitudes en tiempo real.

Cuando se trata de un gran corpus de datos, no es eficiente realizar una coincidencia exacta escaneando todo el repositorio para encontrar los elementos más similares a una consulta determinada en tiempo real. Por lo tanto, usamos un algoritmo de coincidencia de similitud aproximada que nos permite intercambiar un poco de la precisión en la búsqueda de coincidencias exactas del vecino más cercano por un aumento significativo en la velocidad.

En este tutorial, mostramos un ejemplo de búsqueda de texto en tiempo real sobre un corpus de titulares de noticias para encontrar los titulares más similares a una consulta. A diferencia de la búsqueda de palabras clave, aquí se captura la similitud semántica codificada en el texto incorporado.

Los pasos de este tutorial son:

1. Descargar datos de muestra.
2. Generar incorporaciones para los datos con un módulo TF-Hub
3. Generar un índice ANN para las incorporaciones
4. Usar el índice para comparar similitudes

Usamos [Apache Beam](https://beam.apache.org/documentation/programming-guide/) con [TensorFlow Transform](https://www.tensorflow.org/tfx/tutorials/transform/simple) (TF-Transform) para generar las incorporaciones desde el módulo TF-Hub. También usamos la biblioteca [ANNOY](https://github.com/spotify/annoy) de Spotify para crear el índice de vecinos más cercanos aproximados. Puede encontrar pruebas comparativas del marco de ANN en este [repositorio de Github](https://github.com/erikbern/ann-benchmarks).

En este tutorial, se usa TensorFlow 1.0 que solo funciona con [módulos Hub](https://www.tensorflow.org/hub/tf1_hub_module) TF1 de TF-Hub. Consulte la [versión TF2 actualizada de este tutorial](https://github.com/tensorflow/docs/blob/master/site/en/hub/tutorials/tf2_semantic_approximate_nearest_neighbors.ipynb).

## Preparación

Instale las bibliotecas necesarias.

In [None]:
!pip install -q apache_beam
!pip install -q 'scikit_learn~=0.23.0'  # For gaussian_random_matrix.
!pip install -q annoy

Importe las bibliotecas requeridas

In [None]:
import os
import sys
import pathlib
import pickle
from collections import namedtuple
from datetime import datetime

import numpy as np
import apache_beam as beam
import annoy
from sklearn.random_projection import gaussian_random_matrix

import tensorflow.compat.v1 as tf
import tensorflow_hub as hub

In [None]:
# TFT needs to be installed afterwards
!pip install -q tensorflow_transform==0.24
import tensorflow_transform as tft
import tensorflow_transform.beam as tft_beam

In [None]:
print('TF version: {}'.format(tf.__version__))
print('TF-Hub version: {}'.format(hub.__version__))
print('TF-Transform version: {}'.format(tft.__version__))
print('Apache Beam version: {}'.format(beam.__version__))

## 1. Descargar datos de muestra

El conjunto de datos [Un millón de titulares de noticias](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/SYBGZL#) contiene titulares de noticias publicados durante un período de 15 años procedentes de la prestigiosa Australian Broadcasting Corp. (ABC). Este conjunto de datos de noticias tiene un registro histórico resumido de eventos notables en el mundo desde principios de 2003 hasta finales de 2017 con un enfoque más local en Australia.

**Formato**: datos en dos columnas y separados por tabulaciones: 1) fecha de publicación y 2) texto del título. Sólo nos interesa el texto del título.


In [None]:
!wget 'https://dataverse.harvard.edu/api/access/datafile/3450625?format=tab&gbrecs=true' -O raw.tsv
!wc -l raw.tsv
!head raw.tsv

Para simplificar, solo mantenemos el texto del título y eliminamos la fecha de publicación.

In [None]:
!rm -r corpus
!mkdir corpus

with open('corpus/text.txt', 'w') as out_file:
  with open('raw.tsv', 'r') as in_file:
    for line in in_file:
      headline = line.split('\t')[1].strip().strip('"')
      out_file.write(headline+"\n")

In [None]:
!tail corpus/text.txt

## Función ayudante para cargar un módulo TF-Hub

In [None]:
def load_module(module_url):
  embed_module = hub.Module(module_url)
  placeholder = tf.placeholder(dtype=tf.string)
  embed = embed_module(placeholder)
  session = tf.Session()
  session.run([tf.global_variables_initializer(), tf.tables_initializer()])
  print('TF-Hub module is loaded.')

  def _embeddings_fn(sentences):
    computed_embeddings = session.run(
        embed, feed_dict={placeholder: sentences})
    return computed_embeddings

  return _embeddings_fn

## 2. Generar incorporaciones para los datos.

En este tutorial, usamos el [Codificador de oraciones universal](https://tfhub.dev/google/universal-sentence-encoder/2) para generar incorporaciones para los datos de los titulares. Las incorporaciones de oraciones se pueden usar fácilmente para calcular la similitud de significado a nivel de oración. Ejecutamos el proceso de generación de incorporaciones con Apache Beam y TF-Transform.

### Método de extracción de incorporaciones

In [None]:
encoder = None

def embed_text(text, module_url, random_projection_matrix):
  # Beam will run this function in different processes that need to
  # import hub and load embed_fn (if not previously loaded)
  global encoder
  if not encoder:
    encoder = hub.Module(module_url)
  embedding = encoder(text)
  if random_projection_matrix is not None:
    # Perform random projection for the embedding
    embedding = tf.matmul(
        embedding, tf.cast(random_projection_matrix, embedding.dtype))
  return embedding


### Crear el método preprocess_fn de TFT

In [None]:
def make_preprocess_fn(module_url, random_projection_matrix=None):
  '''Makes a tft preprocess_fn'''

  def _preprocess_fn(input_features):
    '''tft preprocess_fn'''
    text = input_features['text']
    # Generate the embedding for the input text
    embedding = embed_text(text, module_url, random_projection_matrix)
    
    output_features = {
        'text': text, 
        'embedding': embedding
        }
        
    return output_features
  
  return _preprocess_fn

### Crear metadatos del conjunto de datos

In [None]:
def create_metadata():
  '''Creates metadata for the raw data'''
  from tensorflow_transform.tf_metadata import dataset_metadata
  from tensorflow_transform.tf_metadata import schema_utils
  feature_spec = {'text': tf.FixedLenFeature([], dtype=tf.string)}
  schema = schema_utils.schema_from_feature_spec(feature_spec)
  metadata = dataset_metadata.DatasetMetadata(schema)
  return metadata

### Canalización de Beam

In [None]:
def run_hub2emb(args):
  '''Runs the embedding generation pipeline'''

  options = beam.options.pipeline_options.PipelineOptions(**args)
  args = namedtuple("options", args.keys())(*args.values())

  raw_metadata = create_metadata()
  converter = tft.coders.CsvCoder(
      column_names=['text'], schema=raw_metadata.schema)

  with beam.Pipeline(args.runner, options=options) as pipeline:
    with tft_beam.Context(args.temporary_dir):
      # Read the sentences from the input file
      sentences = ( 
          pipeline
          | 'Read sentences from files' >> beam.io.ReadFromText(
              file_pattern=args.data_dir)
          | 'Convert to dictionary' >> beam.Map(converter.decode)
      )

      sentences_dataset = (sentences, raw_metadata)
      preprocess_fn = make_preprocess_fn(args.module_url, args.random_projection_matrix)
      # Generate the embeddings for the sentence using the TF-Hub module
      embeddings_dataset, _ = (
          sentences_dataset
          | 'Extract embeddings' >> tft_beam.AnalyzeAndTransformDataset(preprocess_fn)
      )

      embeddings, transformed_metadata = embeddings_dataset
      # Write the embeddings to TFRecords files
      embeddings | 'Write embeddings to TFRecords' >> beam.io.tfrecordio.WriteToTFRecord(
          file_path_prefix='{}/emb'.format(args.output_dir),
          file_name_suffix='.tfrecords',
          coder=tft.coders.ExampleProtoCoder(transformed_metadata.schema))

### Generar una matriz de peso de proyección aleatoria

[La proyección aleatoria](https://en.wikipedia.org/wiki/Random_projection) es una técnica simple pero poderosa que se usa para reducir la dimensionalidad de un conjunto de puntos que se encuentran en el espacio euclidiano. Para obtener información teórica, consulte el [lema de Johnson-Lindenstrauss](https://en.wikipedia.org/wiki/Johnson%E2%80%93Lindenstrauss_lemma).

Reducir la dimensionalidad de las incorporaciones con proyección aleatoria significa menos tiempo necesario para construir y consultar el índice ANN.

En este tutorial usamos la [proyección aleatoria gaussiana](https://en.wikipedia.org/wiki/Random_projection#Gaussian_random_projection) de la biblioteca [Scikit-learn](https://scikit-learn.org/stable/modules/random_projection.html#gaussian-random-projection).

In [None]:
def generate_random_projection_weights(original_dim, projected_dim):
  random_projection_matrix = None
  if projected_dim and original_dim > projected_dim:
    random_projection_matrix = gaussian_random_matrix(
        n_components=projected_dim, n_features=original_dim).T
    print("A Gaussian random weight matrix was creates with shape of {}".format(random_projection_matrix.shape))
    print('Storing random projection matrix to disk...')
    with open('random_projection_matrix', 'wb') as handle:
      pickle.dump(random_projection_matrix, 
                  handle, protocol=pickle.HIGHEST_PROTOCOL)
        
  return random_projection_matrix

### Establecer parámetros

Si desea crear un índice con el espacio de incorporación original sin proyección aleatoria, establezca el parámetro `projected_dim` en `None`. Tenga en cuenta que esto ralentizará el paso de indexación para incorporaciones de alta dimensión.

In [None]:
module_url = 'https://tfhub.dev/google/universal-sentence-encoder/2' #@param {type:"string"}
projected_dim = 64  #@param {type:"number"}

### Ejecutar canalización

In [None]:
import tempfile

output_dir = pathlib.Path(tempfile.mkdtemp())
temporary_dir = pathlib.Path(tempfile.mkdtemp())

g = tf.Graph()
with g.as_default():
  original_dim = load_module(module_url)(['']).shape[1]
  random_projection_matrix = None

  if projected_dim:
    random_projection_matrix = generate_random_projection_weights(
        original_dim, projected_dim)

args = {
    'job_name': 'hub2emb-{}'.format(datetime.utcnow().strftime('%y%m%d-%H%M%S')),
    'runner': 'DirectRunner',
    'batch_size': 1024,
    'data_dir': 'corpus/*.txt',
    'output_dir': output_dir,
    'temporary_dir': temporary_dir,
    'module_url': module_url,
    'random_projection_matrix': random_projection_matrix,
}

print("Pipeline args are set.")
args

In [None]:
!rm -r {output_dir}
!rm -r {temporary_dir}

print("Running pipeline...")
%time run_hub2emb(args)
print("Pipeline is done.")

In [None]:
!ls {output_dir}

Lea algunas de las incorporaciones generadas...

In [None]:
import itertools

embed_file = os.path.join(output_dir, 'emb-00000-of-00001.tfrecords')
sample = 5
record_iterator =  tf.io.tf_record_iterator(path=embed_file)
for string_record in itertools.islice(record_iterator, sample):
  example = tf.train.Example()
  example.ParseFromString(string_record)
  text = example.features.feature['text'].bytes_list.value
  embedding = np.array(example.features.feature['embedding'].float_list.value)
  print("Embedding dimensions: {}".format(embedding.shape[0]))
  print("{}: {}".format(text, embedding[:10]))


## 3. Generar el índice ANN para las incorporaciones

[ANNOY](https://github.com/spotify/annoy) (Vecinos más cercanos aproximados, claro que sí) es una biblioteca de C++ con enlaces de Python para buscar puntos en el espacio que estén cerca de un punto de consulta determinado. También crea grandes estructuras de datos basadas en archivos de solo lectura que se asignan a la memoria. [Spotify](https://www.spotify.com) lo creó y lo usa para recomendaciones de música.

In [None]:
def build_index(embedding_files_pattern, index_filename, vector_length, 
    metric='angular', num_trees=100):
  '''Builds an ANNOY index'''

  annoy_index = annoy.AnnoyIndex(vector_length, metric=metric)
  # Mapping between the item and its identifier in the index
  mapping = {}

  embed_files = tf.gfile.Glob(embedding_files_pattern)
  print('Found {} embedding file(s).'.format(len(embed_files)))

  item_counter = 0
  for f, embed_file in enumerate(embed_files):
    print('Loading embeddings in file {} of {}...'.format(
      f+1, len(embed_files)))
    record_iterator = tf.io.tf_record_iterator(
      path=embed_file)

    for string_record in record_iterator:
      example = tf.train.Example()
      example.ParseFromString(string_record)
      text = example.features.feature['text'].bytes_list.value[0].decode("utf-8")
      mapping[item_counter] = text
      embedding = np.array(
        example.features.feature['embedding'].float_list.value)
      annoy_index.add_item(item_counter, embedding)
      item_counter += 1
      if item_counter % 100000 == 0:
        print('{} items loaded to the index'.format(item_counter))

  print('A total of {} items added to the index'.format(item_counter))

  print('Building the index with {} trees...'.format(num_trees))
  annoy_index.build(n_trees=num_trees)
  print('Index is successfully built.')
  
  print('Saving index to disk...')
  annoy_index.save(index_filename)
  print('Index is saved to disk.')
  print("Index file size: {} GB".format(
    round(os.path.getsize(index_filename) / float(1024 ** 3), 2)))
  annoy_index.unload()

  print('Saving mapping to disk...')
  with open(index_filename + '.mapping', 'wb') as handle:
    pickle.dump(mapping, handle, protocol=pickle.HIGHEST_PROTOCOL)
  print('Mapping is saved to disk.')
  print("Mapping file size: {} MB".format(
    round(os.path.getsize(index_filename + '.mapping') / float(1024 ** 2), 2)))

In [None]:
embedding_files = "{}/emb-*.tfrecords".format(output_dir)
embedding_dimension = projected_dim
index_filename = "index"

!rm {index_filename}
!rm {index_filename}.mapping

%time build_index(embedding_files, index_filename, embedding_dimension)

In [None]:
!ls

## 4. Usar el índice para la coincidencia de similitudes

Ahora podemos usar el índice ANN para encontrar titulares de noticias que estén semánticamente cerca de una consulta de entrada.

### Cargue el índice y los archivos de asignación.

In [None]:
index = annoy.AnnoyIndex(embedding_dimension)
index.load(index_filename, prefault=True)
print('Annoy index is loaded.')
with open(index_filename + '.mapping', 'rb') as handle:
  mapping = pickle.load(handle)
print('Mapping file is loaded.')


### Método de coincidencia de similitudes

In [None]:
def find_similar_items(embedding, num_matches=5):
  '''Finds similar items to a given embedding in the ANN index'''
  ids = index.get_nns_by_vector(
  embedding, num_matches, search_k=-1, include_distances=False)
  items = [mapping[i] for i in ids]
  return items

### Extraer la incorporación de una consulta determinada

In [None]:
# Load the TF-Hub module
print("Loading the TF-Hub module...")
g = tf.Graph()
with g.as_default():
  embed_fn = load_module(module_url)
print("TF-Hub module is loaded.")

random_projection_matrix = None
if os.path.exists('random_projection_matrix'):
  print("Loading random projection matrix...")
  with open('random_projection_matrix', 'rb') as handle:
    random_projection_matrix = pickle.load(handle)
  print('random projection matrix is loaded.')

def extract_embeddings(query):
  '''Generates the embedding for the query'''
  query_embedding =  embed_fn([query])[0]
  if random_projection_matrix is not None:
    query_embedding = query_embedding.dot(random_projection_matrix)
  return query_embedding

In [None]:
extract_embeddings("Hello Machine Learning!")[:10]

### Ingresar una consulta para encontrar los elementos más similares

In [None]:
#@title { run: "auto" }
query = "confronting global challenges" #@param {type:"string"}
print("Generating embedding for the query...")
%time query_embedding = extract_embeddings(query)

print("")
print("Finding relevant items in the index...")
%time items = find_similar_items(query_embedding, 10)

print("")
print("Results:")
print("=========")
for item in items:
  print(item)

## ¿Quiere aprender más?

Puede obtener más información sobre TensorFlow en [tensorflow.org](https://www.tensorflow.org/) y consultar la documentación de la API de TF-Hub en [tensorflow.org/hub](https://www.tensorflow.org/hub/). Encuentre los módulos de TensorFlow Hub disponibles en [tfhub.dev](https://tfhub.dev/), incluidos más módulos de incorporación de texto y módulos de vectores de características de imágenes.

Consulte también el [curso intensivo de aprendizaje automático](https://developers.google.com/machine-learning/crash-course/), que es la introducción práctica y rápida al aprendizaje automático de Google.