##### Copyright 2020 The TensorFlow Authors.

In [None]:
#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

<table class="tfo-notebook-buttons" align="left">
  <td>     <a target="_blank" href="https://www.tensorflow.org/io/tutorials/genome"><img src="https://www.tensorflow.org/images/tf_logo_32px.png">Ver en TensorFlow.org</a>
</td>
  <td>     <a target="_blank" href="https://colab.research.google.com/github/tensorflow/docs-l10n/blob/master/site/es-419/io/tutorials/genome.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png">Ejecutar en Google Colab</a>
</td>
  <td>     <a target="_blank" href="https://github.com/tensorflow/docs-l10n/blob/master/site/es-419/io/tutorials/genome.ipynb"><img src="https://www.tensorflow.org/images/GitHub-Mark-32px.png">Ver código fuente en GitHub</a>
</td>
      <td>     <a href="https://storage.googleapis.com/tensorflow_docs/docs-l10n/site/es-419/io/tutorials/genome.ipynb"><img src="https://www.tensorflow.org/images/download_logo_32px.png">Descargar el bloc de notas</a>
</td>
</table>

## Descripción general

En este tutorial se enseña el paquete `tfio.genome` que proporciona la funcionalidad IO genómica de uso común, es decir, leer varios formatos de archivos genómicos y también proporcionar algunas operaciones comunes para preparar los datos (por ejemplo, una codificación en un solo paso o analizar la calidad de Phred en probabilidades).

Este paquete usa la biblioteca de [Google Nucleus](https://github.com/google/nucleus) para proporcionar algunas de las funciones principales. 

## Preparación

In [None]:
try:
  %tensorflow_version 2.x
except Exception:
  pass
!pip install tensorflow-io

In [None]:
import tensorflow_io as tfio
import tensorflow as tf

## Datos FASTQ

FASTQ es un formato de archivo genómico común que almacena información de secuencia además de información de calidad de la base.

Primero, descarguemos un archivo `fastq` de muestra.

In [None]:
# Download some sample data:
!curl -OL https://raw.githubusercontent.com/tensorflow/io/master/tests/test_genome/test.fastq

### Leer datos FASTQ

Ahora, usemos `tfio.genome.read_fastq` para leer este archivo (tenga en cuenta que próximamente habrá una API `tf.data`).

In [None]:
fastq_data = tfio.genome.read_fastq(filename="test.fastq")
print(fastq_data.sequences)
print(fastq_data.raw_quality)

Como puede ver, el `fastq_data` devuelto tiene `fastq_data.sequences`, que es un tensor de cadena de todas las secuencias en el archivo fastq (cada una de las cuales puede tener un tamaño diferente) junto con `fastq_data.raw_quality` que incluye información de calidad codificada por Phred sobre la calidad de cada lectura base en la secuencia.

### Calidad

Si le interesa, puede usar una operación ayudante para convertir esta información de calidad en probabilidades.

In [None]:
quality = tfio.genome.phred_sequences_to_probability(fastq_data.raw_quality)
print(quality.shape)
print(quality.row_lengths().numpy())
print(quality)

### Codificaciones en un solo paso

Es posible que también desee codificar los datos de la secuencia del genoma (que consta de bases `A` `T` `C` `G`) con un codificador en un solo paso. Hay una operación integrada que puede ayudar con esto.


In [None]:
print(tfio.genome.sequences_to_onehot.__doc__)

In [None]:
print(tfio.genome.sequences_to_onehot.__doc__)