**Introducción a la línea de comandos en Google Colab**

Google Colab no solo permite ejecutar código en Python, también nos da acceso a una terminal básica de línea de comandos de Linux. Esto es muy útil porque muchos flujos de trabajo en ciencia de datos y bioinformática requieren manejar archivos, instalar programas o ejecutar herramientas que están pensadas para funcionar directamente en el sistema operativo.

En Colab podemos ejecutar comandos de Linux de manera sencilla:
 Basta con escribir el comando precedido por un signo de exclamación !.

 A partir de ahora recuerda que vamos a usar el signo ! antes de escribir cualquier comando para que se ejecute en bash.

 **pwd: ¿Dónde estoy en el sistema de archivos?**

 El comando pwd significa print working directory y sirve para mostrar en qué carpeta (directorio) estamos trabajando dentro del sistema de archivos.

Nota importante en Colab:

Siempre que inicias un entorno nuevo, Colab nos ubica por defecto en la carpeta /content.


**mkdir: Crear una nueva carpeta**

El comando mkdir significa make directory, y sirve para crear una carpeta (directorio) en el sistema de archivos.

En Google Colab, como trabajamos sobre un entorno Linux, lo usamos igual que en una terminal normal.

Nota: Cada vez que reiniciamos el entorno, las carpetas creadas en /content se borran porque la sesión es temporal.

In [None]:
!pwd

In [None]:
!mkdir bioinformatica

**cd: Cambiar de carpeta (directorio)**

El comando cd significa change directory y se utiliza para movernos entre carpetas dentro del sistema de archivos.

In [None]:
cd bioinformatica/

In [None]:
!pwd


**wget: descargar archivos desde internet**

wget es un comando de Linux que permite descargar archivos directamente desde una dirección web (URL).

En nuestro caso, estamos descargando un archivo en formato .gtf.gz desde los servidores de Ensembl.

Contiene información sobre genes, transcritos y otras características de la referencia del genoma humano GRCh38, versión 111 de Ensembl.

El .gz indica que está comprimido con gzip para ocupar menos espacio.

In [None]:
!wget https://ftp.ensembl.org/pub/release-111/gtf/homo_sapiens/Homo_sapiens.GRCh38.111.chr.gtf.gz

**ls: Listar archivos y carpetas**

El comando ls significa list y sirve para mostrar el contenido del directorio actual (es decir, qué archivos y carpetas hay dentro).



In [None]:
!

**zcat**

zcat sirve para leer el contenido de archivos comprimidos con gzip (.gz) sin descomprimirlos físicamente.

**| (pipe)**

La barra | conecta la salida de un comando con la entrada de otro.

**head**

head muestra las primeras líneas de un archivo o flujo de datos.

In [None]:
!zcat

**Componentes del archivo GTF**
1. seqname	Nombre del cromosoma o contig (por ejemplo 1, X, MT).

2. source	Fuente de la anotación, por ejemplo Ensembl, HAVANA, etc.

3. feature	Tipo de elemento genómico, como gene, transcript, exon, CDS.

4. start	Posición de inicio de la característica en el cromosoma (1-indexado).

5. end	Posición final de la característica en el cromosoma.

6. score	Puntuación numérica opcional, a veces se usa . si no aplica.

7. strand	Hebra del ADN: + (sentido directo) o - (sentido inverso).

8. frame	Fase de lectura para CDS: 0, 1, 2, o . si no aplica. Indica cómo alinear la codificación de proteínas.

9. attribute	Lista de atributos adicionales en formato clave "valor";, como gene_id, transcript_id, gene_name.

**grep -w transcript**

grep busca líneas que coincidan con un patrón de texto.

-w indica que busque la palabra completa, no coincidencias parciales.

transcript es el patrón:

Solo mostrará las filas del archivo GTF donde la columna 3 (feature) sea “transcript”, es decir, aquellas que describen transcritos.

In [None]:
## para buscar transcritos
!zcat

**cut -f9**

cut permite seleccionar columnas específicas de un archivo separado por tabulaciones (\t).

-f9 indica que solo queremos la columna 9 del GTF, que es donde están los atributos (como gene_id, transcript_id, gene_name).

**cut -d';' -f1,3,5**

Ahora usamos cut de nuevo, pero con otro delimitador:

-d';' indica que el separador es el punto y coma ; que divide los atributos.

-f1,3,5 selecciona los campos 1, 3 y 5 dentro de la columna de atributos.

In [None]:
!zcat Homo_sapiens.GRCh38.111.chr.gtf.gz |grep -w transcript | cut -f9 | cut -d';' -f1,3,5 |head

In [None]:

#### DEBEMOS SELECCIONAR ÚNICAMENTE LOS gene_name

!zcat

In [None]:
!zcat

**Guardar el archivo editado**

geneId_transcriptId_geneName_all.txt

El símbolo > guarda toda la salida en un archivo llamado geneId_transcriptId_geneName_all.txt.

In [None]:
!zcat

In [None]:
!pwd

**El archivo generado esta en /content y debo moverlo para poder tenerlo en mi PC.**

Para esto usamos el lenguaje python

In [None]:
from google.colab import files
files.download("geneId_transcriptId_geneName_all.txt")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>