Uso Interactivo del Terminal
============================

* *120 min* | Última modificación: Diciembre 17, 2019.

Impresión usando echo
__

El comando `echo` permite imprimir cadenas de texto sin delimitador o delimitadas por comillas simples o dobles. Note que las comillas obligan a que se respete el espacio entre palabras.

In [1]:
!echo hola     mundo    cruel # elimina los espacios en blanco entre las palabras

hola mundo cruel


In [2]:
!echo 'hola     mundo    cruel'

hola     mundo    cruel


In [3]:
!echo "hola     mundo    cruel"

hola     mundo    cruel


Para imprimir varias líneas de texto se puede usar un `echo` por línea:

In [4]:
%%sh
echo linea 1
echo linea 2
echo linea 3

linea 1
linea 2
linea 3


pero en este caso es posible usar las comillas

In [5]:
%%sh
echo 'linea 1
linea 2
linea 3' 

linea 1
linea 2
linea 3


El operador `\` se usa para indicar que la línea lógica continua en el siguiente renglón físico; en el siguiente ejemplo todos los textos se imprimen en la misma línea.

In [6]:
%%sh
echo linea 1 \
linea 2 \
linea 3

linea 1 linea 2 linea 3


`echo` también admite el uso de caracteres de escape (precedidos por `'\'`); en el siguiente ejemplo se usa el carácter de retorno de carro `'\n'` en la cadena de texto para indicar el inicio de una nueva línea. Se debe usar la opción '-e' del comando `echo` para convertir los caracteres `\n` en retornos de carro.

In [7]:
%%sh
echo -e "linea 1\nlinea 2\nlinea 3"

-e linea 1
linea 2
linea 3


Impresión de texto con formato usando printf
--

Bash también tiene el comando `printf`, el cual usa una sintaxis similar a la del lenguaje C: 

* `%s` indica cadena de caracteres.
* `%f` indica un número en punto flotante.
* `%g` indica un número entero.

En los siguientes ejemplos se ilustra como se puede indicar el tamaño del campo. Note la alineación de la impresión. 

In [8]:
%%sh
printf '%s ---- %f' 'hola mundo'  1.23456789

hola mundo ---- 1.234568

In [9]:
%%sh
printf '%15s --- %8.2f'  hola   1.23456789

           hola ---     1.23

In [10]:
%%sh
printf '%15s --- %8.2f'  'hola mundo'   123.456789

     hola mundo ---   123.46

Impresión de secuencias usando seq
--

En vez de `echo` se puede usar `seq` para imprimir secuencias.

In [11]:
%%sh
seq 5

1
2
3
4
5


La opción `-f` permite especificar  formato para la secuencia, por ejemplo:

In [12]:
%%sh
seq -f"linea %g" 5

linea 1
linea 2
linea 3
linea 4
linea 5


La opción `-s` permite indicar el separador.

In [13]:
%%sh
seq -s, 2 2 10 # el separador es la coma

2,4,6,8,10


La opción `-w` permite especificar formato.

In [14]:
%%sh
seq 0 .05 .1 # valor inicial, incremento y valor final

0.00
0.05
0.10


In [15]:
%%sh
seq -w 0 .05 .1

0.00
0.05
0.10


Redireccionamiento de la entrada, la salida y pipes 
--

Entre las características más importantes para la transformación de datos sobresalen la posibilidad de redireccionar tanto la entrada como la salida, y el uso de tuberías para usar la salida de un comando como la entrada del siguiente. El direccionamiento de la salida por pantalla a un archivo se realiza usando el operador `>`. Si el archivo al que se direcciona no existe, lo crea; y si existe, lo sobrescribe. Para que la salida se agregue al contenido de un archivo existente se utiliza el operador `>>`.

En el siguiente ejemplo se imprime `hola mundo feliz` en el archivo `out.1`.

In [16]:
%%sh
echo hola mundo feliz > out.1
cat out.1

hola mundo feliz


Por otra parte, el operador `<` indica que la entrada al comando se hace desde un archivo. Más adelante se presentan muchos ejemplos sobre este operador.

Finalmente, es posible víncular dos o más comandos con `|`, tal que la salida del primero es la entrada del segundo. 

Visualización del contenido de un archivo con cat
--

El comando `cat`  *`nombrearchivo`* imprime en pantalla el contenido del archivo.

In [17]:
%%sh
echo hola mundo feliz > out.1
cat out.1  # imprime el contenido de out.1

hola mundo feliz


In [18]:
%%sh
echo "otra vez hola mundo feliz" >> out.1 # agrega la nueva impresión al final de out.1
cat out.1

hola mundo feliz
otra vez hola mundo feliz


El comando `echo` sin argumentos permite crear un archivo vacío.

In [19]:
%%sh
echo > out.1
cat out.1




Suponga que se desea almacenar en un archivo el siguiente texto:

     CustomerID, Customer
        1, Customer A
        2, Customer B

Para ello, existen varias alternativas. La primera opción es:

In [20]:
%%sh
echo CustomerID, Customer > out.1
echo    1, Customer A >> out.1
echo    2, Customer B >> out.1

La segunda opción es:

In [21]:
%%sh
echo "CustomerID, Customer
   1, Customer A
   2, Customer B" > out.1

Pero existe una tercera opción, de uso muy generalizado, que es la siguiente:

In [22]:
%%sh
cat > out.1 <<EOF
CustomerID, Customer
   1, Customer A
   2, Customer B
EOF

In [23]:
!cat out.1

CustomerID, Customer
   1, Customer A
   2, Customer B


El contenido del archivo se escribe directamente entre <<EOF y EOF.

El principal uso de `cat` es la concatenación de archivos. En la siguiente porción de código se generan los archivos `out.1`, `out.2` y `out.3`, y luego se imprimen sus contenidos de forma concatenada.

In [24]:
%%sh
seq -f"linea %g" 1 1 3 > out.1
seq -f"linea %g" 4 1 6 > out.2
seq -f"linea %g" 7 1 9 > out.3
cat out.1 out.2 out.3

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7
linea 8
linea 9


Una forma más compacta es usar la expresión `out.*`, la cual representa todos los archivos cuyos nombres empiezan por `out.`. De esta forma, el comando anterior se convierte en: 

In [25]:
%%sh
cat out.*

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7
linea 8
linea 9


Algunos sistemas incorporan el comando `tac` que imprime el contenido de un archivo empezando por la última línea.

Visualización del inicio de un archivo con head
--

El comando `head` se usa para visualizar la porción inicial del contenido de un archivo. `head` imprime por defecto las primeras 10 líneas. La cantidad de líneas visualizadas se puede modificar mediante la opción `-n`.

In [26]:
%%sh
seq -f"linea %g" 100 > out.1 # se generan 100 líneas
head -n 3 out.1

linea 1
linea 2
linea 3


Visualización del final de un archivo con tail
--

De forma similar al comando `head`, el comando `tail` permite visualizar las últimas líneas de un archivo.

In [27]:
%%sh
tail -n 3 out.1

linea 98
linea 99
linea 100


En el siguiente ejemplo, el argumento `+5` indica que se imprime desde la línea 5 hasta el final.

In [28]:
%%sh
seq -f'linea %g' 6 > out.1
tail +5 out.1

linea 5
linea 6


Se pueden escribir varios comandos en la misma línea separándolos por `;`.

In [29]:
%%sh
echo 1; echo 2; echo 3

1
2
3


Visualización del contenido de un archivo con more y less
--

Unix también proporciona los comandos `more` (versión más antigua) y `less` para la visualización del contenido de archivos. Simplemente digite `less` *`nombrearchivo`* para iniciar la visualización.

* Use la tecla `Space` para avanzar una página.
* Use `Ctrl-F` (Forward) y `Ctrl-B`  (Backward) para avanzar o retroceder una página.
* Use las teclas arriba y abajo para moverse una línea a la vez.
* Digite el número de línea y `G` (go to) para ir a una línea determinada.
* Digite `q` para salir de `less`

Ordenación de un archivo con sort 
--

El comando `sort` permite ordenar el contenido de un archivo. El ordanamiento se realiza con base en el contenido total de cada línea. En el siguiente ejemplo, el operador `'|'` pasa la salida de `cat` como entrada a `sort`. 

In [30]:
%%sh
seq -f'linea %g' 3 > out.1
cat out.1 out.1 out.1 | sort

linea 1
linea 1
linea 1
linea 2
linea 2
linea 2
linea 3
linea 3
linea 3


Obtención de las líneas únicas de un archivo con uniq
--

El comando `uniq` permite obtener el contenido de un archivo eliminando las líneas repetidas. Observe que en los siguientes ejemplos solo se eliminan las líneas repetidas que son consecutivas.

In [31]:
%%sh
seq -f'linea %g' 3 > out.1 # genera el primer archivo de datos
seq -f'linea %g' 3 > out.2 # genera el segundo archivo de datos
cat out.1 out.2 out.1 out.2

linea 1
linea 2
linea 3
linea 1
linea 2
linea 3
linea 1
linea 2
linea 3
linea 1
linea 2
linea 3


In [32]:
%%sh
cat out.1 out.2 out.1 out.2 |  uniq

linea 1
linea 2
linea 3
linea 1
linea 2
linea 3
linea 1
linea 2
linea 3
linea 1
linea 2
linea 3


In [33]:
%%sh
cat out.1 out.2 out.1 out.2 | sort | uniq

linea 1
linea 2
linea 3


Conteo de la cantidad de líneas, palabras y caracteres de archivo usando wc
--

El comando `wc` permite contar líneas, palabras, caracteres y bytes de un archivo. La opción `-l` cuenta líneas,  `-m` caracteres y `-w` palabras.

In [34]:
%%sh
wc -l out.1 out.2 # número de líneas

 3 out.1
 3 out.2
 6 total


In [35]:
%%sh
wc -m out.1 out.2 # número de caracteres

24 out.1
24 out.2
48 total


In [36]:
%%sh
wc -w out.1 out.2 # número de palabras

 6 out.1
 6 out.2
12 total


In [37]:
%%sh
wc out.1 out.2 

 3  6 24 out.1
 3  6 24 out.2
 6 12 48 total


Búsqueda de patrones con grep
--

El comando `grep` permite imprime las líneas del archivo que contiene una cadena de texto especificada. En los siguentes ejemplos se imprimen los números del 1 al 20 que contienen un `'1'`.

In [38]:
%%sh
seq 20 | grep 1

1
10
11
12
13
14
15
16
17
18
19


In [39]:
%%sh
seq -f'linea %g' 20 > out.1
grep 1 out.1

linea 1
linea 10
linea 11
linea 12
linea 13
linea 14
linea 15
linea 16
linea 17
linea 18
linea 19


El símbolo `$` indica que la cadena de texto debe aparecer al final de la línea. El símbolo `^` indica que la cadena de texto debe aparecer al principio de la línea.

In [40]:
%%sh
seq 100 | grep 1$  # imprime los números del 1 al 100 que finalizan con 1.

1
11
21
31
41
51
61
71
81
91


In [41]:
%%sh
seq 100 | grep ^1  # imprime los números del 1 al 100 que empiezan con 1.

1
10
11
12
13
14
15
16
17
18
19
100


La combinación de los comandos anteriores permiten realizar operaciones complejas. En el siguiente ejemplo se obtiene la cantidad de números del 1 al 20 que contienen un `'1'`.

In [42]:
%%sh
seq 20 | grep 1 | wc -l

11


Reemplazo de caracteres con tr
--

También existen comandos para manipular textos. El comando `tr` permite cambiar una cadena de texto por otra. 

In [43]:
%%sh
echo 'h-o-l-a- -m-u-n-d-o' > out.1
tr -d '-'  < out.1 # borra los caracteres '-'.

hola mundo


In [44]:
%%sh
echo 'h-o-l-a- -m-u-n-d-o' > out.1
tr '-'  '=' < out.1  #  '-' por '='.

h=o=l=a= =m=u=n=d=o


In [45]:
%%sh
echo 'h-o-l-a- -m-u-n-d-o' > out.1
tr '[:lower:]'  '[:upper:]' < out.1  # minúsculas a mayúsculas.

H-O-L-A- -M-U-N-D-O


**Ejercicio.--** Para el siguiente archivo, convierta únicamente la primera fila a minúsculas.

In [46]:
%%sh
cat > out.1 <<EOF
Date, Year, CustomerID, Value
2013-01-12, 2013, 1, 100
2014-05-12, 2014, 1, 100
2013-02-25, 2013, 2, 200
2013-04-04, 2013, 1, 100
2013-06-21, 2013, 2, 200
2014-05-12, 2014, 1, 100
2014-05-12, 2014, 2, 200
2013-02-28, 2013, 1, 100
2013-08-02, 2013, 1, 100
EOF

Extracción de campos con cut
--

El comando `cut` permite extraer porciones de texto de un archivo. En la última línea del código presentada a continuación, se extraen las posiciones 3, 4, y 5 de cada línea de texto de un archivo, indicándolas como un rango (`3-5`). 

In [47]:
%%sh
echo "123456790
abcdefghi
jklmnopqr" > out.1
cut -c3-5 out.1  

345
cde
lmn


Las columnas también pueden indicarse por posición:

In [48]:
%%sh
cut -c3,4,5 out.1 

345
cde
lmn


In [49]:
%%sh
# caracteres en las posiciones 2 y 5 a 7 de cada línea de un archivo.
cut -c2,5-7 out.1 

2567
befg
knop


`cut` también permite manipular archivos delimitados. 

In [50]:
%%sh
cat > out.1 <<EOF
FieldA, FieldD, FieldE
   2, X, 2X
   3, Y, 3Y
   4, Z, 4Z 
EOF

En el siguiente ejemplo se extrae la segunda columna (`-f2`); se indica que el archivo está delimitado por comas (`-d,`).

In [51]:
%%sh
cut -d, -f2 out.1   

 FieldD
 X
 Y
 Z


In [52]:
%%sh
# este código extrae las columnas 1 y 3
cut -d, -f1,3 out.1  

FieldA, FieldE
   2, 2X
   3, 3Y
   4, 4Z 


Se puede usar cualquier caracter como delimitador. En el siguiente ejemplo se desean extraer los caracteres entre `'['` y `']'`.

In [53]:
%%sh
seq -f"--> [%g] <--" 3 > out.1
seq -f"------> [%g] <------" 3 >> out.1
cat out.1

--> [1] <--
--> [2] <--
--> [3] <--
------> [1] <------
------> [2] <------
------> [3] <------


In [54]:
%%sh
# extrae la porción de texto después de '[' 
cut -d'[' -f2 out.1 

1] <--
2] <--
3] <--
1] <------
2] <------
3] <------


Extrae la porción de texto antes de ']' 

In [55]:
%%sh
cut -d']' -f1 out.1  

--> [1
--> [2
--> [3
------> [1
------> [2
------> [3


Se combinan los dos comandos anteriores

In [56]:
%%sh
cut -d'[' -f2 out.1 | cut -d']' -f1 

1
2
3
1
2
3


A continuación se extrae la segunda palabra de cada línea.

In [57]:
%%sh
echo "Bash is a Unix shell and command language 
written by Brian Fox for the 
GNU Project as a free software 
replacement for the Bourne shell." > out.1
cat out.1

Bash is a Unix shell and command language 
written by Brian Fox for the 
GNU Project as a free software 
replacement for the Bourne shell.


In [58]:
%%sh
# el delimitador es el espacio en blanco
cut -d' ' -f2 out.1 

is
by
Project
for


Borrado de columnas con colrm
--

Este comando remueve los caracteres comprendidos entre las columnas especificadas.

In [59]:
%%sh
echo "123456790
abcdefghi
jklmnopqr" > out.1
colrm 3 5 < out.1  

126790
abfghi
jkopqr


Si no se especifica la columna final, `colrm` borra hasta el final de la línea.

In [60]:
%%sh
colrm 3 < out.1

12
ab
jk


Unión de archivos con join
--

Un problema típico en transformación de datos es tener que combinar dos archivos usando un campo clave. Tal como ya se ha ejemplificado en este documento, en muchos casos los archivos de texto son equivalentes a las tablas en los sistemas de bases de datos relacionales. El problema en cuestión es el siguiente: existe un archivo `out.1`:

In [61]:
%%sh
cat > out.1 <<EOF
key, F1, F2
  1, 11, 12
  2, 21, 22
  4, 41, 42
EOF

y un archivo `out.2`:

In [62]:
%%sh
cat > out.2 <<EOF
key, F3, F4
  1, 13, 14
  2, 23, 24
  3, 33, 34 
EOF

La primera columna es la clave; los valores de los campos corresponden a la posición del elemento, es decir, el valor `13` corresponde al registro `1` y al campo `3`.

El comando `join` permite unir las líneas de ambos archivos usando el campo designado como clave. `join` no agrega el último registro de `out.1`, ya que no existe este registro en el archivo `out.2`

In [63]:
%%sh
# agrega out.2 a out.1 usando como clave el primer campo (por defecto)
join -t, out.1 out.2 

key, F1, F2, F3, F4
  1, 11, 12, 13, 14
  2, 21, 22, 23, 24


Se puede especificar el campo de unión con las opciones `-1` para indicar el campo clave del primer archivo y `-2` para indicar el campo clave del segundo archivo.

In [64]:
%%sh
join -1 1 -2 1 -t, out.2 out.1 

key, F3, F4, F1, F2
  1, 13, 14, 11, 12
  2, 23, 24, 21, 22


Adicionalmente, se pueden indicar los campos de salida con la opción `-o`. En el siguiente ejemplo, `1.2` representa el campo 2 del archivo 1.

In [65]:
%%sh
join -t, -o1.2,2.3 out.1 out.2 

 F1, F4
 11, 14
 21, 24


In [66]:
%%sh
join -t, -o'0,1.2,2.3' out.1 out.2 

key, F1, F4
  1, 11, 14
  2, 21, 24


La opción `-v` se usa para que `join` imprima los registros que solo aparecen en uno solo de los archivos.

El siguiente comando imprime los registros de `out.1` cuya clave no aparece en `out.2`:

In [67]:
%%sh
join -t, -v 1 out.1 out.2

  4, 41, 42


De forma equivalente, los registros de `out.2` que no están en `out.1` se obtienen con

In [68]:
%%sh
join -t, -v 2 out.1 out.2

  3, 33, 34 


Los comandos anteriores se pueden combinar en uno solo:

In [69]:
%%sh
join -t, -v 1 -v 2 out.1 out.2

  3, 33, 34 
  4, 41, 42


Para que en la combinación se incluyan los registros sin clave en alguno de los archivo se usa la opción `-a`. Por ejemplo,

In [70]:
%%sh
join -a 1 -t, out.1 out.2 

key, F1, F2, F3, F4
  1, 11, 12, 13, 14
  2, 21, 22, 23, 24
  4, 41, 42


In [71]:
%%sh
join -a 2 -t, out.1 out.2 

key, F1, F2, F3, F4
  1, 11, 12, 13, 14
  2, 21, 22, 23, 24
  3, 33, 34 


La opción `-e` se usa para indicar la cadena de texto que se agrega a los campos de los registros para los cuales no hay valores.

In [72]:
%%sh
join -a 1 -a 2 -e NA -t,   out.1 out.2 

key, F1, F2, F3, F4
  1, 11, 12, 13, 14
  2, 21, 22, 23, 24
  3, 33, 34 
  4, 41, 42


Pegado de archivos con paste
--

El comando `paste` permite pegar un archivo con otro, uniendo la primera linea de ambos archivos, luego la segunda y así sucesivamente.

In [73]:
%%sh
seq -f'linea %g' 5 > out.1; cat out.1

linea 1
linea 2
linea 3
linea 4
linea 5


In [74]:
%%sh
seq -f'linea %g' 6 1 10 > out.2; cat out.2

linea 6
linea 7
linea 8
linea 9
linea 10


In [75]:
%%sh
paste -d'-' out.1 out.2

linea 1-linea 6
linea 2-linea 7
linea 3-linea 8
linea 4-linea 9
linea 5-linea 10


**Borrado de los archivos temporales generados**

In [76]:
!rm out*