# Transformación de Datos usando Bash
Notas de clase

**Juan David Velásquez Henao**    
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia  

[Licencia](https://github.com/jdvelasq/transformacion-datos-bash/blob/master/LICENCIA.txt)

[Readme](https://github.com/jdvelasq/transformacion-datos-bash/blob/master/Readme.md)

### Contenido

  * [Contenido](#Contenido)
  * [Introducción](#Introducción)
  * [Acceso a la terminal de comandos](#Acceso-a-la-terminal-de-comandos)
  * [Obtención de ayuda con `man`](#Obtención-de-ayuda-con-man)
  * [Gestión del sistema de directorios y archivos](#Gestión-del-sistema-de-directorios-y-archivos)
    * [Determinación del directorio actual con `pwd`  ](#Determinación-del-directorio-actual-con-pwd)
    * [Listado del contenido de un directorio con `ls`](#Listado-del-contenido-de-un-directorio-con-ls)
    * [Creación de directorios con `mkdir`  ](#Creación-de-directorios-con-mkdir)
    * [Cambio del directorio actual con `cd` ](#Cambio-del-directorio-actual-con-cd)
    * [Eliminación de directorios con `rmdir`](#Eliminación-de-directorios-con-rmdir)
    * [Creación de archivos vacíos con `touch`](#Creación-de-archivos-vacíos-con-touch)
    * [Copia de archivos con `cp`](#Copia-de-archivos-con-cp)
    * [Renombrado y movimiento de archivos con `mv`](#Renombrado-y-movimiento-de-archivos-con-mv)
    * [Borrado de archivos con `rm`   ](#Borrado-de-archivos-con-rm)
  * [Impresión de texto](#Impresión-de-texto)
    * [Impresión usando `echo` ](#Impresión-usando-echo)
    * [Impresión de texto con formato usando `printf` ](#Impresión-de-texto-con-formato-usando-printf)
    * [Impresión de secuencias usando `seq`](#Impresión-de-secuencias-usando-seq)
  * [Redireccionamiento de la entrada, la salida y pipes ](#Redireccionamiento-de-la-entrada,-la-salida-y-pipes)
  * [Visualización de archivos](#Visualización-de-archivos)
    * [Visualización del contenido de un archivo con `cat`  ](#Visualización-del-contenido-de-un-archivo-con-cat)
    * [Visualización del inicio de un archivo con `head`](#Visualización-del-inicio-de-un-archivo-con-head)
    * [Visualización del final de un archivo con `tail`  ](#Visualización-del-final-de-un-archivo-con-tail)
    * [Visualización del contenido de un archivo con `more` y `less`](#Visualización-del-contenido-de-un-archivo-con-more-y-less)
  * [Tranformación de archivos](#Tranformación-de-archivos)
    * [Ordenación de un archivo con `sort`  ](#Ordenación-de-un-archivo-con-sort)
    * [Obtención de las líneas únicas de un archivo con `uniq`](#Obtención-de-las-líneas-únicas-de-un-archivo-con-uniq)
    * [Conteo de la cantidad de líneas, palabras y caracteres de archivo usando `wc`](#Conteo-de-la-cantidad-de-líneas,-palabras-y-caracteres-de-archivo-usando-wc)
    * [Búsqueda de patrones con `grep`](#Búsqueda-de-patrones-con-grep)
    * [Reemplazo de caracteres con `tr`](#Reemplazo-de-caracteres-con-tr)
    * [Edición de archivos con `sed`](#Edición-de-archivos-con-sed)
    * [Extracción de campos con `cut`](#Extracción-de-campos-con-cut)
    * [Borrado de columnas con `colrm`](#Borrado-de-columnas-con-colrm)
    * [Unión de archivos con `join`](#Unión-de-archivos-con-join)
    * [Pegado de archivos con `paste`](#Pegado-de-archivos-con-paste)
  * [Variables y arrays](#Variables-y-arrays)
  * [Scripts](#Scripts)
  * [Funciones](#Funciones)
  * [Estructuras de control](#Estructuras-de-control)
    * [Decisión con `if-then-else-fi` y `case-esac`](#Decisión-con-if-then-else-fi-y-case-esac)
    * [Ciclos definidos con `for`](#Ciclos-definidos-con-for)
    * [Ciclos condicionales con `while` ](#Ciclos-condicionales-con-while)
    * [Ciclos condicionales con `until`](#Ciclos-condicionales-con-until)
  * [Cálculos numéricos en punto flotante](#Cálculos-numéricos-en-punto-flotante)
  * [Implementación de herramientas escritas en otros lenguajes   ](#Implementación-de-herramientas-escritas-en-otros-lenguajes)
    * [Herramientas en Python](#Herramientas-en-Python)
    * [Herramientas en R](#Herramientas-en-R)

---

# Introducción

[Contenido](#Contenido)

El proceso de transformación de datos se refiere a la tarea de convertir los datos de un formato a otro [1], el cual incluye las fases de:

*	Inspección – determinación de las características como el formato y otras propiedades.
*	Lectura – carga correcta de los datos.
*	Filtrado – selección del subconjunto de datos de interés.
*	Transformación – modificación de los datos como tal.

La transformación de datos es una de las fases principales en la ciencia de los datos y la analítica, y está directamente vinculada a los procesos ETL (Extract-Tranform-Load).  Por ETL se hace referencia los procesos requeridos para la extracción de datos provenientes de diferentes fuentes y con distintos formatos, la transformación para su unificación en un solo formato estándar y la carga a un sistema de información (que usualmente es una base de datos).   


El proceso de transformación de datos incluye, entre otras, las siguientes actividades [2]:

*	Remoción de datos innecesarios o repetidos.
*	Reducción del número de filas o registros por eliminación o por agregación.
*	Reducción del número de campos o columnas.
*	Reemplazo o construcción de claves.
*	Creación de nuevos campos o columnas.


Estos procesos suelen ser repetitivos e involucran, usualmente, una cantidad importante de datos, de tal forma que pueden resultar muy dispendiosos, tediosos o prácticamente imposibles de realizar manualmente. Es así como una tarea tan simple como renombrar un archivo se vuelve abrumadora cuando se deben renombrar 1.000 o 10.000 archivos. En este sentido, la automatización de estas tareas trae múltiples beneficios al usuario, entre los que se encuentran [3]:

*	El agilizar tareas simples que consumen una gran cantidad de tiempo.
*	La eliminación de la posibilidad de errores debidos a la ejecución manual de un proceso (por un humano).
*	Una mayor cantidad de tiempo para realizar otras actividades de corte intelectual.


Este documento aborda la transformación de datos almacenados en archivos de texto mediante el uso de la consola de comandos o shell, la cual es una interfaz para dar comandos al sistema operativo Unix (incluyendo Linux y OS X) [4] digitando texto. La idoneidad de la shell para la transformación de archivos de texto proviene de la filosofía de diseño del sistema operativo Unix, según la cual, el sistema operativo debe estar conformado por una gran cantidad de pequeños programas de objetivo bien definido y por el intercambio de información entre programas a través de texto plano [5]. Ya que el texto plano es el lenguaje universal entre programas escritos en diferentes lenguajes, las herramientas del sistema operativo operan limpiamente entre si. Adicionalmente, el diseño de una gran cantidad de herramientas del sistema operativo fue realizado para leer una porción de la entrada (por ejemplo, una línea de un archivo de texto) y procesarla, sin tener que cargar todo el archivo en memoria; eso hace, que se puedan procesar archivos con millones de registros sin problemas.

Bash es en si mismo tanto una shell de comandos como un lenguaje de programación para la automatización de procesos [4].  En el contexto de la ciencia de los datos resulta particularmente interesante, ya que:

* Permite la gestión de archivos planos de texto (creación, transformación y borrado) en el contexto de los procesos ETL (extracción, transformación y carga de datos). 
* Permite la creación de herramientas para ETL escritas en lenguajes de programación de alto nivel (como Perl, Python, Ruby o R) que pueden integrarse directamente con otras herramientas del sistema operativo.
* Sistemas como Hadoop corren sobre Unix, y por tanto, el usuario requiere unos conocimientos mínimos sobre Bash para interactuar con estos sistemas. 
* La línea de comandos es fácilmente programable y permite hacer tareas complejas usando comandos simples; en oposición, programas equivalentes en los lenguajes R o Python que hagan las mismas tareas podrían tener muchas más líneas de código.


Para ejemplificar el tipo de tareas que se pueden realizar fácilmente en la línea de comandos, suponga que tiene un archivo separado por comas (CSV) llamado datos.csv con dos millones de filas cuya cabecera se presenta a continuación:


    fecha,placa,ciudad,valor
    2015-05-03,IAY184,medellin,20040
    2016-01-03,TYE765,medellin,75645
    2014-03-25,RET145,cali,472277
    2014-03-23,IAY184,cali,28848
    2013-05-23,UYA435,cali,284663
    2010-02-26,TTE234,manizales,3456


Entre las tareas comunes de extracción, transformación y carga de datos que pueden realizarse se encuentran las siguientes:

*	Contar la cantidad de registros por año. 
*	Calcular los subtotales por año y mes de la columna valor.
*	Extraer los registros para una determinada ciudad a otro archivo.
*	Generar una lista ordenada de las ciudades que aparecen en el archivo.
*	Determinar entre que fechas se encuentra la muestra.
*	Ordenar el archivo por fecha.
*	(y muchas otras preguntas posibles)


Estas tareas son fácilmente realizables usando la línea de comandos de Linux. Por ejemplo, el comando 

```
-bash-3.2$ grep ^2015 datos.csv
```

permite imprimir en pantalla únicamente los registros del año 2015; para grabar los resultados en el archivo 2015.csv  solo es necesario modificar ligeramente el comando anterior a:

```
-bash-3.2$ grep ^2015 datos.csv > 2015.csv
```


El objetivo de este documento es presentar y ejemplificar los principales comandos del sistema operativo Unix para la transformación de archivos de texto y la automatización de estas tareas mediante el uso de scripts. Este documento difiere en gran medida de muchos otros textos sobre Bash en que está orientado a la transformación de datos, mientras que la gran cantidad de literatura existente se focaliza mayormente en tareas de gestión y administración del sistema operativo; véase, por ejemplo, las referencias [6] y [7]. 

Al finalizar este documento, el lector estará en capacidad de:

*	Visualizar una porción o el total de un archivo.
*	Renombrar, copiar y mover archivos.
*	Generar nuevos archivos a partir del contenido de otros archivos.
*	Escribir programas en Bash de complejidad baja y media.

---

# Acceso a la terminal de comandos

[Contenido](#Contenido)

Para acceder a la terminal de comandos haga lo siguiente:

* En Mac OS X, digite `Cmd + Space` para aceeder a Spotligth, digite `terminal` y finalmente `Enter`.
* En Ubuntu, digite `Ctrl + Alt + T`.
* La versión de 64 bits de Microsoft Windows instala una versión de Bash. Haga click [aquí](https://msdn.microsoft.com/en-us/commandline/wsl/install_guide) para obtener instrucciones de cómo habilitarlo.   

# Obtención de ayuda con `man`

[Contenido](#Contenido)

El prompt de comandos proporcional un manual en línea sobre los comandos del sistema. Para obtener ayuda en línea sobre un determinado comando digite: 

`    man` *`comando`*

donde *`comando`* es el comando de interés. Para salir de la ayuda digite `q`.

# Gestión del sistema de directorios y archivos

[Contenido](#Contenido)

En Unix, Linux y OS X, el sistema de archivos está organizado en una estructura de árbol cuyo directorio  inicial es **`/`**. A partir de este directorio se desprenden varios subdirectorios predefinidos que están organizados de acuerdo a sus funciones y cuyos nombres y organización dependen de cada sistema operativo particular (Haga click [aquí](https://en.wikipedia.org/wiki/Unix_filesystem) para ver una descripción general del sistema de archivos). Por ejemplo, en el caso de Mac OS X,  el directorio de trabajo del usuario `jdvelasq` aparece como


``` 
/Users/jdvelasq
```


(note el `/` inicial). Si existe un archivo llamado `notas.txt` en el directorio de trabajo de dicho usuario, entonces la dirección absoluta de dicho archivo es

```
/Users/jdvelasq/notas.txt
```

Existen varias convenciones para referirse a un archivo  de forma relativa:

*	`~` indica el directorio de trabajo del usuario actual, tal que el archivo anterior podría referenciarse como `~/notas.txt`.  Aquí `~` indica `/Users/jdvelasq`.
*	`notas.txt` hace referencia al archivo con ese nombre ubicado en el directorio actual.
*	`datos/notas.txt`  corresponde al archivo `notas.txt` ubicado en la subcarpeta datos de la capeta actual.
*	`/datos/notas.txt` se refiere al archivo con ese nombre ubicado en la carpeta datos de la raíz del sistema (no en la carpeta actual). 
*	En algunos casos es necesario referenciar al archivo `notas.txt` que se encuentra en el directorio actual como `./notas.txt`.


## Determinación del directorio actual con `pwd`  

[Contenido](#Contenido)

El comando `pwd` devuelve el nombre del directorio actual de trabajo.

In [1]:
pwd

/Users/jdvelasq/GitHub-drafts/fundamentos-programacion-bash


## Listado del contenido de un directorio con `ls`

[Contenido](#Contenido)

El comando `ls` imprime el nombre de los archivos y directorios existentes dentro del directorio de trabajo.

In [2]:
ls

LICENSE.txt				imports85.txt
fundamentos-programacion-bash.ipynb	readme.md


La opción `-l` del comando `ls` imprime información detallada del contenido del directorio de trabajo y sus respectivos permisos. 

In [3]:
ls -l

total 312
-rw-r--r--@ 1 jdvelasq  staff    1109 Jul  9 13:25 LICENSE.txt
-rwxr-xr-x  1 jdvelasq  staff  117890 Jul 16 11:35 fundamentos-programacion-bash.ipynb
-rw-r--r--@ 1 jdvelasq  staff   26217 Jul 12 18:00 imports85.txt
-rw-r--r--@ 1 jdvelasq  staff    1279 Jul 14 10:04 readme.md


Al principio de cada línea hay una cadena de diez caracteres. El primer carácter indica si el elemento es un archivo (`-`) o un directorio (`d`). Luego siguen tres grupos de tres caracteres que indican 

* Permisos de usuario.
* Permisos de grupo.
* Otros permisos.

En su orden, los tres caracteres de cada grupo representan lo siguiente: 

* Si el archivo tiene permiso de lectura (`r`) o no (`-`). 
* Si el archivo tiene permiso de escritura (`w`) o no (`-`).
* Si el archivo es ejecutable (`x`) o no (`-`); consulte la ayuda de `ls` para obtener más opciones.

Por ejemplo, la cadena `-rwxr-xr-x` indica que el elemento es un archivo (`-`), que el usuario (dueño) tiene permisos de lectura y escritura (`rw`), que el archivo es ejecutable (`x`) y que otros usuarios solo pueden leerlo (`r--`).  



## Creación de directorios con `mkdir`  

[Contenido](#Contenido)

El comando `mkdir` *`nombredir`* crea el directorio llamado *`nombredir`* dentro del directorio actual.

In [4]:
mkdir data



Para visualizar el contenido del directorio `data` (que obviamente está vacío) se utiliza igualmente el comando `ls`.

In [5]:
ls -l ./data # no imprime nada porque el directorio 'data' está vacío.



## Cambio del directorio actual con `cd` 

[Contenido](#Contenido)

Para moverse entre la estructura de directorios se usa el comando `cd`. 

`cd` *`nombredir`* permite moverse al directorio *`nombredir`* mientras que `cd ..` permite subir al directorio padre. 

In [6]:
cd data  



In [7]:
pwd 

/Users/jdvelasq/GitHub-drafts/fundamentos-programacion-bash/data


Ahora, sube al directorio padre

In [8]:
cd .. 
pwd

/Users/jdvelasq/GitHub-drafts/fundamentos-programacion-bash


Al listar el contenido del directorio actual aparece el nuevo directorio `data`.

In [9]:
ls -l  

total 312
-rw-r--r--@ 1 jdvelasq  staff    1109 Jul  9 13:25 LICENSE.txt
drwxr-xr-x  2 jdvelasq  staff      68 Jul 16 11:37 data
-rwxr-xr-x  1 jdvelasq  staff  117890 Jul 16 11:35 fundamentos-programacion-bash.ipynb
-rw-r--r--@ 1 jdvelasq  staff   26217 Jul 12 18:00 imports85.txt
-rw-r--r--@ 1 jdvelasq  staff    1279 Jul 14 10:04 readme.md


`cd` admite direcciones absolutas; por ejemplo, `cd ~` y `cd /Users/jdvelasq`  permiten ir al directorio raíz del usuario. 

## Eliminación de directorios con `rmdir`

[Contenido](#Contenido)

El comando `rmdir` *`nombredir`* borra el directorio *`nombredir`*. El directorio debe estar vacío para poder borrarlo.

In [10]:
rmdir ./data



## Creación de archivos vacíos con `touch`

[Contenido](#Contenido)

El comando `touch` permite modificar las fechas de creación y acceso de un archivo. Puede ser usado para la creación de archivos ya que si dicho archivo no existe, `touch` lo crea.  

In [11]:
# crea el archivo out.1
touch out.1



In [12]:
ls -l out*

-rw-r--r--  1 jdvelasq  staff  0 Jul 16 11:37 out.1


## Copia de archivos con `cp`

[Contenido](#Contenido)

Su sintaxis es `cp` *`origen`*  *`destino`*. En el siguiente ejemplo se crea una copia de `out.1` llamada `out.2`.

In [13]:
cp out.1 out.2
ls -l out*

-rw-r--r--  1 jdvelasq  staff  0 Jul 16 11:37 out.1
-rw-r--r--  1 jdvelasq  staff  0 Jul 16 11:37 out.2


## Renombrado y movimiento de archivos con `mv`

[Contenido](#Contenido)

`mv` puede cambiar la ubicación y el nombre de un archivo. Su sintaxis es `mv` *`origen`*  *`destino`*.

En el siguiente ejemplo se cambia el nombre del archivo `out.2` a `out.3`.

In [14]:
mv out.2 out.3
ls -l out*

-rw-r--r--  1 jdvelasq  staff  0 Jul 16 11:37 out.1
-rw-r--r--  1 jdvelasq  staff  0 Jul 16 11:37 out.3


## Borrado de archivos con `rm`   

[Contenido](#Contenido)

A continuación se borran los archivos creados.

In [15]:
rm out*



<br>
<br>

# Impresión de texto

[Contenido](#Contenido)

## Impresión usando `echo` 

[Contenido](#Contenido)

El comando `echo` permite imprimir cadenas de texto sin delimitador o delimitadas por comillas simples o dobles. Note que las comillas obligan a que se respete el espacio entre palabras.

In [16]:
echo hola     mundo    cruel # elimina los espacios en blanco entre las palabras

hola mundo cruel


In [17]:
echo 'hola     mundo    cruel'

hola     mundo    cruel


In [18]:
echo "hola     mundo    cruel"

hola     mundo    cruel


Para imprimir varias líneas de texto se puede usar un `echo` por línea:

In [19]:
echo linea 1
echo linea 2
echo linea 3

linea 1
linea 2
linea 3


pero en este caso es posible usar las comillas

In [20]:
echo 'linea 1
linea 2
linea 3' 

linea 1
linea 2
linea 3


El operador `\` se usa para indicar que la línea lógica continua en el siguiente renglón físico; en el siguiente ejemplo todos los textos se imprimen en la misma línea.

In [21]:
echo linea 1 \
linea 2 \
linea 3

linea 1 linea 2 linea 3


`echo` también admite el uso de caracteres de escape (precedidos por `'\'`); en el siguiente ejemplo se usa el carácter de retorno de carro `'\n'` en la cadena de texto para indicar el inicio de una nueva línea. Se debe usar la opción '-e' del comando `echo` para convertir los caracteres `\n` en retornos de carro.

In [22]:
echo -e "linea 1\nlinea 2\nlinea 3"

linea 1
linea 2
linea 3


## Impresión de texto con formato usando `printf` 

[Contenido](#Contenido)

Bash también tiene el comando `printf`, el cual usa una sintaxis similar a la del lenguaje C: 

* `%s` indica cadena de caracteres.
* `%f` indica un número en punto flotante.
* `%g` indica un número entero.

En los siguientes ejemplos se ilustra como se puede indicar el tamaño del campo. Note la alineación de la impresión. 

In [23]:
printf '%s ---- %f' 'hola mundo'  1.23456789

hola mundo ---- 1.234568

In [24]:
printf '%15s --- %8.2f'  hola   1.23456789

           hola ---     1.23

In [25]:
printf '%15s --- %8.2f'  'hola mundo'   123.456789

     hola mundo ---   123.46

## Impresión de secuencias usando `seq`

[Contenido](#Contenido)

En vez de `echo` se puede usar `seq` para imprimir secuencias.

In [26]:
seq 5

1
2
3
4
5


La opción `-f` permite especificar  formato para la secuencia, por ejemplo:

In [27]:
seq -f"linea %g" 5

linea 1
linea 2
linea 3
linea 4
linea 5


La opción `-s` permite indicar el separador.

In [28]:
seq -s, 2 2 10 # el separador es la coma

2,4,6,8,10,

La opción `-w` permite especificar formato.

In [29]:
seq 0 .05 .1 # valor inicial, incremento y valor final

0
0.05
0.1


In [30]:
seq -w 0 .05 .1

0.00
0.05
0.10


# Redireccionamiento de la entrada, la salida y pipes 

[Contenido](#Contenido)

Entre las características más importantes para la transformación de datos sobresalen la posibilidad de redireccionar tanto la entrada como la salida, y el uso de tuberías para usar la salida de un comando como la entrada del siguiente. El direccionamiento de la salida por pantalla a un archivo se realiza usando el operador `>`. Si el archivo al que se direcciona no existe, lo crea; y si existe lo sobrescribe. Para que la salida se agregue al contenido de un archivo existente se utiliza el operador `>>`.

En el siguiente ejemplo se imprime `hola mundo feliz` en el archivo `out.1`.

In [31]:
echo hola mundo feliz > out.1
cat out.1

hola mundo feliz


Por otra parte, el operador `<` indica que la entrada al comando se hace desde un archivo. Más adelante se presentan muchos ejemplos sobre este operador.

Finalmente, es posible víncular dos o más comandos con `|`, tal que la salida del primero es la entrada del segundo. 

<br>
<br>

# Visualización de archivos

[Contenido](#Contenido)

## Visualización del contenido de un archivo con `cat`  

[Contenido](#Contenido)

El comando `cat`  *`nombrearchivo`* imprime en pantalla el contenido del archivo.

In [32]:
echo hola mundo feliz > out.1
cat out.1  # imprime el contenido de out.1

hola mundo feliz


In [33]:
echo "otra vez hola mundo feliz" >> out.1 # agrega la nueva impresión al final de out.1
cat out.1

hola mundo feliz
otra vez hola mundo feliz


El comando `echo` sin argumentos permite crear un archivo vacío.

In [34]:
echo > out.1
cat out.1




Suponga que se desea almacenar en un archivo el siguiente texto:

     CustomerID, Customer
        1, Customer A
        2, Customer B

Para ello, existen varias alternativas. La primera opción es:

In [None]:
echo CustomerID, Customer > out.1
echo    1, Customer A >> out.1
echo    2, Customer B >> out.1

La segunda opción es:

In [None]:
echo "CustomerID, Customer
   1, Customer A
   2, Customer B" > out.1

Pero existe una tercera opción que es la siguiente:

In [1]:
cat > out.1 <<EOF
CustomerID, Customer
   1, Customer A
   2, Customer B
EOF



In [36]:
cat out.1

CustomerID, Customer
   1, Customer A
   2, Customer B


El contenido del archivo se escribe directamente entre <<EOF y EOF.

El principal uso de `cat` es la concatenación de archivos. En la siguiente porción de código se generan los archivos `out.1`, `out.2` y `out.3`, y luego se imprimen sus contenidos de forma concatenada.

In [1]:
seq -f"linea %g" 1 1 3 > out.1
seq -f"linea %g" 4 1 6 > out.2
seq -f"linea %g" 7 1 9 > out.3
cat out.1 out.2 out.3

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7
linea 8
linea 9


Una forma más compacta es usar la expresión `out.*`, la cual representa todos los archivos cuyos nombres empiezan por `out.`. De esta forma, el comando anterior se convierte en: 

In [2]:
cat out.*

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7
linea 8
linea 9


Algunos sistemas incorporan el comando `tac` que imprime el contenido de un archivo empezando por la última línea.

## Visualización del inicio de un archivo con `head`

[Contenido](#Contenido)

El comando `head` se usa para visualizar una porción inicial del contenido de un archivo. `head` imprime por defecto las primeras 10 líneas. La cantidad de líneas visualizadas se puede modificar mediante la opción `-n`.

In [38]:
seq -f"linea %g" 100 > out.1 # se generan 100 líneas
head -n 3 out.1

linea 1
linea 2
linea 3


---

**Ejercicio.--** Cuáles son los nombres de las columnas del archivo `employee`?

---

## Visualización del final de un archivo con `tail`  

[Contenido](#Contenido)

De forma similar al comando `head`, el comando `tail` permite visualizar las últimas líneas de un archivo.

In [39]:
tail -n 3 out.1

linea 98
linea 99
linea 100


En el siguiente ejemplo, el argumento `+5` indica que se imprime desde la línea 5 hasta el final.

In [40]:
seq -f'linea %g' 6 > out.1
tail +5 out.1

linea 5
linea 6


Se pueden escribir varios comandos en la misma línea separándolos por `;`.

In [41]:
echo 1; echo 2; echo 3

1
2
3


---

**Ejercicio.--** Pegue el contenido de los archivos `order2000`, ..., `order2015`.

**Ejercicio.--** Cuál es el nombre del último empleado en el archivo `employee`?

---

## Visualización del contenido de un archivo con `more` y `less`

[Contenido](#Contenido)

Unix también proporciona los comandos `more` (versión más antigua) y `less` para la visualización del contenido de archivos. Simplemente digite `less` *`nombrearchivo`* para iniciar la visualización.

* Use la tecla `Space` para avanzar una página.
* Use `Ctrl-F` (Forward) y `Ctrl-B`  (Backward) para avanzar o retroceder una página.
* Use las teclas arriba y abajo para moverse una línea a la vez.
* Digite el número de línea y `G` (go to) para ir a una línea determinada.
* Digite `q` para salir de `less`

<br>
<br>

# Tranformación de archivos

[Contenido](#Contenido)

## Ordenación de un archivo con `sort`  

[Contenido](#Contenido)

El comando `sort` permite ordenar el contenido de un archivo. El ordanamiento se realiza con base en el contenido total de cada línea. En el siguiente ejemplo, el operador `'|'` pasa la salida de `cat` como entrada a `sort`. 

In [44]:
seq -f'linea %g' 3 > out.1
cat out.1 out.1 out.1 | sort

linea 1
linea 1
linea 1
linea 2
linea 2
linea 2
linea 3
linea 3
linea 3


---

**Ejercicio.--**  Ordene el archivo `employee0`  por `EmployeeName`.

**Ejercicio.--** Ordene el archivo anterior por `CustomerID` y luego por `Date`.

---

## Obtención de las líneas únicas de un archivo con `uniq`

[Contenido](#Contenido)

El comando `uniq` permite obtener el contenido de un archivo eliminando las líneas repetidas. Observe que en los siguientes ejemplos solo se eliminan las líneas repetidas que son secuenciales.

In [46]:
seq -f'linea 1' 3 > out.1 # genera el primer archivo de datos
seq -f'linea 2' 3 > out.2 # genera el segundo archivo de datos
cat out.1 out.2 out.1 out.2

linea 1
linea 1
linea 1
linea 2
linea 2
linea 2
linea 1
linea 1
linea 1
linea 2
linea 2
linea 2


In [47]:
cat out.1 out.2 out.1 out.2 |  uniq

linea 1
linea 2
linea 1
linea 2


In [48]:
cat out.1 out.2 out.1 out.2 | sort | uniq

linea 1
linea 2


---

**Ejercicio.--**  Elimine los registros duplicados del archivo `employee0`.

---

## Conteo de la cantidad de líneas, palabras y caracteres de archivo usando `wc`

[Contenido](#Contenido)

El comando `wc` permite contar líneas, palabras, caracteres y bytes de un archivo. La opción `-l` cuenta líneas,  `-m` caracteres y `-w` palabras.

In [49]:
wc -l out.1 out.2 # número de líneas

       3 out.1
       3 out.2
       6 total


In [50]:
wc -m out.1 out.2 # número de caracteres

      24 out.1
      24 out.2
      48 total


In [51]:
wc -w out.1 out.2 # número de palabras

       6 out.1
       6 out.2
      12 total


In [52]:
wc out.1 out.2 

       3       6      24 out.1
       3       6      24 out.2
       6      12      48 total


---

**Ejercicio.--** Cuántos registros tienen los archivos `product`, `orderline` y `customer`?

**Ejercicio.--** Cuántas columnas tiene los archivos `product`, `orderline` y `customer`?

---

## Búsqueda de patrones con `grep`

[Contenido](#Contenido)

El comando `grep` permite imprime las líneas del archivo que contiene una cadena de texto especificada. En los siguentes ejemplos se imprimen los números del 1 al 20 que contienen un `'1'`.

In [53]:
seq 20 | grep 1

1
10
11
12
13
14
15
16
17
18
19


In [54]:
seq -f'linea %g' 20 > out.1
grep 1 out.1

linea 1
linea 10
linea 11
linea 12
linea 13
linea 14
linea 15
linea 16
linea 17
linea 18
linea 19


El símbolo `$` indica que la cadena de texto debe aparecer al final de la línea. El símbolo `^` indica que la cadena de texto debe aparecer al principio de la línea.

In [55]:
seq 100 | grep 1$  # imprime los números del 1 al 100 que finalizan con 1.

1
11
21
31
41
51
61
71
81
91


In [56]:
seq 100 | grep ^1  # imprime los números del 1 al 100 que empiezan con 1.

1
10
11
12
13
14
15
16
17
18
19
100


La combinación de los comandos anteriores permiten realizar operaciones complejas. En el siguiente ejemplo se obtiene la cantidad de números del 1 al 20 que contienen un `'1'`.

In [57]:
seq 20 | grep 1 | wc -l

      11


---

**Ejercicio.--** Cuántos registros hay para la ciudad de AUSTIN en el archivo `consumer`?

---

## Reemplazo de caracteres con `tr`

[Contenido](#Contenido)

También existen comandos para manipular textos. El comando `tr` permite cambiar una cadena de texto por otra. 

In [59]:
echo 'h-o-l-a- -m-u-n-d-o' > out.1
tr -d '-'  < out.1 # borra los caracteres '-'.

hola mundo


In [60]:
echo 'h-o-l-a- -m-u-n-d-o' > out.1
tr '-'  '=' < out.1  #  '-' por '='.

h=o=l=a= =m=u=n=d=o


In [61]:
echo 'h-o-l-a- -m-u-n-d-o' > out.1
tr '[:lower:]'  '[:upper:]' < out.1  # minúsculas a mayúsculas.

H-O-L-A- -M-U-N-D-O


---

**Ejercicio.--** Para el siguiente archivo, convierta únicamente la primera fila a minúsculas.

In [62]:
cat > out.1 <<EOF
Date, Year, CustomerID, Value
2013-01-12, 2013, 1, 100
2014-05-12, 2014, 1, 100
2013-02-25, 2013, 2, 200
2013-04-04, 2013, 1, 100
2013-06-21, 2013, 2, 200
2014-05-12, 2014, 1, 100
2014-05-12, 2014, 2, 200
2013-02-28, 2013, 1, 100
2013-08-02, 2013, 1, 100
EOF



**Ejercicio.--** Convierta a minúsculas todos los caracteres del archivo `employee`.

---

## Edición de archivos con `sed`

[Contenido](#Contenido)

`sed` es un editor de flujos que puede ser usado para extraer, adicionar o reemplazar textos en un archivo. En ciencia de los datos resulta particularmente interesante para realizar impresión, sustitución y borrado de texto. Cada comando es representado por una letra y el carácter `/` es usado como un delimitador.


En este ejemplo se usa `sed` para realizar búsquedas (como se hace con `grep`). Primero se imprimen los primeros 20 números a un archivo.

In [63]:
seq 20 > out.1



Para imprimir todas las líneas que tienen un '1' se usaría: 

In [64]:
sed -n '/1/p'  out.1

1
10
11
12
13
14
15
16
17
18
19


La opción `-n` indica que no debe imprimirse en pantalla cada línea leída del archivo `out.1`. La cadena `/1/` indica la expresión regular (en este caso que la línea contenga un `1`, los '/'  son delimitadores). La `p`  al final indica que se imprima la línea. 

Para imprimir todas las líneas que tienen un `1` al final.

In [65]:
sed -n '/1$/p'  out.1

1
11


El siguiente comando imprime la tercera línea:

In [66]:
sed -n '3p' out.1

3


El siguiente comando imprime de la línea 3 a la línea 6 del archivo.

In [67]:
sed -n '3,6 p' out.1 

3
4
5
6


De la línea 15 al final:

In [68]:
sed -n '15,$ p' out.1

15
16
17
18
19
20


El comando `d` indica borrado; por ejemplo, para borrar de las líneas 2 a la 19 se usaría

In [69]:
sed  '2,19 d' out.1

1
20


---

**Ejercicio.--** Para el siguiente archivo, elimine las líneas con datos faltantes. Estos se han identificado con la cadena `NA`.

In [70]:
cat > out.1 <<EOF
Date, Year, CustomerID, Value
2013-01-12, 2013, 1, 100
2014-05-12, 2014, NA, 100
2013-02-25, 2013, 2, 200
2013-04-04, 2013, 1, 100
2013-06-21, 2013, 2, 200
2014-05-12, 2014, 1, 100
2014-05-12, 2014, NA, 200
2013-02-28, 2013, 1, 100
2013-08-02, 2013, NA, 100
EOF



---

En el archivo:

In [71]:
cat > out.1 <<EOF
FieldA, FieldD, FieldE
   2, X, 2X
   2, Y, 2Y
   3, Y, 3Y
   3, X, 3X
   4, Z, 4Z 
EOF



se desean cambiar las `X` por `x`, las `Y` por `y`, y así sucesivamente. `sed` permite realizar sustituciones mediante el comando `s`:

In [72]:
sed 's/X/x/' out.1

FieldA, FieldD, FieldE
   2, x, 2X
   2, Y, 2Y
   3, Y, 3Y
   3, x, 3X
   4, Z, 4Z 


Note que solamente se sustituyeron las primeras ocurrencias de cada línea. Si se quieren cambiar todas las ocurrencias en cada línea se usa `g` para indicar sustitución global:

In [73]:
sed 's/X/x/g' out.1

FieldA, FieldD, FieldE
   2, x, 2x
   2, Y, 2Y
   3, Y, 3Y
   3, x, 3x
   4, Z, 4Z 


En el ejemplo anterior, se debería escribir un comando `sed` por cada transformación; pero `sed` admite múltiples patrones usando la opción `-e` como se muestra a continuación. 

In [74]:
sed -e 's/X/x/g' -e 's/Y/y/g' -e 's/Z/z/g' out.1

FieldA, FieldD, FieldE
   2, x, 2x
   2, y, 2y
   3, y, 3y
   3, x, 3x
   4, z, 4z 


Sea el siguiente archivo:

In [75]:
cat > out.1 <<EOF
1980-JAN-1+1:0:1.134
1980-JAN-5+1:0:1.12
1980-JAN-13+10:12:42.33
EOF



Se desea formatear la fecha y la hora, es decir, la primera línea:

```
1980-JAN-1+1:0:1.134
```

debe cambiarse por:

```
1980-JAN-01 01:00:01
```


El primer paso consiste en agregar el cero a los números de día con un solo dígito.

In [76]:
sed 's/-\([0-9]\)+/-0\1+/' out.1 > out.2
cat out.2

1980-JAN-01+1:0:1.134
1980-JAN-05+1:0:1.12
1980-JAN-13+10:12:42.33


La explicación del comando anterior es la siguiente. El patrón de entrada está conformado por los siguientes elementos:
* El caracter '-'.
* Un dígito entre 0 y 9 (patrón `[0-9]`). Las secuencias `\(` y `\)` especifican que el dígito reconocido debe recordarse. Pueden existir varias cadenas a recordar; la primera cadena es `\1`, la segunda cadena es `\2` y así sucesivamente.
* El caracter `+`.

El patrón de salida indica que:
* Se imprime el caracter `-`.
* Luego el caracter `0`.
* A continuación el dígito reconocido `\1`.


Se reemplaza el `+` por un espacio en blanco.

In [77]:
sed 's/+/ /' out.2 > out.3
cat out.3

1980-JAN-01 1:0:1.134
1980-JAN-05 1:0:1.12
1980-JAN-13 10:12:42.33


Se agrega el `0` a las horas.

In [78]:
sed 's/ \([0-9]\):/ 0\1:/' out.3 > out.4
cat out.4

1980-JAN-01 01:0:1.134
1980-JAN-05 01:0:1.12
1980-JAN-13 10:12:42.33


Se agrega el `0` a los minutos.

In [79]:
sed 's/:\([0-9]\):/:0\1:/' out.4 > out.5
cat out.5

1980-JAN-01 01:00:1.134
1980-JAN-05 01:00:1.12
1980-JAN-13 10:12:42.33


Se agrega el `0` a los segundos.

In [80]:
sed 's/:\([0-9]\)\./:0\1./' out.5 > out.6
cat out.6

1980-JAN-01 01:00:01.134
1980-JAN-05 01:00:01.12
1980-JAN-13 10:12:42.33


Se elimina la parte decimal de los segundos

In [81]:
sed 's/\.[0-9][0-9]*//' out.6 > out.7
cat out.7

1980-JAN-01 01:00:01
1980-JAN-05 01:00:01
1980-JAN-13 10:12:42


La notación `\.[0-9][0-9]*` indica que el patrón es un punto (`\.`) seguido de un dígito (`[0-9]`), seguido de cero, uno o más dígitos (`[0-9]*`).

In [82]:
# se borran los archivos temporales generados del directorio actual
rm out*



En este úlitmo ejemplo de `sed` se usará el siguiente archivo:

In [83]:
cat > out.1 <<EOF
Date, Year, CustomerID, Value
2013-01-12, 2013, 1, 100
2014-05-12, 2014, 1, 100
2013-02-25, 2013, 2, 200
2013-04-04, 2013, 1, 100
2013-06-21, 2013, 2, 200
2014-05-12, 2014, 12, 100
2014-05-12, 2014, 2, 200
2013-02-28, 2013, 11, 100
2013-08-02, 2013, 1, 100
EOF



Se desea agregar un nuevo campo llamado `Year-CoustomerID` que contiene una clave compuesta conformada por la concatenación de estos dos campos; por ejemplo, el valor para el primer registro sería `2013-1`. El siguiente comando hace el cambio del reglón dos en adelante:

In [84]:
sed 's/ \([0-9][0-9][0-9][0-9]\), \([0-9]*\)/ \1, \2, \1-\2/' out.1

Date, Year, CustomerID, Value
2013-01-12, 2013, 1, 2013-1, 100
2014-05-12, 2014, 1, 2014-1, 100
2013-02-25, 2013, 2, 2013-2, 200
2013-04-04, 2013, 1, 2013-1, 100
2013-06-21, 2013, 2, 2013-2, 200
2014-05-12, 2014, 12, 2014-12, 100
2014-05-12, 2014, 2, 2014-2, 200
2013-02-28, 2013, 11, 2013-11, 100
2013-08-02, 2013, 1, 2013-1, 100


Para realizar el cambio en la primera línea (el encabezado) se usaría el siguiente comando:

In [85]:
sed 's/\([a-zA-Z]*\), \([a-zA-Z]*\), \([a-zA-Z]*\), \([a-zA-Z]*\)/\1, \2, \3, \2-\3, \4/' out.1

Date, Year, CustomerID, Year-CustomerID, Value
2013-01-12, 2013, 1, 100
2014-05-12, 2014, 1, 100
2013-02-25, 2013, 2, 200
2013-04-04, 2013, 1, 100
2013-06-21, 2013, 2, 200
2014-05-12, 2014, 12, 100
2014-05-12, 2014, 2, 200
2013-02-28, 2013, 11, 100
2013-08-02, 2013, 1, 100


---

**Ejercicio.--** Convierta el formato de las fechas de `D/M/Y` a `YYYY-MM-DD` en los archivos `order2000` ... `order2015`.

**Ejercicio.--** Agregue dos nuevos campos al archivo `order`; el primer campo corresponde al mes y el segundo al año. 

## Extracción de campos con `cut`

[Contenido](#Contenido)

El comando `cut` permite extraer porciones de texto de un archivo. En la última línea del código presentado a continuación, se extraen las posiciones 3, 4, y 5 de cada línea de texto de un archivo, indicándolas como un rango (`3-5`). 

In [87]:
echo "123456790
abcdefghi
jklmnopqr" > out.1
cut -c3-5 out.1  

345
cde
lmn


Las columnas también pueden indicarse por posición:

In [88]:
cut -c3,4,5 out.1 

345
cde
lmn


In [89]:
# caracteres en las posiciones 2 y 5 a 7 de cada línea de un archivo.
cut -c2,5-7 out.1 

2567
befg
knop


`cut` también permite manipular archivos delimitados. 

In [90]:
cat > out.1 <<EOF
FieldA, FieldD, FieldE
   2, X, 2X
   3, Y, 3Y
   4, Z, 4Z 
EOF



En el siguiente ejemplo se extrae la segunda columna (`-f2`); se indica que el archivo está delimitado por comas (`-d,`).

In [91]:
cut -d, -f2 out.1   

 FieldD
 X
 Y
 Z


In [93]:
# este código extrae las columnas 1 y 3
cut -d, -f1,3 out.1  

FieldA, FieldE
   2, 2X
   3, 3Y
   4, 4Z 


---

**Ejercicio.--** Calcule el número de valores diferentes en la columna `Supplier` del archivo `product`.

---

Se puede usar cualquier caracter como delimitador. En el siguiente ejemplo se desean extraer los caracteres entre `'['` y `']'`.

In [94]:
seq -f"--> [%g] <--" 3 > out.1
seq -f"------> [%g] <------" 3 >> out.1
cat out.1

--> [1] <--
--> [2] <--
--> [3] <--
------> [1] <------
------> [2] <------
------> [3] <------


In [95]:
# extrae la porción de texto después de '[' 
cut -d'[' -f2 out.1 

1] <--
2] <--
3] <--
1] <------
2] <------
3] <------


Extrae la porción de texto antes de ']' 

In [96]:
cut -d']' -f1 out.1  

--> [1
--> [2
--> [3
------> [1
------> [2
------> [3


Se combinan los dos comandos anteriores

In [97]:
cut -d'[' -f2 out.1 | cut -d']' -f1 

1
2
3
1
2
3


A continuación se extrae la segunda palabra de cada línea.

In [98]:
echo "Bash is a Unix shell and command language 
written by Brian Fox for the 
GNU Project as a free software 
replacement for the Bourne shell." > out.1
cat out.1

Bash is a Unix shell and command language 
written by Brian Fox for the 
GNU Project as a free software 
replacement for the Bourne shell.


In [99]:
# el delimitador es el espacio en blanco
cut -d' ' -f2 out.1 

is
by
Project
for


---

**Ejercicio.--** Obtenga un listado ordenado de las ciudades en el archivo `customer`.

**Ejericicio.--** Obtenga el apellido para todos los empleados en el archivo `employee`.

---

## Borrado de columnas con `colrm`

[Contenido](#Contenido)

(No esta disponible en Try Jupyter!) 

Este comando remueve los caracteres comprendidos entre las columnas especificadas.

In [100]:
echo "123456790
abcdefghi
jklmnopqr" > out.1
colrm 3 5 < out.1  

126790
abfghi
jkopqr


Si no se especifica la columna final, `colrm` borra hasta el final de la línea.

In [101]:
colrm 3 < out.1

12
ab
jk


## Unión de archivos con `join`

[Contenido](#Contenido)

Un problema típico en transformación de datos es tener que combinar dos archivos usando un campo clave. Tal como ya se ha ejemplificado en este documento, en muchos casos los archivos de texto son equivalentes a las tablas en los sistemas de bases de datos relacionales. El problema en cuestión es el siguiente: existe un archivo `out.1`:

In [3]:
cat > out.1 <<EOF
key, F1, F2
  1, 11, 12
  2, 21, 22
  4, 41, 42
EOF



y un archivo `out.2`:

In [4]:
cat > out.2 <<EOF
key, F3, F4
  1, 13, 14
  2, 23, 24
  3, 33, 34 
EOF



La primera columna es la clave; los valores de los campos corresponden a la posición del elemento, es decir, el valor `13` corresponde al registro `1` y al campo `3`.

El comando `join` permite unir las líneas de ambos archivos usando el campo designado como clave. `join` no agrega el último registro de `out.1`, ya que no existe este registro en el archivo `out.2`

In [5]:
# agrega out.2 a out.1 usando como clave el primer campo (por defecto)
join -t, out.1 out.2 

key, F1, F2, F3, F4
  1, 11, 12, 13, 14
  2, 21, 22, 23, 24


Se puede especificar el campo de unión con las opciones `-1` para indicar el campo clave del primer archivo y `-2` para indicar el campo clave del segundo archivo.

In [6]:
join -1 1 -2 1 -t, out.2 out.1 

key, F3, F4, F1, F2
  1, 13, 14, 11, 12
  2, 23, 24, 21, 22


Adicionalmente, se pueden indicar los campos de salida con la opción `-o`. En el siguiente ejemplo, `1.2` representa el campo 2 del archivo 1.

In [7]:
join -t, -o1.2,2.3 out.1 out.2 

 F1, F4
 11, 14
 21, 24


In [8]:
join -t, -o"0, 1.2, 2.3" out.1 out.2 

key, F1, F4
  1, 11, 14
  2, 21, 24


La opción `-v` se usa para que `join` imprima los registros que solo aparecen en uno solo de los archivos.

El siguiente comando imprime los registros de `out.1` cuya clave no aparece en `out.2`:

In [12]:
join -t, -v 1 out.1 out.2

  4, 41, 42


De forma equivalente, los registros de `out.2` que no están en `out.1` se obtienen con

In [13]:
join -t, -v 2 out.1 out.2

  3, 33, 34 


Los comandos anteriores se pueden combinar en uno solo:

In [14]:
join -t, -v 1 -v 2 out.1 out.2

  3, 33, 34 
  4, 41, 42


Para que en la combinación se incluyan los registros sin clave en alguno de los archivo se usa la opción `-a`. Por ejemplo,

In [15]:
join -a 1 -t, out.1 out.2 

key, F1, F2, F3, F4
  1, 11, 12, 13, 14
  2, 21, 22, 23, 24
  4, 41, 42


In [16]:
join -a 2 -t, out.1 out.2 

key, F1, F2, F3, F4
  1, 11, 12, 13, 14
  2, 21, 22, 23, 24
  3, 33, 34 


In [26]:
join -a 1 -a 2 -e NA -t,   out.1 out.2 

key, F1, F2, F3, F4
  1, 11, 12, 13, 14
  2, 21, 22, 23, 24
  3, 33, 34 
  4, 41, 42


---

**Ejercicio.--** Agregue los campos `EmployeeName` del archivo `employee` y  `Name` de `customer` a los archivos `order2010`, ...,  `order2015`.

---

## Pegado de archivos con `paste`

[Contenido](#Contenido)

El comando `paste` permite pegar un archivo con otro, uniendo la primera linea de ambos archivos, luego la segunda y así sucesivamente.

In [7]:
seq -f'linea %g' 5 > out.1; cat out.1

linea 1
linea 2
linea 3
linea 4
linea 5


In [8]:
seq -f'linea %g' 6 1 10 > out.2; cat out.2

linea 6
linea 7
linea 8
linea 9
linea 10


In [110]:
paste -d'-' out.1 out.2

linea 1-linea 6
linea 2-linea 7
linea 3-linea 8
linea 4-linea 9
linea 5-linea 10


---

# Variables y arrays

[Contenido](#Contenido)

Las variables en Bash funcionan de forma análoga a las variables en otros lenguajes de programación.  

Las variables en Bash no necesitan se declaradas (tal como en el lenguaje C) para ser usadas. Para hacer la asignación se utiliza el símbolo `=`; note que no puede haber espacio alrededor del `=`. En la segunda línea de código es necesario preceder el nombre de la variable por `$` para indicar que var1 es un nombre de variable y no una cadena de texto.

In [111]:
var1='hola mundo'
echo $var1 

hola mundo


In [112]:
echo var1

var1


A una variable se le puede asignar el resultado de un comando:

In [113]:
x=$(echo hola mundo)
echo $x

hola mundo


El shell solo soporta aritmética entera y está diseñado primariamente para operaciones del sistema operativo y cadenas de caracteres, por lo que en el siguiente código lo que se indica es que se están concatenando cadenas de caracteres.

In [114]:
x=1
y=$x+1
echo $y

1+1


Para indicar que se están realizando operaciones aritméticas hay dos opciones: la primera es utilizar el operador `$((` ... `))`  y la segunda es usar el comando `let`.

In [115]:
x=1
y=$((x+1))
echo $y

2


In [116]:
let x=1
let y=x+1
echo $y

2


El shell soporta los `+=`, `-=`, ... similares a los del lenguaje C. No pueden dejarse espacios alrededor de ellos.

In [117]:
let x=1
let x+=1
echo $x

2


Bash también permite el uso de arrays. Para crear un array es necesario colocar sus componentes entre `(` y `)`. Note que cuando se imprime con `echo` solo aparece el primer elemento.

In [152]:
x=(a b c d e)
echo $x

a


Para acceder a cada uno de los elementos se debe usar el operador `[` ... `]`, teniendo en cuenta que el primer elemento tiene índice cero, el segundo índice uno y así sucesivamente.

In [153]:
echo ${x[1]}

b


Para imprimir todos los elementos se debe usar `[*]`.

In [154]:
echo ${x[*]}

a b c d e


Se pueden usar las estructuras de iteración anteriores para recorrer los elementos del vector.

In [155]:
for n in ${x[*]}
do
    echo $n
done

a
b
c
d
e


Los elementos del vector también pueden ser modificados.

In [156]:
x[2]='hola'
for n in ${x[*]}
do
    echo $n
done

a
b
hola
d
e


<br>
<br>

# Scripts

[Contenido](#Contenido)

Los scripts son archivos que contienen secuencias de comandos y que pueden ser ejecutados directamente en la línea de comandos (Bash en este caso). En el siguiente ejemplo, se va a crear un script llamado `demo.sh` el cual imprime `hola mundo` en la pantalla. 

Se direcciona la salida al archivo en vez de la pantalla.

In [118]:
echo 'echo hola mundo' > demo.sh  



Se imprime en pantalla en contenido de demo.sh

In [119]:
cat demo.sh  

echo hola mundo


El archivo fue creado en el directorio de trabajo

In [120]:
ls *.sh  

demo.sh


Para ejecutarlo se usa el comando `bash`.

In [121]:
bash ./demo.sh  

hola mundo


Es posible hacer que el archivo `demo.sh`  sea ejecutable por el sistema operativo. 

En primer lugar, es necesario agregar la linea `#! /usr/bin/env bash` la cual indica que el archivo actual puede ser ejecutado usando el comando `bash`; obligatoriamente esta tiene que ser la primera línea del archivo.  La cadena de caracteres `#!` se conoce como *shebang*, *hashbang* o *sharpbang* en la jerga de Unix; después del shebang va el `path` donde se encuentra el programa que puede ejecutar el archivo actual; y finalmente, aparece el nombre del programa como tal.       

In [122]:
cat > demo.sh <<EOF
#! /usr/bin/env bash
echo hola mundo
EOF



Se imprime el contenido de `demo.sh`.

In [123]:
cat demo.sh 

#! /usr/bin/env bash
echo hola mundo


En segundo lugar, se modifican las propiedades del archivo `demo.sh` con el comando `chmod` para hacerlo ejecutable (opción `+x`).

In [124]:
chmod +x demo.sh



Para ejecutar `demo.sh` es necesario precederlo de `./` para indicar que el archivo se encuentra en el directorio actual de trabajo.

In [125]:
./demo.sh

hola mundo


La ventaja de los scripts es que pueden ser usados pasándoles parámetros.

En este caso se modifica el programa anterior para que salude al usuario, cuyo nombre se pasa como un parámetro al script. `$1` corresponde al primer argumento de la llamada.

In [29]:
cat > demo.sh <<EOF
#! /usr/bin/env bash
echo hola $1
EOF



In [30]:
cat demo.sh

#! /usr/bin/env bash
echo hola 


In [128]:
./demo.sh juan

hola juan


Como se observó en el ejemplo anterior: 
* `$1` indica el primer argumento. 
* `$2` indica el segundo argumento, y así sucesivamente. 
* `$0` es el nombre del script. 
* `$*` y `$@` representan la cadena de texto conformada por todos los argumentos. 
* `$#` indica el número de argumentos pasados al script. 

In [129]:
echo "echo \$@
echo \$*
echo \$0
echo \$1
echo \$#" > demo.sh
cat demo.sh

echo $@
echo $*
echo $0
echo $1
echo $#


In [130]:
bash demo.sh a b c d

a b c d
a b c d
demo.sh
a
4


---

**Ejercicio.--** Escriba un script que imprima en pantalla la cantidad de registros para cada ciudad en el archivo `customer`. 

---

# Funciones

[Contenido](#Contenido)

En el siguiente ejemplo se crea una función en Bash. Después del nombre de la función siempre se escribe `()` y se delimita el cuerpo de la función usando llaves (`{`  y `}`).

In [131]:
demo(){
  echo hola mundo
}



Para ejecutar la función simplemente se escribe su nombre (sin `()`).

In [132]:
demo

hola mundo


Los argumentos se notan como `$1`... al igual que en los scripts. En este caso `$0` es el `bash` y no se puede acceder al nombre de la función. Note que en la llamada a la función no se usan paréntesis, tal como si ocurre en otros lenguajes de programación.

In [133]:
demo() {
  echo $@
  echo $*
  echo $0
  echo $1
  echo $#
}
demo a b c d

a b c d
a b c d
/bin/bash
a
4


Las funciones pueden ser almacenadas y ejecutadas dentro de un script, tal como se muestra a continuación.

In [31]:
cat > maxmin.sh <<EOF 
min2(){
    echo 'arg1 (min2): ' \$1
    echo 'arg2 (min2): ' \$2
    if ((\$1 < \$2))
    then 
        echo \$1
    else
        echo \$2
    fi        
}

max2(){
    echo 'arg1 (max2): ' \$1
    echo 'arg2 (max2): ' \$2
    if ((\$1 > \$2))
    then 
        echo \$1
    else
        echo \$2
    fi        
}

max2 \$3 \$4
min2 \$1 \$2
EOF



In [32]:
bash maxmin.sh 10 20 30 40

arg1 (max2):  30
arg2 (max2):  40
40
arg1 (min2):  10
arg2 (min2):  20
10


<br>
<br>

<br>
<br>

# Estructuras de control

[Contenido](#Contenido)

## Decisión con `if-then-else-fi` y `case-esac`

[Contenido](#Contenido)

En el siguiente ejemplo se codifica la función `min2` la cual recibe dos números enteros e imprime el menor de ellos. Si ambos números son iguales, se imprimen ambos argumentos. En este ejemplo también se presenta la estructura condicional `if`; para que el condicional sea evaluado correctamente es necesario colocar la expresión entre `((` y `))`. 

In [134]:
min2(){
    if (($1 < $2))
    then 
        echo $1
    elif (($1 == $2))
    then
        echo $1 $2
    else
        echo $2
    fi        
}
min2 1 2

1


In [135]:
min2 2 1

1


In [136]:
min2 2 2

2 2


El siguiente codigo lee los nombres de los archivos del directorio actual e imprime los que son un jupyter notebook. En la primera línea, `*` indica los archivos y directorios en el directorio actual de trabajo.  En la cuarta línea, `*.ipynb` indica que el nombre de archivo (almacenado en `x`) debe terminar en la extensión `.ipynb`. La expresión `*)` en la quinta línea es el caso por defecto (cualquier nombre de archivo), es decir, se ejecuta si no han cumplido ninguna de las instrucciones especificadas por las sentencias `case` anteriores.

In [137]:
for x in *
do
    case $x in
        *.ipynb) echo -n -e $x ' es un Jupyter notebook\n';;
        *) 
    esac
done

fundamentos-programacion-bash.ipynb  es un Jupyter notebook


---

**Ejercicio.--** Escriba una función, llamada `mathop` que recibe tres argumentos y ejecuta el cálculo especificado. Por ejemplo:
```
mathop 1 + 2
mathop 1 * 2
mathop 1 - 2
```

**Ejercicio.--** Escriba una función que calcule el factorial de su argumento.

**Ejercicio.--** Escriba una función que reciba un número variable de argumentos y calcule su suma.

---

## Ciclos definidos con `for`

[Contenido](#Contenido)

A continuación se presentan varios ejemplos de procesos iterativos usando `for`.

In [139]:
# imprime los números del 1 al 5.
for x in 1 2 3 4 5  
do
    echo -n $x ''
done

1 2 3 4 5 

In [140]:
# el mismo ejemplo anterior.
for x in $(seq 1 5) 
do
    echo -n $x ''
done

1 2 3 4 5 

In [141]:
# de nuevo, el mismo ejemplo anterior
for x in {1..5} 
do
    echo -n $x ''
done

1 2 3 4 5 

In [142]:
# note que la expresión va entre '(('  y '))'
for ((x=1; x <= 5; x++))  
do
  echo -n $x ''
done

1 2 3 4 5 

En el siguiente ejemplo se generarán las cadenas de texto `file1.txt`, `file2.txt` ... hasta `file5.txt` usando un ciclo `for`. El nombre de la variable debe encerrarse entre `${` y `}` para distingirlo del resto de la cadena de texto. Es decir, si se coloca `echo filex.txt` o `echo file$x.txt` el interprete no puede diferenciar el nombre de la variable (`x`) del texto restante.

In [143]:
for x in {1..5} 
do
    echo file${x}.txt
done

file1.txt
file2.txt
file3.txt
file4.txt
file5.txt


De hecho, se pueden generar salidas mucho más complejas, tal como se ilustra a continuación (Ok! no se necesita el for para esto, pero es para ejemplificar).

In [144]:
# el for recibe el resultado de ejecutar la expresión entre '$('  y  ')'.
for x in $(seq -f'file%g.txt' 5) 
do
    echo '--->' $x
done

---> file1.txt
---> file2.txt
---> file3.txt
---> file4.txt
---> file5.txt


En el siguiente ejemplo se genera un conjunto de archivos llamados `out.1`, `out.2`, ..., `out.5`. 

In [145]:
for x in {1..5}
do
    seq -f'linea %g' 5 > out.${x}
done
ls out.*

out.1	out.2	out.3	out.4	out.5


A continuación se usa el comando `head` para iterar sobre los archivos e imprimir la primera línea de cada uno de ellos.

In [146]:
head1(){
    for x in out.*
    do
        head -n 1 $x
    done
}
head1

linea 1
linea 1
linea 1
linea 1
linea 1


## Ciclos condicionales con `while` 

[Contenido](#Contenido)

El último ejemplo puede ser realizado usando un ciclo `while` en vez de un ciclo `for`. En este caso, el condicional puede ser especificado con la palabra clave `test` o colocando el condicional entre `((` y `))`.  

In [147]:
n=1
while test $n -le 5
do
    echo file${n}.txt
    n=$((n+1))
done

file1.txt
file2.txt
file3.txt
file4.txt
file5.txt


In [148]:
n=1
while (($n <= 5))
do
    echo file${n}.txt
    n=$((n+1))
done

file1.txt
file2.txt
file3.txt
file4.txt
file5.txt


## Ciclos condicionales con `until`

[Contenido](#Contenido)

Otra forma alternativa es usar un ciclo `until`.

In [149]:
n=1
until (($n > 5))
do
    echo file${n}.txt
    n=$((n+1))
done

file1.txt
file2.txt
file3.txt
file4.txt
file5.txt


En el último ejemplo de esta sección, se codifica una función que recibe una lista de enteros e imprime el menor de ellos.

In [150]:
minimum(){
    n=$1
    for x in $*
    do
        if test $x -lt $n 
        then
            n=$x
        fi
    done
    echo $n
}
minimum 6 1 7 5 1 2  5

1


---

**Ejercicio.--** Escriba una función que genere un número entero consecutivo por cada valor diferente en un campo de un archivo CSV. Uselo en el archivo del ejercicio anterior.

---

<br>
<br>

# Cálculos numéricos en punto flotante

[Contenido](#Contenido)

(El comando bc no está disponible en Try Jupyter!)


Como ya se indicó, Bash solo puede realizar aritmética entera. Para realizar cálculos en punto flotante se debe usar el comando `bc` o el comando `dc`. Se iniciará con `bc`. Para realizar una operación aritmética, como por ejemplo la suma, se debe generar una cadena de la forma `1.0+2.0+3.0`, la cual es pasada a `bc`. El siguiente código muestra como se genera dicha cadena en cada iteración del ciclo `for`. La variable `s` se usa para almacenar la expresión matemática como una cadena de caracteres. 

In [157]:
s=0
for x in 1.1 2.2 3.3
do
    s=$(echo $s \+ $x)
    echo $s
done

0 + 1.1
0 + 1.1 + 2.2
0 + 1.1 + 2.2 + 3.3


Ahora se le pasa la cadena almacenada en `s` a `bc`.

In [158]:
s=0
for x in 1.1 2.2 3.3 
do
    s=$(echo $s \+ $x)
done
echo $s | bc

6.6


Otra forma sería usar la variable `s` para almacenar la suma parcial, tal como se ejemplifica a continuación.

In [159]:
s=0
for x in 1.1 2.2 3.3
do
    s=$(echo $s \+ $x | bc)
    echo $s
done

1.1
3.3
6.6


Ahora se puede encapsular el código en una función que sume sus argumentos.

In [160]:
sum(){
    s=0
    for x in $*
    do
        s=$(echo $s \+ $x)
    done
    echo $s | bc
}
sum 1.1 2.1 3.1 4.1

10.4


El comando `dc` es una calculadora de notación postfija. El siguiente código permite sumar los números 1, 2 y 3. Se debe colocar la letra `p` al final para que imprima el resultado.

In [161]:
echo '1 2 + 3 + p' | dc

6


In [162]:
sum(){
    s=0
    for x in $*
    do
        s=$(echo $s  $x \+)
    done
    echo $s ' p'  | dc
}
sum 1.1 2.1 3.1 4.1

10.4


---

**Ejercicio.--** Escriba la función `csvsum` que recibe un archivo CSV, el número del campo clave y el número del campo a sumar, y retorna la suma de la columna especificada para cada valor único del campo clave. 

In [163]:
cat > out.1 <<EOF
Date, Year, CustomerID, Value
   2013-01-12, 2013, 1, 10.1
   2013-02-25, 2013, 2, 20.3
   2013-02-28, 2013, 1, 10.4
   2013-04-04, 2013, 1, 14.0
   2013-06-21, 2013, 2, 21.2
   2013-08-02, 2013, 1, 12.5
   2014-05-12, 2014, 1, 31.4
   2014-05-12, 2014, 2, 14.2
   2014-05-12, 2014, 1, 12.0
EOF



**Ejercicio.--** Escriba la función `cpaste` que ejecuta un join cartesiano de dos archvos. Esto es, la primera fila del primer archivo con todas las filas del segundo archivo; luego la segunda fila del primer archivo con todas las filas del segundo archivo y así sucesivamente. 

**Ejercicio.--** Escriba una función que concatene correctamente dos archivos CSV que tienen las mimas columnas, pero en diferente orden. Usela para concatenar los dos archivos especificados a continuación.

In [164]:
cat > out.1 <<EOF
   A, B, C
   1, 2, 3
   4, 5, 6
EOF



In [165]:
cat > out.2 <<EOF
   A, C, B
   7, 8, 9
   10, 11, 12
EOF



**Ejercicio.--** Verifique que la función del ejercicio anterior opera correctamente con: 

In [166]:
cat > out.1 <<EOF
   A, B, C
   1, 2, 3
   4, 5, 6
EOF



In [167]:
cat > out.2 <<EOF
   A, C
   7, 8
   10, 11
EOF



**Ejercicio.--** Agregue el campo `subtotal` al archivo `orderline` que es calculado como `quantity` * `price`. 

**Ejercicio.--** Agregue el campo `total` al archivo `order` el cual corresponde al valor total de la venta en cada orden. 

**Ejercicio.--** Agregue el campo `quarter` y sus correspondientes valores al archivo `order`.

**Ejercicio.--** Genere los archivos `order.` *`CostumerID`*, los cuales contienen las órdenes para cada `CustomerID`.

**Ejercicio.--** Elimine el campo `Email` del archivo `customer`.

**Ejercicio.--** Genere un archivo con el total pagado a cada `supplier` (archivo `product`) por año. 

---

<br>
<br>

# Implementación de herramientas escritas en otros lenguajes   

[Contenido](#Contenido)

Una de las características primordiales del sistema operativo Unix es que los comandos como cat y ls, realmente son programas (almacenados en archivos) que existen en el disco duro del computador y el interprete de comandos los ejecuta en respuesta a las acciones del usuario. Cada uno de estos programas puede estar escrito en un lenguaje de programación y el interprete permite que se ejecuten de una forma transparente. Consecuentemente, la utilidad de la línea de comandos radica en la posibilidad de crear nuevas herramientas con el lenguaje de programación que sea más ventajoso para cada tarea particular, y combinarlas con las herramientas existentes.  

## Herramientas en Python

[Contenido](#Contenido)

Como primer ejemplo, se escribirá una herramienta `seq.py` en el lenguaje Python, la cual  recibe como parámetro un entero `n` e imprima la secuencia de `1` hasta `n`. Si se desea una herramientas que funcione de forma similar a los comandos del sistema operativo se obviaría la extensión del archivo. 

El primer paso es ubicar el directorio de instalación de Python usando el comando `which`.

In [168]:
which -a python

/Users/jdvelasq/anaconda/bin/python
/usr/bin/python


El resultado anterior indica que hay dos instalaciones de Python en la máquina local. El primer interprete está en el directorio `/Users/jdvelasq/anaconda/bin/python` y el segundo en `/usr/bin/python`. Para determinar que versión de Python se encuentra instalada en cada directorio se llama el interprete con la opción `--version`. 

In [169]:
/Users/jdvelasq/anaconda/bin/python --version

Python 3.5.1 :: Anaconda 4.0.0 (x86_64)


In [170]:
/usr/bin/python --version

Python 2.7.10


Esto indica que están instaladas las versiones 3.5.1 y 2.7.10. Ya que el directorio `/Users/jdvelasq/anaconda/bin/python` está en primero en el path de la máquina, cuando se invoca el interprete se ejecuta Python 3.5.1. Por ejemplo:

In [171]:
python --version

Python 3.5.1 :: Anaconda 4.0.0 (x86_64)


En la siguiente porción de código se escribe la herramienta `seq.py`.

In [172]:
cat > seq.py >>EOF
import sys
x = int(sys.argv[1])
for i in range(x):
    print i+1,
EOF



La sentencia `import sys` indica que se debe cargar la librería con las funciones del sistema. La variable `sys.argv`  es una lista que contiene los argumentos de la llamada; `sys.argv[0]` es el nombre del programa (`seq.py`) y `sys.argv[1]` es el entero `n`.

Para ejecutarla es invoca el interprete de Python ubicado en el directorio `/usr/bin/python`.

In [173]:
/usr/bin/python seq.py 5

1 2 3 4 5


Para comvertir el programa anterior en una herramienta del sistema operativo, se adiciona el shebang (`#!`) y se cambian las propiedades del archivo para hacerlo ejecutable usando `chmod`. 

In [None]:
echo > seq.py <<EOF
#! /usr/bin/python
import sys
x = int(sys.argv[1])
for i in range(x):
    print i+1,
EOF

In [174]:
chmod +x seq.py



Para ejecutar el programa ya no es necesario invocar el interprete de Python.

In [175]:
./seq.py 4

1 2 3 4


## Herramientas en R

[Contenido](#Contenido)

También es posible escribir herramientas en R. En este ejemplo se escribirá una herramienta que genere una secuencia de números aleatorios. En primer lugar (al igual que en el caso anterior), se obtiene la ubicación del interprete del lenguaje R para la consola de comandos.

In [176]:
which -a Rscript

/usr/local/bin/Rscript


Seguidamente, se escribe el código en R en el archivo `unif.R` y se cambian las propiedades del archivo para hacerlo ejecutable usando `chmod`.

In [None]:
echo > unif.R <<EOF
#! /usr/bin/env Rscript
args <- commandArgs(trailingOnly=TRUE)  
cat(runif(as.numeric(args)), sep='\n')  
EOF

In [177]:
chmod +x unif.R



En este caso, y de forma similar al programa escrito en Python, args es una variable que almacena los argumentos con que se llama el programa `unif.R`. 

En este punto ya es posible usar la herramienta para generar secuencias de números aleatorios uniformemente distribuidos.

In [178]:
./unif.R 5

0.4161142
0.8878654
0.1772448
0.3474352
0.7245935


La potencia de la línea de comandos radica en que el Bash actua como un pegante que permite usar las herramientas escritas en distintos lenguajes. Como siguiente ejemplo, se desea escribir una función en `bash` llamada `randunif` que genere `n` archivos llamados `out.*` los cuales contienen `m` números aleatorios uniformes. Por ejemplo, la llamada `randunif 2 4` genera 2 archivos con 4 números aletorios cada uno. La función `randunif` es codificada en `bash`:

In [179]:
randunif(){
    for n in $(seq $1)
    do
        echo $(./unif.R $2) > aux.${n}
        tr ' '  '\n' < aux.${n} > out.${n}
        rm aux.${n}  
    done
}



A continuación se generan los archivos `out.1`, `out.2` y `out.3` con 5 números aleatorios cada uno:

In [180]:
randunif 3 5



In [181]:
cat out.1

0.8578735
0.557835
0.121629
0.2457538
0.5262468


In [182]:
cat out.2

0.1891444
0.8391147
0.7865605
0.8844072
0.684347


In [183]:
cat out.3

0.5808694
0.8274748
0.8746066
0.1478688
0.4580991


**Limpieza del directorio de trabajo.**

In [184]:
rm *.sh
rm out*
rm *.py
rm *.R

rm: old*: No such file or directory
rm: data*: No such file or directory


[Contenido](#Contenido)

---

**Recursos adicionales de aprendizaje**

> [The Command Line Crash Course](http://cli.learncodethehardway.org/book/) 

> [The Linux Command Line](http://linuxcommand.org/tlcl.php) By William Shotts

> [Learn Enough Command Line to Be Dangerous](https://www.learnenough.com/command-line-tutorial#sec-grepping) by Michael Hart

> [Data Science at the Command Line](http://datascienceatthecommandline.com) by Jeroen Janssens

> [The Mac OS X Command Line: Unix Under the Hood](http://www.wiley.com/WileyCDA/WileyTitle/productCd-0782143547.html) by Kirk McElhearn

**Bibliografía**.

[1] D. Cross. Data Munging with Perl. Maning Publications Co. 2001

[2] S. Redmond. Mastering QlikView. Packs Publishing, 2014.

[3] T. Meyr. Apple® Automator with AppleScript® Bible. Wiley Publishing, Inc., Indianapolis, Indiana, 2010.

[4] C. Albing, JP Vossen and C. Newham. Bash cookbook. O'Reilly, Media Inc. 2007. 

[5] E. S. Raymond, The Art of Unix Programming. Addison-Wesley, 2004.

[6] K. McElhearn. The Mac OS X Command Line: Unix under the hood. Ibex, 2005.

[7] R. K. Michael. Mastering Unix Shell Scripting. Wiley, 2003.