# Transformación de Datos usando Bash -- 2
Notas de clase sobre la transformacion de datos usando la línea de comandos en sistemas Linux

**Juan David Velásquez Henao**    
jdvelasq@unal.edu.co  
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia  

[Licencia](https://github.com/jdvelasq/transformacion-datos-bash/blob/master/LICENCIA.txt)  
[Readme](https://github.com/jdvelasq/transformacion-datos-bash/blob/master/readme.md)

**Software utilizado**.

> Este es un documento interactivo escrito como un notebook de [Jupyter](http://jupyter.org), en el cual se presenta un tutorial sobre la transformación de datos usando Bash en el contexto de la ciencia de los datos. Los notebooks de Jupyter permiten incoporar simultáneamente código, texto, gráficos y ecuaciones. El código presentado en este notebook puede ejecutarse en los sistemas operativos Linux y OS X.

> Haga click [aquí](https://github.com/jdvelasq/guias-de-instalacion) para obtener instrucciones detalladas sobre como instalar Jupyter en Windows y Mac OS X.

> Haga clic [aquí](http://nbviewer.jupyter.org/github/jdvelasq/transformacion-datos-bash/blob/master/transformacion-datos-bash-2.ipynb) para ver la última versión de este documento en nbviewer.

> Descargue la última versión de este documento a su disco duro; luego, carguelo y ejecutelo en línea en [Try Jupyter!](https://try.jupyter.org)

#### Contenido

> * [Impresión de texto](#Impresión-de-texto)
    * [Impresión usando `echo` ](#Impresión-usando-echo)
    * [Impresión de texto con formato usando `printf` ](#Impresión-de-texto-con-formato-usando-printf)
    * [Impresión de secuencias usando `seq`](#Impresión-de-secuencias-usando-seq)
  * [Redireccionamiento de la entrada, la salida y pipes ](#Redireccionamiento-de-la-entrada,-la-salida-y-pipes)
  * [Visualización de archivos](#Visualización-de-archivos)
    * [Visualización del contenido de un archivo con `cat`  ](#Visualización-del-contenido-de-un-archivo-con-cat)
    * [Visualización del inicio de un archivo con `head`](#Visualización-del-inicio-de-un-archivo-con-head)
    * [Visualización del final de un archivo con `tail`  ](#Visualización-del-final-de-un-archivo-con-tail)
    * [Visualización del contenido de un archivo con `more` y `less`](#Visualización-del-contenido-de-un-archivo-con-more-y-less)
  * [Tranformación de archivos](#Tranformación-de-archivos)
    * [Ordenación de un archivo con `sort`  ](#Ordenación-de-un-archivo-con-sort)
    * [Obtención de las líneas únicas de un archivo con `uniq`](#Obtención-de-las-líneas-únicas-de-un-archivo-con-uniq)
    * [Conteo de la cantidad de líneas, palabras y caracteres de archivo usando `wc`](#Conteo-de-la-cantidad-de-líneas,-palabras-y-caracteres-de-archivo-usando-wc)
    * [Búsqueda de patrones con `grep`](#Búsqueda-de-patrones-con-grep)
    * [Reemplazo de caracteres con `tr`](#Reemplazo-de-caracteres-con-tr)
    * [Edición de archivos con `sed`](#Edición-de-archivos-con-sed)
    * [Extracción de campos con `cut`](#Extracción-de-campos-con-cut)
    * [Borrado de columnas con `colrm`](#Borrado-de-columnas-con-colrm)
    * [Unión de archivos con `join`](#Unión-de-archivos-con-join)
    * [Pegado de archivos con `paste`](#Pegado-de-archivos-con-paste)

**Bibliografía**.

> [1] D. Cross. Data Munging with Perl. Maning Publications Co. 2001

> [2] S. Redmond. Mastering QlikView. Packs Publishing, 2014.

> [3] T. Meyr. Apple® Automator with AppleScript® Bible. Wiley Publishing, Inc., Indianapolis, Indiana, 2010.

> [4] C. Albing, JP Vossen and C. Newham. Bash cookbook. O'Reilly, Media Inc. 2007. 

> [5] E. S. Raymond, The Art of Unix Programming. Addison-Wesley, 2004.

> [6] K. McElhearn. The Mac OS X Command Line: Unix under the hood. Ibex, 2005.

> [7] R. K. Michael. Mastering Unix Shell Scripting. Wiley, 2003.

**Recursos adicionales de aprendizaje**

> [The Command Line Crash Course](http://cli.learncodethehardway.org/book/) 

> [The Linux Command Line](http://linuxcommand.org/tlcl.php) By William Shotts

> [Learn Enough Command Line to Be Dangerous](https://www.learnenough.com/command-line-tutorial#sec-grepping) by Michael Hart

> [Data Science at the Command Line](http://datascienceatthecommandline.com) by Jeroen Janssens

> [The Mac OS X Command Line: Unix Under the Hood](http://www.wiley.com/WileyCDA/WileyTitle/productCd-0782143547.html) by Kirk McElhearn

---

# Impresión de texto

[Contenido](#Contenido)

## Impresión usando `echo` 

[Contenido](#Contenido)

El comando `echo` permite imprimir cadenas de texto sin delimitador o delimitadas por comillas simples o dobles. Note que las comillas obligan a que se respete el espacio entre palabras.

In [1]:
echo hola     mundo    cruel # elimina los espacios en blanco entre las palabras

hola mundo cruel


In [2]:
echo 'hola     mundo    cruel'

hola     mundo    cruel


In [3]:
echo "hola     mundo    cruel"

hola     mundo    cruel


Para imprimir varias líneas de texto se puede usar un `echo` por línea:

In [4]:
echo linea 1
echo linea 2
echo linea 3

linea 1
linea 2
linea 3


pero en este caso es posible usar las comillas

In [5]:
echo 'linea 1
linea 2
linea 3' 

linea 1
linea 2
linea 3


El operador `\` se usa para indicar que la línea lógica continua en el siguiente renglón físico; en el siguiente ejemplo todos los textos se imprimen en la misma línea.

In [6]:
echo linea 1 \
linea 2 \
linea 3

linea 1 linea 2 linea 3


`echo` también admite el uso de caracteres de escape (precedidos por `'\'`); en el siguiente ejemplo se usa el carácter de retorno de carro `'\n'` en la cadena de texto para indicar el inicio de una nueva línea. Se debe usar la opción '-e' del comando `echo` para convertir los caracteres `\n` en retornos de carro.

In [7]:
echo -e "linea 1\nlinea 2\nlinea 3"

linea 1
linea 2
linea 3


## Impresión de texto con formato usando `printf` 

[Contenido](#Contenido)

Bash también tiene el comando `printf`, el cual usa una sintaxis similar a la del lenguaje C: 

* `%s` indica cadena de caracteres.
* `%f` indica un número en punto flotante.
* `%g` indica un número entero.

En los siguientes ejemplos se ilustra como se puede indicar el tamaño del campo. Note la alineación de la impresión. 

In [8]:
printf '%s ---- %f' 'hola mundo'  1.23456789

hola mundo ---- 1.234568

In [9]:
printf '%15s --- %8.2f'  hola   1.23456789

           hola ---     1.23

In [10]:
printf '%15s --- %8.2f'  'hola mundo'   123.456789

     hola mundo ---   123.46

## Impresión de secuencias usando `seq`

[Contenido](#Contenido)

En vez de `echo` se puede usar `seq` para imprimir secuencias.

In [11]:
seq 5

1
2
3
4
5


La opción `-f` permite especificar  formato para la secuencia, por ejemplo:

In [12]:
seq -f"linea %g" 5

linea 1
linea 2
linea 3
linea 4
linea 5


La opción `-s` permite indicar el separador.

In [13]:
seq -s, 2 2 10 # el separador es la coma

2,4,6,8,10,

La opción `-w` permite especificar formato.

In [14]:
seq 0 .05 .1 # valor inicial, incremento y valor final

0
0.05
0.1


In [15]:
seq -w 0 .05 .1

0.00
0.05
0.10


# Redireccionamiento de la entrada, la salida y pipes 

[Contenido](#Contenido)

Entre las características más importantes para la transformación de datos sobresalen la posibilidad de redireccionar tanto la entrada como la salida, y el uso de tuberías para usar la salida de un comando como la entrada del siguiente. El direccionamiento de la salida por pantalla a un archivo se realiza usando el operador `>`. Si el archivo al que se direcciona no existe, lo crea; y si existe lo sobrescribe. Para que la salida se agregue al contenido de un archivo existente se utiliza el operador `>>`.

En el siguiente ejemplo se imprime `hola mundo feliz` en el archivo `out.1`.

In [16]:
echo hola mundo feliz > out.1
cat out.1

hola mundo feliz


Por otra parte, el operador `<` indica que la entrada al comando se hace desde un archivo. Más adelante se presentan muchos ejemplos sobre este operador.

Finalmente, es posible víncular dos o más comandos con `|`, tal que la salida del primero es la entrada del segundo. 

<br>
<br>

# Visualización de archivos

[Contenido](#Contenido)

## Visualización del contenido de un archivo con `cat`  

[Contenido](#Contenido)

El comando `cat`  *`nombrearchivo`* imprime en pantalla el contenido del archivo.

In [17]:
echo hola mundo feliz > out.1
cat out.1  # imprime el contenido de out.1

hola mundo feliz


In [18]:
echo "otra vez hola mundo feliz" >> out.1 # agrega la nueva impresión al final de out.1
cat out.1

hola mundo feliz
otra vez hola mundo feliz


El comando `echo` sin argumentos permite crear un archivo vacío.

In [19]:
echo > out.1
cat out.1




Suponga que se desea almacenar en un archivo el siguiente texto:

     CustomerID, Customer
        1, Customer A
        2, Customer B

Para ello, existen varias alternativas. La primera opción es:

In [20]:
echo CustomerID, Customer > out.1
echo    1, Customer A >> out.1
echo    2, Customer B >> out.1



La segunda opción es:

In [21]:
echo "CustomerID, Customer
   1, Customer A
   2, Customer B" > out.1



Pero existe una tercera opción que es la siguiente:

In [22]:
cat > out.1 <<EOF
CustomerID, Customer
   1, Customer A
   2, Customer B
EOF



In [23]:
cat out.1

CustomerID, Customer
   1, Customer A
   2, Customer B


El contenido del archivo se escribe directamente entre <<EOF y EOF.

El principal uso de `cat` es la concatenación de archivos. En la siguiente porción de código se generan los archivos `out.1`, `out.2` y `out.3`, y luego se imprimen sus contenidos de forma concatenada.

In [24]:
seq -f"linea %g" 1 1 3 > out.1
seq -f"linea %g" 4 1 6 > out.2
seq -f"linea %g" 7 1 9 > out.3
cat out.1 out.2 out.3

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7
linea 8
linea 9


Una forma más compacta es usar la expresión `out.*`, la cual representa todos los archivos cuyos nombres empiezan por `out.`. De esta forma, el comando anterior se convierte en: 

In [25]:
cat out.*

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7
linea 8
linea 9


Algunos sistemas incorporan el comando `tac` que imprime el contenido de un archivo empezando por la última línea.

## Visualización del inicio de un archivo con `head`

[Contenido](#Contenido)

El comando `head` se usa para visualizar una porción inicial del contenido de un archivo. `head` imprime por defecto las primeras 10 líneas. La cantidad de líneas visualizadas se puede modificar mediante la opción `-n`.

In [26]:
seq -f"linea %g" 100 > out.1 # se generan 100 líneas
head -n 3 out.1

linea 1
linea 2
linea 3


---

**Ejercicio.--** Cuáles son los nombres de las columnas del archivo `employee`?

---

## Visualización del final de un archivo con `tail`  

[Contenido](#Contenido)

De forma similar al comando `head`, el comando `tail` permite visualizar las últimas líneas de un archivo.

In [27]:
tail -n 3 out.1

linea 98
linea 99
linea 100


En el siguiente ejemplo, el argumento `+5` indica que se imprime desde la línea 5 hasta el final.

In [28]:
seq -f'linea %g' 6 > out.1
tail +5 out.1

linea 5
linea 6


Se pueden escribir varios comandos en la misma línea separándolos por `;`.

In [29]:
echo 1; echo 2; echo 3

1
2
3


---

**Ejercicio.--** Pegue el contenido de los archivos `order2000`, ..., `order2015`.

**Ejercicio.--** Cuál es el nombre del último empleado en el archivo `employee`?

---

## Visualización del contenido de un archivo con `more` y `less`

[Contenido](#Contenido)

Unix también proporciona los comandos `more` (versión más antigua) y `less` para la visualización del contenido de archivos. Simplemente digite `less` *`nombrearchivo`* para iniciar la visualización.

* Use la tecla `Space` para avanzar una página.
* Use `Ctrl-F` (Forward) y `Ctrl-B`  (Backward) para avanzar o retroceder una página.
* Use las teclas arriba y abajo para moverse una línea a la vez.
* Digite el número de línea y `G` (go to) para ir a una línea determinada.
* Digite `q` para salir de `less`

<br>
<br>

# Tranformación de archivos

[Contenido](#Contenido)

## Ordenación de un archivo con `sort`  

[Contenido](#Contenido)

El comando `sort` permite ordenar el contenido de un archivo. El ordanamiento se realiza con base en el contenido total de cada línea. En el siguiente ejemplo, el operador `'|'` pasa la salida de `cat` como entrada a `sort`. 

In [30]:
seq -f'linea %g' 3 > out.1
cat out.1 out.1 out.1 | sort

linea 1
linea 1
linea 1
linea 2
linea 2
linea 2
linea 3
linea 3
linea 3


---

**Ejercicio.--**  Ordene el archivo `employee0`  por `EmployeeName`.

**Ejercicio.--** Ordene el archivo anterior por `CustomerID` y luego por `Date`.

---

## Obtención de las líneas únicas de un archivo con `uniq`

[Contenido](#Contenido)

El comando `uniq` permite obtener el contenido de un archivo eliminando las líneas repetidas. Observe que en los siguientes ejemplos solo se eliminan las líneas repetidas que son secuenciales.

In [31]:
seq -f'linea 1' 3 > out.1 # genera el primer archivo de datos
seq -f'linea 2' 3 > out.2 # genera el segundo archivo de datos
cat out.1 out.2 out.1 out.2

linea 1
linea 1
linea 1
linea 2
linea 2
linea 2
linea 1
linea 1
linea 1
linea 2
linea 2
linea 2


In [32]:
cat out.1 out.2 out.1 out.2 |  uniq

linea 1
linea 2
linea 1
linea 2


In [33]:
cat out.1 out.2 out.1 out.2 | sort | uniq

linea 1
linea 2


---

## Conteo de la cantidad de líneas, palabras y caracteres de archivo usando `wc`

[Contenido](#Contenido)

El comando `wc` permite contar líneas, palabras, caracteres y bytes de un archivo. La opción `-l` cuenta líneas,  `-m` caracteres y `-w` palabras.

In [34]:
wc -l out.1 out.2 # número de líneas

       3 out.1
       3 out.2
       6 total


In [35]:
wc -m out.1 out.2 # número de caracteres

      24 out.1
      24 out.2
      48 total


In [36]:
wc -w out.1 out.2 # número de palabras

       6 out.1
       6 out.2
      12 total


In [37]:
wc out.1 out.2 

       3       6      24 out.1
       3       6      24 out.2
       6      12      48 total


---

**Ejercicio.--** Cuántos registros tienen los archivos `product`, `orderline` y `customer`?

**Ejercicio.--** Cuántas columnas tiene los archivos `product`, `orderline` y `customer`?

---

## Búsqueda de patrones con `grep`

[Contenido](#Contenido)

El comando `grep` permite imprime las líneas del archivo que contiene una cadena de texto especificada. En los siguentes ejemplos se imprimen los números del 1 al 20 que contienen un `'1'`.

In [38]:
seq 20 | grep 1

1
10
11
12
13
14
15
16
17
18
19


In [39]:
seq -f'linea %g' 20 > out.1
grep 1 out.1

linea 1
linea 10
linea 11
linea 12
linea 13
linea 14
linea 15
linea 16
linea 17
linea 18
linea 19


El símbolo `$` indica que la cadena de texto debe aparecer al final de la línea. El símbolo `^` indica que la cadena de texto debe aparecer al principio de la línea.

In [40]:
seq 100 | grep 1$  # imprime los números del 1 al 100 que finalizan con 1.

1
11
21
31
41
51
61
71
81
91


In [41]:
seq 100 | grep ^1  # imprime los números del 1 al 100 que empiezan con 1.

1
10
11
12
13
14
15
16
17
18
19
100


La combinación de los comandos anteriores permiten realizar operaciones complejas. En el siguiente ejemplo se obtiene la cantidad de números del 1 al 20 que contienen un `'1'`.

In [42]:
seq 20 | grep 1 | wc -l

      11


---

**Ejercicio.--** Cuántos registros hay para la ciudad de AUSTIN en el archivo `consumer`?

---

## Reemplazo de caracteres con `tr`

[Contenido](#Contenido)

También existen comandos para manipular textos. El comando `tr` permite cambiar una cadena de texto por otra. 

In [43]:
echo 'h-o-l-a- -m-u-n-d-o' > out.1
tr -d '-'  < out.1 # borra los caracteres '-'.

hola mundo


In [44]:
echo 'h-o-l-a- -m-u-n-d-o' > out.1
tr '-'  '=' < out.1  #  '-' por '='.

h=o=l=a= =m=u=n=d=o


In [45]:
echo 'h-o-l-a- -m-u-n-d-o' > out.1
tr '[:lower:]'  '[:upper:]' < out.1  # minúsculas a mayúsculas.

H-O-L-A- -M-U-N-D-O


---

**Ejercicio.--** Para el siguiente archivo, convierta únicamente la primera fila a minúsculas.

In [46]:
cat > out.1 <<EOF
Date, Year, CustomerID, Value
2013-01-12, 2013, 1, 100
2014-05-12, 2014, 1, 100
2013-02-25, 2013, 2, 200
2013-04-04, 2013, 1, 100
2013-06-21, 2013, 2, 200
2014-05-12, 2014, 1, 100
2014-05-12, 2014, 2, 200
2013-02-28, 2013, 1, 100
2013-08-02, 2013, 1, 100
EOF



**Ejercicio.--** Convierta a minúsculas todos los caracteres del archivo `employee`.

---

## Edición de archivos con `sed`

[Contenido](#Contenido)

`sed` es un editor de flujos que puede ser usado para extraer, adicionar o reemplazar textos en un archivo. En ciencia de los datos resulta particularmente interesante para realizar impresión, sustitución y borrado de texto. Cada comando es representado por una letra y el carácter `/` es usado como un delimitador.


En este ejemplo se usa `sed` para realizar búsquedas (como se hace con `grep`). Primero se imprimen los primeros 20 números a un archivo.

In [47]:
seq 20 > out.1



Para imprimir todas las líneas que tienen un '1' se usaría: 

In [48]:
sed -n '/1/p'  out.1

1
10
11
12
13
14
15
16
17
18
19


La opción `-n` indica que no debe imprimirse en pantalla cada línea leída del archivo `out.1`. La cadena `/1/` indica la expresión regular (en este caso que la línea contenga un `1`, los '/'  son delimitadores). La `p`  al final indica que se imprima la línea. 

Para imprimir todas las líneas que tienen un `1` al final.

In [49]:
sed -n '/1$/p'  out.1

1
11


El siguiente comando imprime la tercera línea:

In [50]:
sed -n '3p' out.1

3


El siguiente comando imprime de la línea 3 a la línea 6 del archivo.

In [51]:
sed -n '3,6 p' out.1 

3
4
5
6


De la línea 15 al final:

In [52]:
sed -n '15,$ p' out.1

15
16
17
18
19
20


El comando `d` indica borrado; por ejemplo, para borrar de las líneas 2 a la 19 se usaría

In [53]:
sed  '2,19 d' out.1

1
20


---

**Ejercicio.--** Para el siguiente archivo, elimine las líneas con datos faltantes. Estos se han identificado con la cadena `NA`.

In [54]:
cat > out.1 <<EOF
Date, Year, CustomerID, Value
2013-01-12, 2013, 1, 100
2014-05-12, 2014, NA, 100
2013-02-25, 2013, 2, 200
2013-04-04, 2013, 1, 100
2013-06-21, 2013, 2, 200
2014-05-12, 2014, 1, 100
2014-05-12, 2014, NA, 200
2013-02-28, 2013, 1, 100
2013-08-02, 2013, NA, 100
EOF



---

En el archivo:

In [55]:
cat > out.1 <<EOF
FieldA, FieldD, FieldE
   2, X, 2X
   2, Y, 2Y
   3, Y, 3Y
   3, X, 3X
   4, Z, 4Z 
EOF



se desean cambiar las `X` por `x`, las `Y` por `y`, y así sucesivamente. `sed` permite realizar sustituciones mediante el comando `s`:

In [56]:
sed 's/X/x/' out.1

FieldA, FieldD, FieldE
   2, x, 2X
   2, Y, 2Y
   3, Y, 3Y
   3, x, 3X
   4, Z, 4Z 


Note que solamente se sustituyeron las primeras ocurrencias de cada línea. Si se quieren cambiar todas las ocurrencias en cada línea se usa `g` para indicar sustitución global:

In [57]:
sed 's/X/x/g' out.1

FieldA, FieldD, FieldE
   2, x, 2x
   2, Y, 2Y
   3, Y, 3Y
   3, x, 3x
   4, Z, 4Z 


En el ejemplo anterior, se debería escribir un comando `sed` por cada transformación; pero `sed` admite múltiples patrones usando la opción `-e` como se muestra a continuación. 

In [58]:
sed -e 's/X/x/g' -e 's/Y/y/g' -e 's/Z/z/g' out.1

FieldA, FieldD, FieldE
   2, x, 2x
   2, y, 2y
   3, y, 3y
   3, x, 3x
   4, z, 4z 


Sea el siguiente archivo:

In [59]:
cat > out.1 <<EOF
1980-JAN-1+1:0:1.134
1980-JAN-5+1:0:1.12
1980-JAN-13+10:12:42.33
EOF



Se desea formatear la fecha y la hora, es decir, la primera línea:

```
1980-JAN-1+1:0:1.134
```

debe cambiarse por:

```
1980-JAN-01 01:00:01
```


El primer paso consiste en agregar el cero a los números de día con un solo dígito.

In [60]:
sed 's/-\([0-9]\)+/-0\1+/' out.1 > out.2
cat out.2

1980-JAN-01+1:0:1.134
1980-JAN-05+1:0:1.12
1980-JAN-13+10:12:42.33


La explicación del comando anterior es la siguiente. El patrón de entrada está conformado por los siguientes elementos:
* El caracter '-'.
* Un dígito entre 0 y 9 (patrón `[0-9]`). Las secuencias `\(` y `\)` especifican que el dígito reconocido debe recordarse. Pueden existir varias cadenas a recordar; la primera cadena es `\1`, la segunda cadena es `\2` y así sucesivamente.
* El caracter `+`.

El patrón de salida indica que:
* Se imprime el caracter `-`.
* Luego el caracter `0`.
* A continuación el dígito reconocido `\1`.


Se reemplaza el `+` por un espacio en blanco.

In [61]:
sed 's/+/ /' out.2 > out.3
cat out.3

1980-JAN-01 1:0:1.134
1980-JAN-05 1:0:1.12
1980-JAN-13 10:12:42.33


Se agrega el `0` a las horas.

In [62]:
sed 's/ \([0-9]\):/ 0\1:/' out.3 > out.4
cat out.4

1980-JAN-01 01:0:1.134
1980-JAN-05 01:0:1.12
1980-JAN-13 10:12:42.33


Se agrega el `0` a los minutos.

In [63]:
sed 's/:\([0-9]\):/:0\1:/' out.4 > out.5
cat out.5

1980-JAN-01 01:00:1.134
1980-JAN-05 01:00:1.12
1980-JAN-13 10:12:42.33


Se agrega el `0` a los segundos.

In [64]:
sed 's/:\([0-9]\)\./:0\1./' out.5 > out.6
cat out.6

1980-JAN-01 01:00:01.134
1980-JAN-05 01:00:01.12
1980-JAN-13 10:12:42.33


Se elimina la parte decimal de los segundos

In [65]:
sed 's/\.[0-9][0-9]*//' out.6 > out.7
cat out.7

1980-JAN-01 01:00:01
1980-JAN-05 01:00:01
1980-JAN-13 10:12:42


La notación `\.[0-9][0-9]*` indica que el patrón es un punto (`\.`) seguido de un dígito (`[0-9]`), seguido de cero, uno o más dígitos (`[0-9]*`).

In [66]:
# se borran los archivos temporales generados del directorio actual
rm out*



En este úlitmo ejemplo de `sed` se usará el siguiente archivo:

In [67]:
cat > out.1 <<EOF
Date, Year, CustomerID, Value
2013-01-12, 2013, 1, 100
2014-05-12, 2014, 1, 100
2013-02-25, 2013, 2, 200
2013-04-04, 2013, 1, 100
2013-06-21, 2013, 2, 200
2014-05-12, 2014, 12, 100
2014-05-12, 2014, 2, 200
2013-02-28, 2013, 11, 100
2013-08-02, 2013, 1, 100
EOF



Se desea agregar un nuevo campo llamado `Year-CoustomerID` que contiene una clave compuesta conformada por la concatenación de estos dos campos; por ejemplo, el valor para el primer registro sería `2013-1`. El siguiente comando hace el cambio del reglón dos en adelante:

In [68]:
sed 's/ \([0-9][0-9][0-9][0-9]\), \([0-9]*\)/ \1, \2, \1-\2/' out.1

Date, Year, CustomerID, Value
2013-01-12, 2013, 1, 2013-1, 100
2014-05-12, 2014, 1, 2014-1, 100
2013-02-25, 2013, 2, 2013-2, 200
2013-04-04, 2013, 1, 2013-1, 100
2013-06-21, 2013, 2, 2013-2, 200
2014-05-12, 2014, 12, 2014-12, 100
2014-05-12, 2014, 2, 2014-2, 200
2013-02-28, 2013, 11, 2013-11, 100
2013-08-02, 2013, 1, 2013-1, 100


Para realizar el cambio en la primera línea (el encabezado) se usaría el siguiente comando:

In [69]:
sed 's/\([a-zA-Z]*\), \([a-zA-Z]*\), \([a-zA-Z]*\), \([a-zA-Z]*\)/\1, \2, \3, \2-\3, \4/' out.1

Date, Year, CustomerID, Year-CustomerID, Value
2013-01-12, 2013, 1, 100
2014-05-12, 2014, 1, 100
2013-02-25, 2013, 2, 200
2013-04-04, 2013, 1, 100
2013-06-21, 2013, 2, 200
2014-05-12, 2014, 12, 100
2014-05-12, 2014, 2, 200
2013-02-28, 2013, 11, 100
2013-08-02, 2013, 1, 100


---

**Ejercicio.--** Convierta el formato de las fechas de `D/M/Y` a `YYYY-MM-DD` en los archivos `order2000` ... `order2015`.

**Ejercicio.--** Agregue dos nuevos campos al archivo `order`; el primer campo corresponde al mes y el segundo al año. 

## Extracción de campos con `cut`

[Contenido](#Contenido)

El comando `cut` permite extraer porciones de texto de un archivo. En la última línea del código presentado a continuación, se extraen las posiciones 3, 4, y 5 de cada línea de texto de un archivo, indicándolas como un rango (`3-5`). 

In [70]:
echo "123456790
abcdefghi
jklmnopqr" > out.1
cut -c3-5 out.1  

345
cde
lmn


Las columnas también pueden indicarse por posición:

In [71]:
cut -c3,4,5 out.1 

345
cde
lmn


In [72]:
# caracteres en las posiciones 2 y 5 a 7 de cada línea de un archivo.
cut -c2,5-7 out.1 

2567
befg
knop


`cut` también permite manipular archivos delimitados. 

In [73]:
cat > out.1 <<EOF
FieldA, FieldD, FieldE
   2, X, 2X
   3, Y, 3Y
   4, Z, 4Z 
EOF



En el siguiente ejemplo se extrae la segunda columna (`-f2`); se indica que el archivo está delimitado por comas (`-d,`).

In [74]:
cut -d, -f2 out.1   

 FieldD
 X
 Y
 Z


In [75]:
# este código extrae las columnas 1 y 3
cut -d, -f1,3 out.1  

FieldA, FieldE
   2, 2X
   3, 3Y
   4, 4Z 


---

**Ejercicio.--** Calcule el número de valores diferentes en la columna `Supplier` del archivo `product`.

---

Se puede usar cualquier caracter como delimitador. En el siguiente ejemplo se desean extraer los caracteres entre `'['` y `']'`.

In [76]:
seq -f"--> [%g] <--" 3 > out.1
seq -f"------> [%g] <------" 3 >> out.1
cat out.1

--> [1] <--
--> [2] <--
--> [3] <--
------> [1] <------
------> [2] <------
------> [3] <------


In [77]:
# extrae la porción de texto después de '[' 
cut -d'[' -f2 out.1 

1] <--
2] <--
3] <--
1] <------
2] <------
3] <------


Extrae la porción de texto antes de ']' 

In [78]:
cut -d']' -f1 out.1  

--> [1
--> [2
--> [3
------> [1
------> [2
------> [3


Se combinan los dos comandos anteriores

In [79]:
cut -d'[' -f2 out.1 | cut -d']' -f1 

1
2
3
1
2
3


A continuación se extrae la segunda palabra de cada línea.

In [80]:
echo "Bash is a Unix shell and command language 
written by Brian Fox for the 
GNU Project as a free software 
replacement for the Bourne shell." > out.1
cat out.1

Bash is a Unix shell and command language 
written by Brian Fox for the 
GNU Project as a free software 
replacement for the Bourne shell.


In [81]:
# el delimitador es el espacio en blanco
cut -d' ' -f2 out.1 

is
by
Project
for


---

**Ejercicio.--** Obtenga un listado ordenado de las ciudades en el archivo `customer`.

**Ejericicio.--** Obtenga el apellido para todos los empleados en el archivo `employee`.

---

## Borrado de columnas con `colrm`

[Contenido](#Contenido)

(No esta disponible en Try Jupyter!) 

Este comando remueve los caracteres comprendidos entre las columnas especificadas.

In [82]:
echo "123456790
abcdefghi
jklmnopqr" > out.1
colrm 3 5 < out.1  

126790
abfghi
jkopqr


Si no se especifica la columna final, `colrm` borra hasta el final de la línea.

In [83]:
colrm 3 < out.1

12
ab
jk


## Unión de archivos con `join`

[Contenido](#Contenido)

Un problema típico en transformación de datos es tener que combinar dos archivos usando un campo clave. Tal como ya se ha ejemplificado en este documento, en muchos casos los archivos de texto son equivalentes a las tablas en los sistemas de bases de datos relacionales. El problema en cuestión es el siguiente: existe un archivo `out.1`:

In [84]:
cat > out.1 <<EOF
key, F1, F2
  1, 11, 12
  2, 21, 22
  4, 41, 42
EOF



y un archivo `out.2`:

In [85]:
cat > out.2 <<EOF
key, F3, F4
  1, 13, 14
  2, 23, 24
  3, 33, 34 
EOF



La primera columna es la clave; los valores de los campos corresponden a la posición del elemento, es decir, el valor `13` corresponde al registro `1` y al campo `3`.

El comando `join` permite unir las líneas de ambos archivos usando el campo designado como clave. `join` no agrega el último registro de `out.1`, ya que no existe este registro en el archivo `out.2`

In [86]:
# agrega out.2 a out.1 usando como clave el primer campo (por defecto)
join -t, out.1 out.2 

key, F1, F2, F3, F4
  1, 11, 12, 13, 14
  2, 21, 22, 23, 24


Se puede especificar el campo de unión con las opciones `-1` para indicar el campo clave del primer archivo y `-2` para indicar el campo clave del segundo archivo.

In [87]:
join -1 1 -2 1 -t, out.2 out.1 

key, F3, F4, F1, F2
  1, 13, 14, 11, 12
  2, 23, 24, 21, 22


Adicionalmente, se pueden indicar los campos de salida con la opción `-o`. En el siguiente ejemplo, `1.2` representa el campo 2 del archivo 1.

In [88]:
join -t, -o1.2,2.3 out.1 out.2 

 F1, F4
 11, 14
 21, 24


In [89]:
join -t, -o"0, 1.2, 2.3" out.1 out.2 

key, F1, F4
  1, 11, 14
  2, 21, 24


La opción `-v` se usa para que `join` imprima los registros que solo aparecen en uno solo de los archivos.

El siguiente comando imprime los registros de `out.1` cuya clave no aparece en `out.2`:

In [90]:
join -t, -v 1 out.1 out.2

  4, 41, 42


De forma equivalente, los registros de `out.2` que no están en `out.1` se obtienen con

In [91]:
join -t, -v 2 out.1 out.2

  3, 33, 34 


Los comandos anteriores se pueden combinar en uno solo:

In [92]:
join -t, -v 1 -v 2 out.1 out.2

  3, 33, 34 
  4, 41, 42


Para que en la combinación se incluyan los registros sin clave en alguno de los archivo se usa la opción `-a`. Por ejemplo,

In [93]:
join -a 1 -t, out.1 out.2 

key, F1, F2, F3, F4
  1, 11, 12, 13, 14
  2, 21, 22, 23, 24
  4, 41, 42


In [94]:
join -a 2 -t, out.1 out.2 

key, F1, F2, F3, F4
  1, 11, 12, 13, 14
  2, 21, 22, 23, 24
  3, 33, 34 


In [95]:
join -a 1 -a 2 -e NA -t,   out.1 out.2 

key, F1, F2, F3, F4
  1, 11, 12, 13, 14
  2, 21, 22, 23, 24
  3, 33, 34 
  4, 41, 42


---

**Ejercicio.--** Agregue los campos `EmployeeName` del archivo `employee` y  `Name` de `customer` a los archivos `order2010`, ...,  `order2015`.

---

## Pegado de archivos con `paste`

[Contenido](#Contenido)

El comando `paste` permite pegar un archivo con otro, uniendo la primera linea de ambos archivos, luego la segunda y así sucesivamente.

In [96]:
seq -f'linea %g' 5 > out.1; cat out.1

linea 1
linea 2
linea 3
linea 4
linea 5


In [97]:
seq -f'linea %g' 6 1 10 > out.2; cat out.2

linea 6
linea 7
linea 8
linea 9
linea 10


In [98]:
paste -d'-' out.1 out.2

linea 1-linea 6
linea 2-linea 7
linea 3-linea 8
linea 4-linea 9
linea 5-linea 10


---

[Contenido](#Contenido)