# Transformación de Datos usando Bash -- 3 -- Edición de archivos con Sed y Awk
Notas de clase sobre la transformacion de datos usando la línea de comandos en sistemas Linux

**Juan David Velásquez Henao**   
jdvelasq@unal.edu.co  
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia  

[Licencia](https://github.com/jdvelasq/transformacion-datos-bash/blob/master/LICENCIA.txt)  
[Readme](https://github.com/jdvelasq/transformacion-datos-bash/blob/master/readme.md)

**Software utilizado**.

> Este es un documento interactivo escrito como un notebook de [Jupyter](http://jupyter.org), en el cual se presenta un tutorial sobre la transformación de datos usando Bash en el contexto de la ciencia de los datos. Los notebooks de Jupyter permiten incoporar simultáneamente código, texto, gráficos y ecuaciones. El código presentado en este notebook puede ejecutarse en los sistemas operativos Linux y OS X.

> Haga click [aquí](https://github.com/jdvelasq/data-science-docs) para obtener instrucciones detalladas sobre como instalar Jupyter en Windows y Mac OS X.

> Haga clic [aquí]() para ver la última versión de este documento en nbviewer.

> Descargue la última versión de este documento a su disco duro; luego, carguelo y ejecutelo en línea en [Try Jupyter!](https://try.jupyter.org)

#### Contenido

>   * [Introducción](#Introducción)
>   * [Transformación y visualización](#Transformación-y-visualización)

**Bibliografía**.

> [1] D. Cross. Data Munging with Perl. Maning Publications Co. 2001

> [2] S. Redmond. Mastering QlikView. Packs Publishing, 2014.

> [3] T. Meyr. Apple® Automator with AppleScript® Bible. Wiley Publishing, Inc., Indianapolis, Indiana, 2010.

> [4] C. Albing, JP Vossen and C. Newham. Bash cookbook. O'Reilly, Media Inc. 2007. 

> [5] E. S. Raymond, The Art of Unix Programming. Addison-Wesley, 2004.

> [6] K. McElhearn. The Mac OS X Command Line: Unix under the hood. Ibex, 2005.

> [7] R. K. Michael. Mastering Unix Shell Scripting. Wiley, 2003.

**Recursos adicionales de aprendizaje**

> [The Command Line Crash Course](http://cli.learncodethehardway.org/book/) 

> [The Linux Command Line](http://linuxcommand.org/tlcl.php) By William Shotts

> [Learn Enough Command Line to Be Dangerous](https://www.learnenough.com/command-line-tutorial#sec-grepping) by Michael Hart

> [Data Science at the Command Line](http://datascienceatthecommandline.com) by Jeroen Janssens

> [The Mac OS X Command Line: Unix Under the Hood](http://www.wiley.com/WileyCDA/WileyTitle/productCd-0782143547.html) by Kirk McElhearn

# Introducción

[Contenido](#Contenido)

## `sed`

`sed` es un editor de flujos que puede ser usado para extraer, adicionar o reemplazar textos en un archivo. En ciencia de los datos resulta particularmente interesante para realizar impresión, sustitución y borrado de texto. Cada comando es representado por una letra y el carácter `/` es usado como un delimitador.


Se puede utilizar el comando 'sed' o 'sed' [Opciones]. Dichas opciones consisten en una secuencia de '-caracter' que condicionan una funcionalidad en particular. A continuación se muestran las que se encuentran disponibles en la documentación del lenguaje:


In [3]:
`sed` 

Uso: sed [OPCIÓN]... {guión-sólo-si-no-hay-otro-guión} [fichero-entrada]...

  -n, --quiet, --silent
                 suprime la muestra automática del espacio de patrones
  -e guión, --expression=guión
                 agrega el guión a la lista de órdenes para ejecutar
  -f fichero-guión, --file=fichero-guión
                 agrega el contenido del fichero guión a la lista de órdenes
                 para ejecutar
  --follow-symlinks
                 sigue los enlaces simbólicos al procesar en el lugar
  -i[SUFFIX], --in-place[=SUFFIX]
                 edit files in place (makes backup if SUFFIX supplied)
  -b, --binary
                 abre ficheros en modo binario (los RC+FLs no se procesan
                 especialmente)
  -l N, --line-length=N
                 especifica la longitud de corte de línea deseado para
                 la orden `l'
  --posix
                 desactiva todas las extensiones de GNU.
  -E, -r, --regexp-extended
                 use extended regular expre

: 1

## `awk`

`awk` es un lenguaje de programación para Unix creado para la manipulación de texto que contiene varios campos de datos en una misma linea. Su uso básico es: 

awk [condición] {comandos}


In [2]:
'awk'

Usage: awk [POSIX or GNU style options] -f progfile [--] file ...
Usage: awk [POSIX or GNU style options] [--] 'program' file ...
POSIX options:		GNU long options: (standard)
	-f progfile		--file=progfile
	-F fs			--field-separator=fs
	-v var=val		--assign=var=val
Short options:		GNU long options: (extensions)
	-b			--characters-as-bytes
	-c			--traditional
	-C			--copyright
	-d[file]		--dump-variables[=file]
	-D[file]		--debug[=file]
	-e 'program-text'	--source='program-text'
	-E file			--exec=file
	-g			--gen-pot
	-h			--help
	-i includefile		--include=includefile
	-l library		--load=library
	-L[fatal|invalid]	--lint[=fatal|invalid]
	-M			--bignum
	-N			--use-lc-numeric
	-n			--non-decimal-data
	-o[file]		--pretty-print[=file]
	-O			--optimize
	-p[file]		--profile[=file]
	-P			--posix
	-r			--re-interval
	-S			--sandbox
	-t			--lint-old
	-V			--version

To report bugs, see node `Bugs' in `gawk.info', which is
section `Reporting Problems and Bugs' in the printed version.

gawk is a pa

: 1

**Algunos comandos importantes**:

* *$0*     -> Todos los campos
* *FS*     -> Separador de campos (TAB por defecto)
* *NF*     -> Número de campos en la linea actual
* *NR*     -> Número de lineas en el archivo a procesar
* *Length*     -> Longitud de la linea a procesar
* *&&*     -> Operación lógica para la intersección
* *||*     -> Operación lógica para la unión

---

# Transformación y visualización

[Contenido](#Contenido)

En este libro se usa `sed` y `awk` para realizar búsquedas (como se hace con `grep`) y editar los archivos.

Primero se imprimen los primeros 20 números a un archivo.

In [1]:
seq 20 > out.1

Para imprimir todas las líneas que tienen un '1' se usaría: 

In [9]:
sed -n '/1/p'  out.1

1
10
11
12
13
14
15
16
17
18
19


La opción `-n` indica que no debe imprimirse en pantalla cada línea leída del archivo `out.1`. La cadena `/1/` indica la expresión regular (en este caso que la línea contenga un `1`, los '/'  son delimitadores). La `p`  al final indica que se imprima la línea. 

In [11]:
awk '/1/ {print}' out.1

1
10
11
12
13
14
15
16
17
18
19


La cadena /1/ indica que la línea contenga un 1, los '/' son delimitadores. {print} al final indica que se imprima la linea.

Para imprimir todas las líneas que tienen un `1` al final.

In [12]:
sed -n '/1$/p'  out.1

1
11


In [13]:
awk '/1$/ {print}' out.1

1
11


El siguiente comando imprime la tercera línea:

In [14]:
sed -n '3p' out.1

3


In [3]:
awk 'NR == 3 {print}' out.1

3


El siguiente comando imprime de la linea 3 a la linea 6.

In [16]:
sed -n '3,6 p' out.1 

3
4
5
6


awk permite, a través de los operadores lógicos, agrupar registros y operar sobre ellos.


In [4]:
awk '(NR >= 3) && (NR <= 6) {print $0}' out.1

3
4
5
6


El comando `d` con `sed` indica borrado.

A continuación se requiere imprimir todos los registros excepto los contenidos entre la linea 3 y la linea 6:


In [5]:
sed '{3,6d}' out.1 

1
2
7
8
9
10
11
12
13
14
15
16
17
18
19
20


In [30]:
awk '!((NR >= 3) && (NR <= 6)) {print $0}' out.1

1
2
7
8
9
10
11
12
13
14
15
16
17
18
19
20


In [7]:
awk '(NR > 6) || (NR < 3) {print $0}' out.1

1
2
7
8
9
10
11
12
13
14
15
16
17
18
19
20


De la línea 15 al final:

In [18]:
sed -n '15,$ p' out.1

15
16
17
18
19
20


In [31]:
awk '(NR >= 15) && (NR <= NR) {print $0}' out.1

15
16
17
18
19
20


El comando `c` con `sed` indica reemplazo.

A continuación se requiere reemplazar todos los registros que inicien con 1 por el número 1000.


In [5]:
sed '/^1/ c 1000' out.1

1000
2
3
4
5
6
7
8
9
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
20


La opción `-e` con `sed`  indica exclusión y permite realizar comandos simultaneos; por ejemplo, imprimir todo excepto la posición 1 y 2.

In [11]:
sed -e 1d -e 2d out.1

3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20


Combinada con la opción `-n` y el comando `p` al final, imprime solo los registros que cumplen con el patrón; por ejemplo, mostrar todos los registros que inicien con 1.

In [35]:
sed -n '/^1/p' out.1

1
10
11
12
13
14
15
16
17
18
19


---

**Ejercicio.--** Para el siguiente archivo, elimine las líneas con datos faltantes. Estos se han identificado con la cadena `NA`.

In [36]:
cat > out.1 <<EOF
Date, Year, CustomerID, Value
2013-01-12, 2013, 1, 100
2014-05-12, 2014, NA, 100
2013-02-25, 2013, 2, 200
2013-04-04, 2013, 1, 100
2013-06-21, 2013, 2, 200
2014-05-12, 2014, 1, 100
2014-05-12, 2014, NA, 200
2013-02-28, 2013, 1, 100
2013-08-02, 2013, NA, 100
EOF

---

En el archivo:

In [2]:
cat > out.1 <<EOF
FieldA, FieldD, FieldE, FieldG
   2, X, 2X, 2XG
   2, Y, 2Y, 2YG 
   3, Y, 3Y, 3YG
   3, X, 3X, 3XG
   4, Z, 4Z, 3XG
EOF

Se desean cambiar las `X` por `x`.

* `sed` permite realizar sustituciones mediante el comando `s`:

In [43]:
sed 's/X/x/' out.1

FieldA, FieldD, FieldE, FieldG
   2, x, 2X, 2XG
   2, Y, 2Y, 2YG 
   3, Y, 3Y, 3YG
   3, x, 3X, 3XG
   4, Z, 4Z, 3xG


Note que solamente se sustituyeron las primeras ocurrencias de cada línea. Si se quieren cambiar todas las ocurrencias en cada línea se usa `g` para indicar sustitución global:

In [45]:
sed 's/X/x/g' out.1

FieldA, FieldD, FieldE, FieldG
   2, x, 2x, 2xG
   2, Y, 2Y, 2YG 
   3, Y, 3Y, 3YG
   3, x, 3x, 3xG
   4, Z, 4Z, 3xG


El comando `y` es útil para transformar el registro en el orden en que se indice en la expresión regular; por ejemplo, se requiere cambiar sistemáticamente las X por x y las Y por y.

In [23]:
sed 'y/XY/xy/' out.1 

FieldA, FieldD, FieldE, FieldG
   2, x, 2x, 2xG
   2, y, 2y, 2yG 
   3, y, 3y, 3yG
   3, x, 3x, 3xG
   4, Z, 4Z, 3xG


Se pueden realizar sustituciones de acuerdo con las veces que se encuentre el patrón en la linea; por ejemplo, se requiere sustituir las X por el simbolo # en el archivo pero solo para la segunda columna. 

In [47]:
sed 's/X/#/2' out.1

FieldA, FieldD, FieldE, FieldG
   2, X, 2#, 2XG
   2, Y, 2Y, 2YG 
   3, Y, 3Y, 3YG
   3, X, 3#, 3XG
   4, Z, 4Z, 3XG


El número `2` indica que se reemplace cuando encuentre el patrón por segunda vez.

In [50]:
sed 's/X/xx/2g' out.1

FieldA, FieldD, FieldE, FieldG
   2, X, 2xx, 2xxG
   2, Y, 2Y, 2YG 
   3, Y, 3Y, 3YG
   3, X, 3xx, 3xxG
   4, Z, 4Z, 3XG


El comando `2g` indica que se reemplace el patrón a partir de que se encuentre por segunda vez y en adelante.

El simbolo `&` indica el patrón de busqueda en caso de que se requiera dar una característica adicional; por ejemplo, se requiere tener las letras X entre llaves para la linea 5.

In [19]:
sed '5 s/X/{&}/g' out.1

FieldA, FieldD, FieldE, FieldG
   2, X, 2X, 2XG
   2, Y, 2Y, 2YG 
   3, Y, 3Y, 3YG
   3, {X}, 3{X}, 3{X}G
   4, Z, 4Z, 3XG


* `awk` permite realizar sustituciones mediante el comando `gsub()` compuesto por una expresión regular a reemplazar y el elemento que reemplazará dicha expresión regular. La g indica que es global, en caso de que se requiera una sustitución local, se debe utilizar la función `sub()`.



Se desean cambiar las `X` por `x`. Note que se sustituyen todas las ocurrencias del archivo

In [43]:
awk '{gsub(/X/, "x"); print}' out.1

FieldA, FieldD, FieldE
   2, x, 2x
   2, Y, 2Y
   3, Y, 3Y
   3, x, 3x
   4, Z, 4Z 


Se puede utiliza el comando `gsub` para varias sustituciones separandolo por **`;`** :

In [44]:
awk '{gsub(/X/, "x"); gsub(/Y/, "y"); print}' out.1

FieldA, FieldD, FieldE
   2, x, 2x
   2, y, 2y
   3, y, 3y
   3, x, 3x
   4, Z, 4Z 


---

Sea el siguiente archivo:

In [1]:
cat > out.1 <<EOF
1980-JAN-1+1:0:1.134
1980-JAN-5+1:0:1.12
1980-JAN-13+10:12:42.33
EOF

Se desea formatear la fecha y la hora, es decir, la primera línea:

```
1980-JAN-1+1:0:1.134
```

debe cambiarse por:

```
1980-JAN-01 01:00:01
```


* `sed` permite realizar sustituciones mediante el comando `s`:

El primer paso consiste en agregar el cero a los números de día con un solo dígito.

In [47]:
sed 's/-\([0-9]\)+/-0\1+/' out.1 > out.2
cat out.2

1980-JAN-01+1:0:1.134
1980-JAN-05+1:0:1.12
1980-JAN-13+10:12:42.33


La explicación del comando anterior es la siguiente. El patrón de entrada está conformado por los siguientes elementos:
* El caracter '-'.
* Un dígito entre 0 y 9 (patrón `[0-9]`). Las secuencias `\(` y `\)` especifican que el dígito reconocido debe recordarse. Pueden existir varias cadenas a recordar; la primera cadena es `\1`, la segunda cadena es `\2` y así sucesivamente.
* El caracter `+`.

El patrón de salida indica que:
* Se imprime el caracter `-`.
* Luego el caracter `0`.
* A continuación el dígito reconocido `\1`.


Se reemplaza el `+` por un espacio en blanco.

In [51]:
sed 's/+/ /' out.2 > out.3
cat out.3

1980-JAN-01 1:0:1.134
1980-JAN-05 1:0:1.12
1980-JAN-13 10:12:42.33


Se agrega el `0` a las horas.

In [52]:
sed 's/ \([0-9]\):/ 0\1:/' out.3 > out.4
cat out.4

1980-JAN-01 01:0:1.134
1980-JAN-05 01:0:1.12
1980-JAN-13 10:12:42.33


Se agrega el `0` a los minutos.

In [53]:
sed 's/:\([0-9]\):/:0\1:/' out.4 > out.5
cat out.5

1980-JAN-01 01:00:1.134
1980-JAN-05 01:00:1.12
1980-JAN-13 10:12:42.33


Se agrega el `0` a los segundos.

In [54]:
sed 's/:\([0-9]\)\./:0\1./' out.5 > out.6
cat out.6

1980-JAN-01 01:00:01.134
1980-JAN-05 01:00:01.12
1980-JAN-13 10:12:42.33


Se elimina la parte decimal de los segundos

In [55]:
sed 's/\.[0-9][0-9]*//' out.6 > out.7
cat out.7

1980-JAN-01 01:00:01
1980-JAN-05 01:00:01
1980-JAN-13 10:12:42


La notación `\.[0-9][0-9]*` indica que el patrón es un punto (`\.`) seguido de un dígito (`[0-9]`), seguido de cero, uno o más dígitos (`[0-9]*`).

* `awk` permite realizar sustituciones mediante el comando `gsub` y `sub`:

Se reemplaza el `+` por un espacio en blanco y el 0 a los segundos

In [2]:
awk '{gsub(/+/, " "); gsub(/:0:/, ":00:"); gsub(/1:/, "01:"); print}' out.1 > out.2
cat out.2

1980-JAN-1 01:00:1.134
1980-JAN-5 01:00:1.12
1980-JAN-13 10:12:42.33


In [3]:
awk '{gsub(/-1/, "-01");gsub(/-5/, "-05"); print}' out.2 > out.3
cat out.3

1980-JAN-01 01:00:1.134
1980-JAN-05 01:00:1.12
1980-JAN-013 10:12:42.33


In [10]:
#MALO
awk '{gsub(/\.[0-9]*/, "");gsub(/:1/, ":01"); print}' out.3 > out.4
cat out.4

1980-JAN-01 01:00:01
1980-JAN-05 01:00:01
1980-JAN-013 10:012:42


In [12]:
#MALO
awk '{gsub(/-013/, "-13"); gsub(/:012/, ":12");print}' out.4

1980-JAN-01 01:00:01
1980-JAN-05 01:00:01
1980-JAN-13 10:12:42


---

Sea el siguiente archivo:

In [13]:
cat > out.1 <<EOF
Date, Year, CustomerID, Value
2013-01-12, 2013, 1, 100
2014-05-12, 2014, 1, 100
2013-02-25, 2013, 2, 200
2013-04-04, 2013, 1, 100
2013-06-21, 2013, 2, 200
2014-05-12, 2014, 12, 100
2014-05-12, 2014, 2, 200
2013-02-28, 2013, 11, 100
2013-08-02, 2013, 1, 100
EOF

Se desea agregar un nuevo campo llamado `Year-CoustomerID` que contiene una clave compuesta conformada por la concatenación de estos dos campos; por ejemplo, el valor para el primer registro sería `2013-1`. El siguiente comando hace el cambio del reglón dos en adelante:

In [19]:
sed 's/ \([0-9][0-9][0-9][0-9]\), \([0-9]*\)/ \1, \2, \1-\2/' out.1 > out.2
cat out.2

Date, Year, CustomerID, Value
2013-01-12, 2013, 1, 2013-1, 100
2014-05-12, 2014, 1, 2014-1, 100
2013-02-25, 2013, 2, 2013-2, 200
2013-04-04, 2013, 1, 2013-1, 100
2013-06-21, 2013, 2, 2013-2, 200
2014-05-12, 2014, 12, 2014-12, 100
2014-05-12, 2014, 2, 2014-2, 200
2013-02-28, 2013, 11, 2013-11, 100
2013-08-02, 2013, 1, 2013-1, 100


Para realizar el cambio en la primera línea (el encabezado) se usaría el siguiente comando:

In [22]:
sed 's/\([a-zA-Z]*\), \([a-zA-Z]*\), \([a-zA-Z]*\), \([a-zA-Z]*\)/\1, \2, \3, \2-\3, \4/' out.2

Date, Year, CustomerID, Year-CustomerID, Value
2013-01-12, 2013, 1, 2013-1, 100
2014-05-12, 2014, 1, 2014-1, 100
2013-02-25, 2013, 2, 2013-2, 200
2013-04-04, 2013, 1, 2013-1, 100
2013-06-21, 2013, 2, 2013-2, 200
2014-05-12, 2014, 12, 2014-12, 100
2014-05-12, 2014, 2, 2014-2, 200
2013-02-28, 2013, 11, 2013-11, 100
2013-08-02, 2013, 1, 2013-1, 100


In [21]:
awk -F"," '{print $1","$2","$3","$2"-"$3","$4}' out.1 

Date, Year, CustomerID, Year- CustomerID, Value
2013-01-12, 2013, 1, 2013- 1, 100
2014-05-12, 2014, 1, 2014- 1, 100
2013-02-25, 2013, 2, 2013- 2, 200
2013-04-04, 2013, 1, 2013- 1, 100
2013-06-21, 2013, 2, 2013- 2, 200
2014-05-12, 2014, 12, 2014- 12, 100
2014-05-12, 2014, 2, 2014- 2, 200
2013-02-28, 2013, 11, 2013- 11, 100
2013-08-02, 2013, 1, 2013- 1, 100


---

**Ejercicio.--** Convierta el formato de las fechas de `D/M/Y` a `YYYY-MM-DD` en los archivos `order2000` ... `order2015`.

**Ejercicio.--** Agregue dos nuevos campos al archivo `order`; el primer campo corresponde al mes y el segundo al año. 