# Transformación de Datos usando Bash -- 4 -- Edición de archivos con Awk
Notas de clase sobre la transformacion de datos usando la línea de comandos en sistemas Linux

**Juan David Velásquez Henao**   
jdvelasq@unal.edu.co  
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia  

[Licencia](https://github.com/jdvelasq/transformacion-datos-bash/blob/master/LICENCIA.txt)  
[Readme](https://github.com/jdvelasq/transformacion-datos-bash/blob/master/readme.md)

**Software utilizado**.

> Este es un documento interactivo escrito como un notebook de [Jupyter](http://jupyter.org), en el cual se presenta un tutorial sobre la transformación de datos usando Bash en el contexto de la ciencia de los datos. Los notebooks de Jupyter permiten incoporar simultáneamente código, texto, gráficos y ecuaciones. El código presentado en este notebook puede ejecutarse en los sistemas operativos Linux y OS X.

> Haga click [aquí](https://github.com/jdvelasq/data-science-docs) para obtener instrucciones detalladas sobre como instalar Jupyter en Windows y Mac OS X.

> Haga clic [aquí]() para ver la última versión de este documento en nbviewer.

> Descargue la última versión de este documento a su disco duro; luego, carguelo y ejecutelo en línea en [Try Jupyter!](https://try.jupyter.org)

**Bibliografía**.

> [1] D. Cross. Data Munging with Perl. Maning Publications Co. 2001

> [2] S. Redmond. Mastering QlikView. Packs Publishing, 2014.

> [3] T. Meyr. Apple® Automator with AppleScript® Bible. Wiley Publishing, Inc., Indianapolis, Indiana, 2010.

> [4] C. Albing, JP Vossen and C. Newham. Bash cookbook. O'Reilly, Media Inc. 2007. 

> [5] E. S. Raymond, The Art of Unix Programming. Addison-Wesley, 2004.

> [6] K. McElhearn. The Mac OS X Command Line: Unix under the hood. Ibex, 2005.

> [7] R. K. Michael. Mastering Unix Shell Scripting. Wiley, 2003.

**Recursos adicionales de aprendizaje**

> [The Command Line Crash Course](http://cli.learncodethehardway.org/book/) 

> [The Linux Command Line](http://linuxcommand.org/tlcl.php) By William Shotts

> [Learn Enough Command Line to Be Dangerous](https://www.learnenough.com/command-line-tutorial#sec-grepping) by Michael Hart

> [Data Science at the Command Line](http://datascienceatthecommandline.com) by Jeroen Janssens

> [The Mac OS X Command Line: Unix Under the Hood](http://www.wiley.com/WileyCDA/WileyTitle/productCd-0782143547.html) by Kirk McElhearn

## `awk`

`awk` es un comando para Unix creado para el procesamiento y reporte de archivos de texto que contengan varios campos de datos en una misma linea. Su uso básico es: 

awk [condición] '{printf"formato", argumentos}' filename


In [2]:
'awk'

Usage: awk [POSIX or GNU style options] -f progfile [--] file ...
Usage: awk [POSIX or GNU style options] [--] 'program' file ...
POSIX options:		GNU long options: (standard)
	-f progfile		--file=progfile
	-F fs			--field-separator=fs
	-v var=val		--assign=var=val
Short options:		GNU long options: (extensions)
	-b			--characters-as-bytes
	-c			--traditional
	-C			--copyright
	-d[file]		--dump-variables[=file]
	-D[file]		--debug[=file]
	-e 'program-text'	--source='program-text'
	-E file			--exec=file
	-g			--gen-pot
	-h			--help
	-i includefile		--include=includefile
	-l library		--load=library
	-L[fatal|invalid]	--lint[=fatal|invalid]
	-M			--bignum
	-N			--use-lc-numeric
	-n			--non-decimal-data
	-o[file]		--pretty-print[=file]
	-O			--optimize
	-p[file]		--profile[=file]
	-P			--posix
	-r			--re-interval
	-S			--sandbox
	-t			--lint-old
	-V			--version

To report bugs, see node `Bugs' in `gawk.info', which is
section `Reporting Problems and Bugs' in the printed version.

gawk is a pa

: 1

**Algunos comandos importantes**:

* *$0*     -> Todos los campos
* *FS*     -> Separador de campos (TAB por defecto
* *NF*     -> Número de campos en la linea actual
* *NR*     -> Número de lineas en el archivo a procesar
* *Length*     -> Longitud de la linea a procesar
* *&&*     -> Operación lógica para la intersección
* *||*     -> Operación lógica para la unión

---

En este libro se usa `awk` para realizar búsquedas (como se hace con `grep`) y editar los archivos.

Primero se imprimen los primeros 20 números a un archivo.

In [51]:
seq 20 > out.1

Para imprimir todas las líneas que tienen un '1' se usaría: 

La cadena /1/ indica que la línea contenga un 1, los '/' son delimitadores. {print} al final indica que se imprima la linea.

In [73]:
awk '/1/ {print}' out.1

1
10
11
12
13
14
15
16
17
18
19


Para imprimir todas las líneas que tienen un `1` al final.

In [74]:
awk '/1$/ {print}' out.1

1
11


El siguiente comando imprime la tercera línea:

In [75]:
awk 'NR == 3 {print}' out.1

3


El siguiente comando imprime de la linea 3 a la linea 6.

In [52]:
awk '(NR >= 3) && (NR <= 6) {print $0}' out.1

3
4
5
6


A continuación se requiere imprimir todos los registros excepto los contenidos entre la linea 3 y la linea 6:

In [11]:
awk '!((NR >= 3) && (NR <= 6)) {print $0}' out.1

1
2
7
8
9
10
11
12
13
14
15
16
17
18
19
20


In [12]:
awk '(NR > 6) || (NR < 3) {print $0}' out.1

1
2
7
8
9
10
11
12
13
14
15
16
17
18
19
20


De la línea 15 al final:

In [13]:
awk '(NR >= 15) && (NR <= NR) {print $0}' out.1

15
16
17
18
19
20


---

En el archivo:

In [9]:
cat > out.1 <<EOF
FieldA, fieldD, gieldE, FieldG
   2, X, 2X, 2XG
   2, Y, 2Y, 2YG 
   3, Y, 3Y, 3YG
   3, X, 3X, 3XG
   4, Z, 4Z, 3XG
EOF

* `awk` permite realizar sustituciones mediante el comando `gsub()` compuesto por una expresión regular a reemplazar y el elemento que reemplazará dicha expresión regular. La g indica que es global, en caso de que se requiera una sustitución local, se debe utilizar la función `sub()`.



Se desean cambiar las `X` por `x`. Note que se sustituyen todas las ocurrencias del archivo

In [75]:
awk '{sub(/X/, "x"); print}' out.1

FieldA, FieldD, FieldE, FieldG
   2, x, 2X, 2XG
   2, Y, 2Y, 2YG 
   3, Y, 3Y, 3YG
   3, x, 3X, 3XG
   4, Z, 4Z, 3xG


Se puede utiliza el comando `gsub` para varias sustituciones separandolo por **`;`** :

In [76]:
awk '{gsub(/X/, "x"); gsub(/Y/, "y"); print}' out.1

FieldA, FieldD, FieldE, FieldG
   2, x, 2x, 2xG
   2, y, 2y, 2yG 
   3, y, 3y, 3yG
   3, x, 3x, 3xG
   4, Z, 4Z, 3xG


---

Sea el siguiente archivo:

In [54]:
cat > out.1 <<EOF
Maria-1998:feb:2+M19
David-1972:nov:25+J45
Marco-2000:jun:4+V17
EOF

Se desea formatear la fecha de nacimiento completa de la persona y su edad, es decir, la primera linea tendría la siguiente estructura:

```
Maria-1998:feb:2+M19
```

debe cambiarse por:

```
Maria 1998-02-02 M 19
```


 

La función gensub permite realizar busquedas a través de expresiones regulares y reemplazar dichos valores por elementos a elección, de acuerdo a la frecuencia de coincidencia del patrón.


El primer paso consiste en reemplazar *' : '* por *' - '*   .

In [58]:
awk '{print gensub(/:([a-z]*)/, "-\\1", 1)}' out.1 > out.2
cat out.2

Maria-1998-feb:2+M19
David-1972-nov:25+J45
Marco-2000-jun:4+V17


 El comando anterior sigue la siguiente lógica:
 
 
*Patrón entrada*
  
 * '/'   '/' indican el inicio y fin de la expresión regular.
 * '('   ')' contienen la expresión, caracter o dígito que se desea guardar.
 * [a-z] indica una cadena.
 * El caracter '*' indica que existen cadenas luego de la expresión regular
 
*Patrón salida*
 * "\\\1" primer elemento de la busqueda que fue guardado.
 
*Frecuencia*
 * "1" se debe reemplazar cuando encuentre el patrón por primera vez.

In [59]:
awk '{print gensub(/:([0-9])/, "-\\1", 1)}' out.2 > out.3
cat out.3

Maria-1998-feb-2+M19
David-1972-nov-25+J45
Marco-2000-jun-4+V17


In [60]:
awk '{print gensub(/-([0-9])*/, "-0\\1", 3)}' out.3 > out.4
cat out.4

Maria-1998-feb-02+M19
David-1972-nov-05+J45
Marco-2000-jun-04+V17


In [61]:
awk '{print gensub(/+([A-Z])([0-9][0-9])/, " \\1 \\2", 1)}' out.4 > out.5
cat out.5

Maria-1998-feb-02 M 19
David-1972-nov-05 J 45
Marco-2000-jun-04 V 17


In [66]:
awk '{sub(/-/, " "); print}' out.5 > out.6
cat out.6

Maria 1998-feb-02 M 19
David 1972-nov-05 J 45
Marco 2000-jun-04 V 17


In [72]:
awk '{gsub(/feb/, "02"); gsub(/nov/, "11");gsub(/jun/, "06");print}' out.6

Maria 1998-02-02 M 19
David 1972-11-05 J 45
Marco 2000-06-04 V 17


---

Sea el siguiente archivo:

In [36]:
cat > out.1 <<EOF
Date, Price, Quantity, CustomerID
2013-01-12, 25, 7, 1
2014-05-12, 41, 5, 12
2013-02-25, 44, 3, 2
2013-04-04, 90, 1, 5
2013-06-21, 16, 2, 19
2014-05-12, 63, 2, 15
2014-05-12, 10, 4, 7
2013-02-28, 78, 8, 9
2013-08-02, 51, 1, 14
EOF

* Se desea agregar un nuevo campo llamado `Quantity-CustomerID` que contenga la cantidad de producto y el cliente. El siguiente comando une las columnas de interés:

In [33]:
awk '{print gensub(/, ([0-9][0-9]), ([0-9]), ([0-9])/, ", \\1, \\2-\\3", 1)}' out.1 > out.2
cat out.2

Date, Price, Quantity, CustomerID
2013-01-12, 25, 7-1
2014-05-12, 41, 5-12
2013-02-25, 44, 3-2
2013-04-04, 90, 1-5
2013-06-21, 16, 2-19
2014-05-12, 63, 2-15
2014-05-12, 10, 4-7
2013-02-28, 78, 8-9
2013-08-02, 51, 1-14


Se agrega el título `Quantity-CustomerID`:

In [69]:
awk '{print gensub(/([a-zA-Z]*), ([a-zA-Z]*), ([a-zA-Z]*), ([a-zA-Z]*)/, "\\1, \\2, \\3-\\4", 1)}' out.2

Date, Price, Quantity-CustomerID
2013-01-12, 25, 7-1
2014-05-12, 41, 5-12
2013-02-25, 44, 3-2
2013-04-04, 90, 1-5
2013-06-21, 16, 2-19
2014-05-12, 63, 2-15
2014-05-12, 10, 4-7
2013-02-28, 78, 8-9
2013-08-02, 51, 1-14


A través del comando `BEGIN` y `END` se pueden agregar valores al principio y al final de las columnas/columnas o de todo el archivo de texto. 

El comando `NR>1` indica que se debe tener en cuenta solo filas a partir de la posicion 1. De la misma forma, `{print $0}` indica que se deben tener en cuenta todas las columnas.

In [35]:
awk 'BEGIN{print "Date, Price, Quantity-CustomerID"}(NR>1){print $0}' out.2

Date, Price, Quantity-CustomerID
2013-01-12, 25, 7-1
2014-05-12, 41, 5-12
2013-02-25, 44, 3-2
2013-04-04, 90, 1-5
2013-06-21, 16, 2-19
2014-05-12, 63, 2-15
2014-05-12, 10, 4-7
2013-02-28, 78, 8-9
2013-08-02, 51, 1-14


In [55]:
awk '(NR>1){print $3} END{print "Hola"}' out.2

7,
5,
3,
1,
2,
2,
4,
8,
1,
Hola


* Se desea agregar un nuevo campo llamado `Quantity*Price` que contenga el total de la cuenta de cada compra. El comando {print `$1` `$2`} concatena e imprime columnas  iniciando el conteo en 1 para la primera de izquierda a derecha.

In [45]:
awk -F"," '{print $1","$2","$3", "$4", "$2*$4}' out.1 > out.2
cat out.2

Date, Price, Quantity,  CustomerID, 0
2013-01-12, 25, 7,  1, 25
2014-05-12, 41, 5,  12, 492
2013-02-25, 44, 3,  2, 88
2013-04-04, 90, 1,  5, 450
2013-06-21, 16, 2,  19, 304
2014-05-12, 63, 2,  15, 945
2014-05-12, 10, 4,  7, 70
2013-02-28, 78, 8,  9, 702
2013-08-02, 51, 1,  14, 714


Ahora, se debe agregar el título a la nueva columna:

In [48]:
awk '{print gensub(/, 0/, ", Total", 1)}' out.2 

Date, Price, Quantity,  CustomerID, Total
2013-01-12, 25, 7,  1, 25
2014-05-12, 41, 5,  12, 492
2013-02-25, 44, 3,  2, 88
2013-04-04, 90, 1,  5, 450
2013-06-21, 16, 2,  19, 304
2014-05-12, 63, 2,  15, 945
2014-05-12, 10, 4,  7, 70
2013-02-28, 78, 8,  9, 702
2013-08-02, 51, 1,  14, 714


Se puede utilizar el comando la opción `-F` y `OFS` para cambiar el separador del archivo de texto:

In [49]:
awk -F"," 'BEGIN{OFS="|";}{print $1,$2,$3,$4}' out.

Date| Price| Quantity|  CustomerID
2013-01-12| 25| 7|  1
2014-05-12| 41| 5|  12
2013-02-25| 44| 3|  2
2013-04-04| 90| 1|  5
2013-06-21| 16| 2|  19
2014-05-12| 63| 2|  15
2014-05-12| 10| 4|  7
2013-02-28| 78| 8|  9
2013-08-02| 51| 1|  14


---

**Ejercicio.--** Convierta el formato de las fechas de `D/M/Y` a `YYYY-MM-DD` en los archivos `order2000` ... `order2015`.

**Ejercicio.--** Convierta el formato de las fechas de `D/M/Y` a `YYYY-MM-DD` en los archivos `order2000` ... `order2015`.