Archivos y Directorios
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/bash-for-analytics/tree/master/) para acceder al repositorio online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/Bash-for-analytics/tree/master/) para explorar el repositorio usando `nbviewer`. 

---

**Bibliografía**.

> [1] D. Cross. Data Munging with Perl. Maning Publications Co. 2001

> [2] S. Redmond. Mastering QlikView. Packs Publishing, 2014.

> [3] T. Meyr. Apple® Automator with AppleScript® Bible. Wiley Publishing, Inc., Indianapolis, Indiana, 2010.

> [4] C. Albing, JP Vossen and C. Newham. Bash cookbook. O'Reilly, Media Inc. 2007. 

> [5] E. S. Raymond, The Art of Unix Programming. Addison-Wesley, 2004.

> [6] K. McElhearn. The Mac OS X Command Line: Unix under the hood. Ibex, 2005.

> [7] R. K. Michael. Mastering Unix Shell Scripting. Wiley, 2003.

**Recursos adicionales de aprendizaje**

> [The Command Line Crash Course](http://cli.learncodethehardway.org/book/) 

> [The Linux Command Line](http://linuxcommand.org/tlcl.php) By William Shotts

> [Learn Enough Command Line to Be Dangerous](https://www.learnenough.com/command-line-tutorial#sec-grepping) by Michael Hart

> [Data Science at the Command Line](http://datascienceatthecommandline.com) by Jeroen Janssens

> [The Mac OS X Command Line: Unix Under the Hood](http://www.wiley.com/WileyCDA/WileyTitle/productCd-0782143547.html) by Kirk McElhearn

---

# Introducción

El proceso de transformación de datos se refiere a la tarea de convertir los datos de un formato a otro [1], el cual incluye las fases de:

*	Inspección – determinación de las características como el formato y otras propiedades.
*	Lectura – carga correcta de los datos.
*	Filtrado – selección del subconjunto de datos de interés.
*	Transformación – modificación de los datos como tal.

La transformación de datos es una de las fases principales en la ciencia de los datos y la analítica, y está directamente vinculada a los procesos ETL (Extract-Transform-Load).  Por ETL se hace referencia los procesos requeridos para la extracción de datos provenientes de diferentes fuentes y con distintos formatos, la transformación para su unificación en un solo formato estándar y la carga a un sistema de información (que usualmente es una base de datos).   


El proceso de transformación de datos incluye, entre otras, las siguientes actividades [2]:

*	Remoción de datos innecesarios o repetidos.
*	Reducción del número de filas o registros por eliminación o por agregación.
*	Reducción del número de campos o columnas.
*	Reemplazo o construcción de claves.
*	Creación de nuevos campos o columnas.


Estos procesos suelen ser repetitivos e involucran, usualmente, una cantidad importante de datos, de tal forma que pueden resultar muy dispendiosos, tediosos o prácticamente imposibles de realizar manualmente. Es así como una tarea tan simple como renombrar un archivo se vuelve abrumadora cuando se deben renombrar 1.000 o 10.000 archivos. En este sentido, la automatización de estas tareas trae múltiples beneficios al usuario, entre los que se encuentran [3]:

*	El agilizar tareas simples que consumen una gran cantidad de tiempo.
*	La eliminación de la posibilidad de errores debidos a la ejecución manual de un proceso (por un humano).
*	Una mayor cantidad de tiempo para realizar otras actividades de corte intelectual.


Este documento aborda la transformación de datos almacenados en archivos de texto mediante el uso de la consola de comandos o shell, la cual es una interfaz para dar comandos al sistema operativo Unix (incluyendo Linux y OS X) [4] digitando texto. La idoneidad de la shell para la transformación de archivos de texto proviene de la filosofía de diseño del sistema operativo Unix, según la cual, el sistema operativo debe estar conformado por una gran cantidad de pequeños programas con objetivos bien definidos y por el intercambio de información entre programas a través de texto plano [5]. Ya que el texto plano es el lenguaje universal entre programas escritos en diferentes lenguajes, las herramientas del sistema operativo operan limpiamente entre si. Adicionalmente, el diseño de una gran cantidad de herramientas del sistema operativo fue realizado para leer una porción de la entrada (por ejemplo, una línea de un archivo de texto) y procesarla, sin tener que cargar todo el archivo en memoria; eso hace, que se puedan procesar archivos con millones de registros sin problemas.

Bash es en si mismo tanto una shell de comandos como un lenguaje de programación para la automatización de procesos [4].  En el contexto de la ciencia de los datos resulta particularmente interesante, ya que:

* Permite la gestión de archivos planos de texto (creación, transformación y borrado) en el contexto de los procesos ETL (extracción, transformación y carga de datos). 
* Permite la creación de herramientas  ETL escritas en lenguajes de programación de alto nivel (como Perl, Python, Ruby o R) que pueden integrarse directamente con otras herramientas del sistema operativo.
* Sistemas como Hadoop corren sobre Unix, y por tanto, el usuario requiere unos conocimientos mínimos sobre Bash para interactuar con estos sistemas. 
* La línea de comandos es fácilmente programable y permite hacer tareas complejas usando comandos simples; en oposición, programas equivalentes en los lenguajes R o Python que hagan las mismas tareas podrían tener muchas más líneas de código.


Para ejemplificar el tipo de tareas que se pueden realizar fácilmente en la línea de comandos, suponga que tiene un archivo separado por comas (CSV) llamado datos.csv con dos millones de filas cuya cabecera se presenta a continuación:


    fecha,placa,ciudad,valor
    2015-05-03,IAY184,medellin,20040
    2016-01-03,TYE765,medellin,75645
    2014-03-25,RET145,cali,472277
    2014-03-23,IAY184,cali,28848
    2013-05-23,UYA435,cali,284663
    2010-02-26,TTE234,manizales,3456


Entre las tareas comunes de extracción, transformación y carga de datos que pueden realizarse se encuentran las siguientes:

*	Contar la cantidad de registros por año. 
*	Calcular los subtotales por año y mes de la columna valor.
*	Extraer los registros para una determinada ciudad a otro archivo.
*	Generar una lista ordenada de las ciudades que aparecen en el archivo.
*	Determinar entre que fechas se encuentra la muestra.
*	Ordenar el archivo por fecha.
*	(y muchas otras preguntas posibles)


Estas tareas son fácilmente realizables usando la línea de comandos de Linux. Por ejemplo, el comando 

```
-bash-3.2$ grep ^2015 datos.csv
```

permite imprimir en pantalla los registros del año 2015; para grabar los resultados en el archivo 2015.csv  solo es necesario modificar ligeramente el comando anterior:

```
-bash-3.2$ grep ^2015 datos.csv > 2015.csv
```


El objetivo de este documento es presentar y ejemplificar los principales comandos del sistema operativo Unix para la transformación de archivos de texto y la automatización de estas tareas mediante el uso de scripts. Este documento difiere en gran medida de muchos otros textos sobre Bash en que está orientado a la transformación de datos, mientras que la gran cantidad de literatura existente se focaliza mayormente en tareas de gestión y administración del sistema operativo; véase, por ejemplo, las referencias [6] y [7]. 

Al finalizar este documento, el lector estará en capacidad de:

*	Visualizar una porción o el total de un archivo.
*	Renombrar, copiar y mover archivos.
*	Generar nuevos archivos a partir del contenido de otros archivos.
*	Escribir programas en Bash de complejidad baja y media.

---

# Acceso a la terminal de comandos

Para acceder al terminal de comandos haga lo siguiente:

* En Mac OS X, digite `Cmd + Space` para acceder a Spotligth, digite `terminal` y finalmente `Enter`.

* En Ubuntu, digite  `Ctrl + Alt + T`.

* La versión de 64 bits de Microsoft Windows instala una versión de Bash. Haga click [aquí](https://msdn.microsoft.com/en-us/commandline/wsl/install_guide) para obtener instrucciones sobre cómo habilitarlo.   

# Obtención de ayuda con `man`

El prompt de comandos proporcional un manual en línea sobre los comandos del sistema. Para obtener ayuda en línea sobre un determinado comando digite: 

`    man` *`comando`*

donde *`comando`* es el comando de interés. Para salir de la ayuda digite `q`.

# Gestión del sistema de directorios y archivos

En Unix, Linux y OS X, el sistema de archivos está organizado en una estructura de árbol cuyo directorio  inicial es **`/`**. A partir de este directorio se desprenden varios subdirectorios predefinidos que están organizados de acuerdo a sus funciones y cuyos nombres y organización dependen de cada sistema operativo particular (Haga click [aquí](https://en.wikipedia.org/wiki/Unix_filesystem) para ver una descripción general del sistema de archivos). Por ejemplo, en el caso de Mac OS X,  el directorio de trabajo del usuario `jdvelasq` aparece como


``` 
/Users/jdvelasq
```


(note el `/` inicial). Si existe un archivo llamado `notas.txt` en el directorio de trabajo de dicho usuario, entonces la dirección absoluta de dicho archivo es

```
/Users/jdvelasq/notas.txt
```

Existen varias convenciones para referirse a un archivo  de forma relativa:

*	`~` indica el directorio de trabajo del usuario actual, tal que el archivo anterior podría referenciarse como `~/notas.txt`.  Aquí `~` indica `/Users/jdvelasq`.
*	`notas.txt` hace referencia al archivo con ese nombre ubicado en el directorio actual.
*	`datos/notas.txt`  corresponde al archivo `notas.txt` ubicado en la subcarpeta datos de la capeta actual.
*	`/datos/notas.txt` se refiere al archivo con ese nombre ubicado en la carpeta datos de la raíz del sistema (no en la carpeta actual). 
*	En algunos casos es necesario referenciar al archivo `notas.txt` que se encuentra en el directorio actual como `./notas.txt`.


## Determinación del directorio actual con `pwd`  

El comando `pwd` devuelve el nombre del directorio actual de trabajo.

In [1]:
pwd

/Volumes/JetDrive/GitHub/Bash-for-data-science


## Listado del contenido de un directorio con `ls`

El comando `ls` imprime el nombre de los archivos y directorios existentes dentro del directorio de trabajo.

In [2]:
ls

[35m01-archivos-y-directorios.ipynb[39;49m[0m [32mBash[39;49m[0m
[35m02-uso-interactivo.ipynb[39;49m[0m        LICENSE
03-sed.ipynb                    [36mquiz-moodle[39;49m[0m
04-awk.ipynb                    readme.md
05-sql.ipynb                    [36mxxx[39;49m[0m
06-programacion.ipynb


La opción `-l` del comando `ls` imprime información detallada del contenido del directorio de trabajo y sus respectivos permisos. 

In [3]:
ls -l

total 1040
-rwxr-xr-x   1 jdvelasq  staff   30816 Jan 23 16:07 [35m01-archivos-y-directorios.ipynb[39;49m[0m
-rwxr-xr-x   1 jdvelasq  staff   60024 Nov 29 09:27 [35m02-uso-interactivo.ipynb[39;49m[0m
-rw-r--r--   1 jdvelasq  staff   29469 Jan 23 11:11 03-sed.ipynb
-rw-r--r--   1 jdvelasq  staff   25142 Jan 23 11:11 04-awk.ipynb
-rw-r--r--@  1 jdvelasq  staff  305564 Nov 17 15:20 05-sql.ipynb
-rw-r--r--   1 jdvelasq  staff   59983 Nov 29 09:27 06-programacion.ipynb
drwxrwxrwx   6 jdvelasq  staff     204 Dec 28  2014 [32mBash[39;49m[0m
-rw-r--r--   1 jdvelasq  staff    1084 Sep  5 07:40 LICENSE
drwxr-xr-x  69 jdvelasq  staff    2346 Aug 26 12:36 [36mquiz-moodle[39;49m[0m
-rw-r--r--   1 jdvelasq  staff    2040 Dec  7 16:27 readme.md
drwxr-xr-x  43 jdvelasq  staff    1462 Jan 23 11:47 [36mxxx[39;49m[0m


Al principio de cada línea hay una cadena de diez caracteres, por ejemplo `-rw-r--r--`. El primer carácter indica si el elemento es un archivo (`-`) o un directorio (`d`). Luego siguen tres grupos de tres caracteres que indican: 

* Permisos de usuario.
* Permisos de grupo.
* Otros permisos.

En su orden, los tres caracteres de cada grupo representan lo siguiente: 

* Si el archivo tiene permiso de lectura (`r`) o no (`-`). 
* Si el archivo tiene permiso de escritura (`w`) o no (`-`).
* Si el archivo es ejecutable (`x`) o no (`-`); consulte la ayuda de `ls` para obtener más opciones.

Por ejemplo, la cadena `-rwxr-xr-x` indica que el elemento es un archivo (`-`), que el usuario (dueño) tiene permisos de lectura y escritura (`rw`), que el archivo es ejecutable (`x`) y que otros usuarios solo pueden leerlo (`r--`).  



## Creación de directorios con `mkdir`  

El comando `mkdir` *`nombredir`* crea el directorio llamado *`nombredir`* dentro del directorio actual.

In [4]:
mkdir data

Para visualizar el contenido del directorio `data` (que está vacío) se utiliza igualmente el comando `ls`.

In [5]:
ls -l ./data # no imprime nada porque el directorio './data' está vacío.

## Cambio del directorio actual con `cd` 

Para moverse entre la estructura de directorios se usa el comando `cd`. 

`cd` *`nombredir`* permite moverse al directorio *`nombredir`* mientras que `cd ..` permite subir al directorio padre. 

In [6]:
cd data  

In [7]:
pwd 

/Volumes/JetDrive/GitHub/Bash-for-data-science/data


Ahora, sube al directorio padre

In [8]:
cd .. 
pwd

/Volumes/JetDrive/GitHub/Bash-for-data-science


Al listar el contenido del directorio actual aparece el nuevo directorio `data`.

In [9]:
ls -l  

total 1040
-rwxr-xr-x   1 jdvelasq  staff   30816 Jan 23 16:07 [35m01-archivos-y-directorios.ipynb[39;49m[0m
-rwxr-xr-x   1 jdvelasq  staff   60024 Nov 29 09:27 [35m02-uso-interactivo.ipynb[39;49m[0m
-rw-r--r--   1 jdvelasq  staff   29469 Jan 23 11:11 03-sed.ipynb
-rw-r--r--   1 jdvelasq  staff   25142 Jan 23 11:11 04-awk.ipynb
-rw-r--r--@  1 jdvelasq  staff  305564 Nov 17 15:20 05-sql.ipynb
-rw-r--r--   1 jdvelasq  staff   59983 Nov 29 09:27 06-programacion.ipynb
drwxrwxrwx   6 jdvelasq  staff     204 Dec 28  2014 [32mBash[39;49m[0m
-rw-r--r--   1 jdvelasq  staff    1084 Sep  5 07:40 LICENSE
drwxr-xr-x   2 jdvelasq  staff      68 Jan 23 16:08 [36mdata[39;49m[0m
drwxr-xr-x  69 jdvelasq  staff    2346 Aug 26 12:36 [36mquiz-moodle[39;49m[0m
-rw-r--r--   1 jdvelasq  staff    2040 Dec  7 16:27 readme.md
drwxr-xr-x  43 jdvelasq  staff    1462 Jan 23 11:47 [36mxxx[39;49m[0m


`cd` admite direcciones absolutas; por ejemplo, `cd ~` y `cd /Users/jdvelasq`  permiten ir al directorio raíz del usuario. 

## Eliminación de directorios con `rmdir`

El comando `rmdir` *`nombredir`* borra el directorio *`nombredir`*. El directorio debe estar vacío para poder borrarlo.

In [10]:
rmdir ./data

## Creación de archivos vacíos con `touch`

El comando `touch` permite modificar las fechas de creación y acceso de un archivo. Puede ser usado para la creación de archivos ya que si dicho archivo no existe, `touch` lo crea.  

In [11]:
# crea el archivo out.1
touch out.1

In [12]:
ls -l out*

-rw-r--r--  1 jdvelasq  staff  0 Jan 23 16:08 out.1


## Copia de archivos con `cp`

Su sintaxis es `cp` *`origen`*  *`destino`*. En el siguiente ejemplo se crea una copia de `out.1` llamada `out.2`.

In [13]:
cp out.1 out.2
ls -l out*

-rw-r--r--  1 jdvelasq  staff  0 Jan 23 16:08 out.1
-rw-r--r--  1 jdvelasq  staff  0 Jan 23 16:08 out.2


## Renombrado y movimiento de archivos con `mv`

`mv` puede cambiar la ubicación y el nombre de un archivo. Su sintaxis es `mv` *`origen`*  *`destino`*.

En el siguiente ejemplo se cambia el nombre del archivo `out.2` a `out.3`.

In [14]:
mv out.2 out.3
ls -l out*

-rw-r--r--  1 jdvelasq  staff  0 Jan 23 16:08 out.1
-rw-r--r--  1 jdvelasq  staff  0 Jan 23 16:08 out.3


## Borrado de archivos con `rm`   

A continuación se borran todos los archivos creados como ejemplos en este libro.

In [15]:
rm out*

---

Archivos y Directorios
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/bash-for-analytics/tree/master/) para acceder al repositorio online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/Bash-for-analytics/tree/master/) para explorar el repositorio usando `nbviewer`. 