# [Herramientas digitales — Módulo 1: Texto digital (201920)](HD_Texto_Digital.ipynb)

## [Maestría en Humanidades Digitales, Universidad de los Andes](https://posgradosfacartes.uniandes.edu.co/programas/humanidades-digitales/)

#### [Nicolás Vaughan](http://nicolasvaughan.org/)

## Sesión 1: Introducción al terminal, Git, RegEx, Markdown y Pandoc (presencial)

### 1. El terminal (*command line interface:* CLI)

#### Bajen e instalen *iterm2* (https://www.iterm2.com/)

![terminal](https://github.com/nivaca/HD201920/raw/master/nvterminal.png)

***

#### Instalen el manejador de paquetes *Homebrew* (https://brew.sh/index_es)
- Copien (`Cmd+c`) el código de instalación que aparece ahí.
- Abran el terminal (`iterm2`) y péguenlo (`Cmd+v`).
- Si todo sale bien, han instalado `Homebrew`. Luego lo usaremos...


***

#### Para tener en cuenta
- `~` significa (se expande en) el directorio del usuario actual
- `?` y `*` son comodines (*wildcards*) que significan respectivamente: reemplazar por cualquier caracter y reemplazar por cualesquiera caracteres.
- Por ejemplo:
- `perr?` será reemplazado por `perra`, `perrb`, etc., pero no por `perros`.
- `perr*` será reemplazado por `perra`, `perras`, `perros`, etc.

***

##### Espacios en blanco
- los espacios en blanco en la línea de comando: deben "escaparse" (usando `\ `), e.g. `mi\ archivo\ secreto.txt`
- o deben incluirse entre comillas simples o dobles, e.g. `"mi archivo secreto.txt"` o `'mi archivo secreto.txt'`
- Lo más fácil (y recomendable) es usar `_` en los nombres largos para simplificar su manejo: `mi_archivo_secreto.txt`

***

#### Comandos (programas) fundamentales de Bash

- `ls`: lista el contenido del directorio (`ls -a`: lista todo (incluso los ocultos))
- `man`: muestra la página manual del comando, e.g. `man ls`
- `sudo`: ejecuta un comando como administrador (requiere contraseña)
- `echo`: muestra en pantalla un texto, `echo "mi texto"`
- `cd`: cambia de directorio, e.g., `cd ~/Downloads`
- `cp`: copia un archivo, e.g. `cp readme.txt readmecopia.txt`
- `mv`: mueve un archivo
- `mkdir`: crea un nuevo directorio, e.g. `md talleres_hd`
- `cat`: muestra el contenido de un archivo, e.g. `cat readme.txt`
- `ln -s`: crea un "soft symbolic link" (un alias) de un archivo, e.g. `ln -s archivo.txt mialias`
- `head`: muestra las primeras 10 líneas de un archivo, e.g. `head readme.txt`
- `tail`: muestra las últimas 10 líneas de un archivo, e.g. `tail readme.txt`
- `touch`: crea un archivo nuevo en blanco, o actualiza la hora y fecha de un archivo existente, e.g., `touch minuevo.txt`
- `less`: muestra página a página un archivo, e.g. `less readme.txt`
- `sort`: ordena y muestra el contenido de un archivo, e.g. `sort nombres.txt`
- `uniq`: muestra el contenido de un archivo, eliminando duplicados `uniq nombres.txt`
- `tree`: muestra la estructura del directorio
- `file`: muestra el *tipo* de archivo o directorio, e.g. `file informe.docx`
- `date`: muestra la hora y fecha
 

***

#### Directorio de trabajo
Por conveniencia, creen un directorio en `~\Downloads\`con su nombre (sin espacios), por ejemplo:
```
cd ~\Downloads
mkdir nicolasvaughan
cd nicolasvaughan
```

***



#### Redireccionamiento y "pipelines"
```
cp 2701-0.txt miarchivo.txt
head miarchivo.txt
head miarchivo.txt > primeras.txt
cat primeras.txt
sort primeras.txt > primeras_ordenadas.txt
head miarchivo.txt | sort > primeras_ordenadas_02.txt

```

```
echo "def\nabc"
echo "def\nabc" > miarchivo.txt
cat miarchivo.txt
sort miarchivo.txt
echo "def\nabc" | sort > nuevo.txt
cat nuevo.txt
cat nuevo.txt >> miarchivo.txt
cat miarchivo.txt
```

- `>` crea un nuevo archivo con el resultado del comando de la izquierda
- `>>` añade al final resultado del comando de la izquierda (o crea uno nuevo, si no existe)
- `|` redirije el *output* del comando a la izquierda en el *input* del comando a la derecha

(`\n` es el caracter de salto de línea)

*** 
 
#### Comandos (programas) más avanzados
- `find`,<sup>[1](#myfootnote1)</sup> busca un archivo en un directorio, e.g. `find -type d -iname "bin"`; `find -maxdepth 3 -type f -iname "*python*"`
- `grep`, búsqueda de texto avanzada dentro de archivos, e.g. `grep "and" *.txt`
- `awk`, manipula columnas de datos en archivos, e.g. `ls -l | awk '{print $5}'`
- `sed`, se usa generalmente para reemplazar datos en archivos, e.g. `sed s/Moby/John/g input.txt | head`
- `wget`, baja archivos de internet, e.g. `wget https://www.gutenberg.org/files/2701/2701-0.txt`
- `curl`, baja archivos de internet, e.g. `curl -O https://www.gutenberg.org/files/2701/2701-0.txt`
- `du`, muestra el espacio que archivos/directorios ocupan (`du -h` presenta una versión "legible por un humano"; `du -s` presenta un resumen)
- `ps`, muestro los procesos (programas y servicios) que actualmente se ejecutan (`ps aux` muestra los del usuario y el sistema)
- `top` y `htop`: similares a `ps`, pero la información se muestra en tiempo real


<a name="myfootnote1"><sup>1</sup></a> En MacOS se requiere del paquete `findutils` de GNU para obtener toda la funcionalidad de `find` (se instala con: `brew install findutils`)


***



#### Scripts de Bash
- Creen en el editor de texto un archivo llamado `miscript.sh` con el siguiente contenido:

```
#!/usr/bin/env sh
mkdir temporal
cd temporal
wget https://www.gutenberg.org/files/2701/2701-0.txt
mv 2701-0.txt input.txt
sort input.txt | uniq | tail > output.txt
cat output.txt

```

- Ahora escriban esto en el terminal: `bash miscript.sh`

- Ahora esto: 

```
chmod u+rwx miscript.sh
./myscript.sh

```

- ¿Qué hicimos aquí? 
- `chmod u+rwx miscript.sh` cambia los permisos de un archivo para que sea de lectura (`+r`), escritura (`+w`) y ejecución (`+x`) para usuario actual
- `./myscript.sh` lo ejecuta (sin el comando anterior no podríamos ejecutarlo)

### 2. GIT: software de control de versiones
- Vayan a https://github.com y creen una cuenta de usuario (o entren si ya la tienen)
- Vayan ahora a: https://github.com/nivaca/HD201920
- Hagan click en el botón que dice `Fork` a la derecha.
- Han creado un *fork* o derivación de mi repositorio de archivos para este curso.
- Ahora copien (`Cmd+c`) la dirección nueva que aparece en la barra del navegador.
- En el terminal, escriban: `git clone ` y peguen esa dirección (`Cmd+v`), por ejemplo (en mi caso):
```
git clone https://github.com/nombreusuario/HD201920
```
- Ahora tienen una copia local de su repositorio remoto.
- Abran `Atom` y creen un archivo de texto y escriban cualquier cosa. Guárdenlo en el directorio `HD201920` en su equipo con el nombre `miarchivo.txt`.
- Escriban en el terminal (dentro de ese directorio):
```
git add miarchivo.txt
git commit -m "creé archivo miarchivo.txt"
git push
```
- Han añadido el archivo nuevo de su repositorio local (el equipo en el que están) al repositorio remoto (en GitHub). Vayan a la página de Github de su repositorio y verifíquenlo.
- Ahora escriban en el terminal: `git status`.
- Ahora escriban en el terminal: `git log`.
- Para bajar del repostorio remoto archivos nuevos o cambiados (sincronizar desde el repositorio remoto): `git pull``
- Para añadir (*stage*) todos los archivos del repositorio local: `git add .` (y luego hacer el commit y el push)
- En la [página inicial](HD_Texto_Digital.ipynb) encontrarán links para aprender Git en más detalle.

### 3. Markdown
- Guía de referencia: https://daringfireball.net/projects/markdown/
- Desde el terminal, vayan a su directorio de trabajo y escriban:
```
jupyter notebook
```
- Se abrirá un navegador de internet con 

### 4. Expresiones regulares (RegEx o RE)
- Si no está instalado, bajen e instalen el editor Atom: https://atom.io/
- Abran en él el archivo que bajamos antes de `gutenberg.org`
- Guía de referencia rápida: https://www.rexegg.com/regex-quickstart.html



### 5. Pandoc