# Introducción al procesado de texto en un terminal Unix

[Pablo Carballeira] Partes de este código han sido adaptadas del código de Victor Peinado https://github.com/vitojph/kschool-nlp-23

Puedes encontrar información sobre cómo trabajar en Colab aquí (https://colab.research.google.com/notebooks/intro.ipynb)

# Referencias

Church, K. W. *Unix for  poets* http://web.stanford.edu/class/cs124/kwc-unix-for-poets.pdf








# Comandos para procesar ficheros de texto

A continuación, vamos a presentar algunas de las herramientas de la línea de comandos de Unix que nos permiten procesar ficheros de texto de forma sencilla y eficiente. Realizaremos estos ejercicios por comodidad en este notebook, pero, evidentemente, todos estos comandos se pueden utilizar desde un terminal de Unix.

Para utilizar comandos de [bash](https://www.educative.io/blog/bash-shell-command-cheat-sheet) en notebooks de Python, simplemente hay que utilizar el símbolo `!` inmediatamente antes de la instrucción.



## Descarga de ficheros

Primero, descargamos los ficheros con los datos que vamos a utilizar en este notebook, y nos ubicaremos en la carpeta adecuada.



In [None]:
!mkdir /content/data
!wget --no-check-certificate 'https://docs.google.com/uc?export=download&id=18ye-zFMP2TOnm9U0k8zwMaCPczZ6CvWg' -O data/files.tar
!cd data && tar xf files.tar
!rm data/files.tar 
%cd /content/data
!ls -all

Puedes comprobar la estructura de ficheros utilizando la pestaña a la izquierda de este notebook, y comprobar que hemos creado la carpeta `/content/data`

 


## `wc [OPCIONES] [RUTA/]FICHERO` 

Para mostrar estadísticas del tamaño de un fichero de texto podemos utilizar el comando `wc`. 

Si se ejecuta sin ninguna opción, se nos muestran cuatro columnas con la siguiente información: número de líneas, número de palabras, número de caracteres y nombre del fichero.

Por ejemplo, para imprimir por pantalla las estadísticas de todos los ficheros del directorio actual que contengan la cadena `jack` en su nombre, ejecutamos:


In [None]:
!wc jack*



Entre las opciones más útiles de `wc`, están:

- `-l` imprime el número de líneas de un fichero.
- `-w` imprime el número de palabras de un fichero.

In [None]:
!wc -l jack.txt 
!wc -w jack-sorted.txt 

## `grep [OPCIONES] PATRÓN FICHERO`

Procesa un fichero de texto línea a línea e imprime solo aquellas que contengan el patrón de búsqueda especificado. Entre las opciones más interesantes, están:

- `-i` ignora las diferencias entre mayúsculas y minúsculas
- `-v` invierte el sentido del patrón, es decir, muestra solo las líneas que no coincidan con el patrón.
- `-c` imprime, en lugar de las líneas, el número de ocurrencias en las que el patrón coincide. 


Por ejemplo, imprime del fichero `jack.txt` solo aquellas líneas que contengan la cadena `is`.


In [None]:
!grep "is" jack.txt 


Para realizar la operación contraria, es decir, imprimir solo aquellas líneas que no contienen la cadena `is`, podemos utilizar `grep` con la opción `-v`.


In [None]:
!grep -v "is" jack.txt

## `sort [OPCIONES] [RUTA/]FICHERO`

Procesa un fichero de texto línea a línea y las muestra ordenadas. Las opciones determinan el tipo de ordenación empleado:

- `-d` orden alfabético, incluso para los números. **Distingue entre mayúsculas y minúsculas y tiene en cuenta los posibles espacios en blanco que aparezcan**
- `-n` orden numérico: coloca los números antes que las letras y ordena los dígitos de menor a mayor.
- `-f` no distingue entre mayúsculas y minúsculas.
- `-r` orden inverso.

Las opciones se pueden combinar, p. ej., para ordenar un fichero numéricamente de mayor a menor podemos ejecutar `sort -nr FICHERO`.

In [None]:
!sort -r jack.txt

## `uniq [OPCIONES] [RUTA/]FICHERO`

Procesa un fichero de texto línea a línea y elimina líneas duplicadas,  decir, solo muestra una ocurrencia en caso de múltiples líneas duplicadas. 

Algunas de las opciones más interesantes son:

- `-c` muestra el número de ocurrencias de cada línea.
- `-d` muestra solo las líneas duplicadas.
- `-i` ignora las diferencias entre mayúsculas y minúsculas

**Ojo, uniq solo recuerda la última línea que ha visto y, en consecuencia, sólo es capaz de eliminar líneas duplicadas cuando aparecen todas juntas unas detrás de otras. Antes de eliminar líneas duplicadas con uniq es conveniente ordenarlas con sort.**


## Ejercicio 1 

Comprueba la diferencia entre eliminar duplicados para el fichero `jack.txt` y `jack-sorted.txt`. Fíjate que la única diferencia entre estos fiheros es que en el segundo caso las líneas han sido ordenadas alfabéticamente.

In [None]:
# ???

In [None]:
# ???

## `tr [OPCIONES] PATRÓN1 PATRÓN2 < FICHERO`

El comando `tr` permite procesar un fichero de texto y transformar o realizar sustituciones entre los caracteres del patrón `PATRÓN1` con los caracteres del patrón `PATRÓN2`. Veamos algunos ejemplos de uso:

Para procesar nuestro fichero y sustituir cualquier aparición de una `h` en una `H`, ejecutamos:

In [None]:
!tr "h" "H" < jack.txt 

Para sustituir las vocales en minúsculas a mayúsculas, ejecutamos:

In [None]:
!tr "aeiou" "AEIOU" < jack.txt 

Si queremos pasar a mayúsculas un texto escrito en minúsculas, podemos especificar un rango de caracteres (de la *a* a la *z*):

**Fíjate en el comportamiento de estos alias: `a-z` para las letras del alfabeto en minúsculas, `A-Z` para las letras mayúsculas, `A-z` para el alfabeto completo en mayúsculas y minúsculas, `0-9` para los dígiyos, o incluso subconjuntos de estos caracteres como `a-m` y `5-9`**


In [None]:
!tr "a-z" "A-Z" < jack.txt


Un uso muy del comando `tr` muy interesante para tareas de procesamiento de texto es utilizarlo para *tokenizar* o segmentar en palabras un fichero de texto. Para ello, necesitaremos especificar determinadas opciones de manera que sustityamos cualquier carácter que no sea `-c` una letra mayúscula o minúscula (`A-Za-z`) por un único (`-s`) retorno de carro (`\n`). Comprueba qué hace la siguiente intrucción:



In [None]:
!tr -sc "A-Za-z" "\n" < jack.txt


La instrucción anterior no tendrá en cuenta como palabras o *tokens* los caracteres con diacríticos propios del español o las secuencias de dígitos que encuentre.



## Ejercicio 2

Comprueba qué sucede al separar en palabras el fichero quevedo.txt, utilizando el método anterior.

In [None]:
# ???

Para separar correctamente las palabras en español y considerar también como *tokens* los números, necesitamos modificar el primer patrón:

In [None]:
!tr -sc "A-Za-zÁÉÍÓÚÜáéíóúüñÑ0-9" "\n" < quevedo.txt

# Entrada, salida y *pipelines* para encadenar comandos 

## Encadenando herramientas

Hasta ahora hemos visto comandos para realizar operaciones sencillas sobre ficheros. La mayoría de las herramientas de Unix son similares: consisten en herramientas pequeñas que realizan muy bien una operación muy concreta y determinada, y funcionan de la siguiente manera: 

- toman uno o varios ficheros como entrada
- los manipulan; y 
- generan un salida, que podemos mostrar por pantalla o redirigirla a otro sitio. 

La verdadera potencia y versatilidad de estas herramientas la obtenemos cuando encadenamos unas con otras, seleccionando como entrada de una de estas instrucciones la salida de otra. Para ello podemos hacer uso de algunos símbolos especiales que veremos a continuación.



## Entrada `<` [RUTA/]FICHERO

La mayoría de los comandos de Unix que hemos visto hasta el momento toman como entrada el nombre de fichero que especifiquemos. En otros casos, es obligatorio especificar de manera explícita el fichero de entrada con el símbolo `<`.

(Si no es indica lo contrario, la entrada estándar por defecto de Unix `stdin` es el teclado)

In [None]:
!cat < jack.txt        # equivalente a cat jack.txt

In [None]:
!sort -nr < jack.txt   # equivalente a sort -nr jack.txt


In [None]:
!tr "a" "A" < jack.txt # es obligatorio el uso de <

## Salida `>` [RUTA/]FICHERO
Hemos visto anteriormente que podemos redirigir la salida de un comando a un fichero de texto. **Si no es indica lo contrario, la salida estándar por defecto de Unix `stdout` es la pantalla**



Recuerda que podemos redirigir la salida de dos maneras: 

- `>` redirige la salida a un fichero. Si no existe, lo crea. Si existía previamente, lo sobreescribe.
- `>>` redirige la salida a un fichero. Si no existe, lo crea. Si existe, concatena el resultado al contenido anterior.


## Ejercicio 3

Ordena alfabéticamente el fichero `jack.txt`, guarda el resultado en otro fichero de nueva creación llamado `jack-sorted.txt`, y comprueba su contenido con el comando método `cat` que hemos usado un poco más arriba.

In [None]:
# ???

## Tubería (*pipeline*) comando `|` comando

Como hemos visto, muchas de las herramientas de Unix toman como entrada ficheros de texto, los procesan línea a línea ejecutando tareas sencillas y generan una salida. La verdadera potencia de estas herramientas radica en la posibilidad de encadenar varias de ellas, haciendo que una herramienta tome como entrada y procese la salida de otra herramienta que hemos ejecutado previamente. El *pegamento* que nos permite encadenar herramientas desde la línea de comandos es la tubería o *pipeline* `|`.

Imaginemos que queremos procesar línea a línea una fichero de texto formado por un listado de palabras. Dicho listado contienen palabras desordenadas y numerosos duplicados. 


In [None]:
!tr -sc "A-Za-z" "\n" < jack.txt >jack-tokens.txt # creamo el fichero tokenizado

Podemos encadenar dos herramientas como `sort`, `uniq` para generar un nuevo listado de palabras ordenadas y únicas

In [None]:
!sort jack-tokens.txt | uniq

## Ejercicio 4

Encadena tres herramientas para generar un nuevo listado de palabras ordenadas, únicas y que contengan la cadena `is`: 

In [None]:
# ???


# Cómo buscar ayuda

No es sencillo recordar las opciones disponibles para cada comando (solo algunos *übergeeks* lo consiguen), así que es habitual echar mano de los comandos de la shell. 

Tenemos dos tipos de ayuda que podemos consultar desde la propia línea de comandos.

Todos los comandos tienen una opción `--help` (a veces también `-h`) que podemos ejecutar para acceder a la ayuda en formato abreviado. Para acceder a la ayuda del comando `cat`, ejecuta:

Utiliza estas ayudas para resolver los ejercicios más avanzados del final de este notebook


In [None]:
!cat --help


El comando `man` (de *manual*) nos da acceso al manual completo de cada comando.

Para abrir las páginas del manual del comando `grep` ejecuta:


In [None]:
!man grep


# Ejemplos de la potencia de los *pipelines*

Procesamos un fichero de texto línea a línea, imprimiendo solo las líneas que contengan la secuencia de caracteres *is* y, para facilitar su localización en el texto original, las imprimimos con el número de línea.

**Fíjate que el orden de los comandos altera el resultado, y en este caso imprimimos los números de línea del fichero original. Puedes comprobar qué sucede al variar el orden**


In [None]:
!cat -n jack.txt | grep "is"

## Ejercicio 5

Procesa el fichero de texto `jack.txt` segmentándolo en palabras, buscando aquellas palabras que contengan la cadena *at*, y calcula la frecuencia de aparición de cada palabra (número de veces que aparece)

**Consulta las opciones del comando uniq para realizar el cálculo de la frecuencia de cada palabra**


In [None]:
# ??? 

## Ejercicio 6

Procesa el fichero de texto `jack.txt` segmentándolo en palabras, calcula la frecuencia de aparición de cada palabra, y ordena la la lista de palabras según su frecuencia (de mayor a menor)



In [None]:
# ???