## Modulo II. GNU/Linux y Shell

30-nov-2019

## 1. Introducción:
### ¿Qué es Unix?

Para conocer qué es **GNU/Linux** es necesario saber antes qué es **Unix**.

**Unix** es un sistema operativo no gratuito (de pago) creado por AT&T en la década de 1970.

### El ecosistema de Unix

El ecosistema de cualquier sistema operativo Unix o basado en Unix cuenta con los siguientes elementos:
- **Línea de comandos**. Utilizada para escribir los comandos correspondientes
- **Terminal**. Es la **aplicación** donde se escriben los comandos, que nos permite comunicarnos con el ordenador. Una vez que se han escrito se presiona `<Enter>` para enviar el comando a la Shell. 
- **Shell**. Es el programa que interpreta el comando.
- **Sistema operativo**, que en nuestro caso es **GNU/Linux**. El corazón de un sistema operativo es el *kernel*, que aloca recursos a la máquina para hablar con el *hardware*.

### La línea de comandos

La línea de comandos fue creada hace 40 años pero sigue siendo muy efectiva. ¿Por qué algo tan antiguo sigue utilizándose y es tan útil hoy en día? Básicamente por dos motivos:
- Sus funcionalidades principales **no han cambiado** mayoritariamente.
- Al ser *software libre* la comunidad está produciendo constamente herramientas para la líneas de comandos que son gratuitas y de gran calidad. 

### El funcionamiento de la terminal

Como se ha explicado, la terminal es la aplicación donde se escriben los comandos y que permite comunicarnos con el ordenador.

Cuando hablamos de terminal, se debe hablar del flujo Entrada/ Salida (E/S):
- ***Stdin*** o ***Standard input***. Son los datos que escribimos en la línea de comandos del terminal y que se envían al programa. Su descriptor asociado es el 0.
- ***Stdout*** o ***Standard output***. Es la vía por la que el programa devuelve los datos. Por lo general, es la pantalla del ordenador. Su descriptor asociado es el 1.
- ***Stderr*** o ***Standard error***. Es el canal por el que se envía un un mensaje de error en caso de que su ejecución falle. Si bien este mensaje generalmente también se visualizará por pantalla, es importante destacar que Linux permite distinguir entre stderr y stdout para manipular ambas secuencias de manera separada. Su descriptor asociado es el 2.
- Gracias a ellos, podemos hacer que se guarden los errores o lo que se imprime en pantalla en archivos como se muestra en el siguiente [link](https://rm-rf.es/stdin-stdout-y-stderr-redirigir-en-unixlinux/)

Veamos un ejemplo para explicarlo mejor.

Como se verá más adelante, el comando `ls` permite desplegar una lista con todos los archivos y directorios existentes en el directorio al que se está apuntando. Sin embargo, no tiene entre sus opciones `-7`. Por lo tanto, si se escribe `ls -7` devolverá un error.

Con el comando:

- **`ls -7 2 > fichero.log`**

No imprimirá el error en pantalla, sino que lo guardará en un archivo llamado `fichero.log`. E imprimirá solamente error porque hemos puesto 2, que es el descriptor asociado a ***stderr***.

Si por el contrario quisiéramos que nos incluyese la salida ***stdout*** y el error ***stderr*** pondríamos:

- **`ls -7 > fichero.log 2>&1`**

### El control de la terminal
La terminal tiene una sere de *shortcuts* que permiten manejarla más fácilmente. Algunos de los más usados son:

- **`CTRL + L`** limpia la pantada
- **`<comando> + TAB`** entra en la función ayuda mediante autocompletado. Te puedes mover mediante las flechas
- **`CTRL + shift + n`** abre una nueva terminal
- **`CTRL + shift + t`** abre una nueva pestaña dentro de la terminal (similar al funcionamiento de Chrome)
- **`CTRL + d`** cierra la terminal si la línea está vacía, si no, elimina la letra en la que se esté encima
- **`CTRL + b`** (*back*) se mueve hacia atrás letra a letra
- **`CTRL + f`** (*forward*) se mueve hacia delante letra a letra
- **`ALT + b`** (*back*) va al comienzo de la línea
- **`CTRL + u`** corta toda la línea
- **`CTRL + k`** corta toda lo que está delante del cursor
- **`CTRL + w`** corta la palabra de la izquierda
- **`ALT + d`** corta la palabra de la derecha
- **`CTRL + y`** pega lo cortado

### El uso de `>`, `>>` y `<`.

Como se ha podido ver recientemente, los comandos son exportados por defecto a la pantalla. Sin embargo, se puede hacer que sean exportados a un archivo o importandos desde un archivo. Esto se hace con los comandos `>`, `>>` y `<`.

- **Exportar a un archivo**. Se hace mediante *`>`*. Si el archivo no existe, lo crea y si existe, sobreescribe el contenido por el que se acaba de indicar. Por ejemplo:

>**`echo -n "Hello" > hello-world.txt`**

- **Añadir a un archivo**. ¿Qué ocurre si no queremos sobreescribir un archivo, sino añadir algo a él? Es decir, lo que sería hacer un *append*. Se hace mediante **`>>`**. Por ejemplo:
>**`echo " world" >> hello-world.txt`**

De esta forma, si se hace:

>**`cat hello-world.txt.`**

Se verá el siguiente resultado:

![hello_world](Img\Modulo_2_Shell\hello_world.JPG)

Por el contrario, podemos utilizar **`<`** para tomar un archivo como **input** de ***stdin***.

Por ejemplo:

> **`wc -l < hello-world.txt.`**

> **`wc -w < hello-world.txt.`**

> **`wc -m < hello-world.txt.`**

![wc_hello_world](Img\Modulo_2_Shell\wc_hello_world.JPG)

Esta función, que se merá más adelante, cuenta el número de líneas (`wc -l`), el número de palaras (`wc -w`) y el número de caracteres (`wc -m`) de una referencia.

De este modo, pasamos la información del archivo a ***stdin*** sin ningún proceso adicional. Otra manera de realizarlo aunque realizando un paso adicional sería mediante el uso de las *pipes* que se explicarán más adelante.

> **`cat hello-world.txt | wc -w`**

Donde decimos que primero abra y lea (`cat`) el archivo *hello-world.txt* y luego realice el conteo de palabras.

### *Quoting* o entrecomillado

Se debe conocer que hay diferentes maneras de entrecomillar en *shell* y cada una produce diferentes resultados:
- **`' '`**. Las comillas simples o *single quotes* no modifican el texto, lo dejan de manera literal.
- **`" "`**. Las comillas dobles o *double quotes* ejecutan la expresión de *shell*
- **` `` `**. Las comillas curvadas evalúan y reemplazan el texto, es decir, sustiuyen por el comando. Se debe tener cuidado porque **`$(command)`** no es lo mismo que **`$command`**.

Vemos unos ejemplos:
![wuoting](Img\Modulo_2_Shell\quoting.JPG)

### Las variables
Las variables tienen diferentes maneras de denominarse en *shell*.

- Las variables de entorno (*environment variables) van siempre en mayúsculas:
    - **`$HOME`**
    - **`$PWD`**
    - **`$OSTYPE`**
    
- Las variables locales van en minúsculas.
    - $my-var

- Se pueden vern todas las variables con el comando **`set`**.


### Los wildcards
Podemos usar palabras comodines en muchos comandos de la shell. Estos son iguales que las **REGular EXpressions** o ***RegEx***.

- **`*`** sustitye a cualquier grupo de caracteres. Por ejemplo:
    - **`ls *.txt`** mostraría en un listado cualquier archivo con extensión *.txt*.
- **`?`** sustitye a cualquier caracter (solo uno) y no un grupo como *. Por ejemplo:
    - **`Anychartstocks201?.txt`** Así buscaría todos los archivos que acaben en 201x.
- **`[ ]`** selecciona como comodín los elementos que están entre corchetes. Por ejemplo:
    - **`Anychartstocks201[78].txt`** Así buscaría todos los archivos que se llaven así en la vertiente 2017 y 2018.
- **`{ }`** sustituye a cualquiera d elos caracteres separados por comas.
    - **`Anychartstocks{.txt,.csv}`** Así buscaría todos los archivos con extensión .txt o .csv


### ¿Qué es GNU/Linux?

**GNU/Linux** es un sistema operativo *de tipo Unix* (es decir, basado en Unix), pero de código abierto. De hecho, **GNU** es un acrónimo recursivo de *GNU is Not Unix*. Por lo tanto, **GNU** es un sistema operativo formado totalmente por *software libre*.

El proyecto GNU comenzó en 1983 por Richard Stallman y aunque en un primer momento estaba ideado para que el *kernel* o nucleo del sistema fuese **GNU Hurd**, finalmente este *kernel* o núcleo fue reemplazado por **Linux**. Debido a ello, finalmente es común referirse como **Linux** a todo el sistema **GNU/Linux**, si bien como se ha explicado **Linux** solo es el núcleo. De hecho, hay distribuciones de **GNU** que no usan **Linux** como *kernel*.

El *kernel* **Linux** fue escrito en 1991 por el mismo creador que **Git**: Linus Torvalds.

### Las distribuciones de Linux

Por lo tanto, a las distribuciones **GNU/Linux** se las denomina comúnmente como **Linux**. Una distribución está realizada por alguien que toma el núcleo central o *kernel* (Linux) y le añade herramientas, programas, interfaces, etc. que considera más adecuadas por diferentes motivos.

**Ubuntu** y **Debian** son algunas de las distribuciones de **Linux** más conocidas

## 2. El proceso de Data Science

Mason & Wings (2010) definen el proceso de Data Science como "OSEMN" cuya pronunciación en inglés es igual a *"awesome"*.
- **O**btaning data
- **S**crubbing data
- **E**xploring data
- **M**odelling data
- I**n**terpreting data

Es precisamente la parte de **Scrubbing** o limpieza de datos la que lleva más tiempo, aproximadamente un 80% del trabajo. Algunas de las operaciones de *scrubbing* más comunes son:
- Filtrado
- Extracción de ciertos valores
- Reemplazo de valores
- Manejo de datos vacíos
- Convertir datos de un formato a otro

## 3. Los elementos línea de comandos

Cada comando suele estar precedido de un símbolo denominado **prompt**, que puede ser:
- El símbolo del dólar: **$**
- Otros símbolos, como por ejemplo **%** en nuestro caso.

El **prompt** muestra la siguiente información:
- El nombre de usuario (**dsc**) en nuestro caso.
- El nombre del directorio actual
- El directorio raíz o *home* (expresado mediante la virgulilla **~**)
- La hora

![command_line](Img\Modulo_2_Shell\command_line.JPG)

## 4. Herramientas básicas de la línea de comandos:

### `whoami`
El comando `whoami`muestra el *user ID*:

> **`whoami`**

![whoami](Img\Modulo_2_Shell\whoami.JPG)

### `echo`
El comando `echo` envía un argumento a *stdout*,es decir, a la salida de la línea de comandos:

> **`echo [options] [strings]`**

**Ejemplos**:

1. **Mostrar un texto en salida**

> **`echo Welcome to the Jungle`**


2. **Declarar una variable y devolver su valor mediante `echo`**

> **`Y=15`**

> **`echo La variable Y tiene un valor de $Y`**

3. **Imprimir todos los elementos no ocultos de una carpeta como `ls`**

> **`echo *`**


4. **Imprimir todos los elementos de una carpeta con una determinada extensión**:

> **`echo *.txt`**

5. **Crear un documento como si de `touch`se tratase, pero introduciendo texto como si fuera un editor**:

> **`echo "Primera línea de mi nuevo documento" > prueba.txt"`**

6. **Añadir líneas a algún documento**:

> **`echo "Segunda línea de mi nuevo documento" >> prueba.txt.`**

7. **Con la variable `-e` actúa con todos los caracteres tras una `\`**. Actúa de esta manera:

![echo_-e](Img\Modulo_2_Shell\echo_-e.JPG)

**Ejemplos**:

![echo_ejemplos_1](Img\Modulo_2_Shell\echo_ejemplos_all.JPG)

### `\`: el *backslash* o barra invertida

A veces utilizamos el *backslash* o barra invertida para romper código que es muy largo.

El símbolo *mayor que* indica que el *prompt* continúa, pero hay que estar seguros de cerrar las comillas adecuadamente.

**Ejemplo**:

> **`echo "The world\ is mine"`**

![backslash](Img\Modulo_2_Shell\echo_backslash.JPG)

### `cat`

**`cat`**envía contenidos de documentos a la salida *stdout*:
> **`cat Text_example.txt`**

- **`-n`** o **`--number`** sirve para numerar líneas.
    > **`cat -n Text_example.txt`**

- **`-s`** elimina los espacios en blanco repetidos
    > **`cat -s Text_example.txt`**

Puedo utilizarlo para saber qué versión de linux estoy usando:
> **`cat /etc/os-release`**

Veamos unos **ejemplos** con el documento *prueba.txt* creado recientemete:
![cat](Img\Modulo_2_Shell\cat2.JPG)

**Prueba con**:
> - Dentro de	/home/dsc/Data/shell/	:	cat	Text_example.txt
- Dentro de	/home/dsc/Data/shell/	:	cat	-n	Text_example.txt 
- Dentro de	/home/dsc/:	cat	Data/shell/Text_example.txt 
- Dentro de	/home/dsc/Data/opentraveldata/	:	cat	../shell/Text_example.txt 
- Dentro de	/home/dsc/Data/opentraveldata/	:	cat	/home/dsc/Data/shell/Text_example.txt 
- Dentro de	/home/dsc/Data/opentraveldata/	:	cat	~/Data/shell/Text_example.txt

### Navegación entre directorios:

Notación básica:
- **~**. La virgulilla se utiliza para denotar al directorio **HOME**
- **$**. El símbolo de dólar se utiliza para mencionar a la variable.
    - Recordar que si quiero imprimir el símbolo de dólar debo utilizar la *backslash* o barra invertida como escape. Ejemplo:
        - `echo \$PWD` es diferente a `echo $PWD`

### `pwd` o *print working directoy*

`pwd` muestra el directorio en el que se encuentra actualmente:
> **`pwd`**

Su equivalente usando `echo` es:
> **`echo $PWD`**

### `cd` o *change directory*

`cd` permite cambiar de directorio en el que nos encontramos. Su nomenclatura es.

> **`cd <directory>`**

Por ejemplo:

> **`cd Desktop/pruebas_shell`**

Tiene varias opciones:

- **`cd`** sin nada más nos lleva al directorio **Home** o **~**
- **`cd ~`** también nos lleva al directorio **Home**
- **`cd .`** es el directorio actual
- **`cd ..`** nos lleva al directorio padre del directorio actual
- **`cd -`** nos permite alternar entre los dos últimos directorios visitados

### `ls` o *list*

`ls` nos permite ver qué hay en el durectorio en el que nos encontramos. 

> **`ls`**

Tiene un código de colores:
- Verde: indica que puede ser ejecutado.
- Azul: indica que es un directorio.
- Blanco: indica que es un archivo de texto.

Tiene una serie de diferentes opciones:

- **`ls`**. Muestra los archivos no ocultos del directorio
- **`ls -a`** o **`ls --all`**. Muestra todos los archivos del directorio, incluyendo los ocultos.
- **`ls -s`**. Muestra el *size* o tamaño de los archivos.
- **`ls -S`**. Muestra la lista *Sorted* u ordenada por el tamaño del archivo, de mayor a menor
- **`ls -r`** o **`ls --reverse`**. Muestra la lista ordenada al revés.
- **`ls -X`**. Muestra la lista ordenada alfabéticamente y por extensiones
- **`ls -1`**. Muestra los archivos en columnas dando mucha información:
    - Columna 1. Permisos del archivo
    - Columna 2. Número de links
    - Columna 3. Nombre del propietaroio
    - Columna 4. Nombre del grupo
    - Columna 5. Tamaño del archivo
    - Columna 6. Fecha de la última modificación
    - Columna 7. Nombre del archivo/directorio

Estas opciones se pueden combinar entre sí. Da igual el orden en el que se pongan las opciones (-1,s,X,r...).Por ejemplo:
- **`ls -Xr`** mostrará la lista ordenada alfabéticamente por extensiones pero en orden (Z-A)
- **`ls -1s`** o **`ls -s1`** mostrará la lista en forma de columnas pero indicando su peso.


#### Ejemplo:

¿Qué hará el siguiente comando?

> **`ls -1Xrs`**

Pues devolverá la lista de elementos de una carpeta en forma de columna, ordenada alfabéticamente en orden (Z-A) e indicando su peso.


### `chmod` o *change mode*

El comando `chmod` permite cambiar los permisos **rwx** (**r**ead, **w**rite, e**x**ecute). Su funcionamiento general es:

> **`chmod <permissions> <file>`**

Como se ha explicado, con el comando **`ls -l`** se pueden ver los permisos otorgados:

![lsl](Img\Modulo_2_Shell\lsls2.JPG)

Siendo su estructura la siguiente:

- ugo: d / rwx for **u**ser / rwx **g**roup / rwx for **o**thers

E indicando con letra cuando el permiso está activo y con guión cuando está denegado

![permissions](http://3.bp.blogspot.com/-wB6DS2VM3ok/TgkRyWa-8-I/AAAAAAAAAJw/eIwX_Mk-uZ4/s1600/permissions_diagram.gif)

Estos permisos se indican mediante números binarios:

![permissions](Img\Modulo_2_Shell\ch_mod_permissions.png)

Por lo tanto, un permiso *777* significa un permiso *7* para users, un permiso *7* para group y un permiso *7* para others.

Pero para facilitar y no tener que hacer cambios en binario, se pueden cambiar de la siguiente manera para la carpeta, por ejemplo *pruebas_shell*:

> **`chmod 744 pruebas_shell`**. Esto implica dar derechos de `rwx` para el usuario y solo de `r` para group y others

> **`chmod u+rxw,go+r pruebas_shell`**. Esto implica añadir derechos de `rwx` para user y para group y others solamente derechos de `r`

> **`chmod g+x,o-x pruebas_shell`**. Esto implica dar derechos de ejecución a group pero quitarle derechos de ejecución a others.

>**... etc ...**

### `mkdir` o *make directory*

El comando `mkdir` permite crear una nueva carpeta o directorio dentro de la rama padre. Su estructura es:

> **`mkdir <new_directory>`**

Tiene algunas opciones interesantes como:
- **`mkdir -p <new_directory>`**, que crea los directorios de rama padre solicitados.

Por ejemplo, si se ejecuta:
- **`mkdir one/two/three`** dirá que no existe el directorio "one/two/three".
- **`mkdir -p one/two/three`** creará tres directorios: uno llamado "one" que contiene "two" que a su vez contiene "three"

### `touch` para crear un archivo.

El comando `touch` permite crear un archivo. Su estructura es:

> **`touch <file>`**

Por ejemplo:

- **`touch prueba.txt`**

### `cp` o *copy*

El comando `cp` permite copiar un archivo o directorio. Su sintaxis es:

> **`cp <options> origen destino`**

Tiene las siguientes opciones:

- **`-r`** o **`--recursive`**. Es el modo usado para poder actuar sobre directorios y no solo archivos.
- **`-i`** o **`--interactive`**. Pregunta antes de sobreescribir
- **`-l`** o **`--link`**. Haz un *link* en vez de copiar.
- **`-n`**. No sobreescribas.
- **`-u`** o **`--update`**. Sobreescribe si el archivo copiado es más nuevo que el antiguo.
- **`-v`** o **`--verbose`**. Imprime mensajes informativos
- **`-b=numbered <archivo> ./<respaldo>/`** o **`--backup=numbered <archivo> ./<respaldo>/`**. 
- **`-p`** o **`--preserve`**. Mantiene los permisos del archivo y otros atributos/metadatos.

Ejemplos:

1. Dentro de `folder_1`copia un archivo llamado `prueba.txt` y lleva la copia a `folder_2`.
> **`cp prueba.txt ~/Desktop/folder_2`**

2. Dentro de `folder_1`copia los archivo llamado `prueba.txt` y `text.md`y lleva las copias a `folder_2`.
> **`cp prueba.txt text.md ~/Desktop/folder_2`**

3. Copia todos los archivos `.txt` a dentro de `folder_1` en `folder_2`
> **`cp *.txt ~/Desktop/folder_2`**

4. Copia todos los archivos de `folder_1` en `folder_2`
> **`cp * ~/Desktop/folder_2`**

5. Copia todo el directorio `folder_1` y crea una copia en `folder_2`
> **`cp -r ~/Desktop/folder_1 ~/Desktop/folder_2`**

6. Crea un backup del archivo `prueba.txt` cada vez que sea sobreescrito y lo guarda en la carpeta ocula `./respaldo/`
> **`cp -b=numbered prueba.txt ./respaldo/`**

### `mv` para mover y renombrar archivos y escritorios

El comando `mv` es un comando muy versátil que permite tanto **renombrar** archivos y directorios como **mover** archivos y directorios.

Su fórmula general para **mover archivos** es:

> **`mv <opciones> archivo_origen destino`**

Y consecuentemente para **renombrar**:

>**`mv <opciones> nombre_origen nuevo_nombre`**

Tienes varias opciones:

- **`-f`** o **`--force`** ignora archivos no existentes y argumentos
- **`-i`** o **`--interactive`** pregunta antes de sorbeescribir
- **`-v`** o **`--verbose`** imprime mensajes informativos

#### IMPORTANTE: No uses `rename`

`rename` es usado para cambiar el nombre de muchos archivos.

### Ejemplos:

1. Renombro el archivo `prueba.txt` por `test.txt`.
> **`mv prueba.txt test.txt`**

2. Muevo el archivo `test.txt` de `folder_1` a `folder_2`. **IMPORTANTE** ver cómo se indica el nombre del archivo al final para moverlo.
> **`mv -v test.txt ~/Desktop/folder_2/test.txt`**

## `rm` o *remove*

El comando `rm` sirve para eliminar archivos y directorios. Su estructura es:

> **`rm <options>`**

Tiene las siguientes opciones:

- **`-f`** o **`--force`**. Ignora archivos no existentes y argumentos.
- **`-r`** o **`--recursive`**. Permite ejecutar el comando para directorios
- **`-i`** o **`--interactive`**. Pregunta antes de sorbeescribir.
- **`-v`** o **`--verbose`**. Muestra un mensaje de progreso.

## Ejercicio 1. 

Pon en práctica lo explicado realizando las siguientes tareas:

1. Create	a	directory	“first_dir”	in	you	home	folder
> **`cd && mkdir first_dir`**. Con `cd` voy a **Home**, uso `&&` para pasar al siguiente comando y con `mkdir first_dir` creo el directorio

2. Create	an	empty	file	“text_file.txt”	inside	“first_dir”	directory.
> **`cd first_dir && touch text_file.txt`**. Con `cd first_dir` entro en el directorio antes de crear el archivo de texto.
3. Add	execute	permissions	to	group	users,	and	write	permissions	to	other	users	to	“text_file.txt”	
> **`chmod u+x,o+w text_file.txt`**  

4. Create	3	subdirectories	inside	“first_dir”:	“sub1”,	“sub2”,	“text_file”
> **`mkdir sub1 sub2 text_file`**

5. Copy	the	“text_file.txt”	file	into	“sub1”	directory.
> **`cp text_file.txt ~/first_dir/sub1`**

6. Move	the	“text_file.txt”	into	sub2	under	name	“text_file.txt.2"
> **`mv ~/first_dir/sub1/text_file.txt ~/first_dir/sub2/text_file.txt.2 `** 

7. Copy	the	whole	directory	“sub1”	to	“sub3”	directory.	
> **`cp -rv  ~/first_dir/sub1  ~/first_dir/sub3`**

8. Change	file	name	of	“first_dir /sub2/text_file.txt.2”	to	“first_dir /sub2/text_file.txt.backup”
> **`mv ~/first_dir/sub2/text_file.txt.2 ~/first_dir/sub2/text_file.txt.backup`**

9. Move	“first_dir /sub2/text_file.txt.backup”	to	“first_dir”	directory	as	hidden	file. Hint: *use . before the name to make it a hidden file*
> **`mv -v ~/first_dir/sub2/text_file.txt.backup ~/first_dir/.text_file.txt.backup`**

10. Delete	the	“sub2”	subdirectory
> **`rm -vr ~/first_dir/sub2`**

## `help` y `man`

Los dos principales comandos de ayuda son `man` y `--help`.

`man` es el acrónico de *manual*. Sin embargo, no todos los comandos tienen su propio manual. Para abrirlo, el comando es:

> **`man <comando>`**

Por ejemplo:

- **`man bash`**

Para movernos bien por `man` se debe utilizar el comando `less`, que se explicará a continuación.

Sin embargo, para aquellos comandos que no tienen `man` se puede utilizar `--help`. Su forma es:

> **`<comando> --help`**

Por ejemplo:

- **`cat --help`**

## `less`: show a a file (cannot edit)

El comando `less` permite mostrar el contenido de un archivo o la salida de un comando página por página. 

Es similar al comando `more` pero con alguna característica más avanzada, además nos permite navegar hacia adelante y hacia atrás a través del archivo, buscando incluso algún patrón dentreo de él, ya sea dentro del texto, al comienzo de una línea, al final de ella, etc.

Su estructura es:
> **`less <options> <file>`**

Las principales **opciones** de `less` cuando se ejecuta el comando son:

- **`-N`**. Muestra el número de cada una de las líneas
- **`-S`**. Las líneas que son más largas que el ancho de la pantalla serán truncadas (*truncated*) en vez de recogidas (*wrapped*), como se muestra a continuación.

![truncated](Img\Modulo_2_Shell\truncated.jpg)

Un ejemplo del comando es:

- **`less -N Finn.txt`**

Una vez que se ha ejecutado `less`, para movernos dentro del archivo se cuenta con los siguientes comandos:

Comando                            | Acción
-----------------------------------|-------------------------
**`Down arrow`**, **`Enter`**, **`e`**, o **`j`**. |Avanzar una línea.
**`Up arrow`**, **`y`** o **`k`**.             |Retroceder una línea.
**`Barra espaciadora`** o **`f`**          |	Avanzar una página.
**`b`**                               |	Retroceder una página.
**`/patron`**                          |	Buscar hacia adelante patrones definidos
**`?patron`**                          |	Buscar hacia atrás patrones definidos
**`^patron`**                          |Buscar patrón al comienzo de una línea
**`patron$`**                          |Buscar patrón al final de una línea
**`n`**                                |	Siguiente patrón encontrado
**`N`**                                |	Anterior patrón encontrado
**`g`**                                |	Ir a la primera línea del archivo.
**`Ng`**                               |	Ir a la línea N-th del archivo.
**`G`**                                |	Ir a la última línea del archivo.
**`p`**                                |	Volver al principio del archivo.
**`Np`**                               |	Ir al N porcentaje definido del archivo.
**`h`** o **`--help`**                     |	Mostrar ayuda.
**`q`**                                |	Salir de `less`

Recordar que puedo buscar cosas en `--help` y en `man` siguiendo estos comandos

## Ejercicios 2. Practica con `less`

1. Go to	data/shell/	directory	and	use	less	to	open	Finn.txt 
> **`cd data/shell && less Finn.txt`**

    a) locate	the	lines	starting	with	“The”
     
     >**`/^The`** (usar **`n`** para moverme a la siguiente observación)
    
    b) Locate	the	lines	ending	with	“works” 
    >**`/works$`** (usar **n** para moverme a la siguiente observación)
    
2. Open	~/Data/opentraveldata/optd_aircraft.csv	with	less	command. Search	for	“Canada”	and	then	search	for	“Puma” 

> **`cd ~/Data/opentraveldata && less optd_aircraft.csv`**

> **`/Canada`**

> **`p`** (para volver al principio)

> **`/Puma`**

3. Use	help	to	find	out	how	to	get	the	list	of	subdirectories	limited	to	2	sublevels	by	using	“tree”	command

## `alias`

Si se ejecuta constantemente un conjunto de comandos, puede ser muy útil establecer un alias para ellos y que se puedan ejecutar de forma más rápida. También son muy útiles cuando generalmente se nos atraganda un comando y lo ponemos mal casi siempre (por ejemplo, `moer` en vez de `more`). Para definir un alias el comando es:

> **`alias <nombre>=<"comando">`**

Por ejemplo:

> **`alias gc="git commit"`**

o

> **`alias lodga="git log --oneline --decorate --graph --all`"**

Para ver todos los alias establecidos y que vienen por defecto basta con escribir en la consola de comandos:

> **`alias`** 

## Aprendiendo de los comandos: `whatis`, `whereis`, `which`, `type`.

Encontramos diferentes tipos de comandos:
- Comandos *built-in* de la shell
- Comandos externos de *file* que no están en todos los sitemas o distros.
- Alias que hemos creado.

Podemos aprender los comandos con estos propios comandos:

- **`whatis <comando>`** nos da una explicación de qué hace un comando.
- **`type <options><comando>`** muestra la ubiación de un comando.
- **`which <comando>`**. Imaginemos que tenemos varios comandos llamados igual. Con esta opción se puede ver cuál de ellos se está ejecutando.
- **`whereis <comando>`**. Muestra el comando que es, dónde está, su alias, y dónde está su manual.

## Ejercicios 3. Ejercicio con funcionalidades de *shell*

1. Go	to	~/Data/Shell/	and	use	Text_example.txt	to	generate	a	new	file	with	the	same	content	but	with	line	number	at	the	beginning	of	each	line.

> **`cat -n Text_example.txt > New_file.txt`**

![example_1](Img\Modulo_2_Shell\example_1.jpg)

2. Generate	a	new	file	with	twice	the	content	of	“Text_example.txt”	inside.	(one	full	text	content	after another)

> **`cat Text_example.txt > New_file_2.txt`**

> **`cat Text_example.txt >> New_file_2.txt`**

![example_2](Img\Modulo_2_Shell\example_2.jpg)

3. Generate	an	file	with	creation	timespamp and	name	of	the	user	who	created	it	on	the	first	line.	Smth like	this:

    - **"#	This	file		is	created	by	KSCHOOL	on:Sun	Nov 26	10:31:06	CET	2017"** 

Push it to *GitHub* using **Git**.

> **`cd ~/Repos/master-data-science`**

> **`git pull`**

> **`echo "# This file is created by $(whoami) on $(date)" > shell_test.txt`**

> **`git status`**

> **`git add`**

> **`git commit -m "Prueba de creación de archivo en shell usando los comandos whoami y date"`**

> **`git push`**

## El uso del *pipe* (`|`)

La manera más común de combinar comandos en la línea de comandos es mediante el uso del *pipe* o **`|`**.

Lo que realiza este comando es utilizar para el siguiente argumento el resultado del primero. Por ejemplo:

> **`echo "How many lines/words/letters do I have?" | wc`**

![pipe](Img\Modulo_2_Shell\pipe.jpg)

Al igual que ocurre con **`\`**, un comando largo puede ser cortado también con **`|`**

## `wc` o *word count*

El comando **`wc`** imprime una línea indicando cuantas letras, palabras, líneas o bytes tiene una frase o documento. Su estructura general es:

> **`wc <options>`**

Siendo sus opciones:

- **`-c`** o **`--bytes`** el número de bytes.
- **`-m`** o **`--chars`** el número de caracteres.
- **`-l`** o **`--lines`** el número de líneas.
- **`-w`** o **`--words`** el número de palabras.

Ejemplo:

> **`wc Text_example.txt`**

> **`cat Text_example.txt | wc`**

## `head`

El comando `head` permite mostat las primeras líneas de un archivo. Por defecto, imprime las primeras 10 líneas de un archivo.
Su estructura es:

> **`head <options>`**

Sus opciones son:

- **`-c k`**, siendo K los primeros K bytes de un archivo.
- **`-c -K`**. Imprime todo menos los últimos K bytes de un archivo.
- **`-n K`**, siendo K las primeras K líneas de un archivo
- **`-n -K`**. Imprime todo menos las últimas K líneas de un archivo.

Ejemplos:
- head	-c	1K	optd_aircraft.csv	|wc
- head	-n	3	optd_aircraft.csv	
- head	optd_aircraft.csv
- head	-n	-450	optd_aircraft.csv	
- head	-3	optd_aircraft.csv

![HEAD](Img\Modulo_2_Shell\HEAD.jpg)

Como se puede ver, el último ejemplo abre las 3 primeras líneas y tiene un - para indicar que es una opción. Es igual que -n 3.

## `tail`

El comando `tail` muestras las últimas líneas de un archivo. Su estructura general es:

> **`tail <options>`**

Sus opciones son:

- **`-c k`**, siendo K los últimos K bytes de un archivo.
- **`-c +K`**. Imprime todo a partir del K byte de un file
- **`-n K`**, siendo K las últimas K líneas de un archivo
- **`-n +K`**. Imprime todo a partir de la K línea de un archivo.

## `history`

El comando **`history`** permite ver el historial de comandos. Por defecto, muestra un límite determinado de comandos, pero puede modificarse:

> **`history -<num_commands>`**

Recordar que podemos guardar el ***stdout*** mediante el uso de **`>`**. Por ejemplo:

- **`history -1000 > my_commands.txt`**


### Ejercicio 4.

1. Save	the	information	of	3	largest	files	located	inside	~/	into	a	three_largest_file.txt located inside Repos.
> **`ls -S1 | head -n 3 > ~/Repos/three_largest_file.txt`**

2. Save	last	20	commands	used	at	command	line	to	a	file.	(hint	use	history	and	redirect	the	
output)

> **`history | tail -n 20 > ~/Repos/master-data-science/last_20_commands.txt`**

3. Print	first	3	lines	of	~/Text_example.txt
> **`cat ~/Data/shell/Text_example.txt | head -n 3`**

4. Print	content	of	~/Text_example.txt	except	first	1	and	last	3	lines.
> **`cat ~/Data/shell/Text_example.txt | head -n -3 | tail -n -1`**

5. How	many	lines	does	~/Data/opentraveldata/optd_aircraft.csv	file	have?

Hay varias maneras de resolverlo:

> **`wc -l ~/Data/opentraveldata/optd_aircraft.csv`**

o:

> **`cat ~/Data/opentraveldata/optd_aircraft.csv | wc -l`**

6. How	many	words	do	first	5	lines	of	the	~/Data/shell/Finn.txt	have?

> **`cat ~/Data/shell/Finn.txt | head -n 5 | wc -w`**

## `find`

Vaya! He perdido un archivo. Pero sé que estaba guardado en algún sitio... Sé que lo descargué la semana pasada... Sé que su nombre empezada por... Sé que su extensión era...

Para todo ello existe el comando `find`. Su estructura es:

> **`find <path> <conditions>`**

Si se deja el *path* o ruta vacío, ejecuta el *find* sobre la ruta en la que nos encontramos.

Sus condiciones son:
- **`-type f`**. Es de tipo archivo.
- **`-type d`**. Es de tipo directorio.
- **`-name`**. Encuentralo por nombre
- **`-iname`**. Encuentralo por nombre ignorando el caso...
- **`-maxdepth`**. Máximo número de directorios en los que mirar desde el directorio actual. Así:
    - 1	es el directorio actual
    - 0	es la línea de comandos
- **`-mindepth`**. Número mínimo de directorios desde el directorio actual.
- **`-perm ppp`**. El tipo de permisos del archivo, siendo *ppp* el número binario del permiso. Por ejemplo *777*.
- **`-not`** o **`!`**. Que no sea...
- **`-size n`**. De tamaño n. **`+/-n`** más grande o más pequeño que n
- **`-empty`**. Encuentra archivos vacíos
- **`-mmin -N`**. Encuentra archivos modificados en los últimos N minutos
- **`-mtime - N`**. Encuentra archivos modificados en los últinos N días.
- **`-exec <cmd> {} \;`**. Ejecuta comando  en un archivo
- **`-ok cmd`**. Prompt antes de ejecutar el comando cmd en un archivo.
- **`-execdir/-okdir`**. Ejecuta comandos en el directorio donde se encuentra el arhivo o directorio
    - Después del comando debe ponerse **"{} \\;"**. Hay un espacio entre {} y \\;
    - Para cada resultado, el comando {} se ejecuta
    - Todas las ocurrecias de {} son reemplazadas por el nombre del archivo
    - Con ";" precedido de una "/" se previene de que la shell lo interprete.

## Ejemplos con *find*

1. Buscar en el directorio actual todos los ficheros que empiecen con la palabra "pr".

> **`find . -name "pr*"`**

2. Buscar el el directorio HOME o ~ archivos de tipo archivo:
> **`find $HOME -type f`**

3. Busca el archivo "optd_airlines" en la carpeta Data y ejecútalo con `cat`.
> **`find ~/Data -type f -maxdepth 3 -name "optd_airlines*" -exec cat {} \;  `**   

## `uniq`

Indica o elimina las líneas ADYACENTES repetidas. Su estructura es:

> **`uniq <options>`**

Sus opciones son:

- **`-c`** o **`--count`**. Cuenta el número de ocurrencias.
- **`-d`** o **`--repeated`**. Solo imprime las líneas repetidas.

Veamos un ejemplo, donde se ha creado un archivo llamado `uniq_example.txt` mediante los siguientes comandos:

> **`seq 1 2 10 > uniq_example.txt`**

> **`seq 1 10 >> uniq_example.txt`**

![uniq](Img\Modulo_3_uniq_example.jpg)

Sin embargo, como se puede ver a continuación, a pesar de que hay elementos repetidos **NO LOS RECONOCE** al no estar en líneas contiguas. ¿Cómo solucionarlo? Se puede solucionar mediante el comando ***`sort`***

## `sort`

El comando `sort` permite ordenar líneas en un archivo de texto. Su estructura es:

> **`sort <options> <file>`**

Sus opciones son:

- **`-d`** o **`--dictionary order`**. Es el comando por defecto. Ordena de manera alfabética.
- **`-n`** o **`--numeric sort`**. Ordena de manera numérica.
- **`-r`** o **`--reverse`**. Ordena de manera inverse: es decir mayor a menor o de Z-A.
- **`-f`** o **`--ignore-case`**. Ignora mayúsculas y minúsculas.
- **`-u`** o **`--unique`**. Devuelve las líneas únicas.
- **`-t` < delimitador >**. Permite cambiar el delimitador de caracteres. Por defecto es el espacio.
- **`-k M[,N]`** o **`--key=M[,N]`**. Ordena de la columna M hasta la N (opcional) ambas incluidas. Por ejemplo:
    - **`sort -t "," -k1,2 -k3n,3 < file >`**. Establece las columnas delimitando mediante "," y ordena las columnas de manera alfabética las columnas 1 y 2 en orden de menor a mayor y ordena la columna 3 en orden numérico.
    - **`sort -t "," -k1,1 -u < file >`**. Elimina los duplicados de un listado basándose en los campos de la columna 1.

¿Por qué necesitamos entonces el comando `uniq` si ya hay una opción de `sort` que permite devolvernos resultados únicos? Por dos motivos:
- No hay ninguna opción de `sort` que nos cuente repeticiones.
- No hya ninguna opción de `sort` que devuelva solo los repetidos.

![uniqsort](Img\Modulo_3_uniq_sort.jpg)

Ejemplos:

> **`cat uniq_example.txt | sort -nr | uniq -cd `**

# Ejercicios: Sorting and counting.

#### Rercuerda que es mejor hacer los ejercicios por partes e ir añadiendo posteriormente comandos hasta llegar al final mediante | (pipe).

1.  Find top 15 files by size in your home directory including the subdirectories. Sort them by size and print the resultincluding the size and the name of the file (hint: use find with -size and -exec ls -s parameters)

En la primera parte se busca hasta 5 carpetas por debajo, para evitar hacer el ejercicio largo, archivos de +10MB y se le pide en el `find` que ejecute el comando `ls -s` para que muestre su tamaño.
> **`find ~ -maxdepth 5 -type f -size +10M -exec ls -s {} \;`**

Utilizando un pipe (|) se puede ordenar primero por tamaño la columna 1 y en orden reverse y con un head mostrar los 15 archivos más pesados.
> **`find ~ -maxdepth 5 -type f -size +10M -exec ls -s {} \; | sort -k1nr | head -n 15`**

2. Create a dummy file with this command : seq 15 > 20lines.txt; seq 9 1 20 >> 20lines.txt; echo"20\n20" >>20lines.txt; (check thecontent of thefile first)

> **`seq 15 > 20lines.txt`**

> **`seq 9 1 20 >> 20lines.txt`**

> **`echo "20\n20" >> 20lines.txt`**

- Sort the lines of file based on alphanumeric characters

> **`cat 20lines.txt | sort -n`**

- Sort the lines of file based on numeric values and eliminate the duplicates

> **`cat 20lines.txt | sort -nu`**

- Print just duplicated lines of the file

> **`cat 20lines.txt | sort -n | uniq -d`**

- Print the line which has most repetitions

> **`cat 20lines.txt | sort -n | uniq -c | sort -nr | head -n 1`**


3.  Create another file with this command : seq 0 2 40 > 20lines2.txt
- Create 3rd file combining the first two files (20lines.txt and 20lines2.txt) but without duplicates(namethefile: 20lines_no_dupl.txt)
- Merge the content of 20lines.txt and 20lines2.txt into 40lines.txt.
- Print unique lines together with the number of occurrences 40lines.txt file and sort the line based on line content.
- How would you get the same result without passing through the intermediary file 40lines.txt?

4.Go to ~/Data/opentraveldata and get the line with the highest number of engines from optd_aircraft.csv by using sort.(nb_engines)

> **`cd ~/Data/opentraveldata`**

Veo el patrón de separación y qué columna debo ordenar
> **`cat optd_aircraft.csv | head -n 2`**

Utilizo `sort` para ordenar:

> **`cat optd_aircraft.csv | sort -t "^" -k7nr,7 | head -n 1`**

## `cut`

El comando `cut` se utiliza para cortar determinadas columnas. Cuenta con las siguientes opciones:

- **`-d "<DELIM>"`** o **`--delimiter= "<DELIM>"`**. Sirve para indicar el delimitador de las columnas.
- **`-f <a,b-d>`** o **`--field <a,b-d>`**. Permite seleccionar una columna o un grupo de columnas.
- **`--output-delimiter "<symbol>`**. Selecciona nuestro nuevo limitador de columnas.

Un ejemplo para verlo en `~/Data/opentraveldata`. El siguiente código establece las columnas en base a "^", que lo selecciona como delimitador, y corta las columnas 1,2,3 y 5 y establece como nuevo delimitador la coma ",".

> **`cut -d "^" -f 1-3,5 --output-delimiter "," optd_aircraft.csv`**

![cut](Img\Modulo_3_cut.jpg)

## `paste`

El comando `paste` concatena horizontalmente, es decir, une líneas en paralelo. Su modelo es:

> **`paste <option>`**

Sus **opciones** son:
- **`-s`** o **`--serial`**. Une todo el archivo en una línea
- **`-d "<delim>"`** o **`--delimeter="<delim>"`**. El delimitador por defecto es TAB (4 espacios)
- **`- - - ...`**. Separa en tantas columnas como guiones. Los guiones van espaciados
- **`paste < <file> < <stdin>`**. Toma como *stdin* el archivo "x" que unitá al archivo *file*.
- **`paste < (<file>) < (<stdin>)`**. Toma como *stdin* el archivo "x" que unitá al archivo *file* la expresión que está entre paréntesis.

Algunos ejemplos son:

> **`seq 10`**

> **`seq 10 | paste -s`**

> **`seq 10 | paste -sd ";"`**

> **`seq 10 | paste - - -`**

> **`seq 10 | paste - - - -d ";"`**

> **`paste < seq 10 < numbers.txt`**

> **`paste < cat(seq 10) < (head -n 5 numbers.txt)`**

![paste](Img\Modulo_3_paste.jpg)

## `tr` o *translate*

El comando `tr` o ***translate*** transforma o elimina caracteres. Su sintaxis es:

> **`tr <options> SET1 SET2`**

Sus opciones son:

- **`-s`** o **`--squeeze-repeats`**. Reemplaza cada caracter repetido con una ocurrencia única determinada
- **`-d`** o **`--delete`**. ELimina caracteres del SET1, no los reemplaza
- **`-c`**. Conserva solamente los caracteres del SET1. Es lo contrario a **`-d`** o **`--delete`**.
- Se pueden operar con grupos predefinidos de caracteres:
    - **`[:alnum:]`** todos los números y letras
    - **`[:alpha:]`** todas las letras
    - **`[:blank:]`**  espacios en blanco
    - **`[:digit:]`**  todos los números
    - **`[:lower:]`**  todas las minúsculas
    - **`[:upper:]`**  todas las mayúsculas.


Algunos ejemplos son:

> **`echo "master in data science" | tr a A`**

> **`echo "master in data science" | tr as AE`**

> **`echo "master in data science" | tr "as" "e"`**

> **`echo "maaaaaster     in        data     science" | tr -s " " ","`**

> **`echo "mmaaaaster in daaata sciennnnce" | tr -s "man" "man"`**

> **`echo "mmaster  daaaaata  science" | tr -s "[:blank:]" | tr -s "[:alnum:]“`**

> **`echo "master 123 data 124 science 1" | tr "[:lower:]" "[:upper:]"`**

![tr](Img\Modulo_3_tr.jpg)

## `grep`

El comando `grep` es un filtro de línea. Permite buscar un patrón en un archivo y se imprimirá la línea o líneas que lo contenga. Su estructuctura es:

> **`grep <opciones> <patrón> <archivo>`**

Sus **opciones** son las siguientes:

- **`-i`** : *Case insensitive*, es decir, la búsqueda no distinguiá entre mayúsculas y minúsculas
- **`-c`** : Cuenta las líneas en las que aparece el texto buscado
- **`-v`** : Invierte el sentido de la búsqueda, mostrando solamente las líneas que no contienen el patrón
- **`[A/B/C] +N`** = Muestra N líneas *after/before/around* del *match*
- **`-E`** : Permite jugar con expresiones regulares
- **`-l`** : Busca el patrón en un conjunto de archivos
- **`-e`** : Permite buscar diferentes palabras. Delante de cada palabra buscada se indicará un `-e`.
- **`-n`** : Numera las líneas en la salida
- **`-o`** : Solo muestra la parte que coincide con el patrón de búsqueda.
- **`-w`** : Restringe la búsqueda a aquellos en los que coincide toda la palabra exactamente.

![grep](Img\Modulo_3_grep_example.jpg)

Y algunos ejemplos con ***RegEx***:

![grep_regex](Img\Modulo_3_gre_regex.jpg)

## Ejercicios con `grep`

1. Use grep to extract all 7x7 (where x can be any number) airplane modelsfrom optd_aircraft.csv. 

> **`cat optd_aircraft.csv | cut -d "^" -f3 | grep -E "7[0-9]7"   `**

2. Use grep to extract all 3xx (where x can be any number) airplane models from optd_aircraft.csv. 

> **`cat optd_aircraft.csv | cut -d "^" -f3 | grep -E "^3[0-9]{2}" `**

3. Use grep to obtain the number of airlines (col name) with prefix “aero” (case insensitive) in their name from optd_airlines.csv 

> **`cat optd_aircraft.csv | cut -d "^" -f2 | grep -i "^aero"`**

4. Howmany optd_por_public.csvcolumns have“name” as part oftheir name?What aretheir numerical positions?

>**`cat optd_airlines.csv | head -n 1 | tr "^" "\n" | wc -l `**

5. Find all files with txt extension inside home directory (including all sub directories) that have Word“Science” (case insensitive) inside the content. Print file path and the line containing the (S/s)cienceword.

## `sed`: el editor orientado a líneas.

El comando **`sed`** proviene de ***S**tream **ED**itor and transforming text*.

Mediante el comando **`sed`** se pueden editar muchos archivos incluso sin abrirlos, de manera individual o masiva. En definitiva, es un potente editor de texto que permite insertar, borrar, buscar y reemplazar. Debe tenerse en cuanta que es un **editor orientado a líneas**.

Su sintaxis es la siguiente:

> **`sed <opciones> <patrón> <archivo>`**

Como se puede ver `sed` no cambia exclusivamente un archivo, sino que también puede operar directamente sobre el ***stdin***. En el siguiente ejemplo, se sustituitá en "Sunday" la parte "day" por "night"

> **`echo "Sunday" | sed "s/day/night/"`**

¿Cómo funciona?

- ***s*** es el comando de sustitución
- ***/*** es el delimitador. Por convención y por legibilidad se usa ***/*** aunque podría usarse otro caracter como "A". En ese caso sería:
    - > **`echo "Sunday" | sed "sAdayAnightA"`**
- ***day*** es la primera parte del patrón que se busca.
- ***night*** es lo que sustituirá al patrón de entrada.

Igualmente, si se quisiera modificar un archivo, el comando sería el siguiente:

> **`sed 's/test/another test/' myfile.txt`**

![sed1](Img\Modulo_3_sed_1.png)

Este comando **no reemplaza *in-place* los datos**, simplemente lleva a ***stdout*** los cambios, así que si quisiéramos reemplazar el archivo, deberíamos guardarlo o utilizar `-i` en opciones para modificar *inplace*, como se verá más adelante.

En `sed`se pueden utilizar tando comillas simples (**'**) como comillas dobles (**"**).


### Múltiples sustituciones

Sin embargo, con el comando indicado arriba, `sed` solamente modifica la primera ocurrencia para cada línea. Como ejemplo, mira que ocurriría si se añadiese más veces la palabra *test* en el ejemplo de arriba.

![sed2](Img\Modulo_3_sed_2.png)

Se puede ver cómo los siguientes *test* no han sido reemplazados. Para ello, hay que acudir a las banderas de sustitución de `sed`. En `sed` deben distinguirse ***opciones*** de ***banderas de sustitución***.

### Banderas de sustitución de `sed`

Las ***banderas de sustitución*** de `sed` van dentro del ***script***, mientras que las opciones van fuera:

- **`g`**. **CUIDADO** Hace un reemplazo global, es decir, de todo aquello que lo contenga. Por ejemplo:
    - **`sed 's/Esto/Aquello/g' sedtest.txt`** **---> Sustituirá todos los 'Esto' por 'Aquello' pero también 'Estoy' por 'Aquelloy'**
- **`I`**. Con la bandera `I` se hace insensitivo a mayúsculas y minúsculas. Se coloca al final del *script*
    - **`sed 's/test/another test/I' myfile`**     
- **`p`**. La bandera `p` imprime solamente las líneas en las que aparece ese patrón. Si se combina con la opción `-n` solo se mostrarán las líneas modificadas.
    - **`sed -n 's/test/another test/p' myfile`**
- **`d`**. Permite eliminar las líneas que tengan una ocurrencia determinada:
    - **`sed '/test/d' myfile`**
- **`!`**. Revierte la restricción. Por ejemplo, en **`seq 5 | sed -n '2,4!p'`** solo mostrará 1 y 5.
- **`N`**. Permite hacer que afecte a una línea o a un grupo de líneas determinado. Si se indica el rango *`N,$`* irá desde *N* hasta el final del archivo. Por ejemplo:
    - **`sed "1,3 s/Esto/Aquello/" sedtest.txt`** **---> afectará a las líneas de la 1 a la 3**
    - **`sed "2,$ s/Esto/Aquello/" sedtest.txt`** **---> afectará de la línea 2 hasta el final**
    
### Opciones

- **`-n`**. Este comando elimina la impresión automática. Cuando se combina con la bandera *p* imprime solamente las líneas modificadas.
    - **`sed -n 's/test/another test/p' myfile`** 
- **`-i`**. Guarda los cambios ***in-place***.
    - Sin partir: **`sed -i 's/test/another test/gI' ./myfile`** 
- **`-e`**. Este comando permite ejecutar diferentes sed. Si hacemos muchos, lo mejor es partirlos.
    - Sin partir: **`sed -e 's/This/That/; s/test/another test/' ./myfile`**

## Trabajando con archivos comprimidos: `zip`, `tar`, `gz`, `bz2`

Las extensiones más comunes de los archivos comprimidos son: ***.zip, .gz, .tar, .tar.gz, .bz, .bz2***

### .zip : `zip`, `unzip`, `zipinfo`

- Para crear un archivo **.zip**:
> **`zip <nombre_del_zip> <archivo_1> <archivo_2> <archivo_3> ...`**

- Para mostrar el contenido del zip:
> **`zipinfo <nombre_del_zip>`**

- Para descomprimir:
> **`unzip <nombre_del_zip>`**

- Para mostrar en pantalla el contenido del zip y su nombre:
> **`unzip -c <nombre_del_zip>`**

- Para visualizar el contenido del .zip se puede usar:
    - **`zcat`**
    - **`zless`**
    - **`zgrep`**

### .gz: `gzip`, `gunzip`, `zcat`, `zless`, `zgrep`.
Por defecto, comprime *in-place*

- Para comprimir un archivo **.gz**:
> **`gzip <nombre1> <nombre2> <nombre3>`**

- Para descomprimir un archivo .gz:
> **`gzip -d <nombre>`** o **`gunzip <nombre>`**

- Para dobtener información de un archivo .gz comprimido:
> **`gzip -l <nombre>`**

### .bz y .bz2: `bzip2`, `bunzip2`, `bzcat`, `bzless`, `bzgrep`.
Por defecto, comprime *in-place*

- Para comprimir un archivo **.bz**:
> **`bzip2 <nombre1> <nombre2> <nombre3>`**

- Para descomprimir un archivo .bz:

> **`bunzip2 -d <nombre>`** o **`bunzip2 <nombre>`**

### .tar: `tar`.
Tiene bastantes opciones. Mirar en `man tar`

### Comandos combinados.

Estos comandos se pueden combinar con los ya aprendidos `head`, `grep`, `tail`... Por ejemplo:

>**`zcat optd_zip.zip | head -n 5`**

## Shell script para bash

Un *script* para ***bash*** es un archivo tipo texto, cuyas líneas tienen comandos que son ejecutados (interpretados) por bash. Estos nos permite reutilizar líneas de código que hemos realizado y son muy utilizados en grandes proyectos.

Para elaborar un *script*, se deben seguir 6 pasos:

1. Copiar el comando que va a ser la base del *script* en un archivo.

2. Añadir permisos de ejecución.

3. Definir el *shebang*

4. Eliminar las partes prefijadas de input para que sea dinámico

5. Parametrizar

6. Extender el *path* (opcional)

### Paso 0. El comando que se va a utilizar

En este caso se va a usar el siguiente comando, que busca las 10 palabras más comunes en un archivo:

**`cat textfile | tr '[:upper:]' '[:lower:]' | grep -oE '\w+' | sort | uniq -c | sort -nr | head -n 10`**

Explicación:

- `cat` abre el archivo
- `tr '[:upper:]' '[:lower:]'` transforma las minúsculas en mayúsculas.
- `grep -oE '\w+'` divide las palabras en líneas
- `sort` las ordena alfabéticamente
- `uniq -c` cuenta sus apariciones y se queda solo con los registros únicos.
- `sort -nr` los ordena numéricamente y de mayor a menor.
- `head -n 10` se queda con los 10 más repetidos.

### Paso 1. Copiar el comando que va a ser la base del script

Lo primero es crear el *scripto*, por lo que se crea un archivo llamado *"top-words-1.sh"* con la línea de comandos dentro de él. La extensión ***.sh*** muestra claramente que es un *shell script*.

Sin embargo, si se ejecuta `ls -l` se verá que no se tienen códigos de ejecución, por lo que es necesario dárselos.

### Paso 2. Se añaden permisos de ejecición

Para añadir permisos de ejecución se usa el comando `chmod`:
> ***`sudo chmod u+x top-words-1.sh`***

Ahora se podrá ejecutar con ***`bash top-words-1.sh`***.

### Paso 3. Se define el shebang

El ***shebang*** es una línea en el *script* que indica al sistema que ejecutable debe utilizar para interpretar el *script*. El nombre *shebang* proviene de los dos primero caracteres del comando: un hash (*she*) y una exclamación (*bang*). 

En este caso, indicamos que es un *script* para *bash*, así que debemos introducirlo:
 > **`#!/bin/bash`** o **`#!/usr/bin/bash`** or **`#!/usr/bin/envbash`**

### Paso 4. Eliminar el input fijado

- Para elaborar el comando fijamos un input. En este caso era el archivo *textfile* del que bebía. Por lo general, es aconsejable hacer que el usuario que vaya a ejecutar el *script* abra y lea el archivo por su cuenta, por lo que se debe hacer que él haga el `cat`. El *script* quedaría de la siguiente manera:

**`tr '[:upper:]' '[:lower:]' | grep -oE '\w+' | sort | uniq -c | sort -nr | head -n 10`**

### Paso 5. Parametrizar

El siguiente paso es ***parametrizar*** es decir, permitir al usuario que introduzca personalizaciones del comando. Por ejemplo, en este caso podría ser el número de filas de `head`.

Esto se haría de la siguiente manera:

**`NUM_WORDS = $1`**

**`tr '[:upper:]' '[:lower:]' | grep -oE '\w+' | sort | uniq -c | sort -nr | head -n $NUM_WORDS`**


La variable `NUM_WORDS` está fijada para que valga **`$1`**, que es lo mismo que decir que será la primera variable introducida por el usuario. Si añadiéramos una segunda variable, la indicaríamos como **`$2`**, etc. 

Así, para ejecutarlo ahora sobre un archivo (*my_file.txt*) habría que ejecutar:

**`cat my_file.txt | top-words-1.sh 5`**

Y entonces el valor del `head` sería 5.

### Paso 6. Extender el *PATH*

Cuando se escribe un comando en Linux básicamente lo que se está pidiendo al sistema es decirle que ejecute un programa, por muy simple que sea, como puede ser *ls*, *mkdir*, *cd*, etc. Algunos de estos programas viven en */usr/bin/*, otros en 
*/usr/local/bin/*, otros en */usr/local/sbin/*, etc.

Si se escribiese:

> **`echo <command> $PATH`**

Se podría ver dónde está alojado.

Cuando ejecutamos un comando de ellos, Linux no busca carpeta a carpeta dónde está alojado, sino que forman parte de in entorno llamado ***PATH*** que es un repositorio donde se encuentran todas sus ubicaciones. Por ello, si creamos un *script*, es casi indispensable organizar todos en una carpeta e indicar dónde se encuentra para asegurarnos que funciona.

Así, imaginemos que hemos creado una carpeta llamada ***tools*** donde guardamos nuestros *scripts*. Debemos indicar en nuestro archivo el `$PATH` para que la Shell lo encuentre. Esto se hace con el siguiente comando:

> **`echo export PATH=$PATH:~/tools>>~/.zshrc`**

## csvkit

**csvkit** nos permite explorar los archivos antes de trabajar con ellos en `pandas` o en un Data Frame de R.

Para instalar el **csvkit** tenemos que escribir en nuestra terminal. Para más información, visitar la página web oficial de [**csvkit**](https://csvkit.readthedocs.io/en/1.0.2/).

> **`pip install csvkit`**

Sus principales comandos son:

### Comandos de input. 

Son los que nos van a permitir crear un archivo `.csv` con el que trabajar.
1.  **`in2csv`**. Permite transformar un archivo en un archivo csv. 

    **Ejemplos**:
        - `in2csv data.xlsx > data.csv`
        - `in2csv data.json > data.csv`
    
    
2. **`sql2csv`**. Permite realizar una consulta SQL contra una base de datos y exportar el output como un archivo `.csv`. Sus principales opciones son:
    - **`--db <database_connection>`**. Permite seleccionar la database de la que se tomarán los datos.
    - **`--query <query>`**. La consulta que e va a realizar.
    
    **Ejemplos**:
        - `sql2csv --db "sqlite:///dummy.db" --query "select * from test"` 

### Comandos de procesado

1. **`csvclean`**. Permite limpiar los archivo `.csv` de los errores típicos de sintaxis, como filas cuya cantidad de columnas no se corresponde con las del header. Sus principales opciones son:
    - **`-d`** o **`--delimeter`**. Permite especificar el caracter delimitador de columnas del input del .csv.
    - **`-H`** o **`--no-header-row`**. Permite especificar que el archivo no tiene un *HEADER* y creará uno llamando a las cpolumnas, por defecto: a, b, c, d...
    - **`-l`** o **`--linenumbers`**. Crea una primera columna indicando el número de cada línea.
    - **`-n`** o **`--dry-run`**. No crea un archivo csv con el output, sino que simplemente muestra la información de los resultados en el ***stdout**
    
    **Ejemplo**:
            - `csvclean -n \Repos\bad.csv`.


2. **`csvcut`**. Filtra y corta columnas. Es como el comando `cut` de Unix pero para formatos tabulares como `.csv` que tienen como delimitador por fecto la `,`. Sus principales opciones son:
    - **`-c`** o **`--columns`**. Sirve para indicar las columnas que van a ser extraídas.
    - **`-C`** o **`--not-columns`**. Sirve para indicar las columnas que NO van a ser extraídas (excluídas).
    - **`-d`** o **`--delimeter`**. Permite indica el delimitador del archivo.
    - **`-n`** o **`--names`**. Permite mostrar en el output el nombre e índice de las columnas.
        
    **Ejemplo**:
    ![example_csvcut](Img\Modulo_3_csvcut_example.jpg)


3. **`csvgrep`**. Filtra en una tabla aquellos elementos que cumplen un patrón o una expresión regular. Es como el `grep` de Unix pero para formatos tabulares, teniendo la `,` como delimitador por defecto.
    - **`-c`** o **`--columns`**. Sirve para indicar una o unas columnas en concreto donde realizar la búsqueda.
    - **`-m`** o **`--match`**. Busca un patrón determinado.
    - **`-r`** o **`--regex`**. Busca una expresión regular.
    - **`-i`** o **`--invert-match`**. Si se elecciona muestra las líneas que no matchean con el patrón o expresión regular, en vez de las que matchean.

    **Ejemplo**:
    ![example_csvgrep](Img\Modulo_3_csvgrep_example.jpg)


4. **`csvjoin`**. Junta dos o más tablas CSV usando un método análogo a la consulta JOIN en SQL. Por dejecto, realiza un INNER JOIN, pero FULL OUTER, LEFT OUTER y RIGHT OUTER están disponibles también mediante el uso de opciones. **Se recomienda no usar este comando con archivos muy largos**. Sus principales opciones son:
    - **`-c`** o **`--columns`**. Permite indicar el nombre o índice de la columna o columnas que se unirán.
    - **`-d`** o **`--delimeter`**. Permite indica el delimitador del archivo.
    - **`--outer`**. Realiza un FULL OUTER JOIN en vez de un INNER JOIN.
    - **`--left`**. Realiza un LEFT OUTER JOIN en vez de un INNER JOIN.
    - **`--right`**. Realiza un RIGHT OUTER JOIN en vez de un INNER JOIN.

    **Ejemplo**:
    ![example_csvjoin](Img\Modulo_3_csvjoin_example.jpg)
    
    
5. **`csvsort`**. Ordena .csv. Es como el comando `sort` de Unix pero para formatos tabulares. Sus principales opciones son:
    - **`-c`** o **`--columns`**. Sirve para indicar las columnas de ordenación.
    - **`-n`** o **`--names`**. Permite mostrar en el output el nombre e índice de las columnas.
    - **`-r`** o **`--reverse`**. Permite ordenar en orden descendente.
    
    **Ejemplo**:
        - `csvsort -c nb_engines -r optd_aircraft.csv | head -3`
    
    
6. **`csvstack`**. Apila las líneas de diferentes `.csv`, opcionalmente indicando un valor de agrupación para cada línea. Sus opciones son:
    - **`-g`** o **`--groups`**. Permite crear los factore de agrupación, que serán añadidos en el stacked .csv como una nueva columna. Mediante el comando `-n` se puede indicar el nombre de dicha nueva columna.
    - **`-n`** o **`--group-name`**. Permite poner el nombre de la columna de agrupación. Solo e puede usar cuando se ha activado `-g` como opción.
   

### Comandos de ouput

1. **`csvformat`**. Convierte un archivo `.csv` en un formato de salida personalizado. Sus principales opciones son:
    - **`-d`** o **`--delimeter`**. Es el caracter que delimita el input
    - **`-D`** o **`--OUT_DELIMETER`**. Es el caracter que delimita el output
    - **`-T`** o **`--out-tabs`**. Cuando en ves de un caracter delimitador de columnas se prefiere usar un tab.
    
2. **`csvlook`**. Renderiza el archivo `.csv` para que se vea como una tabla. Es **MUY ÚTIL**.

3. **`csvpy`**. Carga un archivo csv en `agate.csv.Reader` y lo lanza al shell de Python para que se pueda observar.

4. **`csvjson`**. Convierte un archivo `.csv` en uno `.json`.

5. **`csvsql`**. Genera una consulta SQL para uno más archivos `.csv` o ejecuta consultas directamente en una base de datos. Sus principales opciones son:
   - **`i {firebird,mssql,mysql,oracle,postgresql,sqlite,sybase}`** o **`--dialect {firebird,mssql,mysql,oracle,postgresql,sqlite,sybase}`**. Permite seleccionar la base de datos de la que beberá. Solo es válido cuando el parámetro `-db` no ha sido especificado.
   - **`--db <CONNECTION_STRING>`**. Si está presente en la cláusula, se conecta a una base de datos en conexión.
   - **`--query <consulta>`**. Ejecuta una o más consultas de SQL delimitadas por ";" y devuelve como resultado un CSV.
   - **`--insert`**. Además de crear la tabla, inserta los datos originarios en la tabla. Solo es válido cuando `-db`está activo.
   
   **Ejemplo**:
   - **`sqlquery="SELECT * FROM optd_aircraft ORDER BY iata_code LIMIT 10"`**
   - **`csvsql --query "$sqlquery" -d “^” opdt_aircraft.csv`**

    ![example_csvsql](Img\Modulo_3_csvsql_example.jpg)


6. **`csvstat`**. Muestras las estadísticas descriptivas para cada columna en un archivo `.csv`. Sus principales opciones son:
    - **`-d`** o **`--delimeter`**. Permite especificar el caracter delimitador de columnas del input del .csv.
    - **`-H`** o **`--no-header-row`**. Permite especificar que el archivo no tiene un *HEADER* y creará uno llamando a las columnas, por defecto: a, b, c, d...
    - **`-l`** o **`--linenumbers`**. Crea una primera columna indicando el número de cada línea.
    - **`-n`** o **`--names`**. Permite mostrar en el output el nombre e índice de las columnas.
    - **`-c`** o **`--columns`**. Sirve para indicar una o unas columnas en concreto donde realizar los cálculos.

Algunas de las estádisticas descriptivas que permite calcular son:

- **`--type`**. Only output data type.
- **`--nulls`**. Only output whether columns contains nulls.
- **`--unique`**. Only output counts of unique values.
- **`--min`**. Only output smallest values.
- **`--max`**. Only output largest values.
- **`--sum`**. Only output sums.
- **` --mean`**. Only output means.
- **`--median`**. Only output medians.
- **`--stdev`**. Only output standard deviations.
- **`--len`**. Only output the length of the longest values.
- **`--freq`**. Only output lists of frequent values.
- **`--freq-count`**. The maximum number of frequent values to display.
- **`--count`**. Only output total row count.