# 02. Command Line y Unix/Shell

## Introducción a Linux

### ¿Qué es GNU/Linux?

**GNU/Linux** es un sistema operativo *de tipo Unix* (es decir, basado en Unix), pero de código abierto. De hecho, **GNU** es un acrónimo recursivo de *GNU is Not Unix*. Por lo tanto, **GNU** es un sistema operativo formado totalmente por *software libre*. Por su parte, **Unix** es un sistema operativo no gratuito creado por AT&T en la década de 1970.

El proyecto GNU comenzó en 1983 por Richard Stallman y aunque en un primer momento estaba ideado para que el *kernel* o nucleo del sistema fuese **GNU Hurd**, finalmente este *kernel* o núcleo fue reemplazado por **Linux**. Debido a ello, finalmente es común referirse como **Linux** a todo el sistema **GNU/Linux**, si bien como se ha explicado **Linux** solo es el núcleo. De hecho, hay distribuciones de **GNU** que no usan **Linux** como *kernel*. Ubuntu y Debian son algunas de las distribuciones de **Linux** más conocidas

El *kernel* **Linux** fue escrito en 1991 por el mismo creador que **Git**: Linus Torvalds.

### El ecosistema de Unix

El ecosistema de cualquier sistema operativo Unix o basado en Unix cuenta con los siguientes elementos:
- **Línea de comandos**. Utilizada para escribir los comandos correspondientes
- **Terminal**. Es la aplicación donde se escriben los comandos y que permite comunicarnos con el ordenador. Una vez que se han escrito se presiona `<Enter>` para enviar el comando a la Shell. 
- **Shell**. Es el programa que interpreta el comando.
- **Sistema operativo**, que en nuestro caso es **GNU/Linux**. El corazón de un sistema operativo es el *kernel*, que aloca recursos a la máquina para hablar con el *hardware*.

### La línea de comandos

La línea de comandos fue creada hace 40 años pero sigue siendo muy efectiva. ¿Por qué algo tan antiguo sigue utilizándose y es tan útil hoy en día? Básicamente por dos motivos:
- Sus funcionalidades principales no han cambiado mayoritariamente.
- Al ser *software libre* la comunidad está produciendo constamente herramientas gratuitas y de gran calidad. 

### El funcionamiento de la terminal

Como se ha explicado, la terminal es la aplicación donde se escriben los comandos y que permite comunicarnos con el ordenador.

Cuando hablamos de terminal, se debe hablar del flujo Entrada/Salida (E/S):
- ***Stdin*** o ***Standard input***. Son los datos que escribimos en la línea de comandos del terminal y que se envían al programa. Su descriptor asociado es el 0.
- ***Stdout*** o ***Standard output***. Es la vía por la que el programa devuelve los datos. Por lo general, es la pantalla del ordenador. Su descriptor asociado es el 1.
- ***Stderr*** o ***Standard error***. Es el canal por el que se envía un un mensaje de error en caso de que su ejecución falle. Si bien este mensaje generalmente también se visualizará por pantalla, es importante destacar que Linux permite distinguir entre stderr y stdout para manipular ambas secuencias de manera separada. Su descriptor asociado es el 2.
- Gracias a ellos, podemos hacer que se guarden los errores o lo que se imprime en pantalla en archivos como se muestra en el siguiente [enlace](https://rm-rf.es/stdin-stdout-y-stderr-redirigir-en-unixlinux/).

Veamos un ejemplo para explicarlo mejor.

Como se verá más adelante, el comando `ls` permite desplegar una lista con todos los archivos y directorios existentes en el directorio al que se está apuntando. Sin embargo, no tiene entre sus opciones `-7`. Por lo tanto, si se escribe `ls -7` devolverá un error.

Con el comando:

> **`ls -7 2 > fichero.log`**

No imprimirá el error en pantalla, sino que lo guardará en un archivo llamado `fichero.log`. E imprimirá solamente error porque hemos puesto 2, que es el descriptor asociado a ***stderr***.

Si por el contrario quisiéramos que nos incluyese la salida ***stdout*** y el error ***stderr*** pondríamos:

- **`ls -7 > fichero.log 2>&1`**

### El control de la terminal
La terminal tiene una sere de *shortcuts* que permiten manejarla más fácilmente. Algunos de los más usados son:

- **`CTRL + L`** limpia la pantada
- **`<comando> + TAB`** entra en la función ayuda mediante autocompletado
- **`CTRL + shift + n`** abre una nueva terminal
- **`CTRL + shift + t`** abre una nueva pestaña dentro de la terminal (similar al funcionamiento de Chrome)
- **`CTRL + d`** cierra la terminal si la línea está vacía, si no, elimina la letra en la que se esté encima
- **`CTRL + b`** (*back*) se mueve hacia atrás letra a letra
- **`CTRL + f`** (*forward*) se mueve hacia delante letra a letra
- **`ALT + b`** (*back*) va al comienzo de la línea
- **`CTRL + u`** corta toda la línea
- **`CTRL + k`** corta toda lo que está delante del cursor
- **`CTRL + w`** corta la palabra de la izquierda
- **`ALT + d`** corta la palabra de la derecha
- **`CTRL + y`** pega lo cortado

### El uso de `>`, `>>` y `<`.

El resultado de los comandos ejecutados es mostrado por defecto en pantalla. Sin embargo, también pueden ser exportados a un archivo o importandos desde un archivo. Esto se hace con los comandos `>`, `>>` y `<`.

- `>`. Exporta el resultado de un comando a un archivo. Si no lo existe, lo crea; si existe, lo sobreeescribe.
- `>>`. Adjunta un resultado al final de un archivo.
- `<`. Utiliza un archivo como argumento o *input* de *stdin^.

Ejemplos:
- `echo -n "Hello" > hello-world.txt`
- `echo " world" >> hello-world.txt`
- `wc -lwm < hello-world.txt.`

### *Quoting* o entrecomillado

Se debe conocer que hay diferentes maneras de entrecomillar en la *shell* y cada una produce diferentes resultados:
- **`' '`**. Las comillas simples o *single quotes* no modifican el texto, lo dejan de manera literal.
- **`" "`**. Las comillas dobles o *double quotes* ejecutan la expresión de *shell*
- **` `` `**. Las comillas curvadas evalúan y reemplazan el texto, es decir, sustiuyen por el comando. Se debe tener cuidado porque **`$(command)`** no es lo mismo que **`$command`**.

Vemos unos ejemplos:
![quoting](Img\quoting.JPG)

### Las variables
Las variables tienen diferentes maneras de denominarse en *shell*.

- Las variables de entorno (*environment variables) van siempre en mayúsculas:
    - `$HOME`
    - `$PWD`
    - `$OSTYPE`
    
- Las variables locales van en minúsculas.
    - `$my-var`

- Se pueden ver todas las variables con el comando `set`.


### Los wildcards
Podemos usar palabras comodines en muchos comandos de la shell. Estos son iguales que las **REGular EXpressions** o ***RegEx***.

- **`*`** sustitye a cualquier grupo de caracteres. Por ejemplo:
    - **`ls *.txt`** mostraría en un listado cualquier archivo con extensión *.txt*.
- **`?`** sustitye a cualquier caracter (solo uno) y no un grupo como *. Por ejemplo:
    - **`Anychartstocks201?.txt`** Así buscaría todos los archivos que acaben en 201x.
- **`[ ]`** selecciona como comodín los elementos que están entre corchetes. Por ejemplo:
    - **`Anychartstocks201[78].txt`** Así buscaría todos los archivos que se llaven así acabados en 7 u 8
- **`{ }`** sustituye a cualquiera de los caracteres separados por comas.
    - **`Anychartstocks{.txt,.csv}`** Así buscaría todos los archivos con extensión .txt o .csv

## 2. El proceso de Data Science

Mason & Wings (2010) definen el proceso de Data Science como "OSEMN" cuya pronunciación en inglés es igual a "awesome".
- **O**btaning data
- **S**crubbing data
- **E**xploring data
- **M**odelling data
- I**n**terpreting data

Es precisamente la parte de **Scrubbing** o limpieza de datos la que lleva más tiempo, aproximadamente un 80% del trabajo. Algunas de las operaciones de *scrubbing* más comunes son:
- Filtrado
- Extracción de ciertos valores
- Reemplazo de valores
- Manejo de datos vacíos
- Convertir datos de un formato a otro

## 3. Los elementos línea de comandos

Cada comando suele estar precedido de un símbolo denominado **prompt**, que puede ser:
- El símbolo del dólar: **$**
- Otros símbolos, como por ejemplo **%**.

El **prompt** muestra la siguiente información:
- El nombre de usuario (en nuestro caso, *dsc*).
- El nombre del directorio actual
- El directorio raíz o *home* (expresado mediante la virgulilla **~**)
- La hora

## 4. Herramientas básicas de la línea de comandos:

- `\`. Se utiliza para romper texto que es muy largo. Ejemplo: `echo The world \is mine`
- `|`. El ***pipe*** permite concatenar operaciones con comandos. Ejemplo: `echo The world is mine | wc -w`
- `alias <nombre>=<"comando">`. Permite establecer alias. Por ejemplo:
    - `alias gc="git commit"`
    - `alias lodga="git log --oneline --decorate --graph --all`"
    - Si se escribe solamente `alias` se muestra la lista de alias establecidos.
- `whoami`. Muestra el *user ID*.
- `man <command>` muestra la ayuda de un comando. No todos los comandos tienen *manual*.
- `<command> --help`- Muestra la ayuda de un comando. No todos los comandos tienen *manual*
- Más información sobre comandos:
    - `whatis <command>`. Explica que hace un comando
    - `type <options> <command>`. Muestra dónde se guarda un comando.
    - `which <command>`. Imaginemos que tenemos varios comandos llamados igual. Con esta opción se puede ver cuál de ellos se está ejecutando.
    - `whereis <comando>`. Muestra el comando que es, dónde está, su alias, y dónde está su manual.
- `pwd`. Muestra el directorio actual. Su equivalente es `echo $PWD`
- `cd`. Cambia de directorio o *change directory*
    - `cd`. Dirige al directorio home
    - `cd ~`. Dirige al directorio home
    - `cd .`. Es el directorio actual
    - `cd ..`. Dirige al directorio padre actual
    - `cd -`. Alterna entre los últimos dos directorios
- `mkdir <directory>`. Crea un directorio o *make a directory*.
    - `mkdir -p <d1>/<d2>/<d...n>`. Crear los directorios de rama padre solicitados. Ejemplo: `mkdir -p one/two/three`
- `touch <file>`. Crea un archivo vacío. Ejemplo: `touch prueba.txt`.
- `ls`. Muestra los archivos del directorio sobre el que se ejecuta el comando. Como es común, las diferentes opciones mostradas a continuación pueden combinarse entre sí:
    - `ls -a`. Muestra todos los archivos del directorio, incluyendo los ocultos.
    - `ls -s`. Muestra el *size* o tamaño de los archivos.
    - `ls -S`. Muestra la lista *Sorted* u ordenada por el tamaño del archivo, de mayor a menor
    - `ls -r` o **`ls --reverse`**. Muestra la lista ordenada al revés.
    - `ls -X`. Muestra la lista ordenada alfabéticamente y por extensiones
    - `ls -1`. Muestra los archivos en columnas dando mucha información:
        - Columna 1. Permisos del archivo
        - Columna 2. Número de links
        - Columna 3. Nombre del propietaroio
        - Columna 4. Nombre del grupo
        - Columna 5. Tamaño del archivo
        - Columna 6. Fecha de la última modificación
        - Columna 7. Nombre del archivo/directorio 
    - La información devuelta por `ls` sigue un código de colores:
        - Verde: indica que puede ser ejecutado.
        - Azul: indica que es un directorio.
        - Blanco: indica que es un archivo de texto.        
- `echo`. Envía un argumento a *stdout*, es decir, a la salida de la línea de comandos.
    - `echo *.txt`. Muestra todos los elementos de extensión .txt-
    - `echo $Y`. Devuelve por pantalla el valor de la varable Y.
    - `echo -e` actúa con todos los caracteres de detrás de un `\`.
    <center><img src="Img\echo_-e.JPG" width=700>
- `chmod <permissions> <file>`. Permite cambiar los permisos **rwx** (**r**ead, **w**rite, e**x**ecute).
    - Una de las maneras de ver los permisos de un archivo es mediante `ls -l`, siendo su estructura:
        - ugo: d / rwx for **u**ser / rwx **g**roup / rwx for **o**thers, e indicando con letra cuando el permiso está activo y con guión cuando está denegado.
        ![lsl](Img\lsls2.JPG)

        ![permissions](http://3.bp.blogspot.com/-wB6DS2VM3ok/TgkRyWa-8-I/AAAAAAAAAJw/eIwX_Mk-uZ4/s1600/permissions_diagram.gif)

        - Estos permisos se indican mediante números binarios:

        ![permissions](Img\ch_mod_permissions.png)

        - Por lo tanto, un permiso *777* significa un permiso *7* para users, un permiso *7* para group y un permiso *7* para others.
        - Ejemplos:
            - `chmod 744 pruebas_shell`. Esto implica dar derechos de `rwx` para el usuario y solo de `r` para group y others en la carpeta *pruebas_shell*.
            - `chmod u+rxw,go+r pruebas_shell`. Esto implica añadir derechos de `rwx` para user y para group y others solamente derechos de `r`
            - `chmod g+x,o-x pruebas_shell`. Esto implica dar derechos de ejecución a group pero quitarle derechos de ejecución a others.
- `cat`. Envía contenidos de documentos a la salida *stdout*
    - `cat -n`. Devuelve el documento con sus líneas enumeradas
    - `cat -s`. Elimina espacios en blanco repetidos
- `less <options> <file>`. Muestra documentos pero de una manera más interactiva que `cat`. Es similar al comando `more` pero más avanzado.
    - `less -N`. Muestra el número de cada una de las líneas
    - `less -S`. Las líneas que son más largas que el ancho de la pantalla serán truncadas (*truncated*)
    - Una vez que se ha ejecutado `less`, para movernos dentro del archivo se cuenta con los siguientes comandos:

Comando                            | Acción
-----------------------------------|-------------------------
**`Down arrow`**, **`Enter`**, **`e`**, o **`j`**. |Avanzar una línea.
**`Up arrow`**, **`y`** o **`k`**.             |Retroceder una línea.
**`Barra espaciadora`** o **`f`**          |	Avanzar una página.
**`b`**                               |	Retroceder una página.
**`/patron`**                          |	Buscar hacia adelante patrones definidos
**`?patron`**                          |	Buscar hacia atrás patrones definidos
**`^patron`**                          |Buscar patrón al comienzo de una línea
**`patron$`**                          |Buscar patrón al final de una línea
**`n`**                                |	Siguiente patrón encontrado
**`N`**                                |	Anterior patrón encontrado
**`g`**                                |	Ir a la primera línea del archivo.
**`Ng`**                               |	Ir a la línea N-th del archivo.
**`G`**                                |	Ir a la última línea del archivo.
**`p`**                                |	Volver al principio del archivo.
**`Np`**                               |	Ir al N porcentaje definido del archivo.
**`h`** o **`--help`**                     |	Mostrar ayuda.
**`q`**                                |	Salir de `less`

- `head <options> <file>`. Muestra las primeras líneas de un archivo. Por defecto son las 10 primeras.
    - `head -c k`, siendo K los primeros K bytes de un archivo.
    - `head -c -K`. Imprime todo menos los últimos K bytes de un archivo.
    - `head -n K`, siendo K las primeras K líneas de un archivo
    - `head -n -K`. Imprime todo menos las últimas K líneas de un archivo.
- `tail <options> <file>`. Muestra las últimas líneas de un archivo. Por defecto son las 10 últimas.    
    - `-c k`, siendo K los últimos K bytes de un archivo.
    - `-c +K`. Imprime todo a partir del K byte de un file
    - `-n K`, siendo K las últimas K líneas de un archivo
    - `-n +K`. Imprime todo a partir de la K línea de un archivo.    
- `wc <options> <file>`. Imprime una línea indicando cuantas letras, palabras, líneas o bytes tiene una frase o documento.
    - `wc -c` o `--bytes` el número de bytes.
    - `wc -m` o `--chars` el número de caracteres.
    - `wc -l` o `--lines` el número de líneas.
    - `wc -w` o `--words` el número de palabras.
- `cp <options> <origen> <destino>`. Copia un archivo o directorio.
    - `cp -r` o `--recursive`. Es el modo usado para poder actuar sobre directorios y no solo archivos.
    - `cp -i` o `--interactive`. Pregunta antes de sobreescribir
    - `cp -l` o `--link`. Haz un *link* en vez de copiar.
    - `cp -n`. No sobreescribe.
    - `cp -u` o `--update`. Sobreescribe si el archivo copiado es más nuevo que el antiguo.
    - `cp -v` o `--verbose`. Imprime mensajes informativos
- `mv`. Permite mover o renombrar archivos y directorios.
    - `mv <opciones> <origen> <destino>`.`Mueve un archivo o directorio.
    - `mv <opciones> <old_name> <new_name>`. Renombra un archivo o directorio
        - `mv -f` o `--force` ignora archivos no existentes y argumentos
        - `mv -i` o `--interactive` pregunta antes de sorbeescribir
        - `mv -v` o `--verbose` imprime mensajes informativos
- `rm <options> <file>`. Elimina archivos o directorios
    - `rm -f` o `--force`. Ignora archivos no existentes y argumentos.
    - `rm -r` o `--recursive`. Permite ejecutar el comando para directorios
    - `rm -i` o `--interactive`. Pregunta antes de sorbeescribir.
    - `rm -v` o `--verbose`. Muestra un mensaje de progreso.
- `history <-N>`. Permite ver los últimos N comandos. Por ejemplo: `history -1000 > my_commands.txt`
- `find <path> <options>`. Permite buscar un archivo de determinadas condiciones:
    - `find -type f`. Es de tipo archivo. Por ejemplo: `find $HOME -type f` busca en el directorio *home* todos los archivos que haya.
    - `find -type d`. Es de tipo directorio.
    - `find -name`. Encuentralo por nombre. Por ejemplo: `find . -name "pr*"` buca en el directorio actual todos los archivos que empiecen por "pr".
    - `find -iname`. Encuentralo por nombre ignorando el caso...
    - `find -maxdepth`. Máximo número de directorios en los que mirar desde el directorio actual.
    - `find -mindepth`. Número mínimo de directorios desde el directorio actual.
    - `find -perm ppp`. El tipo de permisos del archivo, siendo *ppp* el número binario del permiso. Por ejemplo *777*.
    - `find -not` o `find !`. Que no sea...
    - `find -size n`. De tamaño n. (+/-n) más grande o más pequeño que n
    - `find -empty`. Encuentra archivos vacíos
    - `find -mmin -N`. Encuentra archivos modificados en los últimos N minutos
    - `find -mtime - N`. Encuentra archivos modificados en los últinos N días.
    - `find -exec <cmd> {} \;`. Ejecuta comando  en un archivo
        - Después del comando debe ponerse **"{} \\;"**. Hay un espacio entre {} y \\;
        - Para cada resultado, el comando {} se ejecuta
        - Todas las ocurrecias de {} son reemplazadas por el nombre del archivo
        - Con ";" precedido de una "/" se previene de que la shell lo interprete.
        - Por ejemplo: `find ~/Data -type f -maxdepth 3 -name "optd_airlines*" -exec cat {} \;  `, que busca el archivo "optd_airlines" en la carpeta Data y lo ejecuta con `cat`
- `uniq <options>`. Indica o elimina las líneas ADYACENTES repetidas. Hay que tener en cuenta que si las líneas no son adyacentes no las cuenta.
    - `uniq -c` o `uniq --count`. Cuenta el número de ocurrencias.
    - `uniq -d` o `uniq--repeated`. Solo imprime las líneas repetidas.
    - Como no cuenta líneas que NO SON ADYANCENTES, se utiliza mucho junto a `sort`
- `sort <options> <file>`. Permite ordenar líneas de texto.
    - `sort -d` o `sort --dictionary order`. Es el comando por defecto. Ordena de manera alfabética.
    - `sort -n` o `sort --numeric sort`. Ordena de manera numérica.
    - `sort -r` o `sort --reverse`. Ordena de manera inversa, es decir, de mayor a menor o de Z-A.
    - `sort -f` o `sort --ignore-case`. Ignora mayúsculas y minúsculas.
    - `sort -u` o `sort --unique`. Devuelve las líneas únicas.
    - `sort -t` < delimitador >. Permite cambiar el delimitador de caracteres. Por defecto es el espacio.
    - `sort -k M[,N]` o `sort --key=M[,N]`. Ordena de la columna M hasta la N (opcional) ambas incluidas. Por ejemplo:
        - `sort -t "," -k1,2 -k3n,3 < file >`. Establece las columnas delimitando mediante "," y ordena las columnas de manera alfabética las columnas 1 y 2 en orden de menor a mayor y ordena la columna 3 en orden numérico.
        - `sort -t "," -k1,1 -u < file >`. Elimina los duplicados de un listado basándose en los campos de la columna 1.
    - ¿Por qué necesitamos entonces el comando `uniq` si ya hay una opción de `sort` que permite devolvernos resultados únicos? Por dos motivos:
        - No hay ninguna opción de `sort` que nos cuente repeticiones.
        - No hya ninguna opción de `sort` que devuelva solo los repetidos.
        -  Ejemplo: `cat uniq_example.txt | sort -nr | uniq -cd `
- `cut <options>`. Se utiliza para cortar determinadas columnas.
    - `cut -d "<DELIM>"` o `cut --delimiter= "<DELIM>"`. Sirve para indicar el delimitador de las columnas.
    - `cut -f <a,b-d>`** o `cut --field <a,b-d>`. Permite seleccionar una columna o un grupo de columnas.
    - `cut --output-delimiter "<symbol>"`. Selecciona nuestro nuevo limitador de columnas.
    - Ejemplo: `cut -d "^" -f 1-3,5 --output-delimiter "," optd_aircraft.csv` que establece las columnas en base a "^", que lo selecciona como delimitador, y corta las columnas 1,2,3 y 5 y establece como nuevo delimitador la coma ","
- `paste <options>`. Concatena horizontalmente, es decir, una líneas en paralelo.
    - `paste -s` o `paste --serial`. Une todo el archivo en una línea
    - `paste -d "<delim>"` o `paste --delimeter="<delim>"`. El delimitador por defecto es TAB (4 espacios)
    - `paste - - - ...`. Separa en tantas columnas como guiones. Los guiones van espaciados
    - `paste < <file> < <stdin>`. Toma como *stdin* el archivo "x" que unitá al archivo *file*.
    - `paste < (<file>) < (<stdin>)`. Toma como *stdin* el archivo "x" que unitá al archivo *file* la expresión que está entre paréntesis.
- `translate <options> <SET1> <SET2>`. Transforma o elimina caracteres.
    - `translate -s` o `translate --squeeze-repeats`. Reemplaza cada caracter repetido con una ocurrencia única determinada
    - `translate -d` o `translate --delete`. ELimina caracteres del SET1, no los reemplaza
    - `translate -c`. Conserva solamente los caracteres del SET1. Es lo contrario a `-d` o `--delete`.
    - Se pueden operar con grupos predefinidos de caracteres:
        - `[:alnum:]` todos los números y letras
        - `[:alpha:]` todas las letras
        - `[:blank:]`  espacios en blanco
        - `[:digit:]`  todos los números
        - `[:lower:]`  todas las minúsculas
        - `[:upper:]`  todas las mayúsculas.
        - Ejemplos:
        <center><img src="Img\Modulo_3_tr.jpg" width=1000>
- `grep <opciones> <patrón> <archivo>`. Es un filtro de línea. Permite buscar un patrón en un archivo y se imprimirá la línea o líneas que lo contenga.
    - `grep -i` : *Case insensitive*, es decir, la búsqueda no distinguiá entre mayúsculas y minúsculas
    - `grep -c` : Cuenta las líneas en las que aparece el texto buscado
    - `grep -v` : Invierte el sentido de la búsqueda, mostrando solamente las líneas que no contienen el patrón
    - `grep [A/B/C] +N` = Muestra N líneas *after/before/around* del *match*
    - `grep -E` : Permite jugar con expresiones regulares
    - `grep -l` : Busca el patrón en un conjunto de archivos
    - `grep -e` : Permite buscar diferentes palabras. Delante de cada palabra buscada se indicará un `-e`.
    - `grep -n` : Numera las líneas en la salida
    - `grep -o` : Solo muestra la parte que coincide con el patrón de búsqueda.
    - `grep -w` : Restringe la búsqueda a aquellos en los que coincide toda la palabra exactamente.
    - Ejemplos:
    <center><img src="Img\grep_example.jpg" width=1000>
    <center><img src="Img\grep_regex.jpg" width=1000>
- `sed <opciones> <patrón> <archivo>`. Su nombre proviene de *Stream EDitor and transforming text*. Es un editor orientado a líneas muy potente que permite editar (insertar, borrar, buscar, reemplazar...) incluso sin abrirlos, de manera individual o masiva, tanto archivos como en la línea de comandos.
    - Sus elementos básicos son:
        - `s`. Es el comando de sustitución
        - `/`. Es el delimitador. Por convención y legibilidad se usa `/`, aunque puede ser otro caracter.
        - **Observción**. Los cambios no son inplace salvo que se indique de esta manera.
        - **Observación 2**. Se pueden utilizar en `sed` tanto comillas simples (') como dobles (").
            - Ejemplo: `echo "Sunday" | sed "s/day/night/"` sustituirá "Sunday" en nuestra línea de comandos por "Sunnight"
            - Ejemplo 2: `sed 's/example/another example/' myfile.txt` sustituirá en el archivo 'myfile.txt' **la primera coincidencia en cada línea** de "example" por "another example".
    - Banderas de sustitución de `sed`. Las banderas de sustitución de `sed` van dentro del script.
        - `g`. Hace un reemplazo global, es decir, de todo aquello que lo contenga. 
            - **CUIDADO**, hace un reemplazo de TODO LO QUE LO CONTENGA. Por ejemplo: sed 's/Esto/Aquello/g' sedtest.txt` Sustituirá todos los 'Esto' por 'Aquello' pero también 'Estoy' por 'Aquelloy'
        - `I`. Con la bandera `I` se hace insensitivo a mayúsculas y minúsculas. Se coloca al final del *script*.
            - Ejemplo: `sed 's/test/another test/I' myfile`     
        - `p`. La bandera `p` imprime solamente las líneas en las que aparece ese patrón. Si se combina con la opción `-n` solo se mostrarán las líneas modificadas.
            - `sed -n 's/test/another test/p' myfile`
        - `d`. Permite eliminar las líneas que tengan una ocurrencia determinada:
            - `sed '/test/d' myfile`
        - `!`. Revierte la restricción. Por ejemplo, en `seq 5 | sed -n '2,4!p'` solo mostrará 1 y 5.
        - `N`. Permite hacer que afecte a una línea o a un grupo de líneas determinado. Si se indica el rango *`N,$`* irá desde *N* hasta el final del archivo. Por ejemplo:
            - `sed "1,3 s/Esto/Aquello/" sedtest.txt` afectará a las líneas de la 1 a la 3
            - `sed "2,$ s/Esto/Aquello/" sedtest.txt` afectará de la línea 2 hasta el final
    - Opciones:        
        - `sed -n`. Elimina la impresión automática. Cuando se combina con la bandera *p* imprime solamente las líneas modificadas.
            - Ejemplo: `sed -n 's/test/another test/p' myfile` 
        - `sed -i`. Guarda los cambios *in-place*.
            - Ejemplo: `sed -i 's/test/another test/gI' ./myfile` 
        - `sed -e`. Ejecutar diferentes sed. Si hacemos muchos, lo mejor es partirlos.
            - Ejemplo: `sed -e 's/This/That/; s/test/another test/' ./myfile`

## 5. Trabajando con archivos comprimidos: `zip`, `tar`, `gz`, `bz2`

Las extensiones más comunes de los archivos comprimidos son: ***.zip, .gz, .tar, .tar.gz, .bz, .bz2***

### .zip
- `zip <zip_name> <file_1> <file_2> <file_N>`. Crea un archivo zip con el contenido.
- `zipinfo <zip_name>`. Muestra el contenido del .zip.
- `unzip <zip_name>`. Descomprime el .zip.
    - `unzip -c`. Muestra el contenido del zip y su nombre.
- `zcat <zip_name>`. Muestra el contenido del .zip.
- `zless <zip_name>`. Hace un `less` del .zip.
- `zgrep <zip_name>`. Hace un `grep` del .zip.

### .gz
Por defecto, comprime *in-place*
- `gzip <gzip_name> <file_1> <file_2> <file_N>`. Crea un archivo .gzip con el contenido.
- `gunzip <gzip_name>` o `gzip -d <gzip_name>`. Descomprime el .gzip.

### .bz y .bz2
Por defecto, comprime *in-place*
- `bzip2 <bz2_name> <file_1> <file_2> <file_N>`. Crea un archivo bz2 con el contenido.
- `bunzip2 <bz2_name>`- Descomprime el .bz2.
- `bzcat <bz_name>`. Muestra el contenido del .bz.
- `bzless <bz_name>`. Hace un `less` del .bz.
- `bzgrep <bz_name>`. Hace un `grep` del .bz.

## Shell script para bash

Un *script* para ***bash*** es un archivo tipo texto cuyas líneas tienen comandos que son ejecutados (interpretados) por bash. Esto nos permite reutilizar líneas de código que hemos realizado. Los scripts son muy utilizados en grandes proyectos.

Para elaborar un *script*, se deben seguir 6 pasos:

1. Copiar el comando que va a ser la base del *script* en un archivo.

2. Añadir permisos de ejecución.

3. Definir el *shebang*

4. Eliminar las partes prefijadas de input para que sea dinámico

5. Parametrizar

6. Extender el *path* (opcional)

### Paso 0. El comando que se va a utilizar

En este caso se va a usar el siguiente comando, que busca las 10 palabras más comunes en un archivo:

`cat textfile | tr '[:upper:]' '[:lower:]' | grep -oE '\w+' | sort | uniq -c | sort -nr | head -n 10`

Explicación:

- `cat` abre el archivo
- `tr '[:upper:]' '[:lower:]'` transforma las minúsculas en mayúsculas.
- `grep -oE '\w+'` divide las palabras en líneas
- `sort` las ordena alfabéticamente
- `uniq -c` cuenta sus apariciones y se queda solo con los registros únicos.
- `sort -nr` los ordena numéricamente y de mayor a menor.
- `head -n 10` se queda con los 10 más repetidos.

### Paso 1. Copiar el comando que va a ser la base del script

Lo primero es crear el *script*, por lo que se crea un archivo llamado *"top-words-1.sh"* con el comando dentro de él. La extensión ***.sh*** muestra claramente que es un *shell script*.

Con `ls -l` se confirma que se tienen permisos de ejecución y, en caso de que no los haya, se otorgarán.

### Paso 2. Se añaden permisos de ejecición

Para añadir permisos de ejecución se usa el comando `sudo chmod u+x top-words-1.sh`

Ahora se podrá ejecutar con `bash top-words-1.sh`.

### Paso 3. Se define el shebang

El ***shebang*** es una línea en el *script* que indica al sistema qué ejecutable debe utilizar para interpretar el *script*. El nombre *shebang* proviene de los dos primero caracteres del comando: un hash (*she*) y una exclamación (*bang*). 

En este caso, indicamos que es un *script* para *bash*, así que debemos introducirlo:
 > `#!/bin/bash` o `#!/usr/bin/bash` or `#!/usr/bin/envbash`

### Paso 4. Eliminar el input fijado

Cuando escribimos el código por primera vez fijamos un input. En este caso era el archivo *textfile* del que bebía. Por lo general, es aconsejable hacer que el usuario que vaya a ejecutar el *script* abra y lea el archivo por su cuenta, por lo que se debe hacer que él haga el `cat`. El *script* quedaría de la siguiente manera:

`tr '[:upper:]' '[:lower:]' | grep -oE '\w+' | sort | uniq -c | sort -nr | head -n 10`

### Paso 5. Parametrizar

El siguiente paso es ***parametrizar***, es decir, permitir al usuario que introduzca personalizaciones del comando. Por ejemplo, en este caso podría ser el número de filas de `head`.

Esto se haría de la siguiente manera:

`NUM_WORDS = $1`

`tr '[:upper:]' '[:lower:]' | grep -oE '\w+' | sort | uniq -c | sort -nr | head -n $NUM_WORDS`


La variable `NUM_WORDS` está fijada para que valga `$1`, que es lo mismo que decir que será la primera variable introducida por el usuario. Si añadiéramos una segunda variable, la indicaríamos como `$2`, etc. 

Así, para ejecutarlo ahora sobre un archivo (*my_file.txt*) habría que ejecutar:

`cat my_file.txt | top-words-1.sh 5`

Y entonces el valor del `head` sería 5.

### Paso 6. Extender el *PATH*

Cuando se escribe un comando en Linux básicamente se está pidiendo al sistema que ejecute un programa, por muy simple que sea, como puede ser *ls*, *mkdir*, *cd*, etc. Algunos de estos programas viven en */usr/bin/*, otros en 
*/usr/local/bin/*, otros en */usr/local/sbin/*, etc.

Si se escribiese:

> `echo <command> $PATH`

Se podría ver dónde está alojado.

Cuando ejecutamos un comando de ellos, Linux no busca carpeta a carpeta dónde está alojado, sino que forman parte de in entorno llamado *PATH* que es un repositorio donde se encuentran todas sus ubicaciones. Por ello, si creamos un *script* es casi indispensable organizar todos en una carpeta e indicar dónde se encuentra para asegurarnos que funciona.

Así, imaginemos que hemos creado una carpeta llamada *tools* donde guardamos nuestros *scripts*. Debemos indicar en nuestro archivo el `$PATH` para que la Shell lo encuentre. Esto se hace con el siguiente comando:

> **`echo export PATH=$PATH:~/tools>>~/.zshrc`**

## csvkit

- **csvkit** nos permite explorar los archivos antes de trabajar con ellos en `pandas` o en un Data Frame de R de una manera muy eficiente.

- Podemos obtener más información de cómo instalarlo en la web oficial de [**csvkit**](https://csvkit.readthedocs.io/en/1.0.2/).

- Básicamente, para instalarlo es necesario escribir en la línea de comandos de la terminal:

> **`pip install csvkit`**

### Principales comandos de csvkit:
- **Comandos de input**:
    - `in2csv`. Transforma un archivo en un archivo csv. 
        - Ejemplo: `in2csv data.xlsx > data.csv`
        - Ejemplo 2: `in2csv data.json > data.csv`
    - `sql2csv`. Realiza una consulta SQL a una base de datos y exportar el output como un archivo `.csv`. Su estrucutra básica es:
        - `sql2csv --db <database_connection> --query "<query>"`.
            - Ejemplo: `sql2csv --db "sqlite:///dummy.db" --query "select * from test"`

- **Comandos de procesado**:
    - `csvclean`. Limpia los archivo `.csv` de los errores típicos de sintaxis, como filas cuya cantidad de columnas no se corresponde con las del header. Sus principales opciones son:
        - `csvclean -d` o `csvclean --delimeter`. Permite especificar el caracter delimitador de columnas del input del .csv.
        - `csvclean -H` o `csvclean --no-header-row`. Establece que el archivo no tiene un *HEADER* y llamará a las columnas por defecto a, b, c, d...
        - `csvclean -l` o `csvclean --linenumbers`. Crea una primera columna indicando el número de cada línea.
        - `csvclean -n` o `csvclean --dry-run`. No crea un archivo csv con el output, sino que simplemente muestra la información de los resultados en el *stdout*
    - `csvcut`. Filtra y corta columnas. Es como el comando `cut` de shell pero para formatos tabulares como `.csv` que tienen como delimitador por fecto la `,`. Sus principales opciones son:
        - `csvcut -c` o `csvcut --columns`. Sirve para indicar las columnas que van a ser extraídas.
        - `csvcut -C` o `csvcut --not-columns`. Sirve para indicar las columnas que NO van a ser extraídas (excluídas).
        - `csvcut -d` o `csvcut --delimeter`. Permite indica el delimitador del archivo.
        - `csvcut -n` o `csvcut --names`. Permite mostrar en el output el nombre e índice de las columnas.
        - Ejemplo:
        ![example_csvcut](Img\csvcut_example.jpg)
    -`csvgrep`. Filtra en una tabla aquellos elementos que cumplen un patrón o una expresión regular. Es como el `grep` de shell pero para formatos tabulares, teniendo la `,` como delimitador por defecto.
        - `csvgrep -c` o `csvgrep --columns`. Sirve para indicar una o unas columnas en concreto donde realizar la búsqueda.
        - `csvgrep -m` o `csvgrep --match`. Busca un patrón determinado.
        - `csvgrep -r` o `csvgrep --regex`. Busca una expresión regular.
        - `csvgrep -i` o `csvgrep --invert-match`. Si se elecciona muestra las líneas que no matchean con el patrón o expresión regular, en vez de las que matchean.
        -Ejemplo:
        ![example_csvgrep](Img\csvgrep_example.jpg)
    -`csvjoin`. Junta dos o más tablas CSV usando un método análogo a la consulta JOIN en SQL. Por dejecto, realiza un INNER JOIN, pero FULL OUTER, LEFT OUTER y RIGHT OUTER están disponibles también mediante el uso de opciones. **Se recomienda no usar este comando con archivos muy largos**.
        - `csvjoin -c` o `csvjoin --columns`. Permite indicar el nombre o índice de la columna o columnas que se unirán.
        - `csvjoin -d` o `csvjoin --delimeter`. Permite indica el delimitador del archivo.
        - `csvjoin --outer`. Realiza un FULL OUTER JOIN en vez de un INNER JOIN.
        - `csvjoin --left`. Realiza un LEFT OUTER JOIN en vez de un INNER JOIN.
        - `csvjoin --right`. Realiza un RIGHT OUTER JOIN en vez de un INNER JOIN.
        - Ejemplo:
        ![example_csvjoin](Img\Modulo_3_csvjoin_example.jpg)
    - `csvsort`. Ordena .csv. Es como el comando `sort` de shell pero para formatos tabulares.
        - `csvsort -c` o `csvsort --columns`. Sirve para indicar las columnas de ordenación.
        - `csvsort -n` o `csvsort --names`. Permite mostrar en el output el nombre e índice de las columnas.
        - `csvsort -r` o `csvsort --reverse`. Permite ordenar en orden descendente.
        - Ejemplo: `csvsort -c nb_engines -r optd_aircraft.csv | head -3`
    -`csvstack`. Apila las líneas de diferentes `.csv`, opcionalmente indicando un valor de agrupación para cada línea.
        - `csvstack -g` o `csvstack --groups`. Permite crear los factores de agrupación, que serán añadidos en el stacked .csv como una nueva columna. Mediante el comando `-n` se puede indicar el nombre de dicha nueva columna.
        - `csvstack -n` o `csvstack --group-name`. Permite poner el nombre de la columna de agrupación. Solo se puede usar cuando se ha activado `-g` como opción.

-  **Comandos de ouput**
    - `csvformat`. Convierte un archivo `.csv` en un formato de salida personalizado. Sus principales opciones son:
        - `csvformat -d` o `csvformat --delimeter`. Es el caracter que delimita el input
        - `csvformat -D` o `csvformat --OUT_DELIMETER`. Es el caracter que delimita el output
        - `csvformat -T` o `csvformat --out-tabs`. Se usa un tab como caracter delimitador.
    - `csvlook`. Renderiza el archivo `.csv` para que se vea como una tabla. Es **MUY ÚTIL**.
    - `csvpy`. Carga un archivo csv en `agate.csv.Reader` y lo lanza al shell de Python para que se pueda observar.
    - `csvjson`. Convierte un archivo `.csv` en uno `.json`.
    - `csvsql`. Genera una consulta SQL para uno más archivos `.csv` o ejecuta consultas directamente en una base de datos. Sus principales opciones son:
       - `csvsql i {firebird,mssql,mysql,oracle,postgresql,sqlite,sybase}` o `csvsql --dialect {firebird,mssql,mysql,oracle,postgresql,sqlite,sybase}`. Permite seleccionar la base de datos de la que beberá. Solo es válido cuando el parámetro `-db` no ha sido especificado.
       - `csvsql --db <CONNECTION_STRING>`. Si está presente en la cláusula, se conecta a una base de datos en conexión.
       - `csvsql --query <consulta>`. Ejecuta una o más consultas de SQL delimitadas por ";" y devuelve como resultado un CSV.
       - `csvsql --insert`. Además de crear la tabla, inserta los datos originarios en la tabla. Solo es válido cuando `-db`está activo.
       - Ejemplos: 
           - `sqlquery="SELECT * FROM optd_aircraft ORDER BY iata_code LIMIT 10"`
           - `csvsql --query "$sqlquery" -d “^” opdt_aircraft.csv`
           ![example_csvsql](Img\csvsql_example.jpg)
    -`csvstat`. Muestras las estadísticas descriptivas para cada columna en un archivo .csv. Sus principales opciones son:
        - `csvstat -d` o `csvstat --delimeter`. Permite especificar el caracter delimitador de columnas del input del .csv.
        - `csvstat -H` o `csvstat --no-header-row`. Permite especificar que el archivo no tiene un *HEADER* y creará uno llamando a las columnas, por defecto: a, b, c, d...
        - `csvstat -l` o `csvstat --linenumbers`. Crea una primera columna indicando el número de cada línea.
        - `csvstat -n` o `csvstat --names`. Permite mostrar en el output el nombre e índice de las columnas.
        - `csvstat -c` o `csvstat --columns`. Sirve para indicar una o unas columnas en concreto donde realizar los cálculos.
        - Algunas de las estádisticas descriptivas que permite calcular son:
            - `--type`. Only output data type.
            - `--nulls`. Only output whether columns contains nulls.
            - `--unique`. Only output counts of unique values.
            - `--min`. Only output smallest values.
            - `--max`. Only output largest values.
            - `--sum`. Only output sums.
            - `--mean`. Only output means.
            - `--median`. Only output medians.
            - `--stdev`. Only output standard deviations.
            - `--len`. Only output the length of the longest values.
            - `--freq`. Only output lists of frequent values.
            - `--freq-count`. The maximum number of frequent values to display.
            - `--count`. Only output total row count.