# Introducción a UNIX-SHELL
## Fund. Biología Computacional / ClaseI
## Javier C. Alvarez
![title](UNIX-Licence-Plate.jpg)

## Tema / Tiempo / Objetivo
1. [Origen de UNIX/Linux](#1.-Origen-de-UNIX/Linux) / 60 min / Explain the basics of the Unix shell and how to use the command line
2. [Practica en SHELL](#2.-Práctica-en-Shell) / 60 min / How do you move around the filesystem in the shell?


### Competencias
Al final de la clase el estudiantes estará en la capacidad de:
1. Look at all or part of a file using the command line 
2. Use shell basic commands to work with directories and files
3. Use shell basic commands to find and manipulate data
4. Work with files and directories from the command line and internet
5. Use tab completion to limit typing
6. Moving and copying files
7. Demonstrate counting lines, words, and characters with the shell command wc and appropriate flags
8. Use strings to mine files and extract matched lines with the shell
9. Redirect a command’s output to a file.

## 1. Origen de UNIX/Linux
Unix (registrado oficialmente como UNIX®) es un sistema operativo portable, multitarea y multiusuario; desarrollado, en principio, en 1969 por un grupo de empleados de los laboratorios Bell de AT&T, entre los que figuran Ken Thompson, Dennis Ritchie y Douglas McIlroy.
![image.png](fit.jpg)

### Evolución de los sistemas operativos UNIX (1969-2017)
![image.png](Unix_history.png)

Linux: En 1991, cuando Linus Torvalds empezó a proponer el núcleo Linux y a reunir colaboradores, las herramientas GNU eran la elección perfecta.
 Al combinarse ambos elementos, conformaron la base del sistema operativo (basado en POSIX) que hoy se conoce como GNU/Linux. 
Las distribuciones basadas en el núcleo, el software GNU y otros agregados entre las que se pueden mencionar a Slackware Linux, Red Hat Linux y Debian GNU/Linux se han hecho populares tanto entre los aficionados a la computación como en el mundo empresarial. 
![linux](linux1.jpg)

Su desarrollo es uno de los ejemplos más prominentes de software libre.<br>
Todo su código fuente puede ser utilizado, modificado y redistribuido libremente por cualquiera bajo los términos de la GPL (Licencia Pública General de GNU, en inglés: General Public License) y otra serie de licencias libres.<br>

### ¿Por qué Linux en bioinformática?
- Es software libre, lo que quiere decir que no hay que pagar nada por el sistema en sí. 
- La mayoría de las aplicaciones de Bioinformática son desarrolladas para Linux.
- Alto desempeño, es fácil controlar los procesos y el uso de los recursos.
- Ampliamente utilizado por la comunidad científica. 
- Fácil modificación para intereses específicos. 
- Excelente soporte para Scripting y programación.
- Excelente soporte para clusterización, multiprocesamiento, computación distribuida. 
- La mayoría de las herramientas son Open Source/Free.

### BioLinux - Una opción para usuarios con necesidades específicas en biología

![biolinux](new_usb_key.png)
- Distribución Linux dedicada para bioinformática.
- Linux basado en Ubuntu.
- Portable: puede ser ejecutado a partir de Cloud, USBs, DVDs o CDs. 
- Posee un amplio número de herramientas: 
        - Paquetes de análisis de estadística.
        - Software para análisis de secuencias.
- Tratamiento de secuencias biológicas.
- Manejo de BD para datos biológicos.
- Disponible en: http://environmentalomics.org/bio-linux/

### Sistemas de archivos de Linux: Estructura básica
Funciones:
- Representar informaciones en algún tipo de dispositivo de almacenamiento: CD, DVD, USB, HD. 
- Garantizar el desempeño en el acceso a la información almacenada.
<img src="Imagen2.png" width="500">

### En UNIX todo está organizado por jerarquía
<img src="Imagen3.png" width="400" align="left">
<img src="Imagen4.png" width="500">

<img src="estructura.jpg" width="900">

## Interpretadores de Comando en Linux
Permiten manipular sistema de  archivos con el uso de comando especiales en formato de texto, por línea de comando <br>
SHELL/CONSOLE<br>
Es cualquier interface de usuario para el SO Unix o cualquier programa que reciba del usuario un input e la convierta en una instrucción para que el SO entienda.<br>
El shell es fundamental para las computadoras basadas en Linux, y las máquinas macOS se entregan Terminal, un programa de shell. Para los usuarios de Windows, los shells populares como Cygwin o Git Bash proporcionan una interfaz similar a Unix, pero es posible que deban instalarse por separado. En Windows 10, PowerShell proporciona de forma nativa esa funcionalidad.<br>
Hay diversos tipos de interpretadores de comando en Linux (SHELL/Konsole):
- Bash:
- Csh:
- Sh:
- Tcsh:

¿Cómo abro la consola en mi computador?

- Terminal para macOS: Command + Space y escribir Terminal
- Git Bash para usuarios de Windows 10: https://www.youtube.com/watch?v=ks8Lp_JoK88
- Terminal shell para usuarios de Linux? Ctrl+Alt+T 
- Biohub: Abrir una cuenta y en el dashboard ejecutar Workstation

¿Cuál Shell estoy usando?
Digíta en tu consola:

In [1]:
%%bash
echo $SHELL

/bin/bash


## Características de un estamento en la consola SHELL
- Programa o comando
- Argumento: Información extra pasada para la ejecución del comando. 
    - Opciones: Define como el programa será ejecutado
    - Variables: Guardan información para ser utilizadas por los programas durante la sesión 
- Es sensible a mayúsculas y minúsculas, como también a los espacios y símbolos<br>

|Símbolo|Función|
|-------|-------|
|..|indica el nivel anterior|
|.|indica el nivel actual|
|~|indica el nivel home del usuario|
|#|indica comentario|
|$|Definición de variables|
|.xxxx|Archivos ocultos|
|pipe|direcciona la salida a una entrada|
|&|Envía aplicativo para background|
|--help|obtener ayuda sobre utilización del comando|

Ejemplo:

In [1]:
%%bash
date -jnu

Mon Jan 27 21:30:03 UTC 2020


### PATHS/Absolutos/Relativos

<img src="Imagen5.png" width="400" align="left">
<img src="Imagen6.png" width="400">
<img src="Imagen7.png" width="400">

## 2. Práctica en Shell

### Comandos Grupo 1:
- __cd__  : (change directory) cambia de directorio
- __pwd__  : (print workin directory) exhibir el directorio actual
- __ls__  : (list) listar archivo y directorios
        Opciones útiles: -a (archivos ocultos),  -l (formato largo), -s (exhibe el tamaño de los archivos), -h (tamaño en K, MB, GB), -R (recursivo).
- __cp__  : (copy) copiar archivos 
        Opciones útiles: -p (preserve molde), -r (recursiva), -v (verbosa). 

In [3]:
%%bash
ls -lha > lista.txt

In [8]:
%%bash
mv lista.txt Lista.txt

In [11]:
%%bash
ls

Imagen2.png
Imagen3.png
Imagen4.png
Imagen5.png
Imagen6.png
Imagen7.png
IntroLinux.ipynb
UNIX-Licence-Plate.jpg
Unix_history.png
estructura.jpg
fit.jpg
linux1.jpg
new_usb_key.png
readme.rm


- __mkdir__ : (make directory) Creación de directorios
    - Opciones: -p(parent)

- __mv__ : (move) mover archivos de carpetas
    - Opciones utiles: -f (fuerza, sin confirmar)

- __rm__  : (remove) Remover archivos/directorios
    - Opciones utiles: -R/r (recursivo), -f (fuerza)

In [4]:
%%bash
man cp

- __cat__  : Concatenación de los archivos en la salida estándar o pantalla
- __wc__ :  (word count) contar el numero de lineas, palabras y bytes de un archivo.
- __man__ : (manual) ofrece información detallada del comando especificado
- __apropos__ <palabra>  : informa una lista de comandos relacionados con la palabra especificada

In [5]:
%%bash
apropos grep

pcregrep(1)              - a grep with Perl-compatible regular expressions
xzgrep(1)                - search compressed files for a regular expression
grep(1), egrep(1), fgrep(1), zgrep(1), zegrep(1), zfgrep(1) - file pattern searcher
pgrep(1), pkill(1)       - find or signal processes by name
ptargrep(1)              - Apply pattern matching to the contents of files in a tar archive
zipgrep(1)               - search files in a ZIP archive for lines matching a pattern
git-grep(1)              - Print lines matching a pattern


In [1]:
%%bash
ls -lh CoronavirusGenome.fasta

-rw-r--r--@ 1 javiercorreaalvarez  staff    30K Feb  2 12:11 CoronavirusGenome.fasta


- __vi__ o __vim__
Función: edición de archivos<br>
Principales comandos: <br>
l => editar (Bloquea todas las otras operaciones)<br>
ESC => cancelar edición<br>
:q! => fuerza la salida del editor, sin salvar<br>
/gene => busca la palabra gene<br>
/^gene => busca por  gene en el inicio de la línea<br>
x => elimina el carácter de la posición del cursor<br>
dd => elimina la línea actual (almacena mem.)<br>
D=> elimina la línea actual a partir del cursor (almacena)<br>
u => deshacer ultimo comando<br>
^L =>actualiza la pantalla<br>
G = va para la ultima  línea<br>
23G => va para la línea 23.<br>
w => guarda <br>

- grep
Busca por patrones en archivos

Ejemplos:
grep gene arq.txt=> ‘gene’
grep ‘^gene’ arq.txt=> ‘gene’ en el inicio de la linea
grep ‘gene$’ arq.txt=> ‘gene’ en el fin de la linea
grep ‘^gene$’ arq.txt=> solamente ‘gene’ en la linea
grep ‘^$’ arq.txt=> linea en blanco
grep ‘[Gg]ene’ arq.txt=> ‘gene’ o ‘Gene’
grep ‘[0-9][0-9]’ arq.txt=> número con dos dígitos

In [3]:
%%bash
grep ">" CoronavirusGenome.fasta

>MN997409.1 Wuhan seafood market pneumonia virus isolate 2019-nCoV/USA-AZ1/2020, complete genome


In [2]:
%%bash
head -3 CoronavirusGenome.fasta

>MN997409.1 Wuhan seafood market pneumonia virus isolate 2019-nCoV/USA-AZ1/2020, complete genome
ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAA
CGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAAC


In [3]:
%%bash
wc -l CoronavirusGenome.fasta

     429 CoronavirusGenome.fasta


In [4]:
%%bash
grep "MN997409.[0-9]" CoronavirusGenome.fasta

>MN997409.1 Wuhan seafood market pneumonia virus isolate 2019-nCoV/USA-AZ1/2020, complete genome


In [5]:
%%bash 
grep -c "AATAA" CoronavirusGenome.fasta

39


In [7]:
linea = "TTTAGTAGTGCTATCCCCATGTGATTTTAATAGCTTCTTAGGAGAATGACAAAAAAAAAAAA"
len(linea)

62

In [11]:
428* 70 - (70- Out[7])

29952

In [6]:
%%bash
tail -2 CoronavirusGenome.fasta

TTTAGTAGTGCTATCCCCATGTGATTTTAATAGCTTCTTAGGAGAATGACAAAAAAAAAAAA



In [7]:
%%bash
grep "AATAA" CoronavirusGenome.fasta

CGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAAC
TCTTCGTAAGAACGGTAATAAAGGAGCTGGTGGCCATAGTTACGGCGCCGATCTAAAGTCATTTGACTTA
AAATAAATTTTTGGCTTTGTGTGCTGACTCTATCATTATTGGTGGAGCTAAACTTAAAGCCTTGAATTTA
GTGGTTGTTAATGCAGCCAATGTTTACCTTAAACATGGAGGAGGTGTTGCAGGAGCCTTAAATAAGGCTA
ACAGTTTGGTCCAACTTATTTGGATGGAGCTGATGTTACTAAAATAAAACCTCATAATTCACATGAAGGT
ACTTTTGTGCACTTATCTTAGCCTACTGTAATAAGACAGTAGGTGAGTTAGGTGATGTTAGAGAAACAAT
CTATTGTTTGGCATGTTAACAATGCAACTAATAAAGCCACGTATAAACCAAATACCTGGTGTATACGTTG
AAGACGTTCTTGAGTGTAATGTGAAAACTACCGAAGTTGTAGGAGACATTATACTTAAACCAGCAAATAA
TTGGCTTATGTGGTTAATAATTAATCTTGTACAAATGGCCCCGATTTCAGCTATGGTTAGAATGTACATC
GACCAATAAATCCTACTGACCAGTCTTCTTACATCGTTGATAGTGTTACAGTGAAGAATGGTTCCATCCA
AACCTGAGAGCTAATAACACTAAAGGTTCATTGCCTATTAATGTTATAGTTTTTGATGGTAAATCAAAAT
ACTGGCGATAGTTGTAATAACTATATGCTCACCTATAACAAAGTTGAAAACATGACACCCCGTGACCTTG
AATAACTTACCTTTTAAGTTGACATGTGCAACTACTAGACAAGTTGTTAATGTTGTAACAACAAAGATAG
CACTTAAGGGTGGTAAAATTGTTAATAATTGGTTGAAGCAGTTAATTAAAGTTACACTTGTGTTCCTTTT
TGTTGC