Sulla base di quanto visto nella precedente sezione del tutorial, affronteremo adesso un nuovo argometo: la realizzazione di uno **script** in bash.

#**SCRIPTING IN BASH**
****
Un **BASH SCRIPT** non è altro che un file contenente una serie di istruzioni che vengono eseguite in ordine dalla prima all'ultima. Una volta realizzzato lo script è quindi sufficiente lanciarlo da linea di comando per eseguire tutte le istruzioni contenute al suo interno. 

E' particolarmente utile quando si devono svolgere operazioni molto ripetitive. Risulta più veloce che eseguire uno per uno tutti i singoli comandi e, in più, riduce il rischio di commettere errori. 

Esistono diversi modi per realizzare un bash script.

**Esempio 1**:

In [None]:
%%bash
vi filename.sh   # il comando vi permette di creare uno script all'interno del 
                 # quale è possibile inserire tutte le istruzioni che si 
                 # vogliono eseguire

chmod +x filename.sh    # è il comando necessario ad attivare lo script. Se non
                        # si esegue, al momento di richiamare lo script da linea
                        # di comando comparirà l'errore 
                        # "-bash: ./filename:Permission denied"

./filename.sh       # ./ è il comando che permette di eseguire lo script



**Esempio 2**:

In [None]:
%%bash
cat > filename.sh    # il comando 'cat >' seguito dal nome del file, permette di
                     # creare uno script, cioè di scrivere una serie di
                     # comandi che non vengono però eseguiti subito ma salvati 
                     # nel file filename.sh
                     # Per poter uscire dalla modalità di scrittura è necessario
                     # premere Ctrl+D

chmod u+x filename.sh   # serve a rendere lo script eseguibile
sudo chmod 777 filename.sh  # anche questo comando permette di rendere 
                            # eseguibile lo script, ma per utilizzarlo è 
                            # necessario che nella prima riga dello script 
                            # compaia ' #!/bin/bash ', in più, essendo un 
                            # comando sudo vi richiederà
                            # la password per poterlo eseguire

bash filename.sh    # 'bash' è il comando per esguire lo script
                    # E' possibile utilizzare in alternativa anche il comando 
                    # ' ./ ' per lanciare lo script

Un altro comando molto utile nell'ambito dello scripting é **nano**.
Permette di accedere al file script e modificarlo, potendosi muovere liberamete avanti e indietro tra le righe e i vari comandi. 

In [None]:
%%bash
nano filename.sh   # per poter uscire dallo script una volta termite le 
                   # modifiche premere Ctrl+X poi premere Y per salvare le 
               # modifiche o N in caso contrario infine premere il tasto 
               # Enter una volta usciti lo script risulta nuovamente eseguibile

Sul terminale si aprirà quindi l'editor testuale con il contenuto del file, la prima riga di uno script è dedicata all'interprete da utilizzare (L'interprete è il programma del sistema operativo che legge, interpreta i comandi dello script e li esegue), in questo caso andrà quindi scritto ` #!/bin/sh `. Posso quindi inserire i comandi che saranno poi eseguiti. Una volta terminato di scrivere, salvo le modifiche al file con CTRL+O ed esco dall'editor con CTRL+X. 
Adesso quindi, come nei casi precedenti, devo rendere lo script eseguibile (` chmod +x filename.sh  `), ed eseguirlo (` ./filename.sh `)

Seguono alcune strutture molto utili per la realizzazione di scripts: **IF STATEMENTS** e **LOOPS**.

**IF STATEMENTS**
****
Il comando **if** può essere molto utile all'interno di uno script perchè permette di realizzare una serie di istruzioni solo se è verificata una certa condizione. 

In [None]:
# esempio di sintassi di un if statements
%%bash 

n=12
if [ n -gt 10 ]                    # la condizione da verificare deve essere 
                                   # posta tra parentesi [] facendo attenzione a 
                                   # rispettare gli spazi
do
echo n è maggiore di 10            # istruzione da eseguire se la condizione è 
                                   # verificata

else echo n è minore di 10         # istruzione da eseguire se la condizione 
                                   # non è verificata

fi                                 # è necessario ricordarsi di chiudere l'if 
                                   # con il comando 'fi'

Di seguito alcuni operatori di confronto che vengono utilizzati per imporre le condizioni degli if statement, ma anche di cicli while e until

Confronto di interi

In [None]:
if [ "$a" -eq "$b" ]                                   # -eq --> è uguale a
if [ "$a" -ne "$b" ]                                   # -ne --> è diverso da
if [ "$a" -gt "$b" ] oppure if (( "$a" > "$b" ))  # -gt --> è maggiore di
if [ "$a" -ge "$b" ] oppure if (( "$a" >= "$b" )) # -ge --> è maggiore o uguale a
if [ "$a" -lt "$b" ] oppure if (( "$a" < "$b" ))  # -lt --> è minore di 
if [ "$a" -le "$b" ] oppure if (( "$a" <= "$b" )) # -le --> è minore o uguale a

Confronto di stringhe

In [None]:
if [ "$a" = "$b"]  oppure   if [ "$a" == "$b"]         # uguale a
if [ "$a" != "$b"]                                     # diverso da

**LOOPS**
****

Il ciclo **FOR** può essere utilizzato per realizzare operazioni ripetitive, come ad esempio l'analisi di tutti i file presenti all'interno di una cartella. 

In [None]:
# esempio di sintassi ciclo for
%%bash

for file in $(ls)         # ciò che segue il 'for' indica per quali elementi 
                          # eseguire le istruzioni contenute 
                          # all'interno del ciclo
do
....                      # dopo il 'do' vanno inseriti i comandi da eseguire 
                          # sulle variabili nella lista

done                      # indica il termine del ciclo 

Il ciclo **WHILE** può essere usato per realizzare una serie di istruzioni fino a quando risulti vericata una certa condizione. Nel momento in cui la condizione definita dal 'while' non risulta più vera, esce direttamente dal ciclo e procede con i comandi successivi

In [None]:
# esempio di sintassi ciclo while
%%bash

a=0
while [ "$a" -lt 5 ]           # il 'while' è seguito dalla condizione tra [] 
do
((a++))                        # dopo 'do' vengono inserite le istruzioni da eseguire all'interno el ciclo
done                           # termina il ciclo
echo $a

**COMANDO *READ* IN BASH SU COLAB**
****
Il comando **read**, come abbiamo visto, può essere utilizzato per acquisire dati in input forniti direttamente dall'utente e salvarli in una specifica variabile. 
Esempio:

In [None]:
%%bash
echo Inserire due numeri: 
read -r a b


Se provaste ad eseguire questo codice sul vostro terminale linux, vedreste che funziona correttamente e salva i due numeri da voi inseriti nelle variabili a e b.

Eseguendo, invece, la cella su colab, le cose non vanno altrettamento bene.
Questo avviene perchè i comandi bash vengono eseguiti in una subshell su colab, perciò questa modalità interattiva non funziona.

Per poter sfruttare comunque il comando read, è necessario creare prima uno script all'interno di una cella e poi eseguirlo in una cella separata. 

Lo stesso vale nel caso in cui si vogliano passare i parametri direttamenti da linea di comando, su Colab è necessario scrivere uno script e poi eseguirlo in una cella separata (**!bash nomefile.sh parametro_1 parametro_2**) (Vedi esercizio 1)



**ATTENZIONE**: la sintassi del comando read è leggermente diversa in questa modalità

Ecco come fare:

In [None]:
%%bash                                         
echo "#!/bin/bash                           
read -p 'insert a number ' var
echo You have inserted \$var " > file.sh

# Con il comando #!/bin/bash si crea lo scritp
# Tutti i comandi contenuti nello script devono essere messi tra ""
# Al termine dello script si usa > filename.sh per salvarlo all'interno si un file script
# che potrà essere richiamato in qualsiasi momento da un'altra cella

In [None]:
!bash file.sh

Il comando **!bash filename.sh** permette di lanciare lo script precedentemetne definito ed eseguito.

**FILE .PDB**
***
Un file PDB descrive la struttura tridimensionale di una proteina contenuta nel Protein Data Bank. Inoltre contiene tutta una serie di informazioni secondarie inserite all'inizio come intestazione ("HEADER"). Questa parte include delle informazioni sugli autori della ricerca che hanno determinato la struttura della proteina, alcune osservazioni sperimentali o anche l'elenco degli amminoacidi di cui è composta.

La parte principale, nonché la più estesa, resta comunque l'elenco degli atomi di cui la proteina è composta. Per ogni atomi sono indicate tutta una serie di informazioni tra cui:

* le coordinate spaziali (x, y, z)
* il nome e il numero del residuo a cui appartengono
* la rispettiva catena (utile nel caso di proteina con struttura quaternaria)
* un fattore di temperatura (che che descrive la loro vibrazioni)
* il nome dell'atomo, molto utile per studiare atomi specifici come il carbonio α (indicato con CA)


##ESERCIZI SCRIPT

Di seguito sono stati inseriti alcuni esercizi che è possibile svolgere per applicare quanto spiegato nella prima parte del tutorial.

**ATTENZIONE**: Per poter eseguire le celle è sufficiente eseguire la cella sottostante per caricare temporaneamente i file e le cartelle necessarie su colab

In [1]:
#@title Cella da eseguire per caricare i file 
# Cella da eseguire per caricare i file 
# necessari per svolgere gli esercizi successivi
%%bash
! wget https://files.rcsb.org/download/1YZB.pdb
! wget https://files.rcsb.org/download/7MCI.pdb
! wget https://files.rcsb.org/download/7WN4.pdb
! wget https://files.rcsb.org/download/7TZ4.pdb
mkdir /content/studente


--2022-06-07 12:37:59--  https://files.rcsb.org/download/1YZB.pdb
Resolving files.rcsb.org (files.rcsb.org)... 128.6.158.70
Connecting to files.rcsb.org (files.rcsb.org)|128.6.158.70|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [application/octet-stream]
Saving to: ‘1YZB.pdb’

     0K .......... .......... .......... .......... .......... 1.30M
    50K .......... .......... .......... .......... .......... 2.63M
   100K .......... .......... .......... .......... .......... 30.3M
   150K .......... .......... .......... .......... .......... 36.8M
   200K .......... .......... .......... .......... .......... 2.65M
   250K .......... .......... .......... .......... .......... 56.8M
   300K .......... .......... .......... .......... .......... 47.1M
   350K .......... .......... .......... .......... .......... 38.1M
   400K .......... .......... .......... .......... .......... 3.17M
   450K .......... .......... .......... .......... ........

**ESERCIZIO 1**

creare uno script che che 
quando avviato riceva da linea di comando il nome di un file da cui prendere gli atomi, il nome di un altro file su cui salvarli il nome di una coordinata e riordini gli atomi del file scelto secondo l'ordine decrescente della coordinata scelta, stampandoli sul file scelto

**HINTS:** sort (-k, -nr), $N (per i corrispondeti dati inseriti all'esecuzione del programma)

In [None]:
#ESERCIZIO 1
#@title soluzione es1
%%bash
echo "#!/bin/bash
case \$3 in         # uso uno switch case (invece di if annidati ) per gestire  
                   # meglio nel caso di più scelte possibili
x)                    
coordinata=7;;        #in base alla coordinata scelta prendo il numero della
y)                    #colonna corrispondente 
coordinata=8;;            
z)
coordinata=9;;
esac

sort -k\$coordinata -nr \$1 > \$2 " > es_1.sh 
                                  #ordino il file scelto ($1) 
                                #e lo salvo nel secondo file scelto ($2)


In [None]:
!bash es_1.sh 1YZB.pdb prova.pdb x

In [None]:
! cat prova.pdb    # stampa il file prova.pdb per verificare che effettivamente gli atomi siano stati riordinati

**ESERCIZIO 2** (script)

Realizzare uno script che

* legga tutti i file .pdb in una cartella e stampi a video tutti i loro nomi
*riceva in input il nome di uno di essi e il nome di un residuo
*stampi il numero di residui totale presenti nel file e il numero del residuo scelto

**HINTS**: for, ls, read, if


In [None]:
#ESERCIZIO 2
#@title soluzione script es2
%%bash
echo "#!/bin/bash
echo I file presenti nella cartella sono:
for file in \$(ls *.pdb)
do
    echo \$file
done
read -p 'Scegliere uno dei file e digitare il nome: ' filename           #read -r filename
read -p 'Scegliere un residuo di cui si vuole sapere quanti ne sono presenti e digitarne la sigla (tutto in maiuscolo): ' nomeresiduo #read -r nomeresiduo
for file in \$(ls)
do
  if [ \$file = \$filename ]
  then 
    residui_tot=\$(grep ^ATOM \$filename | grep CA | sort | uniq -w 20 | wc -l )
    residuo_scelto=\$(cat \$file | grep \$nomeresiduo | grep CA | sort | uniq -w 20 | wc -l)
  fi
done
echo In totale nel file \$filename ci sono \$residui_tot residui, di cui \$residuo_scelto di \$nomeresiduo " > es_2.sh





#NOTA: codice alternativo per verificare se un file è .pdb
#tipofile=$(file -b $i)                (N.B. in $i sono contenuti i nomi dei file di una directory)
#echo $tipofile | cut -b 1-17 >tipofile.txt
#tipofilefinale=$(head -n 1 tipofile.txt)
#if [ "$tipofilefinale" = "Protein Data Bank" ]

In [None]:
!bash es_2.sh

**ESERCIZIO 3** (script)

Realizzare uno script che

* riceva in imput il nome di una cartella
* legga tutti i file .pdb in una cartella
* copi in un file chiamato "elenco_proteine.txt" il nome del file e il titolo della proteina contenuta al suo interno (Il titolo dalla proteina è contenuto all'interno del file)
* conti quante proteine sono state scritte nel file e stampi a video la scritta "Nella cartella scelta sono presenti N proteine e sono: " con a seguito l'elenco dei file con i rispettivi titoli

**HINTS**: for, ls, if, cat, echo


In [None]:
#ESERCIZIO 3
#@title soluzione es3
%%bash 
>elenco_proteine.txt
for file in $(ls)
do filename=${file##*/}
  extention=${filename##*.}
  if [ $extention = pdb ]
  then 
    titolo=$( cat $file | grep TITLE)
    echo $file: $titolo >>elenco_proteine.txt 
  fi  
done 
numeroproteine=$(cat elenco_proteine.txt | wc -l)
echo Nella cartella ci sono $numeroproteine proteine e sono: 
cat elenco_proteine.txt

**ESERCIZIO 4** (script)

Realizzare uno script che permetta di: 

*   leggere tutti i file presenti in una cartella.
*   copiare tutti  i file .pdb nella directory /content/studente.

*   contare il numero di residui HIS in ogni file .pdb e creare un file reshis.csv in cui deve comparire per ogni riga il nome del file ( < filename >) e il numero (< n_residues >) di residui di HIS contati.
*   aggiornare il file minres.stat con la frase: "< filename > has the lowest number of histidine residues equal to < rmin >

**HINTS**: for, ls, if, grep, echo, cd, cat, sort, uniq

E' possibile evitare di leggere tutti i file della cartella dato che  poi si selezionano solo i .pdb? Magari leggendo direttamente solo i file con l'estensione d'interesse (opzioni **ls**)


 

In [None]:
#ESERCIZIO 4
#@title soluzione es4
%%bash
rmin=10000         #inizializzo la variabile
> hisres.csv

# mi sposto nella cartella di cui voglio leggere i file
dir_source=/content
dir_destination=/content/studente
cd $dir_destination                           # mi sposto nella directory in cui poi andrò a lavorare sui file

# realizzo un ciclo for per svolgere le stesse operazioni su tutti i file della cartella
for file in $(ls $dir_source/*.pdb)        # usando ls *.pdb è possibile evitare di leggere tutti i file, 
                                                            # ma selezionare già nel for solo i file pdb
do
  filename=${file##*/}
  cp $dir_source/$filename $dir_destination        #copio il file nella nuova directory
  n_residues=$(grep ^ATOM $filename | grep HIS | grep CA | sort | uniq -w 20 | wc -l)     #seleziono solo le righe HIS poi quelle con CA, riordino e elimino le righe uguali, conto i residui
  echo $filename , $n_residues >>hisres.csv
      if [ $n_residues -le $rmin ]               #verifico se il numero di residui è minore di quelle del file precedente
      then 
         rmin=$n_residues
         echo $filename has the lowest number of histidine residues equal to $rmin > minres.csv
      fi
 done

    cat hisres.csv                   #stampo a video il contenuto dei due file generati
    echo
    cat minres.csv

  

**ESERCIZIO 5** (script)

Realizzare uno script che

*   permetta di leggere i file di una cartella la cui directory viene fornita come input dall'utente
*   conti il numero di residui ARG e salvi nel file argres.csv il nome di ogni file con il corrispondente numero di residui mettendoli in ordine, dal file che contiene meno residui a quello che ne contiene di più.

*   salvi in un secondo file xyz.pdb le coordinate degli atomi che presentano un valore di z>100. (Nel file deve comparire, per ogni riga, il numero dell'atomo, il suo nome, il residuo e le sue coordinate) 

es. 18 CA ARG -43.986 -34.605 1.456

**HINTS**: read, echo, for, if grep, awk, sort, cat



*Eseguendo questa cella vi verrà chiesto di inserire il percorso della cartella di cui volete analizzare i file. Per poter procedere con l'esecuzione del programma su colab è necessario digitare **/content**. Se eseguite invece il codice sul vostro terminale linux dovrete inserire il percorso completo della cartella presente sul vistro computer.*

In [None]:
#ESERCIZIO 5
#@title soluzione script es5
%%bash
echo "#!/bin/bash
read -p 'Inserire il percorso della directory della cartella a cui si vuole accedere: ' dir_source                   # questo comando permette di acquisire come variabile un input inserito dall'utente
cd \$dir_source

>argres.csv                         # questi comandi servono esclusivamente a svuotare i file nel caso fosse già stato eseguito lo scripts 
                                    # per evitare di mescolare i dati 
>argres.pdb
>xyz.pdb

for file in \$(ls \$dir_source/*.pdb)                     # ciclo for per leggere solo i file .pdb della cartella
do
     filename=\${file##*/}
     n_residues=\$(grep ^ATOM \$filename | grep ARG | grep CA | sort | uniq -w 20 | wc -l)
     echo \$filename , \$n_residues >>argres.pdb
     grep ^ATOM \$filename | grep ARG | grep CA | sort | uniq -w 20 >arg.pdb
     awk ' \$9>100 {print \$2 , \$3 , \$4 , \$7 , \$8 , \$9} ' arg.pdb >>xyz.pdb    # permette di selezionare solo gli atomi legati ad un residuo di ARG che si
                                                                   # trovano in una posizione con z>100
sort -g argres.pdb > argres.csv                    # permette di ordinare i file 
done

cat argres.csv
echo
cat xyz.pdb " > es_5.sh

     


In [None]:
!bash es_5.sh

**ESERCIZIO 6** (script)

Realizzare uno script che permetta di:


*   Chiedere all'utente quale cartella aprire e stampare a video tutti i file presenti nella cartella
*   Chieda all'utente di inserire il nome del file da analizzare e il residuo da contare

*   Verifichi che il nome del file sia stato inserito nel formato corretto e conti il numero di residui del tipo scelto
*   Stampi a video " Il < filename > contiene < n_residui > di < res_name> "

**HINTS**: echo, read, cd, while, grep




*Eseguendo questa cella vi verrà chiesto di inserire il percorso della cartella di cui volete analizzare i file. Per poter procedere con l'esecuzione del programma su colab è necessario digitare **/content**. Se eseguite invece il codice sul vostro terminale linux dovrete inserire il percorso completo della cartella presente sul vistro computer.*

In [None]:
#@title soluzione script es6
%%bash
echo "#!/bin/bash
read -p 'Inserire la directory della cartella a cui si vuole accedere: ' directory         # permette di acquisire una varialbile inserita in input dall'utente
cd \$directory
#ls                   # stampa a video tutti i file presenti nella cartella
read -p 'Inserire il nome del file da analizzare: ' filename
read -p 'Inserire il nome del residuo da contare, utilizzando la sigla di tre cifre identificativa: ' res_name

# ciclo while/do --> esegue il contenuto del do fino a quando non è verificata la condizione []
while [ \$(expr length "\$res_name") -ne 3 ]       # il comando 'expr length' permette di leggere il numero di caratteri di una stringa
                                                 # E' differente dal comando 'wc' che legge solo file come input
do
echo Non è stato inserito correttamente il nome del residuo
read -p ' !!!Inserire il nome del residuo da contare, utilizzando la sigla di tre cifre identificativa: ' res_name
done


n_residues=\$(grep ATOM \$filename | grep \$res_name | sort | uniq -w 20 | wc -l)
echo In \$filename there are \$n_residues residues of \$res_name " > es_6.sh


In [None]:
!bash es_6.sh

Alcune celle utili:

In [None]:
from google.colab import files
files.upload()

In [None]:
!pip install google-colab-shell
from google_colab_shell import getshell
getshell()