# 3. Shell

>Számítógépes nyelvészet, 2018 tavasz

>Simon Eszter, Mittelholcz Iván

>MTA, Nyelvtudományi Intézet

## Tartalom

* [1. Alapfogalmak](#1.-Alapfogalmak)
* [2. Történelem](#2.-Történelem)
* [3. Hogyan működik](#3.-Hogy-működik?)
* [4. Fájlkezelés](#4.-Fájlkezelés)
* [5. Tulajdonságok](#5.-Tulajdonságok)
* [6. Fontosabb parancsok](#6.-Fontosabb-parancsok)
* [7. Irodalom](#7.-Irodalom)

## 1. Alapfogalmak

Kernel (rendszermag): erőforrások kezelése, absztrakció

* feladatütemezés (folyamatok hozzáférése a CPU-hoz)
* memória (RAM) kezelés
* fájlrendszer
* I/O
* stb.

Alkalmazások:

* külön programok
* a kernelen keresztül férnek hozzá a gép erőforrásaihoz

Shell (rendszerhéj): karakteres felhasználói felület alkalmazások futtatására

* maga is alkalmazás, több féle van, cserélhető
    * mostanában Linux-ok többségén és OS X-en a [__bash__](https://www.gnu.org/software/bash/) az alapértelmezett
* programozási nyelv (interpretált)

In [None]:
%%bash
 ls -la

## 2. Történelem

* 1969: UNIX oprendszer. Kezdetben hozzávágják mindenkihez, aki gépet vesz, aztán rájönnek, hogy a szoftver is lehet üzlet $\to$ zárt lesz.
* 1983: GNU (GNU's Not Unix). UNIX-szerű, de nem tartalmaz UNIX-ból származó kódot (mindent újraimplementálnak nulláról). Open source. Kernel nincs (Hurd), minden más van (C fordító, debugger és library, shell, make, TeX, ablak kezelő, stb.).
* 1991: Linux kernel.
* Azóta:
    * __GNU/Linux__. Linux kernel + GNU eszközök + mindenféle más. Röviden ezt nevezik Linux-nak.
    * __UNIX-like__: olyan rendszerek, amik _hasonlóan néznek ki_, mint a UNIX (GNU/Linux, BSD, OS X, stb.)

## 3. Hogy működik?

**Keresési sorrend**

* _alias_-ok között (`alias <név>='<utasítások>'`, pl. `alias ll='ls -l'`)
* _builtin_-ek között (pl. `alias`, `echo`, bővebben l. [itt](https://www.gnu.org/software/bash/manual/html_node/Bash-Builtins.html))
* *alkalmazás*ok között (pl. `ls`, `grep`, stb.)

Mi számít külső alkalmazásnak? A `$PATH` változóban felsorolt könyvtárakban lévő futtatható fájlok.

In [None]:
%%bash

echo $PATH

**Változók**

* minden string
* a szóköz delimiter, utána új kifejezés kezdődik, ezért
    * értékadásban az `=` körül nincs szóköz
    * ha az érték szóközt tartalmaz, akkor idézőjel kell
* duplaidézőjelnél van helyettesítés, szimplánál nincs
* hivatkozás `$<változó>` vagy `${<változó>}` formában

In [None]:
%%bash

# értékadás
a=alma #barack
b="$a barack"
c='$a citrom'

# hivatkozás
echo $a
echo $b
echo $c

**Alkalmazás indítása**

Ha külső parancsot kell végrehajtania, a shell

1. létrehozza saját maga klónját (fork) -- gyerekfolyamat
2. a forkban futtatja a kapott parancsot (exec).

$\to$ Semmilyen változás nem terjed visszafelé, minden csak a gyerekfolyamatokban érvényes (pl. PATH megváltoztatása, új alias, stb). Ez a shell szkriptekre is igaz: azok is új shell-ben futnak, nincs hatásuk az indíto shell-re.

In [None]:
%%bash
echo 'eredeti:' "'$var'"
bash
var='alma'
echo 'uj:' "'$var'"
exit
echo 'eredeti:' "'$var'"

**Gyakorlat**

1. Írjunk Python shell-t!
    * hint: `exec()`, l. [itt](https://docs.python.org/3/library/functions.html#exec)
2. Írjunk shell-t!
    * hint: `subprocess.run()`, l. [itt](https://docs.python.org/3/library/subprocess.html#using-the-subprocess-module)

## 4. Fájlkezelés

Alapvető parancsok

* `ls`: könyvtár tartalmának listázása
* `mkdir <könyvtár>`: könyvtár létrehozása
* `rmdir <könyvtár>`: könyvtár törlése (csak üres könyvtárra)
* `cp <honnan> <hova>`: fájl/könyvtár másolása
* `mv <mit> <mire>`: fájl/könyvtár átnevezése/mozgatása 
* `rm <fájl>`: törlés
* `pwd`: aktuális könyvtár
* `cd`: aktuális könyvtár váltása (*change directory*)

Kiemelt könyvárak rövidítései:

* `.`: jelenlegi könyvtár
* `..`: szülő könyvtár
* `/`: gyökér könyvtár


Egy fájlt / könyvtárat meg lehet adni abszolút és relatív módon is:
* *abszolút*: a gyökértől
* *relatív*: az aktuális könyvtártól

## 5. Tulajdonságok

**Programok indítása, paraméterezése**

paraméterek:

* opcionálisak vagy kötelezőek
* rövidítettek vagy hosszúak (pl. `-a` vagy `--all`)
* össze nem vontak vagy összevontak (pl. `-a -l` vagy `-al`) -- ez csak a rövidítettekre működik!
* értéktelenek vagy értékesek esetleg opcionálisan értékesek (pl. az `ls --color` ugyan az, mint az `ls --color=always`, de nem ugyanaz, mint a `--color=never`).

In [None]:
%%bash
ls
echo
ls --all -l
echo
ls -la
echo
ls -la --color=always

**Saját programok futtatása**

* [shebang](https://en.wikipedia.org/wiki/Shebang_%28Unix%29)

In [None]:
%%bash
cat hello.sh

In [None]:
%%bash
cat hello.py

In [None]:
%%bash
bash hello.sh
python3 hello.py

In [None]:
%%bash
./hello.sh

**Jogosultságkezelés**

`chmod <felhasználó><művelet><jog>`: jogosultság megváltoztatása

* Felhasználók:
    * Tulajdonos (**u**)
    * Csoport (**g**)
    * Mások (**o**)
* Műveletek:
    * `+`: jog megadása
    * `-`: jog elvétele
* Jogok:
    * olvasási (**r**)
    * írási (**w**)
    * végrehajtási (**x**)

In [None]:
%%bash
chmod u+x hello.sh
./hello.sh

In [None]:
%%bash

# futtatás máshonnan
pwd
cd ..
pwd
./03.Shell/hello.sh
cd -

**Parancsbehelyettesítés**

`` `<parancs>` `` vagy `$(<parancs>)` formában

In [None]:
%%bash

# futtatás abszolút elérési úttal (nem kell '.'-tal kezdeni!)
/`pwd`/hello.sh

**Wildcard-ok**

* `?` egy tetszőleges karakter helyett állhat
* `*` bárhány bármi helyett állhat
* `[chars]`: a szögletes zárójelben megadott karakterek valamelyike helyett állhat, tartomány is használható (pl. `[A-Z]` egy nagybetűt helyettesíthet)

In [None]:
%%bash
ls train/*.txt

**Pipe**

A`|` karakterrel lehet egy parancs kimenetét átadni a következő parancsnak bemenetként.

In [None]:
%%bash

ls | wc

**Átirányítás**

Standard kommunikációs csatornak:

* stdin
* stdout
* stderr

Átirányítások:

* `command <filename`: fájl $\to$ stdin
* `command >filename`: stdout $\to$ fájl (felülír)
* `command >>filename`: stdout $\to$ fájl (appendál)
* `command 2>filename`: stderr $\to$ fájl

Speciális fájl a `/dev/null`, ami minden adatot "elnyel". Pl. a `command 2>/dev/null` minden hibaüzenetet eltüntet, csak a "rendes" kimenet lesz olvasható.

In [None]:
%%bash
# stdout és stdin
ls -la >list.txt
cat <list.txt

In [None]:
%%bash
# stderr
ls nincsilyenkonyvtar/ 2>err.txt
cat err.txt

## 6. Fontosabb parancsok

**Infó**

* `<command> -h` vagy `--help`: rövid használati utasítás
* `man <command>`: ezzel lehet egy program manual-ját megnyitni


**Szövegmegjelenítés, statisztika**

* `echo <string>`: String stdout-ra írása.
    * `-n`: nem ír újsor karaktert a végére
    * `-e`: értelmezi a backslash-elt karaktereket (`\n`, `\t`, stb.)
* `cat`: Fájlok konkatenálása és stdout-ra írása.
* `head -n <num>`: Fájl vagy stdin első _n_ sorának megjelenítése (default 10).
* `tail -n <num>`: Fájl vagy stdin utolsó _n_ sorának megjelenítése (default 10).
* `less`: Fájl vagy stdin megnyitása olvasásra (a vim-hez hasonlóan, kersés előre a `/`, vissza a `?` karakterekkel lehetséges).
* `wc`: Sorok, szavak és karakterek számolása.
    * `-l`: sorok
    * `-w`: szavak
    * `-c`: karakterek 

**Stringmanipuláció**

* `grep <kifejezés>`: Fájl vagy a stdin szűrése, a kifejezést tartalmazó sorokra.
    * `-i`: ignore case
    * `-v`: fordított működés - a nem illeszkedő sorokat átengedi, az illeszkedőket kiszűri
    * `-r <könyvtár>`: rekurívan keres a könyvtár minden alkönyvtárjában
* `tr "<char1>" "<char2>"`: A stdin-en lecseréli `char1`-eket `char2` karakterekre. Több karakter is megadható egyszerre, pl. a `tr "ab" "xy"` az *a*-kat *x*-ekre, a *b*-ket *y*-okra cseréli le.
* `sed "s/mit/mire/g"`: Kifejezés keresése és cseréje fájlban vagy stdin-en.
* `sort`: Rendezés.
    * `-n`: numerikus rendezés (a default lexikális helyett, pl. 10 > 9)
    * `-r`: fordított sorrend
* `uniq`: Sorok egyelése. Csak az egymást követő azonos sorokat egyeli, ezért előtte szükséges lehet rendezni.
    * `-c`: a sorok elé írja, hány darab volt belőlük
* `cut`: Oszlopok szelektálása. Default: `TAB`-ok mentén.
    * `-d"<char>"`: határoló karakter (pl. `-d";"`, `-d" "`)
    * `-f<nums>`: oszlopszám (pl. `-f2`, `-f2,4`, `-f2-4`)

**Gyakorlatok**

1. Melyik "stopwords" fájl tartalmazza a legtöbb szót (l. a `train/` könyvtárat)?
2. A `train/stopwordsX.txt` listákból készítsünk egy közös, minden szót egyszer tartalmazó listát `train/stopwords-full.txt` néven.
3. A fenti fájlból hány szónak részstringje a *meg*?
4. Daraboljuk fel a PATH változót úgy, hogy minden könyvtár külön sorban legyen!
5. A `train/ki_csinal_szodat.tsv` fájl egy e-magyar-os elemzéseket tartalmazó fájl. Az egyes elemzéseket `TAB` választja el egymástól. Listázzuk a határozószókat ("Adv") gyakoriságukkal együtt. (szó: 2. oszlop, szófaj: 7. oszlop)!

## 7. Irodalom

* Software Carpentry: [The Unix Shell](http://swcarpentry.github.io/shell-novice/)
* [Bash dokumentáció](https://www.gnu.org/software/bash/manual/)
* [Advanced Bash-Scripting Guide](http://tldp.org/LDP/abs/html/index.html)

***

In [None]:
%%bash

# takaritas
rm -f *.txt