# Семинар №1. Bash, HDFS, S3
Добро пожаловать на вводный семинар по основам Data Engineering! В этом ноутбуке мы познакомимся с базовыми инструментами и технологиями, которые играют ключевую роль в работе с данными. Мы рассмотрим:

- Bash: мощную командную оболочку, используемую для управления операционными системами и автоматизации задач.
- HDFS: распределенную файловую систему, которая является центральным компонентом экосистемы Hadoop и позволяет эффективно хранить и обрабатывать большие объемы данных.
- Amazon S3: объектное хранилище от AWS, широко используемое для надежного хранения и архивации данных.

# Bash
Bash, или Bourne Again SHell, — это популярная командная оболочка и язык сценариев, используемый в UNIX и Linux системах. 
Он предоставляет мощные возможности для управления операционной системой через командную строку, позволяя автоматизировать задачи и управлять системными процессами. 
Bash позволяет объединять простые команды в сложные сценарии, что делает его незаменимым для системных администраторов и разработчиков.

Одной из ключевых особенностей Bash является его способность перенаправлять ввод и вывод, что позволяет комбинировать команды и обрабатывать данные эффективно. 
Bash поддерживает условия, циклы и функции, предоставляя пользователям гибкие инструменты для выполнения широкого спектра задач. Он остается важным инструментом для 
специалистов по данным и DevOps-инженеров, помогая автоматизировать рабочие процессы и управлять сложными системами.

## Потоки данных

Сильная сторона языка Bash - это возможности по работе с перенаправлениями потоками данных между подпрограммами.

Для Bash каждую программу можно представить в следующем виде - это черный ящик, которому

На вход подается какой-то источник данных, а также аргументы запуска

На выход выдает два источника данных - это вывод результата и вывод ошибок.

<img src="https://raw.githubusercontent.com/ADKosm/lsml-2021-public/main/imgs/bash-flow-control-1.png">

Чаще всего к такому "ящику" подключаются три стандартный источника данных - это stdin, stdout и stderr.

<img src="https://raw.githubusercontent.com/ADKosm/lsml-2021-public/main/imgs/bash-flow-control-2.png">

Все эти три источника, как и все в UNIX, являются виртуальными файлами и выполняют следующие функции

* stdin представляет весь поток данных, который пользователь вводит с клавиатуры
* stdout представляет весь поток данных, который программа печатает на экран
* stderr представляет весь поток данных об ошибках в работе программы, который программа также печатает на экран

Все эти источники находятся по следующим путям: `/dev/stdout`, `/dev/stdin`, `/dev/stderr`. Можно заглянуть в директорию `/dev/` и посмотреть, сколько еще виртуальных источников данных есть в компьютере.

## Потоки ввода/вывода и построение pipes

In [9]:
! pwd

/home/jovyan/work


NameError: name 'ls' is not defined

In [10]:
%%bash
pwd
ls
ls -la

/home/jovyan/work
seminar1.ipynb
total 72
drwxr-xr-x 5 root   root    160 Sep 25 11:55 .
drwsrws--- 1 jovyan users  4096 Sep 25 11:42 ..
-rw-r--r-- 1 root   root   6148 Sep 25 08:24 .DS_Store
drwxr-xr-x 3 root   root     96 Sep 25 11:49 .ipynb_checkpoints
-rw-r--r-- 1 root   root  56747 Sep 25 11:55 seminar1.ipynb


In [11]:
! mkdir seminar1_dir

In [13]:
! pwd

/home/jovyan/work


In [16]:
%cd seminar1_dir

/home/jovyan/work/seminar1_dir


In [17]:
! pwd

/home/jovyan/work/seminar1_dir


In [18]:
! echo "some gibberish"

some gibberish


In [19]:
! touch meaningful_text

Вывод программы (поток stdout) можно **перенаправлять** с помощью оператора `>`

In [20]:
! echo "some gibberish for file" > meaningful_text

In [24]:
! cat meaningful_text

In [22]:
! cat meaningful_text meaningful_text # читаем содержимое два раза. Так, кстати, можно писать комментарии

some gibberish for file
some gibberish for file


In [23]:
! cat meaningful_text meaningful_text > meaningful_text # можно перенаправлять потоки вывода в файл, но не в тот же

In [25]:
! cat meaningful_text meaningful_text > really_meaningful_text

In [27]:
! cat really_meaningful_text

Оператор `>` полностью перезатирает файл, если мы хотим **добавить строки** к уже существующим, то нужно использовать `>>`

In [28]:
! echo "some gibberish for file" > really_meaningful_text

In [29]:
! echo "London is the capital of Great Britain" >> really_meaningful_text

In [30]:
! cat really_meaningful_text

some gibberish for file
London is the capital of Great Britain


Можно перенаправлять не только вывод, но и ввод

In [31]:
%%writefile likes.py
word = input()
for i in range(1, 6):
    if i == 1:
        print(f'I have 1 {word}')
    else:
        print(f'I have {i} {word}s')

Writing likes.py


In [32]:
! ls

likes.py  meaningful_text  really_meaningful_text


In [33]:
! echo "banana" > fruit.txt

In [34]:
! python3 likes.py < fruit.txt

I have 1 banana
I have 2 bananas
I have 3 bananas
I have 4 bananas
I have 5 bananas


С помощью оператора `<<` можно направить в исполняемую программу сразу несколько строк, обозначив их начало и конец некоторым маркером

In [40]:
%%bash

python3 -c "import sys; print(', '.join([s.strip() for s in sys.stdin]))" <<ASDF
amogus
capibara
labubu
differantial
equasion
ASDF

amogus, capibara, labubu, differantial, equasion


**Оператор <()** в Bash известен как "process substitution" или подстановка процесса. Он позволяет использовать вывод команды как файл, предоставляя временный файловый дескриптор. 
Это полезно, когда программа ожидает файл в качестве входных данных, но вы хотите передать ей результат выполнения команды.

In [41]:
! cat <(echo Bipki)

Bipki


In [42]:
! echo <(echo Bipki)

/dev/fd/63


In [43]:
%%bash
mkdir -p folder1
touch folder1/file1.txt folder1/file2.txt folder1/file3.txt

mkdir -p folder2
touch folder2/file2.txt folder2/file3.txt folder2/file4.txt

In [44]:
! ls 

folder1  folder2  fruit.txt  likes.py  meaningful_text	really_meaningful_text


In [45]:
! ls folder1

file1.txt  file2.txt  file3.txt


In [46]:
! ls folder2

file2.txt  file3.txt  file4.txt


In [47]:
! diff <(ls folder1) <(ls folder2)

1d0
< file1.txt
3a3
> file4.txt


**Оператор |**, известный как **"pipe" (труба)**, используется для передачи вывода одной команды в качестве ввода для другой команды. Это позволяет 
объединять несколько команд в цепочку, где каждая команда обрабатывает данные, переданные ей предыдущей командой. Например, команда ls -l | grep ".txt" 
сначала выводит список всех файлов в текущей директории с подробной информацией (ls -l), а затем передает этот вывод команде grep, которая фильтрует строки, 
содержащие ".txt". Pipe позволяет создавать мощные и гибкие наборы команд для обработки данных.

In [48]:
! ls | grep py

likes.py


In [49]:
! ls | grep txt

fruit.txt


In [52]:
! ls -l

total 12
drwxr-xr-x 5 root root 160 Sep 25 12:02 folder1
drwxr-xr-x 5 root root 160 Sep 25 12:02 folder2
-rw-r--r-- 1 root root   7 Sep 25 11:59 fruit.txt
-rw-r--r-- 1 root root 133 Sep 25 11:58 likes.py
-rw-r--r-- 1 root root   0 Sep 25 11:57 meaningful_text
-rw-r--r-- 1 root root  63 Sep 25 11:58 really_meaningful_text


In [50]:
! ls -l | wc -l | python3 -c "n = int(input()); print(f'there are {n} objects in current directory')"

there are 7 objects in current directory


**Оператор $()**, известный как "command substitution" (подстановка команды), позволяет выполнять команду и подставлять ее вывод в 
другое место в командной строке. Это полезно, когда вам нужно использовать результат команды в качестве аргумента для другой команды.

In [53]:
! echo Current derectory is - $(pwd)

Current derectory is - /home/jovyan/work/seminar1_dir


**xargs** — это утилита командной строки в UNIX и Linux системах, которая используется для построения и выполнения команд, 
передавая аргументы из стандартного ввода. Основная задача xargs — взять вывод одной команды и превратить его в аргументы для другой команды.

In [54]:
! find -name "*txt"

./folder2/file2.txt
./folder2/file3.txt
./folder2/file4.txt
./fruit.txt
./folder1/file2.txt
./folder1/file3.txt
./folder1/file1.txt


In [59]:
! find -name "*py" | xargs cat

word = input()
for i in range(1, 6):
    if i == 1:
        print(f'I have 1 {word}')
    else:
        print(f'I have {i} {word}s')


In [57]:
! wc fruit.txt ./folder1/* ./folder2/*

1 1 7 fruit.txt
0 0 0 ./folder1/file1.txt
0 0 0 ./folder1/file2.txt
0 0 0 ./folder1/file3.txt
0 0 0 ./folder2/file2.txt
0 0 0 ./folder2/file3.txt
0 0 0 ./folder2/file4.txt
1 1 7 total


In [66]:
%%writefile error.py
print("something normal")
raise ValueError("something strange")

Overwriting error.py


In [69]:
! python3 error.py 2>/dev/null

something normal


In [68]:
! cat error.log

Traceback (most recent call last):
  File "/home/jovyan/work/seminar1_dir/error.py", line 2, in <module>
    raise ValueError("something strange")
ValueError: something strange


# Базовые команды

Стоит отметить, что Bash - это лишь оболочка командной строки и сама по себе не умеет решать какие-либо задачи. Вся основная работа совершается с помощью различных команд (как встроенных, так и скачанных 
из сторонних репозиториев). Далее будут описаны и продемонстрированы наиболее распространенные из них

### Networking commands

Часто данные приходится откуда-то скачивать, а не генерировать самостоятельно. Для этого и других видов сетевого взаимодействия в unix системах существуют 2 очень популярные команды - *curl* и *wget*  
curl - обладает большим функционалом, поддерживает больше разных протоколов, однако менее удобен для скачивания. Это своего рода швейцарский нож  
wget - менее функционален, поддерживает лишь HTTP(S), FTP, однако более удобен для скачивания файлов, его можно считать по аналогии открывашкой для банок

In [70]:
! mkdir nets

In [71]:
%cd nets

/home/jovyan/work/seminar1_dir/nets


In [72]:
! curl -O -L https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 44225  100 44225    0     0  29171      0  0:00:01  0:00:01 --:--:-- 29172


In [73]:
! curl -L https://jsonplaceholder.typicode.com/users > users.json

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  5645    0  5645    0     0  30026      0 --:--:-- --:--:-- --:--:-- 30187


теперь попробуем скачать сразу несколько файлов с помощью wget, перечислив их в файле

In [74]:
%%writefile urls.txt
https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv
https://jsonplaceholder.typicode.com/users

Writing urls.txt


In [75]:
! wget -i urls.txt

--2025-09-25 12:11:56--  https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv
Resolving web.stanford.edu (web.stanford.edu)... 171.67.215.200, 2607:f6d0:0:925a::ab43:d7c8
Connecting to web.stanford.edu (web.stanford.edu)|171.67.215.200|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 44225 (43K) [text/csv]
Saving to: ‘titanic.csv.1’


2025-09-25 12:11:57 (197 KB/s) - ‘titanic.csv.1’ saved [44225/44225]

--2025-09-25 12:11:57--  https://jsonplaceholder.typicode.com/users
Resolving jsonplaceholder.typicode.com (jsonplaceholder.typicode.com)... 172.67.167.151, 104.21.59.19, 2606:4700:3030::6815:3b13, ...
Connecting to jsonplaceholder.typicode.com (jsonplaceholder.typicode.com)|172.67.167.151|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [application/json]
Saving to: ‘users’

users                   [ <=>                ]   5.51K  --.-KB/s    in 0.001s  

2025-09-25 12:11:57 (3.70 MB/s) - ‘users’ saved

In [78]:
! ls

titanic.csv  urls.txt  users.json


In [77]:
! rm users titanic.csv.1

### Head
head читает определенное количество данных с начала файла. Это полезно, например, когда хочется посмотреть на часть данных, которая лежит на диске.

In [79]:
! head /etc/hosts

127.0.0.1	localhost
::1	localhost ip6-localhost ip6-loopback
fe00::	ip6-localnet
ff00::	ip6-mcastprefix
ff02::1	ip6-allnodes
ff02::2	ip6-allrouters
172.18.0.7	33fcf360a43f


In [80]:
! head -n 2 /etc/hosts  # Читаем только первые 2 строки

127.0.0.1	localhost
::1	localhost ip6-localhost ip6-loopback


In [81]:
! head -c 10 /etc/hosts  # Читаем только первые 10 байт

127.0.0.1	

In [82]:
! cat /etc/hosts | head -n 2 # Как и почти все программы, которые мы рассмотрим, умеет работать с вводом

127.0.0.1	localhost
::1	localhost ip6-localhost ip6-loopback


### Tail
tail делает то же самое, что и head, но с конца файла

In [83]:
! tail /etc/hosts

127.0.0.1	localhost
::1	localhost ip6-localhost ip6-loopback
fe00::	ip6-localnet
ff00::	ip6-mcastprefix
ff02::1	ip6-allnodes
ff02::2	ip6-allrouters
172.18.0.7	33fcf360a43f


In [84]:
! tail -n 2 /etc/hosts

ff02::2	ip6-allrouters
172.18.0.7	33fcf360a43f


In [86]:
! tail -n +4 /etc/hosts  # все строки после второй строки (включая вторую строку)

ff00::	ip6-mcastprefix
ff02::1	ip6-allnodes
ff02::2	ip6-allrouters
172.18.0.7	33fcf360a43f


In [87]:
! cat /etc/hosts | tail -n 2

ff02::2	ip6-allrouters
172.18.0.7	33fcf360a43f


### sed


sed нужна для замены подстрок в потоке. Можно использовать как стандартный синтаксис, так и регулярные выражения

In [88]:
! cat titanic.csv | grep "Mr."

0,3,Mr. Owen Harris Braund,male,22,1,0,7.25
1,1,Mrs. John Bradley (Florence Briggs Thayer) Cumings,female,38,1,0,71.2833
1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35,1,0,53.1
0,3,Mr. William Henry Allen,male,35,0,0,8.05
0,3,Mr. James Moran,male,27,0,0,8.4583
0,1,Mr. Timothy J McCarthy,male,54,0,0,51.8625
1,3,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,female,27,0,2,11.1333
1,2,Mrs. Nicholas (Adele Achem) Nasser,female,14,1,0,30.0708
0,3,Mr. William Henry Saundercock,male,20,0,0,8.05
0,3,Mr. Anders Johan Andersson,male,39,1,5,31.275
1,2,Mrs. (Mary D Kingcome) Hewlett,female,55,0,0,16
1,2,Mr. Charles Eugene Williams,male,23,0,0,13
0,3,Mrs. Julius (Emelia Maria Vandemoortele) Vander Planke,female,31,1,0,18
1,3,Mrs. Fatima Masselmani,female,22,0,0,7.225
0,2,Mr. Joseph J Fynney,male,35,0,0,26
1,2,Mr. Lawrence Beesley,male,34,0,0,13
1,1,Mr. William Thompson Sloper,male,28,0,0,35.5
1,3,Mrs. Carl Oscar (Selma Augusta Emilia Johansson) Asplund,female,38,1,5,31.3875
0,3,Mr. Far

In [89]:
! cat titanic.csv | sed "s/Mr\./Dude/" | grep "Dude" | head

0,3,Dude Owen Harris Braund,male,22,1,0,7.25
0,3,Dude William Henry Allen,male,35,0,0,8.05
0,3,Dude James Moran,male,27,0,0,8.4583
0,1,Dude Timothy J McCarthy,male,54,0,0,51.8625
0,3,Dude William Henry Saundercock,male,20,0,0,8.05
0,3,Dude Anders Johan Andersson,male,39,1,5,31.275
1,2,Dude Charles Eugene Williams,male,23,0,0,13
0,2,Dude Joseph J Fynney,male,35,0,0,26
1,2,Dude Lawrence Beesley,male,34,0,0,13
1,1,Dude William Thompson Sloper,male,28,0,0,35.5
grep: write error: Broken pipe


In [90]:
! cat titanic.csv | sed "s/0/ZERO/" | grep "ZERO" | head

ZERO,3,Mr. Owen Harris Braund,male,22,1,0,7.25
1,1,Mrs. John Bradley (Florence Briggs Thayer) Cumings,female,38,1,ZERO,71.2833
1,3,Miss. Laina Heikkinen,female,26,ZERO,0,7.925
1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35,1,ZERO,53.1
ZERO,3,Mr. William Henry Allen,male,35,0,0,8.05
ZERO,3,Mr. James Moran,male,27,0,0,8.4583
ZERO,1,Mr. Timothy J McCarthy,male,54,0,0,51.8625
ZERO,3,Master. Gosta Leonard Palsson,male,2,3,1,21.075
1,3,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,female,27,ZERO,2,11.1333
1,2,Mrs. Nicholas (Adele Achem) Nasser,female,14,1,ZERO,30.0708
grep: write error: Broken pipe


In [91]:
! cat titanic.csv | sed "s/0/ZERO/g" | grep "ZERO" | head


ZERO,3,Mr. Owen Harris Braund,male,22,1,ZERO,7.25
1,1,Mrs. John Bradley (Florence Briggs Thayer) Cumings,female,38,1,ZERO,71.2833
1,3,Miss. Laina Heikkinen,female,26,ZERO,ZERO,7.925
1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35,1,ZERO,53.1
ZERO,3,Mr. William Henry Allen,male,35,ZERO,ZERO,8.ZERO5
ZERO,3,Mr. James Moran,male,27,ZERO,ZERO,8.4583
ZERO,1,Mr. Timothy J McCarthy,male,54,ZERO,ZERO,51.8625
ZERO,3,Master. Gosta Leonard Palsson,male,2,3,1,21.ZERO75
1,3,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,female,27,ZERO,2,11.1333
1,2,Mrs. Nicholas (Adele Achem) Nasser,female,14,1,ZERO,3ZERO.ZERO7ZERO8
grep: write error: Broken pipe
sed: couldn't write 72 items to stdout: Broken pipe


### Sort
sort сортирует входные данные. По умолчанию используется лексикографический порядок, но это поведение можно поменять с использованием специальных опций.

In [92]:
%%writefile numbers.txt
3
5
1
2
6
5
9
4
5
6
7
3
2
10
5
6

Writing numbers.txt


In [93]:
! sort numbers.txt  # Сортируем как строки

1
10
2
2
3
3
4
5
5
5
5
6
6
6
7
9


In [94]:
! cat numbers.txt | sort

1
10
2
2
3
3
4
5
5
5
5
6
6
6
7
9


In [95]:
! cat numbers.txt | sort -n # Сортируем как числа

1
2
2
3
3
4
5
5
5
5
6
6
6
7
9
10


Если в данных есть сразу несколько "колонок" (например в каждой строке есть значения, разделенные пробельным символом), то можно отдельно указать, по какому полю необходимо сортировать

In [100]:
%%writefile number-table.txt
1 10
2 9
3 8
4 7
5 13
5 6
6 5
7 4
8 3
9 2
10 1

Overwriting number-table.txt


In [101]:
! cat number-table.txt | sort -k1,1 -n

1 10
2 9
3 8
4 7
5 13
5 6
6 5
7 4
8 3
9 2
10 1


In [106]:
! cat number-table.txt | sort -k1,1 -k2,2 -n

1 10
2 9
3 8
4 7
5 6
5 13
6 5
7 4
8 3
9 2
10 1


In [98]:
! cat number-table.txt | sort -k2,2 -n

10 1
9 2
8 3
7 4
6 5
5 6
4 7
3 8
2 9
1 10


In [107]:
! cat number-table.txt | sort -k2,2 -k1,1 -n

10 1
9 2
8 3
7 4
6 5
5 6
4 7
3 8
2 9
1 10
5 13


In [108]:
! cat numbers.txt | sort -n -r  # Сортируем в обратном порядке

10
9
7
6
6
6
5
5
5
5
4
3
3
2
2
1


### Uniq
uniq оставляет только уникальные значения. Однако он корректно работает только с отсортированными данными. Для этого мы можем предварительно использовать sort.

Помимо операции схлопывания одинаковых значений, uniq также умеет считать простые статистики для схлопнувшихся групп. Этот функционал чем-то напоминает group by. Так, ключ -c считает количество элементов в каждой группе.

Подробнее можно узнать здесь - https://www.opennet.ru/man.shtml?topic=uniq&category=1&russian=0

In [109]:
! cat numbers.txt | uniq  # Не совсем тот результат, что мы ожидаем

3
5
1
2
6
5
9
4
5
6
7
3
2
10
5
6


In [111]:
! cat numbers.txt | sort -n | uniq  # А вот так уже работает

1
2
3
4
5
6
7
9
10


По ходу "схлопывания" uniq умеет еще и подсчитывать количество схлопнутых элементов. Таким образом можно считать количество каждого элемента.

In [112]:
! cat numbers.txt | sort | uniq -c

      1 1
      1 10
      2 2
      2 3
      1 4
      4 5
      3 6
      1 7
      1 9


In [113]:
%%writefile words.txt
Lorem
ipsum
dolor
sit
met
consectetur
incididunt
elit
seddo
ipsum
tempor
incididunt
ut
laboret
dolor
ipsum
aliqua
ipsum

Writing words.txt


In [114]:
! cat words.txt | sort | uniq -c 

      1 aliqua
      1 consectetur
      2 dolor
      1 elit
      2 incididunt
      4 ipsum
      1 laboret
      1 Lorem
      1 met
      1 seddo
      1 sit
      1 tempor
      1 ut


### Wc
wc (word count) считает количество элементов во входных данных. По умолчанию считает три характеристики - количество строк, количество слов, количество байт. Различные опции позволяют считать какую-то одну из характеристик. Например -l считает количество строк в данных.

Подробнее можно узнать здесь - https://www.opennet.ru/man.shtml?topic=wc&category=1&russian=0

In [115]:
! cat numbers.txt | wc

     16      16      33


In [116]:
! cat number-table.txt | wc

     11      22      47


In [118]:
! cat number-table.txt | wc -l # Количество элементов в файле

11


In [119]:
! cat numbers.txt | sort | uniq | wc -l  # Количество уникальных элементов в файле

9


### Shuf
shuf напротив, случайным образом перемешивает входящие данные. Для MacOS: ```brew install coreutils```

In [121]:
! cat numbers.txt | sort -n | shuf

5
5
5
10
6
3
6
1
2
2
4
9
3
6
7
5


### Cut

cut парсит строки, которые состоят из значений с разделителем. С помощью утилиты можно обрабатывать различные регулярные форматы данных, базирующиеся на разделителях. Например csv или tsv. Для мака: `brew install wget`

In [122]:
! head titanic.csv

Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,3,Mr. Owen Harris Braund,male,22,1,0,7.25
1,1,Mrs. John Bradley (Florence Briggs Thayer) Cumings,female,38,1,0,71.2833
1,3,Miss. Laina Heikkinen,female,26,0,0,7.925
1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35,1,0,53.1
0,3,Mr. William Henry Allen,male,35,0,0,8.05
0,3,Mr. James Moran,male,27,0,0,8.4583
0,1,Mr. Timothy J McCarthy,male,54,0,0,51.8625
0,3,Master. Gosta Leonard Palsson,male,2,3,1,21.075
1,3,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,female,27,0,2,11.1333


In [123]:
! sed '1d' titanic.csv | cut -d',' -f1,3,5 | head -n 10

0,Mr. Owen Harris Braund,22
1,Mrs. John Bradley (Florence Briggs Thayer) Cumings,38
1,Miss. Laina Heikkinen,26
1,Mrs. Jacques Heath (Lily May Peel) Futrelle,35
0,Mr. William Henry Allen,35
0,Mr. James Moran,27
0,Mr. Timothy J McCarthy,54
0,Master. Gosta Leonard Palsson,2
1,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,27
1,Mrs. Nicholas (Adele Achem) Nasser,14
cut: write error: Broken pipe


посчитаем, сколько всего записей

In [124]:
! sed '1d' titanic.csv | head -n 10

0,3,Mr. Owen Harris Braund,male,22,1,0,7.25
1,1,Mrs. John Bradley (Florence Briggs Thayer) Cumings,female,38,1,0,71.2833
1,3,Miss. Laina Heikkinen,female,26,0,0,7.925
1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35,1,0,53.1
0,3,Mr. William Henry Allen,male,35,0,0,8.05
0,3,Mr. James Moran,male,27,0,0,8.4583
0,1,Mr. Timothy J McCarthy,male,54,0,0,51.8625
0,3,Master. Gosta Leonard Palsson,male,2,3,1,21.075
1,3,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,female,27,0,2,11.1333
1,2,Mrs. Nicholas (Adele Achem) Nasser,female,14,1,0,30.0708
sed: couldn't write 54 items to stdout: Broken pipe


In [130]:
! sed '1d' titanic.csv | cut -d',' -f3 | sed '$d' | sort | uniq | wc -l

886


In [133]:
! sed '1d' titanic.csv | cut -d',' -f3 | sed '$d' | cut -d' ' -f2 | sort | uniq | wc -l

439


### Archives
Очень часто данные хранятся в виде архивов. Команды tar и zip\unzip позволяют распаковывать архивы.

tar имеет целый набор однобуквенных ключей, комбинация которых позволяет производить различные операции над архивами.

`c` - создать архив

`x` - распаковать архив

`z` - использовать алгоритм gzip. Архивы, созданные с таким алгоритмом, имеют расширение .tar.gz

`v` - печатать на экран детали распаковки

`f` - считать архив из указанного файла

zip\unzip работает немного проще. Команда zip создает новый архив, команда unzip распаковывает указанный архив.


In [134]:
# Создадим архив из файла users
! tar -czvf users.tar.gz users.json

users.json


In [135]:
! head -n 2 users.tar.gz

      �[o���|~���t�n}�L��t�L�xzEQ��#qL�.I%Q��߻i��ز�>��@ [�#������h��0J��
^��q��G�!Y��<�CZ����/��?�ؼQrq��˲����˃8$�	����L���4\TP3]�J�/�j�L����2�7�eu�y�ZI�2̖�u��Yw�	�=�z���������=h"��LxV�wjWô�u!p��x-�3�fy��n��


In [136]:
# Распакуем этот архив в новую директорию tar-grades
! mkdir -p tar-users && tar -xzvf users.tar.gz -C tar-users/

users.json


In [137]:
! ls tar-users/

users.json


In [138]:
! head tar-users/users.json

[
  {
    "id": 1,
    "name": "Leanne Graham",
    "username": "Bret",
    "email": "Sincere@april.biz",
    "address": {
      "street": "Kulas Light",
      "suite": "Apt. 556",
      "city": "Gwenborough",


In [140]:
! apt install zip

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  zip
0 upgraded, 1 newly installed, 0 to remove and 140 not upgraded.
Need to get 173 kB of archives.
After this operation, 523 kB of additional disk space will be used.
Get:1 http://ports.ubuntu.com/ubuntu-ports jammy/main arm64 zip arm64 3.0-12build2 [173 kB]
Fetched 173 kB in 1s (118 kB/s)0m[33m[33m
debconf: delaying package configuration, since apt-utils is not installed

7[0;23r8[1ASelecting previously unselected package zip.
(Reading database ... 66202 files and directories currently installed.)
Preparing to unpack .../zip_3.0-12build2_arm64.deb ...
7[24;0f[42m[30mProgress: [  0%][49m[39m [..........................................................] 87[24;0f[42m[30mProgress: [ 20%][49m[39m [###########...............................................] 8Unpacking zip (3.0-12build2) ...
7[24;0f[42m[30mProgress: [ 40%][4

In [141]:
# Сделаем точно тоже самое, но с помощью zip\unzip
! zip users.zip users.json

  adding: users.json (deflated 68%)


In [143]:
! du ./*

4	./numbers.txt
4	./number-table.txt
8	./tar-users
44	./titanic.csv
4	./urls.txt
8	./users.json
4	./users.tar.gz
4	./users.zip
4	./words.txt


In [144]:
! head -n 2 users.zip

     qa9[�s%�%  
�����3?��uO7$k7��~H���y���_��h�\_,��,�8�� �c�R�<�u�	f�5���3�����>,�O�$}*���ȧșҪ����'�(U�>���"��<�o�5���������$�e�"Y�zv


In [145]:
! mkdir -p zip-users && unzip users.zip -d zip-users/

Archive:  users.zip
  inflating: zip-users/users.json    


In [146]:
! ls zip-users/

users.json


In [147]:
! head zip-users/users.json

[
  {
    "id": 1,
    "name": "Leanne Graham",
    "username": "Bret",
    "email": "Sincere@april.biz",
    "address": {
      "street": "Kulas Light",
      "suite": "Apt. 556",
      "city": "Gwenborough",


In [149]:
! apt install jq -y

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following additional packages will be installed:
  libjq1 libonig5
The following NEW packages will be installed:
  jq libjq1 libonig5
0 upgraded, 3 newly installed, 0 to remove and 140 not upgraded.
Need to get 346 kB of archives.
After this operation, 1,043 kB of additional disk space will be used.
Get:1 http://ports.ubuntu.com/ubuntu-ports jammy/main arm64 libonig5 arm64 6.9.7.1-2build1 [169 kB]
Get:2 http://ports.ubuntu.com/ubuntu-ports jammy-updates/main arm64 libjq1 arm64 1.6-2.1ubuntu3.1 [126 kB]
Get:3 http://ports.ubuntu.com/ubuntu-ports jammy-updates/main arm64 jq arm64 1.6-2.1ubuntu3.1 [52.1 kB]
Fetched 346 kB in 2s (146 kB/s)0m[33m
debconf: delaying package configuration, since apt-utils is not installed

7[0;23r8[1ASelecting previously unselected package libonig5:arm64.
(Reading database ... 66216 files and directories currently installed.)
Preparing to unpack .../liboni

### Jq
jq не является стандартной программой и ее необходимо самостоятельно установить. Для Ubuntu - `sudo apt-get install jq`, для MacOS - `brew install jq`

jq - это манипулятор JSON документами. Имеет свой язык запросов к JSON, чем то похожий на пайплайны в bash.

Подробнее узнать можно здесь - https://stedolan.github.io/jq/

В файле users.json содержатся моковые данные и пользователях некоторого форума

In [150]:
! jq "." users.json


[1;39m[
  [1;39m{
    [0m[34;1m"id"[0m[1;39m: [0m[0;39m1[0m[1;39m,
    [0m[34;1m"name"[0m[1;39m: [0m[0;32m"Leanne Graham"[0m[1;39m,
    [0m[34;1m"username"[0m[1;39m: [0m[0;32m"Bret"[0m[1;39m,
    [0m[34;1m"email"[0m[1;39m: [0m[0;32m"Sincere@april.biz"[0m[1;39m,
    [0m[34;1m"address"[0m[1;39m: [0m[1;39m{
      [0m[34;1m"street"[0m[1;39m: [0m[0;32m"Kulas Light"[0m[1;39m,
      [0m[34;1m"suite"[0m[1;39m: [0m[0;32m"Apt. 556"[0m[1;39m,
      [0m[34;1m"city"[0m[1;39m: [0m[0;32m"Gwenborough"[0m[1;39m,
      [0m[34;1m"zipcode"[0m[1;39m: [0m[0;32m"92998-3874"[0m[1;39m,
      [0m[34;1m"geo"[0m[1;39m: [0m[1;39m{
        [0m[34;1m"lat"[0m[1;39m: [0m[0;32m"-37.3159"[0m[1;39m,
        [0m[34;1m"lng"[0m[1;39m: [0m[0;32m"81.1496"[0m[1;39m
      [1;39m}[0m[1;39m
    [1;39m}[0m[1;39m,
    [0m[34;1m"phone"[0m[1;39m: [0m[0;32m"1-770-736-8031 x56442"[0m[1;39m,
    [0m[34;1m"website"[0m[1;39m: [

In [153]:
! jq ".[] | length" users.json

[0;39m8[0m
[0;39m8[0m
[0;39m8[0m
[0;39m8[0m
[0;39m8[0m
[0;39m8[0m
[0;39m8[0m
[0;39m8[0m
[0;39m8[0m
[0;39m8[0m


In [154]:
! jq ".[0]" users.json

[1;39m{
  [0m[34;1m"id"[0m[1;39m: [0m[0;39m1[0m[1;39m,
  [0m[34;1m"name"[0m[1;39m: [0m[0;32m"Leanne Graham"[0m[1;39m,
  [0m[34;1m"username"[0m[1;39m: [0m[0;32m"Bret"[0m[1;39m,
  [0m[34;1m"email"[0m[1;39m: [0m[0;32m"Sincere@april.biz"[0m[1;39m,
  [0m[34;1m"address"[0m[1;39m: [0m[1;39m{
    [0m[34;1m"street"[0m[1;39m: [0m[0;32m"Kulas Light"[0m[1;39m,
    [0m[34;1m"suite"[0m[1;39m: [0m[0;32m"Apt. 556"[0m[1;39m,
    [0m[34;1m"city"[0m[1;39m: [0m[0;32m"Gwenborough"[0m[1;39m,
    [0m[34;1m"zipcode"[0m[1;39m: [0m[0;32m"92998-3874"[0m[1;39m,
    [0m[34;1m"geo"[0m[1;39m: [0m[1;39m{
      [0m[34;1m"lat"[0m[1;39m: [0m[0;32m"-37.3159"[0m[1;39m,
      [0m[34;1m"lng"[0m[1;39m: [0m[0;32m"81.1496"[0m[1;39m
    [1;39m}[0m[1;39m
  [1;39m}[0m[1;39m,
  [0m[34;1m"phone"[0m[1;39m: [0m[0;32m"1-770-736-8031 x56442"[0m[1;39m,
  [0m[34;1m"website"[0m[1;39m: [0m[0;32m"hildegard.org"[0m[1;39m,
  [0m

In [155]:
! jq ".[0] | keys" users.json


[1;39m[
  [0;32m"address"[0m[1;39m,
  [0;32m"company"[0m[1;39m,
  [0;32m"email"[0m[1;39m,
  [0;32m"id"[0m[1;39m,
  [0;32m"name"[0m[1;39m,
  [0;32m"phone"[0m[1;39m,
  [0;32m"username"[0m[1;39m,
  [0;32m"website"[0m[1;39m
[1;39m][0m


In [156]:
! jq ".[].name" users.json

[0;32m"Leanne Graham"[0m
[0;32m"Ervin Howell"[0m
[0;32m"Clementine Bauch"[0m
[0;32m"Patricia Lebsack"[0m
[0;32m"Chelsey Dietrich"[0m
[0;32m"Mrs. Dennis Schulist"[0m
[0;32m"Kurtis Weissnat"[0m
[0;32m"Nicholas Runolfsdottir V"[0m
[0;32m"Glenna Reichert"[0m
[0;32m"Clementina DuBuque"[0m


In [158]:
! jq ".[1:3] | .[].address.geo" users.json

[1;39m{
  [0m[34;1m"lat"[0m[1;39m: [0m[0;32m"-43.9509"[0m[1;39m,
  [0m[34;1m"lng"[0m[1;39m: [0m[0;32m"-34.4618"[0m[1;39m
[1;39m}[0m
[1;39m{
  [0m[34;1m"lat"[0m[1;39m: [0m[0;32m"-68.6102"[0m[1;39m,
  [0m[34;1m"lng"[0m[1;39m: [0m[0;32m"-47.0653"[0m[1;39m
[1;39m}[0m


In [159]:
! jq '.[] | select(.address.geo.lat|tonumber > -60) | select(.address.geo.lng|tonumber > -40) | .name' users.json

[0;32m"Leanne Graham"[0m
[0;32m"Ervin Howell"[0m
[0;32m"Chelsey Dietrich"[0m
[0;32m"Kurtis Weissnat"[0m
[0;32m"Clementina DuBuque"[0m


### S3

S3 (Simple Storage Service) — это облачное объектное хранилище, разработанное Amazon, которое позволяет сохранять и управлять любыми данными в виде объектов (файлов) внутри «бакетов» (логических контейнеров). В отличие от традиционных файловых систем, S3 ориентировано на масштабируемость и высокую доступность, обеспечивая хранение огромного объёма данных с возможностью управления доступом, версионирования, шифрования и интеграции с другими сервисами. Оно используется для резервного копирования, хранения медиа, логов, статических сайтов и как универсальное хранилище для облачных приложений, при этом доступ к объектам осуществляется через HTTP-API, совместимое с REST, что делает возможным работу с ним как с обычным файловым сервисом из приложений.


In [None]:
import boto3
import os

AWS_ACCESS_KEY_ID = "YOUR_ACCESS_KEY"
AWS_SECRET_ACCESS_KEY = "YOUR_SECRET_KEY"
ENDPOINT_URL = "https://my-minio.example.com"  # или None для AWS
REGION_NAME = "us-east-1"

BUCKET_NAME = "my-bucket"
FILE_TO_UPLOAD = "example.txt"
S3_KEY = "example.txt"
DOWNLOAD_PATH = "/tmp/downloaded.txt"

s3 = boto3.client(
    "s3",
    aws_access_key_id=AWS_ACCESS_KEY_ID,
    aws_secret_access_key=AWS_SECRET_ACCESS_KEY,
    endpoint_url=ENDPOINT_URL,  # None для AWS S3
    region_name=REGION_NAME,
)

print(f"Uploading {FILE_TO_UPLOAD} to s3://{BUCKET_NAME}/{S3_KEY}...")
s3.upload_file(FILE_TO_UPLOAD, BUCKET_NAME, S3_KEY)
print("Upload complete!")

print(f"Downloading s3://{BUCKET_NAME}/{S3_KEY} to {DOWNLOAD_PATH}...")
s3.download_file(BUCKET_NAME, S3_KEY, DOWNLOAD_PATH)
print("Download complete!")

print("First 10 lines of the downloaded file:")
with open(DOWNLOAD_PATH, "r") as f:
    for i, line in enumerate(f):
        if i >= 10:
            break
        print(line.rstrip())


### HDFS

Подключимся к мастер-ноде кластера и попробуем с него поработать с HDFS

In [162]:
! hdfs dfsadmin -report

2025-09-25 12:38:15,303 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Configured Capacity: 970947969024 (904.27 GB)
Present Capacity: 872194203648 (812.29 GB)
DFS Remaining: 872194146304 (812.29 GB)
DFS Used: 57344 (56 KB)
DFS Used%: 0.00%
Replicated Blocks:
	Under replicated blocks: 0
	Blocks with corrupt replicas: 0
	Missing blocks: 0
	Missing blocks (with replication factor 1): 0
	Low redundancy blocks with highest priority to recover: 0
	Pending deletion blocks: 0
Erasure Coded Block Groups: 
	Low redundancy block groups: 0
	Block groups with corrupt internal blocks: 0
	Missing block groups: 0
	Low redundancy blocks with highest priority to recover: 0
	Pending deletion blocks: 0

-------------------------------------------------
Live datanodes (2):

Name: 172.18.0.3:9866 (map-reduce-infra-datanode1-1.map-reduce-infra_spark_mts)
Hostname: 8b38ab795bc7
Dec

In [164]:
! hadoop fs

2025-09-25 12:40:36,134 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Usage: hadoop fs [generic options]
	[-appendToFile [-n] <localsrc> ... <dst>]
	[-cat [-ignoreCrc] <src> ...]
	[-checksum [-v] <src> ...]
	[-chgrp [-R] GROUP PATH...]
	[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
	[-chown [-R] [OWNER][:[GROUP]] PATH...]
	[-concat <target path> <src path> <src path> ...]
	[-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] [-q <thread pool queue size>] <localsrc> ... <dst>]
	[-copyToLocal [-f] [-p] [-crc] [-ignoreCrc] [-t <thread count>] [-q <thread pool queue size>] <src> ... <localdst>]
	[-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] [-s] <path> ...]
	[-cp [-f] [-p | -p[topax]] [-d] [-t <thread count>] [-q <thread pool queue size>] <src> ... <dst>]
	[-createSnapshot <snapshotDir> [<snapshotName>]]
	[-deleteSnapshot <snapshotDir> <sna

In [163]:
! hdfs dfs 

2025-09-25 12:40:26,351 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Usage: hadoop fs [generic options]
	[-appendToFile [-n] <localsrc> ... <dst>]
	[-cat [-ignoreCrc] <src> ...]
	[-checksum [-v] <src> ...]
	[-chgrp [-R] GROUP PATH...]
	[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
	[-chown [-R] [OWNER][:[GROUP]] PATH...]
	[-concat <target path> <src path> <src path> ...]
	[-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] [-q <thread pool queue size>] <localsrc> ... <dst>]
	[-copyToLocal [-f] [-p] [-crc] [-ignoreCrc] [-t <thread count>] [-q <thread pool queue size>] <src> ... <localdst>]
	[-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] [-s] <path> ...]
	[-cp [-f] [-p | -p[topax]] [-d] [-t <thread count>] [-q <thread pool queue size>] <src> ... <dst>]
	[-createSnapshot <snapshotDir> [<snapshotName>]]
	[-deleteSnapshot <snapshotDir> <sna

In [165]:
! hdfs dfs -ls /

2025-09-25 12:41:24,712 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [166]:
! hdfs dfs -mkdir /my_dir1

2025-09-25 12:41:37,295 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [169]:
! hdfs dfs -ls /

2025-09-25 12:42:42,209 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 items
drwxr-xr-x   - hadoop users          0 2025-09-25 12:41 /my_dir1


In [170]:
! ls

numbers.txt	  tar-users    urls.txt    users.tar.gz  words.txt
number-table.txt  titanic.csv  users.json  users.zip	 zip-users


In [172]:
! hdfs dfs -put ./titanic.csv /my_dir1/

2025-09-25 12:43:49,222 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [173]:
! hdfs dfs -ls /my_dir1

2025-09-25 12:43:57,122 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 items
-rw-r--r--   1 hadoop users      44225 2025-09-25 12:43 /my_dir1/titanic.csv


In [176]:
! hdfs dfs -head /my_dir1/titanic.csv 

2025-09-25 12:45:31,648 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,3,Mr. Owen Harris Braund,male,22,1,0,7.25
1,1,Mrs. John Bradley (Florence Briggs Thayer) Cumings,female,38,1,0,71.2833
1,3,Miss. Laina Heikkinen,female,26,0,0,7.925
1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35,1,0,53.1
0,3,Mr. William Henry Allen,male,35,0,0,8.05
0,3,Mr. James Moran,male,27,0,0,8.4583
0,1,Mr. Timothy J McCarthy,male,54,0,0,51.8625
0,3,Master. Gosta Leonard Palsson,male,2,3,1,21.075
1,3,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,female,27,0,2,11.1333
1,2,Mrs. Nicholas (Adele Achem) Nasser,female,14,1,0,30.0708
1,3,Miss. Marguerite Rut Sandstrom,female,4,1,1,16.7
1,1,Miss. Elizabeth Bonnell,female,58,0,0,26.55
0,3,Mr. William Henry Saundercock,male,20,0,0,8.05
0,3,Mr. Ander

In [177]:
! hdfs dfs -mkdir /my_dir2

2025-09-25 12:46:03,649 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [178]:
! hdfs dfs -cp /my_dir1/titanic.csv /my_dir2

2025-09-25 12:46:16,575 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [179]:
! hdfs dfs -ls /my_dir2

2025-09-25 12:46:22,052 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 items
-rw-r--r--   1 hadoop users      44225 2025-09-25 12:46 /my_dir2/titanic.csv


In [181]:
! mkdir hdfs_folder

In [182]:
! hdfs dfs -get /my_dir2/titanic.csv ./hdfs_folder/

2025-09-25 12:47:06,719 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [183]:
! ls ./hdfs_folder/

titanic.csv
