# Утилиты Unix в анализе данных

В даннном блокноте ipynb демонстрируются возможности различных утилит командной оболочки **Unix-подобных ОС** при решении **несложных задач очистки данных и их разведательного анализа**, в том числе:
* **head**
* **wc**
* **awk**
* **sort**
* **uniq**

Кроме того, полезными при решении подобных задач является набор утлитик командной строки под названием [**csvkit**](https://github.com/wireservice/csvkit).

## Датасет №1:

### Hotel booking demand

В наборе данных представлена информация о бронировании для двух организаций: городского отеля и курортного отеля. В качесте признаков представлены такие параметры, как дата своершения бронирования, продолжительность пребывания, количество гостей, количество мест паркинга и др.

С легендой значений данных можно ознакомиться на странице датасета на портале Kaggle.

Источник набора данных:
https://www.kaggle.com/jessemostipak/hotel-booking-demand  
https://www.sciencedirect.com/science/article/pii/S2352340918315191

<img src="https://www.kaggle.com/static/images/site-logo.png" width="100">

In [7]:
!ls

README.md  datasets  hotel_demand.ipynb


Перейдем в директорию с наборами данных:

In [8]:
%cd datasets

/home/manjaro/da/projects/unix-data-cleaning/datasets


In [9]:
!ls

hotel_bookings.csv


Воспользуемся утилитой **head** для просмотра первых 5 строк файла:

In [10]:
!head -n 5 hotel_bookings.csv

hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,children,babies,meal,country,market_segment,distribution_channel,is_repeated_guest,previous_cancellations,previous_bookings_not_canceled,reserved_room_type,assigned_room_type,booking_changes,deposit_type,agent,company,days_in_waiting_list,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status,reservation_status_date
Resort Hotel,0,342,2015,July,27,1,0,0,2,0,0,BB,PRT,Direct,Direct,0,0,0,C,C,3,No Deposit,NULL,NULL,0,Transient,0,0,0,Check-Out,2015-07-01
Resort Hotel,0,737,2015,July,27,1,0,0,2,0,0,BB,PRT,Direct,Direct,0,0,0,C,C,4,No Deposit,NULL,NULL,0,Transient,0,0,0,Check-Out,2015-07-01
Resort Hotel,0,7,2015,July,27,1,0,1,1,0,0,BB,GBR,Direct,Direct,0,0,0,A,C,0,No Deposit,NULL,NULL,0,Transient,75,0,0,Check-Out,2015-07-02
Resort Hotel,0,13,2015,July,27,1,0,1,1,0,0,BB,GBR,Corporate,Corporat

Определим число записей, имеющихся в файле:

In [11]:
!wc -l hotel_bookings.csv

119391 hotel_bookings.csv


За исключением первой строки с названиями столбцов общее число записей составило **119390**.

Для примера приведем распределение записей по переменной "is_canceled" (отмена бронирования номера). В этих целях воспользуемся утилитами **AWK**, **sort**, **uniq**:

In [12]:
!awk -F "\"*,\"*" 'NR>1 {print $2}' hotel_bookings.csv | sort | uniq -c

  75166 0
  44224 1


С помощью **AWK** в вывод можно добавить суммарное поле "Total" и процентное распределение:

In [13]:
!awk -F "\"*,\"*" 'NR>1 {print $2}' hotel_bookings.csv | sort | uniq -c | awk '{s+=$1;lines=lines"\n"$0} END {printf "%d Total",s;print lines}' | awk '!max{max=$1}{s=$1/max*100;c=$1;$1="";printf "%30s %10d %7.2f%%\n",$0,c,s;}'

                         Total     119390  100.00%
                             0      75166   62.96%
                             1      44224   37.04%


Примерно 63% броней были отменены.

Аналогичным образом можно рассмотреть распределение записей по другим признакам:

Вид отеля (городской или курортный):

In [14]:
!awk -F "\"*,\"*" 'NR>1 {print $1}' hotel_bookings.csv | sort | uniq -c | awk '{s+=$1;lines=lines"\n"$0} END {printf "%d Total",s;print lines}' | awk '!max{max=$1}{s=$1/max*100;c=$1;$1="";printf "%30s %10d %7.2f%%\n",$0,c,s;}'

                         Total     119390  100.00%
                    City Hotel      79330   66.45%
                  Resort Hotel      40060   33.55%


В наборе данных также отражено количество ночей выходного дня, вошедших в период брони:

In [15]:
!awk -F "\"*,\"*" 'NR>1 {print $8}' hotel_bookings.csv | sort | uniq -c | awk '{s+=$1;lines=lines"\n"$0} END {printf "%d Total",s;print lines}' | awk '!max{max=$1}{s=$1/max*100;c=$1;$1="";printf "%30s %10d %7.2f%%\n",$0,c,s;}'

                         Total     119390  100.00%
                             0      51998   43.55%
                             1      30626   25.65%
                            10          7    0.01%
                            12          5    0.00%
                            13          3    0.00%
                            14          2    0.00%
                            16          3    0.00%
                            18          1    0.00%
                            19          1    0.00%
                             2      33308   27.90%
                             3       1259    1.05%
                             4       1855    1.55%
                             5         79    0.07%
                             6        153    0.13%
                             7         19    0.02%
                             8         60    0.05%
                             9         11    0.01%


Как видно из выходных данных, на определенном этапе **баланс** информативности и простоты использования исключительно стандартных утилит **Unix-подобных ОС** может смещаться в **неблагоприятную сторону**. В этом случае для повышения читаемости кода и результатов целесообразно обратиться к сторонним наборам утилит, что будет рассмотрено на примере **csvkit**.

При необходимости установим **csvkit** через **pip**:

In [24]:
# Расскоментировать следующую строку:
#!pip install csvkit;

Воспользуемся утилитой **csvcut** для более комфортного представления названий столбцов (признаков):

In [18]:
!csvcut -n hotel_bookings.csv

  1: hotel
  2: is_canceled
  3: lead_time
  4: arrival_date_year
  5: arrival_date_month
  6: arrival_date_week_number
  7: arrival_date_day_of_month
  8: stays_in_weekend_nights
  9: stays_in_week_nights
 10: adults
 11: children
 12: babies
 13: meal
 14: country
 15: market_segment
 16: distribution_channel
 17: is_repeated_guest
 18: previous_cancellations
 19: previous_bookings_not_canceled
 20: reserved_room_type
 21: assigned_room_type
 22: booking_changes
 23: deposit_type
 24: agent
 25: company
 26: days_in_waiting_list
 27: customer_type
 28: adr
 29: required_car_parking_spaces
 30: total_of_special_requests
 31: reservation_status
 32: reservation_status_date


Удобство утилиты **csvcut** проявляется в том, что при выборе стодбцов к ним можно обращаться по имени:

In [19]:
!csvcut -c hotel,is_repeated_guest,agent,required_car_parking_spaces hotel_bookings.csv | csvlook --max-rows 10

| hotel        | is_repeated_guest | agent | required_car_parking_spaces |
| ------------ | ----------------- | ----- | --------------------------- |
| Resort Hotel |             False |       |                           0 |
| Resort Hotel |             False |       |                           0 |
| Resort Hotel |             False |       |                           0 |
| Resort Hotel |             False |   304 |                           0 |
| Resort Hotel |             False |   240 |                           0 |
| Resort Hotel |             False |   240 |                           0 |
| Resort Hotel |             False |       |                           0 |
| Resort Hotel |             False |   303 |                           0 |
| Resort Hotel |             False |   240 |                           0 |
| Resort Hotel |             False |    15 |                           0 |
| ...          |               ... |   ... |                         ... |


Утилита **csvstat** была вдохновлена функцией summary языка **R**:

In [25]:
!csvstat -c distribution_channel -d ',' hotel_bookings.csv -y 0

 16. "distribution_channel"

	Type of data:          Text
	Contains null values:  False
	Unique values:         5
	Longest value:         9 characters
	Most common values:    TA/TO (97870x)
	                       Direct (14645x)
	                       Corporate (6677x)
	                       GDS (193x)
	                       Undefined (5x)

Row count: 119390


Как мы видим, 193 записи имеют в качестве обозначения канала дистрибуции **GDS**. Утилита **csvgrep** позволит отобрать эти записи по заданном набору признаков-столбцов:

In [26]:
!csvcut -c hotel,is_canceled,agent,company,distribution_channel hotel_bookings.csv | csvgrep -c distribution_channel -m GDS | csvlook

| hotel      | is_canceled | agent | company | distribution_channel |
| ---------- | ----------- | ----- | ------- | -------------------- |
| City Hotel |       False |    54 |         | GDS                  |
| City Hotel |        True |   195 |         | GDS                  |
| City Hotel |        True |   195 |         | GDS                  |
| City Hotel |        True |   195 |         | GDS                  |
| City Hotel |        True |   195 |         | GDS                  |
| City Hotel |        True |   195 |         | GDS                  |
| City Hotel |        True |   195 |         | GDS                  |
| City Hotel |        True |   195 |         | GDS                  |
| City Hotel |        True |   195 |         | GDS                  |
| City Hotel |        True |   195 |         | GDS                  |
| City Hotel |        True |   195 |         | GDS                  |
| City Hotel |        True |   195 |         | GDS                  |
| City Hotel |      

Наконец, сохраним **CSV-файл**, с которым осуществлялась работа, в формате базы данных SQL для дальнейшей демонстрации некоторых навыков работы с данными: