## УКУ: Візуалізація Даних
#### Семестровий проект на тему: 
#### Аналіз прийомів кінематографу та сценаристів відповідно до дій, кадру та інших чинників
##### Благута Роман ПКН18Б

Метою даного проекту є дослідження та візуалізація взаємозалежностей між певними діями із сценаріїв кіно та відповідними прийомами при зйомці кадрів із цими діями. На основі даних у папці **data**, я досліджу кілька питань та візуалізую відповіді на них.

Датасет, який я обрав для цього проекту, містить детальні описи всіх важливих дій та кадрів для першого епізоду 6 популярних серіалів:
* **Breaking Bad** — Кримінальна драма; серійна драма; трилер; нео-вестерн; чорна комедія; трагедія;
* **How I Met Your Mother** — Ситком; романтична комедія; комедія-драма
* **Modern Family** — Ситком; псевдодокументальний;
* **Mad Men** — Серійна драма; драма;
* **Sons of Anarchy** — Серійна драма; екшн; кримінальна драма; трагедія; нео-вестерн
* **24** — Серійна драма; кримінальний трилер; шпигунство; екшн;

Для опрацювання я обрав конкретно пілотні епізоди, оскільки вони задають весь тон шоу та мусять справити точне, яскраве та виразне враження про сам серіал, його сюжет та атмосферу.

На основі цих даних я зроблю візуалізації для даних із як мінімум 1 серіалу, яка можливо змогла б показати ті чи інші прийоми кінематографу характерні для того чи іншого жанру шоу або ж якісь загальні практики характерні типовим діям персонажів кіно чи серіалів. Такі речі можуть бути очевидні професіоналам кіно, але може так і пересічна людина змогла знайти для себе певні закономірності та поширені прийоми для подальшого кращого розуміння роботи режисерів чи для особистого інтересу.

<br>

**Датасет**:

De Geest, R., Gavves, E., Ghodrati, A., Li, Z., Snoek, C. & Tuytelaars, T. (2016). Online Action Detection. arXiv preprint arXiv:1604.06506

[https://homes.esat.kuleuven.be/psi-archive/rdegeest/TVSeries.html](https://homes.esat.kuleuven.be/psi-archive/rdegeest/TVSeries.html)

<br>

#### NOTE: у зв'язку із булевою структурою більшості колонок датасету, будь-які анотації у графіках трактуються наступним чином:
* **1** — Так / присутнє
* **0** — Ні / відсутнє

<br>

---

<br>

### Імпортування модулів

In [148]:
import altair as alt
import pandas as pd

<br>

---

<br>

### Підготування та Дослідження Даних

У датасеті присутні 30 різних класів дій, назви та частота яких перелічені у датафреймі dfClasses. Ці класи використовуються для опису дій у датафреймі dfActions. Дії та кадри описані багатьма колонками (здебільшого із **так/ні**), які будуть перелічені нижче разом із поясненнями їх змісту (детальніше читайте README.txt у папках **data/csv** i **data/txt**).

* **series_episode** - назва серіалу та номер епізоду
* **class** - тип дії
* **start** - початок дії в епізоді (в секундах)
* **end** - кінець дії в епізоді (в секундах)
* **one_person_visible** - чи в кадрі видно лише одну особу
* **atypical** - чи дія є незвичною для даної ситуації
* **shotcut** - чи відбувся шоткат посеред дії
* **moving_camera** - чи камера рухається під час дії
* **background** - чи особа яка виконує дію  зображена малою або далеко на фоні
* **front** - чи особа яка виконує дію зображена спереду
* **side** - чи особа яка виконує дію зображена збоку
* **unusual_viewpoint** - чи особа яка виконує дію зображена із незвичного ракурсу
* **occlusion** - чи особа яка виконує дію частково або повністю загороджена кимось/чимось
* **truncation** - чи особа яка виконує дію обрізана в кадрі
* **beginning_missing** - чи відсутній початок дії
* **end_missing** - чи відсутній кінець дії
* **comments** - додаткові коментарі про дію, кадр, обрізання персонажа, або загородження

In [149]:
dfActions = pd.read_csv("../data/csv/GT-train.csv")
dfClasses = pd.read_csv("../data/csv/classes.csv")

In [150]:
dfActions = dfActions[dfActions['series_episode'].str.contains('_ep1')]
dfActions['duration'] = dfActions['end'] - dfActions['start']
dfActions.head(15)

Unnamed: 0,series_episode,class,start,end,one_person_visible,atypical,shotcut,moving_camera,background,front,side,unusual_viewpoint,occlusion,truncation,beginning_missing,end_missing,comments,duration
0,Breaking_Bad_ep1,Drive car,24.92,28.04,0,0,1,1,0,1,0,0,1,0,1,1,,3.12
1,Breaking_Bad_ep1,Drive car,29.24,30.52,0,0,0,1,0,0,0,0,1,0,1,1,,1.28
2,Breaking_Bad_ep1,Drive car,35.28,35.96,1,0,0,1,0,1,0,0,1,0,1,1,,0.68
3,Breaking_Bad_ep1,Drive car,39.52,42.16,1,0,1,1,0,0,1,1,0,1,1,1,,2.64
4,Breaking_Bad_ep1,Drive car,43.04,43.6,1,0,0,1,0,0,1,0,0,1,1,1,Heavy truncation,0.56
5,Breaking_Bad_ep1,Drive car,44.6,45.52,1,0,0,1,0,0,1,0,0,1,1,1,Heavy truncation,0.92
6,Breaking_Bad_ep1,Get in/out of car,57.88,59.36,1,0,0,1,0,1,0,0,0,1,1,0,Heavy truncation,1.48
7,Breaking_Bad_ep1,Undress,60.04,62.48,1,0,0,1,0,1,0,0,1,1,0,0,Mask,2.44
8,Breaking_Bad_ep1,Dress up,64.32,65.2,1,0,0,1,0,0,1,0,1,0,0,0,Glasses,0.88
9,Breaking_Bad_ep1,Throw something,70.8,71.88,1,0,0,1,0,0,0,1,0,0,0,0,,1.08


In [151]:
dfClasses

Unnamed: 0,class,count
0,Pick something up,939
1,Point,559
2,Drink,440
3,Stand up,411
4,Run,395
5,Sit down,315
6,Read,305
7,Smoke,292
8,Drive car,251
9,Open door,237


<br>

---

<br>

### 1) Дії та стиль зйомки різних жанрів шоу

У датасеті, використаному в цьому проекті, містяться дані про 6 серіалів доволі різних жанрів (екшн, ситком, драма, романтична комедія, трилер). Аналізувати ці окремі категорії кінематографу разом буде однозначно поганою ідеєю, але все ж, аналізуватимемо ми спільні чинники: зйомку (власне сам кінематограф та постановку) та дії (сюжет). Розуміння з яких прийомів зйомки та дій складаються епізоди шоу того чи іншого жанру, ми зможемо простежити як власне професіонали знімають те чи інше дійство, щоб пробудити в глядача саме ті відчуття та атмосферу, які очікуються від того чи іншого жанру.

Способом візуалізації, який я обрав, є Stacked Bar Chart із фасетингом та інтерактивним перемиканням прийомів кінематографу. Ця візуалізація дозволяє одразу побачити і загальну кількість дій, зображених у епізоді, і їх розподіл за способом зйомки. Інтерактивність дозволила покрити велику кількість колонок, які ефективно поєднати (через їхню категоральну роздрібненість та відсутність спільної логіки) інакшим чином було б майже неможливо. Для детальнішої інформації я додав тултіпи.

Серед альтернатив я розглядав Heatmap, який одразу ж відкинув, оскільки кількість клітинок не є достатньо великою, щоб задіювати цілу мапу. Цілком можна обійтися колонкою, поділеною надвоє. Лінійні графіки мені видались занадто тяжкими для сприйняття, а от стовпці можна доволі легко порівняти навіть на око.

In [152]:
columns = ['moving_camera', 'shotcut', 'background', 'occlusion', 'truncation']


input_select = alt.binding_select(options = columns, name='Обиріть прийом зйомки:')
select_shot = alt.selection_single(name="Filming method", fields = ['key'], bind=input_select, init = {'key': 'moving_camera'})

In [153]:
alt.Chart(
    dfActions
).transform_fold(
    columns
).transform_filter(
    select_shot,
).mark_bar(
).encode(
    x = alt.X('class:N'),
    y = 'count(class)',
    color=alt.Color('value:N', title='Присутність прийому зйомки'),
    tooltip=[
        alt.Tooltip('class:N', title='Action'),
        alt.Tooltip('value:N', title='Current Filming Method'),
        alt.Tooltip('count(class)', title='Occurrences'),
    ],
).add_selection(
    select_shot,
).properties(
    height = 400,
).facet(facet = alt.Facet(
    'series_episode:N', 
    sort = alt.Sort(field = 'count(class)', 
    op = 'mean', 
    order = 'descending')), 
    columns = 3
).properties(
    padding=25,
    title='Дії та стиль зйомки різних жанрів шоу'
).configure_title(
    fontSize=36,
    dy=-48
)

Як ми можемо бачити з даної візуалізації, найбільш поширеними виявились абсолютно буденні дії (що і не дивно), на кшталт взяти якийсь предмет. Все ж, як ми можемо бачити, у таких шоу, як "24" та "Breaking Bad" набагато більше присутні такі характерні екшн дії як біг чи водіння машини, або ж інші помітно динамічні дії. У яскраво драматичному "Mad Men" шалено часто можна зустріти сцени куріння чи пиття, які одразу асоціюються із стресом або ж замисленістю. В екшн-трилері "Sons of Anarchy" помітно багато сцен ударів, порівняно із їх майже повною відстуністю у решті перших епізодів перелічених шоу.

Після аналізу дій, варто проаналізувати прийоми зйомки. Одразу помітно, наскільки більше рухомої камери у екшн серіалах. У інших шоу вона теж дуже присутня, але дивлячись на співвідношення сцен тих же дій (або ж і загалом) із рухомою камерою та без, екшн сцени одразу показують, наскільки сильно вони покладаються на динамічну зйомку. Ще одним цікавим спостереженням щодо екшнів, в них набагато менше сцен, де персонажі здалека на фоні кадру, що цілком логічно для шоу, які покладаються на тиск, конфлікт та боротьбу між особистостями. Персонажі дивляться один одному ввічі, глядачі часто дивляться із ракурсу близького до персонажа, щоб більше пройнятись адреналіном екшн-пригод, неначе вони самі в них беруть участь.

<br>

---

<br>

### 2) Початкові, проміжні, кінцеві та повні кадри і їх взаємозвязок із прийомами зйомки

Крім загального використання деяких прийомів зйомки відповідно до дії та жанру, варто ще звернути увагу на те, як знімаються сцени із повними та неповними діями. Наприклад можливо проміжні кадри водіння машини (без початку дії та її кінця) містять набагато більше рухів камери ніж початок водіння, або закінчення.

Обраний мною спосіб візуалізації — одновимірний Stacked Bar Chart із сортуванням стеку відповідно до кількості типу повноти кадру із даним прийомом. Для детальнішої інформації я знову додав тултіпи, а щоб ефективно покрити різні прийоми без інформаційного перенавантаження візуалізації, я знову додав інтерактивність в формі селекту із вибором прийому зйомки. Цей графік водночас простий та інформативний, покриває багато даних та інтуітивно читабельний.

Альтернативними варіантами були Pie Chart та лінійний графік. Pie Chart я відкинув, через обмеження altair, тобто буквальну відсутність цього типу візуалізації у стабільній версії інструменту. Лінійний графік я спочатку розглядав як Slope Chart, але оскільки різних можливих варіантів повноти кадру не 2 а 4, це по суті були б лінійні графіки із фасетингом. Я вважаю що цей метод буде менш інформативним та роздрібненим, що погіршить читабельність та можливість інтуітивно порівнювати значення різних категорій.

In [154]:
dfActions['beginning_end'] = dfActions['beginning_missing'] + (dfActions['end_missing'] * 2)

dfActions['beginning_end'] = dfActions['beginning_end'].replace([0], 'Присутні кінець та початок дії')
dfActions['beginning_end'] = dfActions['beginning_end'].replace([1], 'Відсутній початок дії')
dfActions['beginning_end'] = dfActions['beginning_end'].replace([2], 'Відсутній кінець дії')
dfActions['beginning_end'] = dfActions['beginning_end'].replace([3], 'Відсутні і початок, і кінець дії')

dfActions.head(15)

Unnamed: 0,series_episode,class,start,end,one_person_visible,atypical,shotcut,moving_camera,background,front,side,unusual_viewpoint,occlusion,truncation,beginning_missing,end_missing,comments,duration,beginning_end
0,Breaking_Bad_ep1,Drive car,24.92,28.04,0,0,1,1,0,1,0,0,1,0,1,1,,3.12,"Відсутні і початок, і кінець дії"
1,Breaking_Bad_ep1,Drive car,29.24,30.52,0,0,0,1,0,0,0,0,1,0,1,1,,1.28,"Відсутні і початок, і кінець дії"
2,Breaking_Bad_ep1,Drive car,35.28,35.96,1,0,0,1,0,1,0,0,1,0,1,1,,0.68,"Відсутні і початок, і кінець дії"
3,Breaking_Bad_ep1,Drive car,39.52,42.16,1,0,1,1,0,0,1,1,0,1,1,1,,2.64,"Відсутні і початок, і кінець дії"
4,Breaking_Bad_ep1,Drive car,43.04,43.6,1,0,0,1,0,0,1,0,0,1,1,1,Heavy truncation,0.56,"Відсутні і початок, і кінець дії"
5,Breaking_Bad_ep1,Drive car,44.6,45.52,1,0,0,1,0,0,1,0,0,1,1,1,Heavy truncation,0.92,"Відсутні і початок, і кінець дії"
6,Breaking_Bad_ep1,Get in/out of car,57.88,59.36,1,0,0,1,0,1,0,0,0,1,1,0,Heavy truncation,1.48,Відсутній початок дії
7,Breaking_Bad_ep1,Undress,60.04,62.48,1,0,0,1,0,1,0,0,1,1,0,0,Mask,2.44,Присутні кінець та початок дії
8,Breaking_Bad_ep1,Dress up,64.32,65.2,1,0,0,1,0,0,1,0,1,0,0,0,Glasses,0.88,Присутні кінець та початок дії
9,Breaking_Bad_ep1,Throw something,70.8,71.88,1,0,0,1,0,0,0,1,0,0,0,0,,1.08,Присутні кінець та початок дії


In [155]:
alt.Chart(
    dfActions
).transform_fold(
    columns
).transform_filter(
    select_shot,
).mark_bar(
    size=50,
).encode(
    x = alt.X(
        field = 'value',
        type='quantitative', 
        aggregate = 'sum', 
        stack = 'normalize'
    ),
    color = alt.Color(
        field = 'beginning_end', 
        type = 'nominal', 
        title='Повнота кадру'
    ),
    order = alt.Order(
        field = 'value', 
        type = 'quantitative', 
        aggregate = 'sum', 
        sort = 'descending'
    ),
    tooltip = [
        alt.Tooltip('beginning_end:N', title='Shot completeness'),
        alt.Tooltip('sum(value)', type='quantitative', title='Occurrences'),
    ]
).add_selection(
    select_shot,
).properties(
    width = 800, 
    height = 400,
    padding=25,
    title='Початкові, проміжні, кінцеві та повні кадри і їх взаємозвязок із прийомами зйомки'
).configure_title(
    fontSize=36,
    dy=-48
)

Отже, із даної візуалізації ми можемо побачити наступне:
* Сцени із повними діями найбільш поширені серед усіх прийомів зйомки
* Рухома камера найбільш присутня не в перехідних сценах (без початку і кінця дії), а в повних. Повні дії часто вимагають захоплення великої кількості простору в кадрі, що і спричиняє рух камери.
* Натомість перехідні сцени часто використовують відносно нерухому зйомку, але активно звертаються до прийому нарізки (shotcut). Такі дії часто короткі, швидкі та динамічні. Моя гіпотеза щодо цього полягає в тому, що рухома камера може зробити сприйняття різких чи коротких сцен значно тяжчим через рух. У нашого мозку і так мало часу щоб сприйняти сцену, а рух додасть нам лишні фактори для фокусу уваги.
* Зйомка здалека чи де персонажі на фоні кадрів, доволі рівномірно поширена серед всіх типів повноти сцен.

<br>

---

<br>

### 3) Залежність ракурсу від кількості дійових осіб

Ракурс кадру не тільки повинен з гарної точки захопити те, що має побачити глядач. Ракурс задає настрій, атмосферу, інколи натякає на подальші дії. Взаємодії персонажів, або ж дії персонажа самотужки однозначно повинні мати вплив на позицію зйомки, що наступна візуалізація і дозволить дослідити.

Для візуалізації я обрав Stacked Bar Chart із нормалізованим стеком. Ми чітко бачимо який відсоток займають кадри із 1 персонажем, а який кадри із багатьма дійовими особами. Серед альтернатив я розглядав Slope Chart але згодом передумав, оскільки вважаю груповані графіки менш читабельними ніж цільну візуалізацію, та вважаю що для таких простих даних це недоречно. Крім того можливість інтуітивно бачити співвідношення значень буде гірша.

In [156]:
alt.Chart(
    dfActions
).transform_fold(
    ['front', 'side', 'background', 'unusual_viewpoint']
).mark_bar(
).encode(
    x = alt.X('key:N', title='Viewpoint', axis=alt.Axis(labelAngle=0, labelFontSize=14)),
    y = alt.Y('count(value)', type='quantitative', stack = 'normalize'),
    color=alt.Color('value:N', title='Чи у кадрі більше однієї особи?'),
    tooltip=[
        alt.Tooltip('value:N', title='> 1 person in the shot'),
        alt.Tooltip('count(value)', type='quantitative', title='Occurrences')
    ],
).properties(
    height = 400,
    width = 800
).properties(
    padding=25,
    title='Залежність ракурсу від кількості дійових осіб'
).configure_title(
    fontSize=36,
    dy=-48
)

Тож, як ми бачимо, боковий ракурс переважає у сценах де кілька персонажів у кадрі, відповідно потрібно захопити більше простору. Незвичні ракурси здебільшого використовуються для підкреслення кадрів із окремим персонажем, що може бути використано для підкреслення його індивідуального стану та почуттів. На диво, далекі ракурси майже не використовуються у даних серіалах для захоплення багатьох персонажів у кадрі, що може бути спричинено драматичною природою цих шоу, де всі взаємодії зображені зблизька, заради виклику більш особистих почуттів у глядача.

<br>

---

<br>

### 4) Залежність тривалості сцени та прийомів для зйомки дій у епізодах

Інша залежність яку варто дослідити, це використання прийомів зйомки відповідно до дій та їхньої тривалості. Як ми побачили у попередній візуалізації, рухома камера найбільш присутня у повних кадрах, а у неповних нарізка. Тривалість сцени потенційно може накладати обмеження на сприйняття глядачів та відповідно на вибір релевантних прийомів зйомки для режисерів.

Розглянемо як тривалість впливає на прийоми нарізки та рухомої камери.

Метод візуалізації — Dumbbell Chart. Bar Chart погано справлятиметься із відрізками малої довжини: вони всі будуть скупчені внизу графіку та в результаті порівняти їх буде тяжко. Ця альтернатива чудов справляється із бінарною природою наших даних. Точкою х1 буде середня тривалість дії без того чи іншого прийому зйомки, точкою х2 ж буде середня тривалість дії із застосованим прийомом зйомки. Осями послужать класи дій та шкала тривалості у секундах.

In [157]:
dfAvgsMC = pd.DataFrame(columns=['class', 'average_duration_still_camera', 'average_duration_moving_camera', 'mock_value0', 'mock_value1'])
dfAvgsSC = pd.DataFrame(columns=['class', 'average_duration_no_shotcut', 'average_duration_shotcut', 'mock_value0', 'mock_value1'])

for action in list(dfClasses['class']):
    dfAvgsMC = dfAvgsMC.append({
            'class': action, 
            'average_duration_still_camera': dfActions[(dfActions['moving_camera'] == 0) & (dfActions['class'] == action)]['duration'].mean(), 
            'average_duration_moving_camera': dfActions[(dfActions['moving_camera'] == 1) & (dfActions['class'] == action)]['duration'].mean(),
            'mock_value0': 'Нерухома камера',
            'mock_value1': 'Рухома камера',
        }, ignore_index=True)

    dfAvgsSC = dfAvgsSC.append({
            'class': action, 
            'average_duration_no_shotcut': dfActions[(dfActions['shotcut'] == 0) & (dfActions['class'] == action)]['duration'].mean(), 
            'average_duration_shotcut': dfActions[(dfActions['shotcut'] == 1) & (dfActions['class'] == action)]['duration'].mean(),
            'mock_value0': 'Нема нарізки',
            'mock_value1': 'Присутня нарізка',
        }, ignore_index=True)

dfAvgsMC['average_duration_still_camera'] = dfAvgsMC['average_duration_still_camera'].fillna(0)
dfAvgsMC['average_duration_moving_camera'] = dfAvgsMC['average_duration_moving_camera'].fillna(0)

dfAvgsSC['average_duration_no_shotcut'] = dfAvgsSC['average_duration_no_shotcut'].fillna(0)
dfAvgsSC['average_duration_shotcut'] = dfAvgsSC['average_duration_shotcut'].fillna(0)

In [158]:
def createDumbbellChart(df, column0, column1):
    lines = alt.Chart(
        df
    ).mark_line().encode(
        x = alt.X(column0 + ':Q'),
        x2 = alt.X2(column1 + ':Q'),
        y = alt.Y('class:N', sort=alt.Sort(field=column1, op='max', order='descending')))

    points0 = alt.Chart(
        df
    ).mark_circle(
        color='orange', 
        size = 100,
        opacity=1
    ).encode(
        x = column0 + ':Q',
        y = alt.Y('class:N', sort=alt.Sort(field=column0, op='max', order='descending')),
        tooltip = [
            alt.Tooltip(column0 + ':Q', title='Average Duration (s)'),
        ],
        color=alt.Color('mock_value0:N', title='Прийом зйомки')
    )

    points1 = alt.Chart(
        df
    ).mark_circle(
        size = 100,
        opacity=1
    ).encode(
        x = column1 + ':Q',
        y = alt.Y('class:N', sort=alt.Sort(field=column1, op='max', order='descending')),
        tooltip = [
            alt.Tooltip(column1 + ':Q', title='Average Duration (s)'),
        ],
        color=alt.Color('mock_value1:N', title='')
    )

    return alt.layer(lines, points0, points1).properties(width=550)

In [159]:
movingCameraChart = createDumbbellChart(dfAvgsMC, 'average_duration_still_camera', 'average_duration_moving_camera')
shotcutChart = createDumbbellChart(dfAvgsSC, 'average_duration_no_shotcut', 'average_duration_shotcut')

alt.hconcat(movingCameraChart, shotcutChart).configure(concat=alt.CompositionConfig(spacing=100)).properties(
    title='Залежність тривалості сцени та прийомів для зйомки дій у епізодах',
    padding=25,
    background='#FBFAF5'
).configure_title(
    dy=-48,
    fontSize=36
)

Як ми можемо бачити, нарізка здебільшого присутня у сценах більшої тривалості. Зміна кадру доволі необхідна, щоб придати динаміки сцені, що затягнулась. Також це допомагає направляти фокус глядача. Сцени без нарізки як правило коротші середнього значення тривалості сцен.

Щодо рухомої камери, тяжко дійти однозначних висновків. Її використання помітне в коротких та динамічних сценах на кшталт "спіткнутись", "покласти слухавку", "встати". Щоправда для цих коротких дій використання нерухомої камери характеризується ще коротшим інтервалом часу. Натомість для стаціонарних дій ("використовувати комп'ютер", "біг"(ракурс здебільшого незмінний, в короткий проміжок часу нарізки нема)), ситуація протилежна та довший час характерний використанням нерухомої камери.