# Проект: Дашборды о конференциях TED в Tableau

**Цель проекта:** построить дашборды на основе данных о конференциях TED. 

**Задачи проекта:** исследовать историю TED-конференций с помощью Tableau.

# Материалы
Готовая презентация опубликована на сайте [Tableau Public](https://public.tableau.com/views/projecttableau_17184764391520/TED?:language=en-US&publish=yes&:sid=&:display_count=n&:origin=viz_share_link)
июнь.2024

Проект выполнила: Брыковская Наталья @brykovskaya

## Описание проекта  <a class="tocSkip">
TED (от англ. technology, education, design — «технологии, образование, дизайн») — некоммерческий фонд, который проводит популярные конференции.  
На них выступают специалисты из разных областей и читают лекции на актуальные социальные, культурные и научные темы. 
    
В разное время на TED-конференциях выступали математик Бенуа Мандельброт, теоретик искусственного интеллекта Марвин Минский, спортсменка Дана Ньяд и основатель Google Ларри Пейдж. В истории TED также были неоднозначные и даже скандальные выступления. Например, в 2010 году на конференции выступил Рэнди Пауэлл с рассказом о псевдонаучной «вихревой математике», а в 2014 году в конференции TEDMED участвовала Элизабет Холмс — основательница печально известного стартапа Theranos.

## Ход выполнения проекта  <a class="tocSkip">

## Шаг: Загрузка и изучение данных. 

### Описание данных
Данные собраны командой Яндекс.Проект на основе материалов сайта TED с помощью специальной программы.

[tableau_project_data_1.csv](скрыто из общего доступа)  
[tableau_project_data_2.csv](скрыто из общего доступа)  
[tableau_project_data_3.csv](скрыто из общего доступа)  
[tableau_project_event_dict.csv](скрыто из общего доступа)  
[tableau_project_speakers_dict.csv](скрыто из общего доступа)  

Файлы `tableau_project_data_1.csv`, `tableau_project_data_2.csv`, `tableau_project_data_3.csv` хранят данные выступлений. У них одинаковая структура:
 - talk_id — идентификатор выступления;
 - url — ссылка на запись выступления;
 - title — название выступления;
 - description — краткое описание;
 - film_date — дата записи выступления;
 - duration — длительность в секундах;
 - views — количество просмотров;
 - main_tag — основная категория, к которой относится выступление;
 - speaker_id — уникальный идентификатор автора выступления;
 - laughter_count — количество раз, когда аудитория смеялась в ходе выступления;
 - applause_count — количество раз, когда аудитория аплодировала в ходе выступления;
 - language — язык, на котором велось выступление;
 - event_id — уникальный идентификатор конференции.
 
Файл `tableau_project_event_dict.csv` — справочник конференций. Описание таблицы:
 - conf_id — уникальный идентификатор конференции;
 - event — название конференции;
 - country — страна проведения конференции.
 
Файл `tableau_project_speakers_dict.csv` — справочник авторов выступления. Описание таблицы:
 - author_id — уникальный идентификатор автора выступления;
 - speaker_name — имя автора;
 - speaker_occupation — профессиональная область автора;
 - speaker_description — описание профессиональной деятельности автора.

### Загрузка данные в Tableau.
С помощью Union объединили файлы `tableau_project_data` в единую таблицу.  
Объединили таблицу с данными выступлений, cправочники конференций и авторов с помощью `Relationship`.

### Изучение состава и типа данных.
С помощью визуализации изучено, как количество конференций распределено по времени.   

Определен год, после которого количество выступлений скачкообразно выросло - с 2013 года количество выступлений выросло.  

Настроен фильтр, который исключил все выступления до найденного порогового года на уровне источника данных. Остались года с 2013 по 2021 гг включительно.

## Шаг: Дашборд «История выступлений»
### Создание визуализации для дашборда

Создан лист «Выступления по странам» с визуализацией типа `map`. Визуализация показывает процент выступлений в каждой из стран.

Создан лист «Выступления по годам» с визуализацией типа `area charts`:
 - по оси X отложены года проведения конференций, 
 - по оси Y — абсолютное число выступлений,
 - использовано измерение `Main Tag` для разбивки выступлений по категориям. Для этого был создан сет, в который вошел `топ-N` основных тематик выступлений.

Создан лист «Процент выступлений по тематикам» с визуализацией типа `area charts`:
 - по оси X  отображен процент наблюдений по категориям за каждый год,
 - по оси Y — абсолютное число выступлений. 
 - использовано измерение `Main Tag` для разбивки выступлений по категориям. 

Задан фильтр по полю Film Date и применен ко всем визуализациям на основе текущего набора данных.

###  Построение дашборда  «История выступлений»
Создан дашборд «История выступлений» по [макету:](https://disk.yandex.ru/i/soFQmuc9fPKXbg)

Настроен Action на дашборде так, чтобы при выборе страны на листе «Выступления по странам» фильтр применялся и к остальным листам.  

В области выводов и наблюдений выведены ответы на вопросы:
 - В каких странах чаще всего проходили выступления?
 - Какие категории выступлений наиболее популярны?
 - Как изменился состав категорий выступлений в 2020 и 2021 годах?
 

## Шаг:  Дашборд «Тематики выступлений»

### Создание визуализации для дашборда
Создан лист «Выступления по тематике» с круговой диаграммой. На ней каждый сектор отражает тематику выступлений, а размер сектора — количество выступлений. На графике отображены топ-10 категорий по количеству выступлений, а менее популярные были объединены в категорию «Другие». Для этого  использован сет.

Создан лист «Тематики и страны» с визуализацией типа `highlight table`:
 - в строках таблицы — 10 самых популярных тематик и категория «Другие».
 - в столбцах — топ-3 страны по количеству выступлений, они выделены с помощью сета.
 - на пересечении указан процент выступлений на конкретную тему в каждой стране.
Пример: допустим, что в Лапландии прошло 100 выступлений, и из них 70 относились к тематике «Оленеводство», а оставшиеся — к категории «Промышленная заготовка снега». В таком случае в столбце таблицы появляются значения 70% и 30%.
 - полученная таблица отсортирована по убыванию числа просмотров по горизонтальной и вертикальной оси. 

Созданы три вычисляемых поля:
 - Duration, min — длительность выступления в минутах;
 - Applause by Duration — отношение числа аплодисментов к длительности выступления в секундах;
 - Laughter by Duration — отношение числа ситуаций, когда аудитория смеялась, к длительности выступления в секундах.

Создан лист «Аплодисменты по тематикам» с диаграммой размаха:  
 - По горизонтальной оси отложены тематики, по вертикальной — переменная Applause by Duration.
 - Каждая точка на графике показывает отдельное наблюдение.
 - Во всплывающей подсказке добавлено название, автор и значение Applause by Duration.
 - Категории отсортированы на графике по убыванию медианного значения Applause by Duration. 
 - Значения ограничены по вертикальной оси с помощью меню редактирования осей.

Создан лист «Смех по тематикам» с диаграммой размаха:  
 - По горизонтальной оси отложены тематики, по вертикальной — переменная Laughter by Duration.
 - Каждая точка на графике показывает отдельное наблюдение.
 - Во всплывающей подсказке добавлено название, автор и значение Laughter by Duration.
 - Категории отсортированы на графике по убыванию медианного значения Laughter by Duration. 
 - Значения ограничены по вертикальной оси с помощью меню редактирования осей. 
 
Созданы два листа «Гистограмма длительности» и «Гистограмма просмотров» с гистограммами длительности выступлений и числа просмотров. Гистограммы показывают проценты наблюдений, а не абсолютные значения.
На листе «Выступления по тематике» настроена всплывающая подсказка так, чтобы она показывала гистограммы длительности и просмотров.

Создан лист «Связь длительности с просмотрами» с визуализацией типа scatter plot:
  
 - На графике по оси X отложена длительность выступления в минутах, по оси Y число просмотров.
 - Каждая точка на графике соответствует одному выступлению.
 - Настроена всплывающая подсказка так, чтобы на ней отображались название и длительность выступления и число просмотров. 

###  Построение дашборда  «Тематики выступлений»

Создан дашборд «Тематики выступлений» по [макету:](https://disk.yandex.ru/i/uuTb92-bNI6D_g)

`Action` настроен так, чтобы при выборе тематики на листе «Выступления по тематике» фильтр применялся к остальным визуализациям на дашборде, кроме таблицы «Тематики и страны».

В области выводов и наблюдений выведены ответы на вопросы:
 - Какие категории выступлений наиболее популярны?
 - Различается ли распределение популярных категорий в разных странах? Например, какие категории более популярны в Канаде, чем в США?
 - Какие категории чаще вызывают аплодисменты аудитории, а какие реже? Какому выступлению аплодировали больше остальных?
 - Какие категории чаще вызывают смех аудитории, а какие реже? Какое выступление оказалось самым смешным?
 - Есть ли зависимость между длительностью выступления и количеством просмотров? Какое выступление посмотрели чаще всего? Какое выступление длилось дольше всех?

## Шаг: Дашборд «Авторы выступлений»
### Создание визуализации для дашборда
Создан сет, который объединил наиболее популярные области деятельности авторов (`Speaker Occupation`). Cет Настроен так, чтобы числом областей деятельности можно было управлять с помощью целочисленного параметра `Top-N Speaker Occupations`. Для параметра установлен элемент управления типа `Slider`.

Создан лист «Области деятельности авторов» с пузырьковой диаграммой (packed bubbles). Каждый кружок соответствует одной из топ-N областей деятельности. Визуализация настроена так, что она не показывает категорию «Другие».

Создано вычисляемое поле `Talks by Author`, которое покажет максимальное количество выступлений у автора. При создании поля использован  LOD для фиксации измерения `Author Id`.

Создан лист «Распределение числа выступлений» со столбчатой диаграммой. По оси X отложено максимальное число выступлений (`Talks by Author`), а по оси Y — число авторов, которые провели столько выступлений.

Создан лист «Авторы по числу выступлений» с таблицей, отсортированной по убыванию числа выступлений, состоящей  из столбцов:
 - имя автора,
 - область деятельности автора,
 - описание деятельности автора,
 - число выступлений.

Создан лист «Выступления и число просмотров» с таблицей, отсортированной по убыванию числа просмотров, состоящей из столбцов:
- название выступления;
- описание выступления;
- конференция, на которой проводилось выступление;
- число просмотров.

###  Построение дашборда  «Авторы выступлений» 
Создан дашборд «Авторы выступлений» по [макету:](https://disk.yandex.ru/i/fSE8DUJOfj-VdA)

`Actions` на дашборде настроен так, чтобы при выборе области деятельности на визуализации «Области деятельности авторов» фильтровались таблицы «Авторы по числу выступлений» и «Выступления и число просмотров». 

При выборе автора в таблице «Авторы по числу выступлений» фильтруется таблица «Выступления и число просмотров».

На дашборд добавлен элемент управления параметром `Top-N Speaker Occupations`.

В области выводов и наблюдений выведены ответы на вопросы:
 - Какие области деятельности у авторов преобладают?
 - Сколько выступлений обычно приходится на одного автора? Кто выступал чаще всего?
 - Какой дизайнер (Designer) выступал чаще остальных? Какое выступление этого автора смотрели меньше всего?


## Шаг: Дашборд «Непопулярные тематики конференций» 
### Создание визуализации для дашборда
Создан сет, в который топ-10 популярных категорий были объединены в категорию `Top`, а остальные `непопулярные` тематики изучались. 

Создан лист «Непопулярные тематики по годам» с визуализацией типа `highlight table`:
 - в строках таблицы — непопулярные тематики
 - в столбцах — год проведения конференции
 - на пересечении указан процент выступлений на конкретную тему в каждом году.
Пример: допустим, что в 2019 году 10 выступлений, и из них 7 относились к непопулярной тематике «Оленеводство», а оставшиеся — к непопулярной категории «Промышленная заготовка снега». В таком случае в столбце таблицы появляются значения 70% и 30%.


Создан лист «Непопулярные тематики» с пузырьковой диаграммой (packed bubbles). Каждый кружок соответствует одной из `непопулярной` тематике. Визуализация настроена так, что она не показывает категорию «Top».

Создан лист  "Гистограмма непопулярных тематик по годам".

###  Построение дашборда  «Непопулярные тематики конференций» 
Создан дашборд «Непопулярные категории». 

В области выводов и наблюдений выведены ответы на вопросы:
 - Как изменился состав тематик категории «Другие» в 2019–2021 годах?
 - Можно ли разделить конференции на категории? 
 - Как менялась популярность этих категорий со временем?

## Шаг: Создание презентации
С помощью story создана презентацию из четырёх слайдов:
 - дашборд «История выступлений»,
 - дашборд «Тематики выступлений»,
 - дашборд «Авторы выступлений»,
 - дашборд «Непопулярные тематики конференций» 
 

Презентация опубликована на сайте [Tableau Public](https://public.tableau.com/views/projecttableau_17184764391520/TED?:language=en-US&publish=yes&:sid=&:display_count=n&:origin=viz_share_link)

## Критерии оформления презентации:<a class="tocSkip">

 - [x] Дашборды сведены в единую презентацию, и к ней открыт доступ на сайте Tableau Public.
 - [x] Дашборды соответствуют макету.
 - [x] На каждом дашборде даны ответы на поставленные вопросы.
 - [x] На дашборде есть все нужные элементы управления, корректно настроены Actions.
 - [x] У каждого дашборда есть заголовок и описание.
 - [x] У каждой визуализации есть заголовок и описание.
 - [x] Для каждой визуализации задана хорошо отформатированная всплывающая подсказка.
 - [x] На всех графиках заданы логичные сортировки.
 - [x] Все оси графиков корректно подписаны.
 - [x] Все элементы управления на дашбордах понятно названы.
 - [x] Добавьте ссылку на ваш дашборд и презентацию комментарием в ячейки Jupyter-тетрадки и отправьте её на проверку ревьюеру.