# Исследование истории TED-конференций с помощью Tableau.

**Описание проекта:**

TED (от англ. technology, education, design — «технологии, образование, дизайн») — некоммерческий фонд, который проводит популярные конференции. На них выступают специалисты из разных областей и читают лекции на актуальные социальные, культурные и научные темы. 
В разное время на TED-конференциях выступали математик Бенуа Мандельброт, теоретик искусственного интеллекта Марвин Минский, спортсменка Дана Ньяд и основатель Google Ларри Пейдж. В истории TED также были неоднозначные и даже скандальные выступления. Например, в 2010 году на конференции выступил Рэнди Пауэлл с рассказом о псевдонаучной «вихревой математике», а в 2014 году в конференции TEDMED участвовала Элизабет Холмс — основательница печально известного стартапа Theranos.

**Описание данных:**

- tableau_project_data_1.csv
- tableau_project_data_2.csv
- tableau_project_data_3.csv
- tableau_project_event_dict.csv
- tableau_project_speakers_dict.csv

- Файлы `tableau_project_data_1.csv`, `tableau_project_data_2.csv`, `tableau_project_data_3.csv` хранят данные выступлений. У них одинаковая структура:
 - `talk_id` — идентификатор выступления;
 - `url` — ссылка на запись выступления;
 - `title` — название выступления;
 - `description` — краткое описание;
 - `film_date` — дата записи выступления;
 - `duration` — длительность в секундах;
 - `views` — количество просмотров;
 - `main_tag` — основная категория, к которой относится выступление;
 - `speaker_id` — уникальный идентификатор автора выступления;
 - `laughter_count` — количество раз, когда аудитория смеялась в ходе выступления;
 - `applause_count` — количество раз, когда аудитория аплодировала в ходе выступления;
 - `language` — язык, на котором велось выступление;
 - `event_id` — уникальный идентификатор конференции.

- Файл `tableau_project_event_dict.csv` — справочник конференций. Описание таблицы:
 - `conf_id` — уникальный идентификатор конференции;
 - `event` — название конференции;
 - `country` — страна проведения конференции.

- Файл `tableau_project_speakers_dict.csv` — справочник авторов выступления. Описание таблицы:
 - `author_id` — уникальный идентификатор автора выступления;
 - `speaker_name` — имя автора;
 - `speaker_occupation` — профессиональная область автора;
 - `speaker_description` — описание профессиональной деятельности автора.

**План работы:**

**Шаг 1. Загрузка и изучение данных**
- Загрузим данные в Tableau.
- С помощью Union объединим файлы tableau_project_data в единую таблицу. Объединим таблицу с данными выступлений, справочники конференций и авторов с помощью Relationship.
- Изучим состав и типы данных.
- С помощью визуализации изучим, как количество конференций распределено по времени. Определим год, после которого количество выступлений скачкообразно выросло.
- Настроим фильтр, который исключит все выступления до найденного порогового года на уровне источника данных.


**Шаг 2. Построим дашборд «История выступлений»**
- Создадим лист «Выступления по странам» с визуализацией типа map, которая покажет процент выступлений в каждой из стран.
- Создадим лист «Выступления по годам» с визуализацией типа area charts, у которой по оси X отложены года проведения конференций, а по оси Y — абсолютное число выступлений. Используем измерение Main Tag для разбивки выступлений по категориям. 
- Создадим копию предыдущего листа и теперь по оси Y отобразим процент наблюдений по категориям за каждый год. Назовём новый лист «Процент выступлений по тематикам».
- Зададим фильтр по полю Film Date и применим ко всем визуализациям на основе текущего набора данных.
- Создайте дашборд «История выступлений» .
- Настроим Action на дашборде так, чтобы при выборе страны на листе «Выступления по странам» фильтр применялся и к остальным листам.
- В области выводов и наблюдений напишем ответы на вопросы:
 - В каких странах чаще всего проходили выступления?
 - Какие категории выступлений наиболее популярны?
 - Как изменился состав категорий выступлений в 2020 и 2021 годах?
 
 
**Шаг 3. Создание дашборда «Тематики выступлений»**
- Создадим лист «Выступления по тематике» с круговой диаграммой. На ней каждый сектор должен отражать тематику выступлений, а размер сектора — количество выступлений. Отобразим на графике топ-10 категорий по количеству выступлений, а менее популярные объедините в категорию «Другие».
- Создадим лист «Тематики и страны» с визуализацией типа highlight table:
  - В строках таблицы — 10 самых популярных тематик и категория «Другие».
  - В столбцах — топ-3 страны по количеству выступлений. 
  - На пересечении укажите процент выступлений на конкретную тему в каждой стране.
- Создадим три вычисляемых поля:
  - Duration, min — длительность выступления в минутах;
  - Applause by Duration — отношение числа аплодисментов к длительности выступления в секундах;
  - Laughter by Duration — отношение числа ситуаций, когда аудитория смеялась, к длительности выступления в секундах.
- Создадим лист «Аплодисменты по тематикам» с диаграммой размаха:
  - По горизонтальной оси должны быть отложены тематики, по вертикальной — переменная Applause by Duration.
  - Каждая точка на графике должна показывать отдельное наблюдение.
- Создадим копию предыдущего листа. Назовём новый лист «Смех по тематикам». На этой визуализации заменим Applause by Duration на Laughter by Duration. 
- Создадим два новых листа с гистограммами длительности выступлений и числа просмотров. Назовём листы «Гистограмма длительности» и «Гистограмма просмотров». Не забудьте, что гистограммы должны показывать проценты наблюдений, а не абсолютные значения.
- На листе «Выступления по тематике» настройте всплывающую подсказку так, чтобы она показывала гистограммы длительности и просмотров.
- Создадим новый лист «Связь длительности с просмотрами» с визуализацией типа scatter plot:
  - На графике по оси X отложите длительность выступления в минутах, по оси Y число просмотров.
  - Каждая точка на графике должна соответствовать одному выступлению.
- Создадим дашборд «Тематики выступлений».
- Настроим Action так, чтобы при выборе тематики на листе «Выступления по тематике» фильтр применялся к остальным визуализациям на дашборде, кроме таблицы «Тематики и страны».
- В области выводов и наблюдений напишем ответы на вопросы:
 - Какие категории выступлений наиболее популярны?
 - Различается ли распределение популярных категорий в разных странах? Например, какие категории более популярны в Канаде, чем в США?
 - Какие категории чаще вызывают аплодисменты аудитории, а какие реже? Какому выступлению аплодировали больше остальных?
 - Какие категории чаще вызывают смех аудитории, а какие реже? Какое выступление оказалось самым смешным?
 - Есть ли зависимость между длительностью выступления и количеством просмотров? Какое выступление посмотрели чаще всего? Какое выступление длилось дольше всех?
 
 
 
**Шаг 4. Создание дашборда «Авторы выступлений»**
- Создадим сет, который объединит наиболее популярные области деятельности авторов (Speaker Occupation). Настроим сет так, чтобы числом областей деятельности можно было управлять с помощью целочисленного параметра Top-N Speaker Occupations. Для параметра установим элемент управления типа Slider.
- Создадим лист «Области деятельности авторов» с пузырьковой диаграммой (packed bubbles). Каждый кружок должен соответствовать одной из топ-N областей деятельности. Настроим визуализацию так, что она не показывала категорию «Другие».
- Создадим вычисляемое поле Talks by Author, которое покажет максимальное количество выступлений у автора. При создании поля используем LOD для фиксации измерения Author Id.
- Создадим лист «Распределение числа выступлений» со столбчатой диаграммой. По оси X должно быть отложено максимальное число выступлений (Talks by Author), а по оси Y — число авторов, которые провели столько выступлений.
- Создадим лист «Авторы по числу выступлений» с таблицей из столбцов:
  - имя автора,
  - область деятельности автора,
  - описание деятельности автора,
  - число выступлений.      
- Создадим лист «Выступления и число просмотров» с таблицей из столбцов:
  - название выступления;
  - описание выступления;
  - конференция, на которой проводилось выступление;
  - число просмотров.
- Создадим дашборд «Авторы выступлений».
- Настроим Actions на дашборде так, чтобы при выборе области деятельности на визуализации «Области деятельности авторов» фильтровались таблицы «Авторы по числу выступлений» и «Выступления и число просмотров». При выборе автора в таблице «Авторы по числу выступлений» должна фильтроваться таблица «Выступления и число просмотров».
- Добавим на дашборд элемент управления параметром Top-N Speaker Occupations.
- В области выводов и наблюдений напишем ответы на вопросы:
 - Какие области деятельности у авторов преобладают?
 - Сколько выступлений обычно приходится на одного автора? Кто выступал чаще всего?
 - Какой дизайнер (Designer) выступал чаще остальных? Какое выступление этого автора смотрели меньше всего?



**Шаг 5. Создание дашборда на свободную тему**
- Добавим в презентацию дашборд на свободную тему с двумя или тремя визуализациями.


**Шаг 6. Создание презентацию**
- С помощью story создадим презентацию из четырёх слайдов:
  - дашборд «История выступлений»,
  - дашборд «Тематики выступлений»,
  - дашборд «Авторы выступлений»,
  - дашборд на свободную тему.
- Опубликуем презентацию на сайте Tableau Public. 

**Ссылка на проект и презентацию в Tableau:** https://public.tableau.com/app/profile/ekaterina.tkacheva2396/viz/Yandex_project_17212265763230/Story?publish=yes