# Исследование истории TED-конференций

**Описание проекта**

В проекте будут созданы дашборды на основе данных о конференциях TED.

TED (от англ. technology, education, design — «технологии, образование, дизайн») — некоммерческий фонд, который проводит популярные конференции. На них выступают специалисты из разных областей и читают лекции на актуальные социальные, культурные и научные темы. 

В разное время на TED-конференциях выступали математик Бенуа Мандельброт, теоретик искусственного интеллекта Марвин Минский, спортсменка Дана Ньяд и основатель Google Ларри Пейдж. В истории TED также были неоднозначные и даже скандальные выступления. Например, в 2010 году на конференции выступил Рэнди Пауэлл с рассказом о псевдонаучной «вихревой математике», а в 2014 году в конференции TEDMED участвовала Элизабет Холмс — основательница печально известного стартапа Theranos.

**Цель исследования** — изучение истории TED-конференций с помощью Tableau.

**Описание данных**

Данные собраны на основе материалов сайта TED с помощью специальной программы.

Файлы `tableau_project_data_1.csv`, `tableau_project_data_2.csv`, `tableau_project_data_3.csv` хранят данные выступлений. У них одинаковая структура:

- `talk_id` — идентификатор выступления;

- `url` — ссылка на запись выступления;

- `title` — название выступления;

- `description` — краткое описание;

- `film_date` — дата записи выступления;

- `duration` — длительность в секундах;

- `views` — количество просмотров;

- `main_tag` — основная категория, к которой относится выступление;

- `speaker_id` — уникальный идентификатор автора выступления;

- `laughter_count` — количество раз, когда аудитория смеялась в ходе выступления;

- `applause_count` — количество раз, когда аудитория аплодировала в ходе выступления;

- `language` — язык, на котором велось выступление;

- `event_id` — уникальный идентификатор конференции.

Файл `tableau_project_event_dict.csv` — справочник конференций. Описание таблицы:

- `conf_id` — уникальный идентификатор конференции;

- `event` — название конференции;

- `country` — страна проведения конференции.

Файл `tableau_project_speakers_dict.csv` — справочник авторов выступления. Описание таблицы:

- `author_id` — уникальный идентификатор автора выступления;

- `speaker_name` — имя автора;

- `speaker_occupation` — профессиональная область автора;

- `speaker_description` — описание профессиональной деятельности автора.

**План работы**

1. Загрузка и изучение данных.
- Загрузка данных в Tableau.
- Объединение файлов `tableau_project_data` в единую таблицу с помощью Union. Объединение таблицы с данными выступлений, справочников конференций и авторов с помощью Relationship.
- Изучение состава и типов данных.
- Изучение с помощью визуализации, как количество конференций распределено по времени. Определение года, после которого количество выступлений скачкообразно выросло.
- Настройка фильтра, который исключит все выступления до найденного порогового года на уровне источника данных.

2. Создание дашборда «История выступлений».
- Создание листа «Выступления по странам» с визуализацией типа map, которая покажет процент выступлений в каждой из стран.
- Создание листа «Выступления по годам» с визуализацией типа area charts, у которой по оси X отложены года проведения конференций, а по оси Y — абсолютное число выступлений. Использование измерения `Main Tag` для разбивки выступлений по категориям. Создание сета, в который войдёт топ-N основных тематик выступлений.
- Создание листа «Процент выступлений по тематикам» с помощью копирования предыдущего листа с отображением по оси Y процента наблюдений по категориям за каждый год.
- Задание фильтра по полю `Film Date` и применение ко всем визуализациям на основе текущего набора данных.
- Создание дашборда «История выступлений» по макету.
- Настройка Action на дашборде так, чтобы при выборе страны на листе «Выступления по странам» фильтр применялся и к остальным листам.
- Добавление выводов и наблюдений на дашборд:
  - Определение, в каких странах чаще всего проходили выступления.
  - Выявление наиболее популярных категорий выступлений.
  - Изучение изменения состава категорий выступлений в 2020 и 2021 годах.

3. Создание дашборда «Тематики выступлений».
- Создание листа «Выступления по тематике» с круговой диаграммой. Отражение с помощью секторов тематики выступлений, с помощью размеров секторов — количества выступлений. Отображение на графике топ-10 категорий по количеству выступлений. Объединение менее популярных категорий в «Другие». Использование для этого сета.
- Создание листа «Тематики и страны» с визуализацией типа highlight table:
  - В строках таблицы — 10 самых популярных тематик и категория «Другие».
  - В столбцах — топ-3 страны по количеству выступлений. Выделение их с помощью сета.
  - На пересечении указание процента выступлений на конкретную тему в каждой стране.
  - Сортировка полученной таблицы по убыванию числа просмотров по горизонтальной и вертикальной оси.
- Создание трёх вычисляемых полей:
  - `Duration, min` — длительность выступления в минутах;
  - `Applause by Duration` — отношение числа аплодисментов к длительности выступления в секундах;
  - `Laughter by Duration` — отношение числа ситуаций, когда аудитория смеялась, к длительности выступления в секундах.
- Создание листа «Аплодисменты по тематикам» с диаграммой размаха:
  - По горизонтальной оси отложение тематик, по вертикальной — переменной `Applause by Duration`.
  - Отображение с помощью точек на графике отдельных наблюдений.
  - Добавление во всплывающую подсказку названия, автора и значения `Applause by Duration` — для ответа на вопросы.
  - Сортировка категорий на графике по убыванию медианного значения `Applause by Duration`.
- Создание листа «Смех по тематикам» с помощью копирования предыдущего листа. Замена `Applause by Duration` на `Laughter by Duration`.
- Создание двух новых листов «Гистограмма длительности» и «Гистограмма просмотров» с гистограммами длительности выступлений и числа просмотров. Отображение на гистограммах процентов наблюдений.
- На листе «Выступления по тематике» настройка всплывающей подсказки так, чтобы она показывала гистограммы длительности и просмотров.
- Создание нового листа «Связь длительности с просмотрами» с визуализацией типа scatter plot:
  - На графике по оси X отложение длительности выступления в минутах, по оси Y числа просмотров.
  - Установление соответствия каждой точки на графике одному выступлению.
  - Настройка всплывающей подсказки так, чтобы на ней отображались название и длительность выступления и число просмотров. 
- Создание дашборда «Тематики выступлений» по макету.
- Настройка Action так, чтобы при выборе тематики на листе «Выступления по тематике» фильтр применялся к остальным визуализациям на дашборде, кроме таблицы «Тематики и страны».
- Добавление выводов и наблюдений на дашборд:
  - Выявление наиболее популярных категорий выступлений.
  - Выяснение, различается ли распределение популярных категорий в разных странах.
  - Определение, какие категории чаще вызывают аплодисменты аудитории, а какие реже; какому выступлению аплодировали больше остальных.
  - Определение, какие категории чаще вызывают смех аудитории, а какие реже; какое выступление оказалось самым смешным.
  - Анализ зависимости между длительностью выступления и количеством просмотров. Выяснение, какое выступление посмотрели чаще всего; какое выступление длилось дольше всех.

4. Создание дашборда «Авторы выступлений».
- Создание сета, который объединит наиболее популярные области деятельности авторов (`Speaker Occupation`). Настройка сета так, чтобы числом областей деятельности можно было управлять с помощью целочисленного параметра `Top-N Speaker Occupations`. Установка для параметра элемента управления типа Slider.
- Создание листа «Области деятельности авторов» с пузырьковой диаграммой (packed bubbles). Установка соответствия каждого кружка одной из топ-N областей деятельности. Настройка визуализации так, чтобы она не показывала категорию «Другие».
- Создание вычисляемого поля `Talks by Author`, которое покажет максимальное количество выступлений у автора. Использование при создании поля LOD для фиксации измерения `Author Id`.
- Создание листа «Распределение числа выступлений» со столбчатой диаграммой. По оси X должно быть отложено максимальное число выступлений (`Talks by Author`), а по оси Y — число авторов, которые провели столько выступлений.
- Создание листа «Авторы по числу выступлений» с таблицей из столбцов:
  - имя автора,
  - область деятельности автора,
  - описание деятельности автора,
  - число выступлений.
- Сортировка таблицы по убыванию числа выступлений.
- Создание листа «Выступления и число просмотров» с таблицей из столбцов:
  - название выступления;
  - описание выступления;
  - конференция, на которой проводилось выступление;
  - число просмотров.
- Сортировка таблицы по убыванию числа просмотров.
- Создание дашборда «Авторы выступлений» по макету.
- Настройка Actions на дашборде так, чтобы при выборе области деятельности на визуализации «Области деятельности авторов» фильтровались таблицы «Авторы по числу выступлений» и «Выступления и число просмотров». Фильтрация таблицы «Выступления и число просмотров» при выборе автора в таблице «Авторы по числу выступлений».
- Добавление на дашборд элемента управления параметром `Top-N Speaker Occupations`.
- Добавление выводов и наблюдений на дашборд:
  - Выявление преобладающих областей деятельности у авторов.
  - Определение, сколько выступлений обычно приходится на одного автора; кто выступал чаще всего.
  - Выяснение, какой дизайнер (Designer) выступал чаще остальных; какое выступление этого автора смотрели меньше всего.

5. Создание дашборда «История конференций».
- Создание листа «Конференции по странам» с визуализацией типа symbol map, которая покажет процент конференций в каждой из стран.
- Создание листа «Конференции по годам» с визуализацией типа lines, которая покажет динамику количества конференций за определённый период.
- Создание листа «Распределение тематик выступлений на конференциях» с диаграммой side-by-side bars, которая покажет процент выступлений в зависимости от тематики (топ-10 тематик по количеству выступлений и категория «Другие») для трёх конференций с наибольшим количеством выступлений:
  - Использование сета с топ-3 конференциями по количеству выступлений.
  - Использование сета с топ-10 тематиками по количеству выступлений. Объединение менее популярных категорий в «Другие».
  - Сортировка категорий на графике по убыванию количества выступлений отдельно для каждой конференции.
- Добавление в презентацию дашборда «История конференций» с тремя визуализациями.
- Настройка Action на дашборде так, чтобы при выборе страны на листе «Конференции по странам» фильтр применялся и к листу «Конференции по годам».
- Добавление выводов и наблюдений на дашборд.

6. Создание презентации.
- Создание презентации из четырёх слайдов с помощью story:
  - дашборд «История выступлений»,
  - дашборд «Тематики выступлений»,
  - дашборд «Авторы выступлений»,
  - дашборд «История конференций».
- Публикация презентации на сайте Tableau Public.

## Дашборды

Ссылка на дашборд «История выступлений»: https://public.tableau.com/views/researching_the_history_of_ted_conferences/sheet3?:language=en-US&publish=yes&:sid=&:redirect=auth&:display_count=n&:origin=viz_share_link

Ссылка на дашборд «Тематики выступлений»:
https://public.tableau.com/views/researching_the_history_of_ted_conferences/sheet11?:language=en-US&publish=yes&:sid=&:redirect=auth&:display_count=n&:origin=viz_share_link

Ссылка на дашборд «Авторы выступлений»:
https://public.tableau.com/views/researching_the_history_of_ted_conferences/sheet16?:language=en-US&publish=yes&:sid=&:redirect=auth&:display_count=n&:origin=viz_share_link

Ссылка на дашборд «История конференций»:
https://public.tableau.com/views/researching_the_history_of_ted_conferences/sheet20_1?:language=en-US&publish=yes&:sid=&:redirect=auth&:display_count=n&:origin=viz_share_link

## Презентация

Ссылка на презентацию: https://public.tableau.com/views/researching_the_history_of_ted_conferences/TED-?:language=en-US&publish=yes&:sid=&:redirect=auth&:display_count=n&:origin=viz_share_link

## Выводы и наблюдения

История выступлений.

  1. Наибольшая доля выступлений на TED-конференциях приходится на США — 50.51%, Канаду — 19.45% и Великобританию —  16.76%. Меньше всего выступлений было в Мексике, Ливане, ОАЭ и Южной Корее — по 0.03% на каждую страну.
  2. В топ-5 основных тематик выступлений за 2009-2021 гг. вошли наука, общество, технологии, культура и глобальные проблемы. Всех больше выступлений за рассматриваемый период было в 2016 году. Самой популярной категорией в этом году являлась наука — 62 выступления, на втором и третьем месте оказались общество и технологии — 58 и 56 выступлений соответственно. В 2020 и 2021 гг. число выступлений резко снизилось, что может быть связано с пандемией COVID-19. В 2021 году состоялось только три выступления, и были представлены такие основные категории, как общество, технологии и глобальные проблемы.
  3. До 2014 года социальные темы редко обсуждались в лекциях — их доля составляла 0–4% от всех выступлений по основным категориям за год. Затем общество стало более распространённой категорией выступлений — 9.56% в 2014 году. В 2020 году процент выступлений по данной тематике увеличился до 44.44%.В период с 2009 по 2015 год доля выступлений по глобальным проблемам составляла от 10 до 18%. В 2016 году этот показатель снизился до 3.37%. С 2020 года глобальные проблемы стали более популярными — 11.11% в 2020 году и 33.33% в 2021 году.
  
Тематики выступлений.

  1. Наиболее популярной тематикой выступлений на TED-конференциях является наука – она составляет 20.37% от всех выступлений. Также в десятку категорий с наибольшим количеством выступлений входят технологии (17.02%), культура (12.04%), общество (8.95%), глобальные проблемы (6.03%), бизнес (3.87%), дизайн (3.64%), образование (3.35%), социальные изменения (3.31%) и искусство (2.16%). На остальные категории приходится 19.25%.
  2. Во всех странах с наибольшим количеством выступлений, таких как США, Канада и Великобритания, в тройку самых распространённых категорий выступлений входят наука, технологии и культура. Однако распределение остальных тематик, входящих в топ-10, различается в разных странах. Например, в Канаде более популярны социальные изменения, искусство и дизайн, а в США — глобальные проблемы, бизнес и образование. В Великобритании меньше внимания уделяется проблемам общества (4.11%), в отличие от США (10.52%) и Канады (8.94%).
  3. Чаще всего вызывают аплодисменты аудитории выступления в следующих категориях: искусство (медиана отношения числа аплодисментов к длительности выступления составляет 0.00399), социальные изменения (0.00318) и образование (0.00278). Реже всего аплодисменты звучали в выступлениях, относящих к категориям дизайна (0.0216), науки (0.00203) и глобальных проблем (0.00195). Больше всех аплодировали выступлению американской активистки, национального лидера по защите прав женщин Сесиль Ричардс в категории социальных изменений на тему «The political progress women have made – and what’s next» (0.02441 – максимальное значение отношения числа аплодисментов к длительности выступления).
  4. Всех чаще смех аудитории вызывают выступления специалистов в области искусства (0.0049 – медианное значение отношения числа ситуаций, когда аудитория смеялась, к длительности выступления в секундах), дизайна (0.00437) и бизнеса (0.00433). Всех реже зрители смеются на выступлениях в категориях, не входящих в топ-10 (0.00232), а также на выступлениях, связанных с социальными изменениями (0.00129) и глобальными проблемами (0.00106). Самым смешным оказалось выступление в области культуры ирано-американского комика Маза Джобрани «A Saudi, an Indian and an Iranian walk into a Qatari bar ...» (0.07425 – максимальное значение отношения числа ситуаций, когда аудитория смеялась, к длительности выступления в секундах).
  5. Между длительностью выступления на TED-конференции и количеством просмотров не наблюдается прямой зависимости. У большинства выступлений просмотры не превышают 5 млн., а продолжительность составляет не более 25 минут. Всех больше просмотров, 63.5 млн., набрало выступление по научной тематике под названием «Your body language may shape who you are» с длительностью, равной 21 минуте. Самое длинное выступление, которое продолжалось больше одного часа (63 минуты), было в категории культуры на тему «3 secrets to Netflix’s success» (1.8 млн. просмотров).
  
Авторы выступлений.

  1. У авторов выступлений на TED-конференциях преобладают такие области деятельности, как писатель (71 автор), журналист (51 автор) и художник (48 авторов).
  2.  Как правило, на одного автора приходится одно выступление – 90.62% авторов выступали на TED-конференциях только один раз. 7.54% авторов выступали дважды. Наибольшее количество выступлений – 8 – столько раз выступал эксперт по вопросам международного здравоохранения Ханс Рослинг. Среди авторов с 25 самыми популярными профессиональными областями чаще всего – 6 раз – принимал участие в TED-конференциях автор по имени Хуан Энрикес. Он размышляет и пишет о значительных переменах, которые геномика и исследования мозга привнесут в бизнес, технологии, политику и общество.
  3. Из дизайнеров чаще остальных – 4 раза – выступал Том Вуджек. Больше всего просмотров (более 7 млн.) набрало его выступление на конференции TED2010 под названием «Build a tower, build a team», а меньше всего просмотров (940.5 тыс.) – выступление на конференции TEDGlobal 2009 под названием «Learn to use the 13th-century astrolabe».

История конференций.

  1. Подавляющее большинство конференций TED проводилось в США – 61.72% от общего числа. Второе место занимает Великобритания – 10.23% конференций. 5.61% мероприятий состоялись в Канаде.
  2. С 2009 по 2012 год количество TED-конференций увеличилось с 19 до 50. В 2015 году состоялось 45 мероприятий. После этого число проводимых конференций постепенно снижалось. В 2021 году прошло всего 3 конференции. Возможные причины уменьшения количества TED-конференций: конкуренция со стороны других подобных мероприятий; пандемия коронавируса, начавшаяся в конце 2019 года; изменение формата конференций.
  3. Три самые масштабные конференции по числу выступлений — это TED2017, TED2018 и TED2019. На конференции TED2019 категория «культура» составила 18.81% выступлений, что значительно превышает показатели TED2018 и TED2017: 6.73% и 4.12% соответственно. Повышение интереса к культурной тематике у авторов выступлений может быть связано с ростом популярности культурных событий и инициатив, с увеличением внимания к вопросам культурного разнообразия и сохранения культурного наследия.