# Исследование истории TED-конференций с помощью Tableau.

**Цель исследования** - провести анализ выступлений на TED-конференциях и выявить интересные закономерности.

**Вопросы, интересующие заказчика:**
1. В каких странах чаще всего проходили выступления?
2. Какие категории выступлений наиболее популярны?
3. Как изменился состав категорий выступлений в 2020 и 2021 годах?
4. Какие категории выступлений наиболее популярны?
5. Различается ли распределение популярных категорий в разных странах? Например, какие категории более популярны в Канаде, чем в США?
6. Какие категории чаще вызывают аплодисменты аудитории, а какие реже? Какому выступлению аплодировали больше остальных?
7. Какие категории чаще вызывают смех аудитории, а какие реже? Какое выступление оказалось самым смешным?
8. Есть ли зависимость между длительностью выступления и количеством просмотров? Какое выступление посмотрели чаще всего? Какое выступление длилось дольше всех?
9. Какие области деятельности у авторов преобладают?
10. Сколько выступлений обычно приходится на одного автора? Кто выступал чаще всего?
11. Какой дизайнер выступал чаще остальных? Какое выступление этого автора смотрели меньше всего?

**Ссылка на проект:** https://public.tableau.com/shared/MST6GSZC3?:display_count=n&:origin=viz_share_link

## Загрузите и изучите данные

- В данном шаге была произведена загрузка данных в Tableau. Файлы tableau_project_data были объединены в единую таблицу с помощью Union. Таблицы с данными выступлений, справочники конференций и авторов были объединены с помощью Relationship. 
- Были изучены состав и типы данных. Tableau определил все верно изначально.
- С помощью линейного графика было изучено распределение количества конференций по времени. Количество выступлений скачкообразно выросло после 2008 года.
- Был настроен фильтр на уровне источника данных, который исключил все выступления до 2008 года. 
- При анализе графика обнаружена примечательная динамика резкого снижения количества выступлений в 2020 и 2021 годах. Такое падение может быть связано с пандемией COVID-19.

## Постройте дашборд «История выступлений»

- На листе "Выступления по странам" отразили визуализацию типа map, на которой отображен процент выступлений в каждой из стран.
- На листе "Выступления по годам" отражена визуализация типа area charts, на которой отображен топ-5 основных категорий выступлений с количеством выступлений по годам (с 2008 по 2021 года).
- На листе "Процент выступлений по тематикам" отражена визуализация типа area charts, на которой отображен топ-5 основных категорий выступлений в процентном соотношении от общего количества выступлений в данных категориях по годам (с 2008 по 2021 года).
- Задали фильтр по полю Film Date и применили ко всем визуализациям на основе текущего набора данных.
- Создали дашборд «Выступления по странам», в который вошли все построенные нами визуализации, настроили Action так, чтобы при выборе страны на листе «Выступления по странам» фильтр применялся и к остальным листам. Также добавили наблюдения и выводы на основе построенных нами визуализаций.

**Выводы:**

1. Немного больше половины всех выступлений приходится на США. Там наблюдается 51,79% от общего количества выступлений. На втором месте идет Канада и на третьем - Великобритания.
2. В топ-5 основных тематик выступлений входят: наука, технологии, культура, общество, глобальные проблемы.
3. Самое большое количество выступлений с 2008 по 2020 года приходилось на категорию "наука". В 2021 году лидирующей стала категория "технологии", т.к. в категории "наука" вообще не было выступлений. В общем можно отметить резкое снижение количества выступлений в 2020 и 2021 годах. Это можно объяснить резким снижением количества выступлений в связи с пандемией COVID-19.

## Создание дашборда «Тематики выступлений»

- На листе "Выступления по тематике" отобразили круговую диаграмму, где каждый сектор отражает тематику выступлений. Отобразили на графике топ-10 категорий по количеству выступлений, а менее популярные объединили в категорию «Другие».
- На листе "Тематики и страны" построили визуализацию типа highlight table. В строках таблицы — 10 самых популярных тематик и категория «Другие». В столбцах — топ-3 страны по количеству выступлений. На пересечении укажите процент выступлений на конкретную тему в каждой стране. Отсортировали полученную таблицу по убыванию числа просмотров по горизонтальной и вертикальной оси.
- Создали три вычисляемых поля:
Duration, min — длительность выступления в минутах;
Applause by Duration — отношение числа аплодисментов к длительности выступления в секундах;
Laughter by Duration — отношение числа ситуаций, когда аудитория смеялась, к длительности выступления в секундах.
- На листе «Аплодисменты по тематикам» отобразили диаграмму размаха, где по горизонтальной оси отложены тематики, а по вертикальной - переменная Applause by Duration. Во всплывающую подсказку добавили название, автора и значение Applause by Duration. Отсортировали категории на графике по убыванию медианного значения Applause by Duration. Ограничили значения по вертикальной оси до значения 0,025.
- Создали лист «Смех по тематикам» на основе предыдущего листа, заменив Applause by Duration на Laughter by Duration. Ограничили вертикальную ось до значения 0,040.
- Создали два листа с гистограммами длительности выступлений и числа просмотров: «Гистограмма длительности» и «Гистограмма просмотров». Гистограммы содержат проценты наблюдений.
- На листе «Выступления по тематике» настроили всплывающую подсказку так, чтобы она показывала гистограммы длительности и просмотров.
- На листе «Связь длительности с просмотрами» построили визуализацию типа scatter plot. По оси X отложили длительность выступления в минутах, по оси Y - число просмотров. Добавили линию тренда для большей наглядности. Во всплывающей подсказке отобразили название и длительность выступления и число просмотров.
- Создали дашборд «Тематики выступлений», в который вошли все построенные нами визуализации, настроили Action так, чтобы при выборе тематики на листе «Выступления по тематике» фильтр применялся к остальным визуализациям на дашборде, кроме таблицы «Тематики и страны». Также добавили наблюдения и выводы на основе построенных нами визуализаций.

**Вывод:**

1. Наиболее популярными тематиками на платформе можно считать науку, технологии и культуру.
2. Популярность тематик в разных странах отличается. В Канаде наука и технологии более популярны чем в Великобритании и США, а  вот культура - наоборот. Однако, стоит отметить, что самой популярной темой во всех странах остается наука.
3. Больше всего зрители аплодируют на выступлениях с тематикой развлечений, а смеются на выступлениях по дизайну, образованию, бизнесу и развлечениям.
4. Реже всего смех и аплодисменты появляются на выступлениях по глобальным проблемам.
5. Выступление Cecile Richards "The political progress women have - and what's next" в категории социальные перемены получило больше всего аплодисментов. Выступление Maysoon Zayid "I got 99 problems... palsy is just one" в категории развлечений оказалось самым смешным.
6. Незначительная положительная корреляция между показателями длительности и количеством просмотров присутствует.
7. Самое просматриваемое видео - "Your body language may shape who you are". Самое продолжительное - "3 secrets to Netflix's success".

## Создание дашборда «Авторы выступлений»

- Создали сет, который объединил наиболее популярные области деятельности авторов (Speaker Occupation). Настроили сет так, чтобы числом областей деятельности можно было управлять с помощью целочисленного параметра Top-N Speaker Occupations.
- На листе «Области деятельности авторов» отобразили диаграмму packed bubbles. Каждый кружок соответствует одной из топ-N областей деятельности.
- Создали вычисляемое поле Talks by Author, которое показывает максимальное количество выступлений у автора. Сделали это с помощью LOD-выражения - {FIXED [author_id]: count([talk_id])}.
- На  листе «Распределение числа выступлений» отобразили столбчатую диаграмму, на горизонтальной оси которой отложено максимальное количество выступлений Talks by Author, а на вертикальной - число авторов, которые провели столько выступлений.
- На листе «Авторы по числу выступлений» построили таблицу со следующими столбцами: имя автора, область деятельности автора, описание деятельности автора и число выступлений. Отсортировали таблицу по убыванию числа выступлений.
- На листе «Выступления и число просмотров» построили таблицу со следующими столбцами: название выступления, описание выступления, конференция, число просмотров. Отсортировали таблицу по убыванию числа просмотров.
- Создали дашборд «Авторы выступлений», в который вошли все построенные нами визуализации, настроили Action так, чтобы при выборе области деятельности на визуализации «Области деятельности авторов» фильтровались таблицы «Авторы по числу выступлений» и «Выступления и число просмотров». При выборе автора в таблице «Авторы по числу выступлений» должна фильтроваться таблица «Выступления и число просмотров». Также добавили наблюдения и выводы на основе построенных нами визуализаций.

**Вывод:**

1. 3 самые популярные деятельности авторов - писатель, журналист и художник.
2. Преобладающая часть авторов выступала по одному разу.  Чаще всего выступал автор Juan Enriquez. У него 8 выступлений.
3. Среди дизайнеров чаще остальных выступал Tom Wujec. Самое менее просматриваемое его выступление "Learn to us the 13th-century astrolabe". Выступление собрало 940542 просмотров.

## Создание дашборда на свободную тему "Лидеры конференций"

- На листе "Топ конференций" отобразили столбчатую диаграмму с топом-10 самых популярных конференций по просмотрам.
- На листе "Тематики категории Другие" отобразили состав тематик категории "Другие" с 2019 по 2021 годы.
- На листе "Тематики и конференции" отобразили таблицу, в которой содержится процентное соотношение основных тематик по топ-10 самых популярных конференций.
- На листе "Аплодисменты на конференциях" построили столбчатую диаграмму с количеством аплодисментов на топ-10 конференциях.
- На листе "Смех на конференциях" построили столбчатую диаграмму с количеством смеха на топ-10 конференциях.
- Создали дашборд «Авторы выступлений», в который вошли все построенные нами визуализации. Также добавили наблюдения и выводы на основе построенных нами визуализаций.

**Вывод:**

1.  Самой просматриваемой конференцией оказалась TED-2015, с более чем 285млн просмотров.
2. Тематики в категории "Другие " с 2019 по 2021 годы варьировались. Самыми популярными из них оказались производительность, человечество и искусство.
3. Среди основных тематик  в топ-10 конференций преобладают такие тематики как наука , технологии и культура. Тем не менее, примечательно, что на TED-2017 и TED-2018 на третье место по популярности вышла тематика общество. А на TED Global 2013 первое место разделили тематики наука и глобальные проблемы.
4. Аплодисменты чаще всего звучали на конференции TED-2018, а смех - на конференции TED-2017.