# Исследование истории TED-конференций

**Описание проекта**

TED — некоммерческий фонд, который проводит популярные конференции. На них выступают специалисты из разных областей и читают лекции на актуальные социальные, культурные и научные темы. 

Для анализа предоставлены данные выступлений, справочник конференций и справочник авторов выступления.

**Цель исследования** - изучить историю TED-конференций и создать дашборды на основе полученных данных.

**Описание данных:**

Данные содержатся в файлах: 
- tableau_project_data_1.csv
- tableau_project_data_2.csv
- tableau_project_data_3.csv
- tableau_project_event_dict.csv
- tableau_project_speakers_dict.csv

Описание таблиц:

- talk_id — идентификатор выступления;
- url — ссылка на запись выступления;
- title — название выступления;
- description — краткое описание;
- film_date — дата записи выступления;
- duration — длительность в секундах;
- views — количество просмотров;
- main_tag — основная категория, к которой относится выступление;
- speaker_id — уникальный идентификатор автора выступления;
- laughter_count — количество раз, когда аудитория смеялась в ходе выступления;
- applause_count — количество раз, когда аудитория аплодировала в ходе выступления;
- language — язык, на котором велось выступление;
- event_id — уникальный идентификатор конференции

- conf_id — уникальный идентификатор конференции;
- event — название конференции;
- country — страна проведения конференции

- author_id — уникальный идентификатор автора выступления;
- speaker_name — имя автора;
- speaker_occupation — профессиональная область автора;
- speaker_description — описание профессиональной деятельности автора

**План исследования:**

1. Загрузка и изучение данных
2. Постоение дашборда «История выступлений»
- изучение выступлений по странам
- изучение выступлений по годам
- изучение процента наблюдений по категориям за каждый год
3. Постоение дашборда «Тематики выступлений»
- изучение тематики выступлений в разных странах
- изучение аплодисментов по тематикам
- изучение смеха по тематикам
- изучение длительности выступлений и числа просмотров
- изучение связи длительности выступления с просмотрами
4. Постоение дашборда «Авторы выступлений»
- изучение наиболее популярных областей деятельности авторов 
- изучение распределения числа выступлений
5. Построение дашборда «Конференции»
- изучение распределения конференций во времени
- изучение выступлений в конференциях
- изучение языка выступлений
6. Общий вывод
7. Создание презентации

# Общий вывод

Мы провели исследование истории TED-конференций.

Целью исследования было изучить историю TED-конференций и создать дашборд на основе полученных данных.

Этапы исследования и выводы:

1. Загрузили и изучили общую информацию о данных.

В нашем распоряжении были данные о 3456 выступлениях, 327 конференциях и 2971 авторах. Были загружены файлы и объединены файлы "tableau_project_data" посредством метода "Union" в Tableau. А также таблицы "tableau_project_event_dict" и "tableau_project_speakers_dict" с помощью метода "Relationship" (связи по полям "author_id", "conf_id" и "speaker_id", "event_id").

С помощью визуализации было изучено распределение количества выступлений по времени. С 2001 года отмечается скачкообразный рост количества выступлений. Был настроен фильтр, исключающий все выступления до найденного порогового года на уровне источника данных.

2. Построение дашборда «История выступлений»

2.1 Изучение выступлений по странам
Был создан лист «Выступления по странам» с визуализацией типа "map", которая показывает процент выступлений в каждой из стран.

2.2 Изучение выступлений по годам
Был создан лист «Выступления по годам» с визуализацией типа "area charts", у которой по оси X отложены года проведения конференций, а по оси Y — абсолютное число выступлений. Также была сделана разбивка выступлений по категориям.

2.3 Изучение процента наблюдений по категориям за каждый год
Был создан лист «Процент выступлений по тематикам», на котором был отображен процент наблюдений по категориям за каждый год.

2.4 Построение дашборда «История выступлений»
Был создан дашборд на основании полученных данных, а также настроена интерактивность так, чтобы при выборе страны фильтр применялся и к остальным листам. Мы смогли подвести следующие итоги:
1) Наиболее часто выступления проходили в США, Канаде и Великобритании.

2) Наиболее популярные тематики выступлений - наука, технологии, культура, общество , глобальные проблемы. Большая часть выступлений при этом вошла в категорию "Прочее". 

3) В 2020-2021 годах наиболее часто проводились выступления по темам: общество, глобальные проблемы и технологии.  Большая часть выступлений при этом вошла в категорию "Прочее".  При этом отмечается общее снижение количества выступлений. Большая часть из них была проведена в США.

3. Построение дашборда «Тематики выступлений»

3.1 Изучение тематики выступлений в разных странах
Был создан лист «Выступления по тематике» с круговой диаграммой. На ней каждый сектор отражает тематику выступлений, а размер сектора — количество выступлений. Мы отобразили на графике топ-10 категорий по количеству выступлений, а менее популярные объединили в категорию «Другие». 

3.2 Изучение тематик и стран выступлений
Был создан лист «Тематики и страны» с визуализацией типа "highlight table". В строках таблицы — 10 самых популярных тематик и категория «Другие». В столбцах — топ-3 страны по количеству выступлений. На пересечении - процент выступлений на конкретную тему в каждой стране.

3.3 Изучение аплодисментов по тематикам
Был создан лист «Аплодисменты по тематикам» с диаграммой размаха. По горизонтальной оси - тематики, по вертикальной — отношение числа аплодисментов к длительности выступления в секундах.

3.3 Изучение смеха по тематикам
Был создан лист «Смех по тематикам». По горизонтальной оси - тематики, по вертикальной — отношение числа ситуаций, когда аудитория смеялась, к длительности выступления в секундах. 

3.4 Изучение длительности выступлений и числа просмотров
Были созданы листы с гистограммами длительности выступлений и числа просмотров - «Гистограмма длительности» и «Гистограмма просмотров». 

3.5 Изучение связи длительности выступления с просмотрами
Был создан лист «Связь длительности с просмотрами» с визуализацией типа "scatter plot". На графике по оси X - длительность выступления в минутах, по оси Y число просмотров.

3.6 Построение дашборда «Тематики выступлений»
Был создан дашборд на основании полученных данных, а также настроена интерактивность так, чтобы при выборе тематики на листе «Выступления по тематике» фильтр применялся к остальным визуализациям на дашборде, кроме таблицы «Тематики и страны». Мы смогли подвести следующие итоги:
1) Наиболее популярными категориями выступлений стали: наука (21%), другие категории (18%), технологии (17,6%), культура (13%).

2) Наибольшая часть выступлений в Канаде, Великобритании и США относится к категории науки (около 20%). Также достаточное число выступлений в категории технологии оказалось в Англии, а в Канаде и США категория другие. В США и Британии категория культура более популярна, чем в Канаде. В остальном различий между странами не так много.

3) Наиболее часто аплодисменты встречаются на выступлениях в категориях развлечений и социальных изменений. А наиболее редко в категориях науки и глобальных проблем. Больше всего аплодировали выступлению “The political progress women have made".

4) Чаще всего у аудитории вызывали смех выступления в категориях развлечений и бизнеса. А реже всего глобальные проблемы и социальные изменения. Самое смешное было выступление «A Saudi, an Indian and an Iranian walk into». 

5) Связи между длительностью выступления и количеством просмотров нет. Самое просматриваемое выступление – «Do schools kill creativity?» (70 млн просмотров). А самое долгое выступление – «3 secrets to Netflix's success» (1 час). 

4. Построение дашборда «Авторы выступлений»

4.1 Изучение наиболее популярных областей деятельности авторов
Был создан лист «Области деятельности авторов» с пузырьковой диаграммой (packed bubbles). 

4.2 Изучение распределения числа выступлений
Был создан лист «Распределение числа выступлений» со столбчатой диаграммой. По оси X - максимальное число выступлений, а по оси Y — число авторов, которые провели столько выступлений.

4.3 Создание таблиц
Были созданы листы «Авторы по числу выступлений» (таблица с полями: имя автора, область деятельности автора, описание деятельности автора, число выступлений) и «Выступления и число просмотров» (таблица с полями: название выступления, описание выступления, конференция, на которой проводилось выступление, число просмотров).

4.4 Построение дашборда «Авторы выступлений»
Был создан дашборд на основании полученных данных, а также настроена интерактивность так, чтобы при выборе области деятельности на визуализации «Области деятельности авторов» фильтровались таблицы «Авторы по числу выступлений» и «Выступления и число просмотров». А при выборе автора в таблице «Авторы по числу выступлений» - таблица «Выступления и число просмотров». Мы смогли подвести следующие итоги:
1) Больше всего преобладают такие области деятельности авторов, как: писательство, актерство и журналистика. 

2) В большинстве случаев один автор проводит одно выступление (в 88%). Чаще всего выступал Hans Rosling (10 выступлений). 

3) Чаще всего среди дизайнеров выступал Tom Wujec (4 выступления). Менее просматриваемое выступление – «Learn to use the 13th - century astrolabe» (940542 просмотров). 

5. Построение дашборда «Конференции»

5.1 Распределение конференций во времени
С помощью визуализации было изучено распределение количества конференций по времени. Скачкообразный рост количества проводимых конференций пришелся на 2008 год. А после 2016 года число конференций начало значительно снижаться.

5.2 Выступления в конференциях
Был создан лист "Выступления в конференциях" с разбивкой по странам топ-30 конференций по количеству выступлений.

5.3 Язык выступлений
Абсолютное большинство выступлений было проведено на английском языке, только 1 на французском и 2 на испанском. 

5.4 Построение дашборда «Конференции»
Был создан дашборд на основании полученных данных, а также описан вывод:
1) Скачкообразный рост количества проводимых конференций пришелся на 2008 год. А после 2016 года число конференций начало значительно снижаться. 

2) Самые многочисленные по выступлениям конференции прошли в Канаде: TED2018 (104 выступления), TED2019 (101 выступление), TED2017 (97 выступлений) и TED2014 (84 выступления). В топ 30 входят также США, Великобритания, Танзания и Бразилия. Больше всего конференций среди этого топа были проведены в США. 

3) Абсолютное большинство выступлений было проведено на английском языке, только 1 на французском и 2 на испанском. 

6. Создание презентации.

С помощью story была создана презентация из четырёх слайдов:
- дашборд «История выступлений»
- дашборд «Тематики выступлений»
- дашборд «Авторы выступлений»
- дашборд на свободную тему

Презентация опубликована на сайте Tableau Public по ссылке:

https://public.tableau.com/views/TED_17200262428350/Story1?:language=en-US&publish=yes&:sid=&:display_count=n&:origin=viz_share_link


<div class="alert alert-success" style="border-radius: 10px; box-shadow: 2px 2px 2px; border: 1px solid; padding: 10px ">
<b>Комментарий ревьюера v.1</b> 
    
👍 
Здорово, что есть описание задачи. Это поможет быстро вспомнить, о чем проект, если ты к нему вернешься спустя какое-то время.


    

</div>

# История выступлений

<div class="alert alert-success" style="border-radius: 10px; box-shadow: 2px 2px 2px; border: 1px solid; padding: 10px ">
<b>Комментарий ревьюера v.1</b> 
    
👍 
Сделано хорошо:

- дашборд соответствует макету;

- выводы понятны и логичны.


</div>

<div class="alert alert-warning" style="border-radius: 10px; box-shadow: 2px 2px 2px; border: 1px solid; padding: 10px ">
<b>Комментарий ревьюера v.1</b> 
    
📝 
Также мы можем добавить краткие описания графиков на всех слайдах.
    

</div>

# Тематика выступлений

<div class="alert alert-success" style="border-radius: 10px; box-shadow: 2px 2px 2px; border: 1px solid; padding: 10px ">
<b>Комментарий ревьюера v.1</b> 
    
👍 
    

- дашборд соответствует макету;

- корректность вычисляемых полей;
- всплывающие подсказки содержат нужные гистограммы
- есть ответы на поставленные вопросы.
</div>

<div class="alert alert-warning" style="border-radius: 10px; box-shadow: 2px 2px 2px; border: 1px solid; padding: 10px ">
<b>Комментарий ревьюера v.1</b> 
    
📝 
Также, можно добавить в табличку "Тематики и страны" категорию "Другие" на ось со странами.
</div>

# Авторы выступлений

<div style="border:solid blue 3px; padding: 20px" >
<div class="alert alert-success">
<b>Обратная связь v.1</b> 
    
👋 Гузель, у тебя получилась очень сильная и хорошая работа.   Я оставил несколько обязательных поправок для тебя и после этого буду готов сразу принять проект. Жду твою работу на повторное ревью 😊

* Если тебе интересна тема визуализации, то можешь пройти вот этот крутой и бесплатный курс по табло — https://tableau.pro/m01 (переходить по дням можно, если менять цифру в ссылке).

* Потом советую посмотреть на такой инструмент, как Redash — https://redash.io/help/user-guide/getting-started. Это надстройка над SQL-запросами, которая позволяет строить красивые таблички и графики в веб-интерфейсе, а потом собирать из них дашборды. 

* А вот сайт Ромы Бунина — https://revealthedata.com/ По-моему мнению, он один из самых крутых специалистов по визуализации в России. У него есть телеграм канал, блог и много всего интересного, что поможет расширить знания по визуализации.

* Знание BI-инструментов — это крайне полезно в работе аналитика, во многих вакансиях встречаются требования по инструментам для построения дашбордов.


<div style="border:solid indigo 3px; padding: 20px">
<div class="alert alert-success">
<b>Обратная связь v.2</b> 
    
👋 
      
Cпасибо тебе за исправления критических моментов, а также спасибо за хорошую работу.
    
Поздравляю с успешным завершением проекта 🥳 🎉
    
И желаю успехов в новых работах 😊