# Анализ метрик AIDA для Youtube канала

Бизнес все чаще использует контент-маркетинг для своего продвижения. Становится тяжелее отслеживать результаты, тренды и удачные примеры. Какой контент хочет видеть наша аудитория? О чем и как снимать? Какие результаты у нашего канала? Как это влияет на наш бизнес? Несмотря на встроенные возможности Youtube для аналитики каналов (Youtube Studio) - возможности этой платформы зачастую ограничены или не обладают необходимой для бизнеса гибкость.

**Цель исследования** - Разработать автоматическую систему анализа YouTube-канала для бизнеса. Это система должна помогать:
владельцу бизнеса и стейкхолдерам отслеживать эффективность бизнес-единицы (YouTube-канала) и позволять интегрировать данные бизнеса для расчёта дополнительных параметров (например, добавление информации о расходах для расчёта метрики **ROI/ROMI**)

**Ход исследования**

Заказчик - *Роман Сергеев*, создатель Youtube-канала с рисованными видео на книги по бизнесу, психологии и личной эффективности [**RomanSergeevCom**](https://www.youtube.com/c/RomanSergeevCom/about), на момент исследования на канал подписаны более 485 тыс. человек. Основными источниками данных станут выгрузка общей статистики канала за октябрь 2022 с разбивкой по дням и статистика всех видео канала за этот же период. Будет проведён обзор и предобработка данных - данные будут проверены на наличие дубликатов, пропущенных или аномальных значений, а также корректность типа хранимых данных. После чего для данных будут расчитаны метрики по модели [**AIDA**](https://en.wikipedia.org/wiki/AIDA_(marketing)) (согласовано с заказчиком), но основе которых будет проведён исследовательский анализ, в ходе которого будет изучено распределение значений метрик в наборах данных. По результатам будет сделан общий вывод, после чего датасеты будут выгружены для создания интерактивного дашборда.

Таким образом, исследование будет разбито на следующие этапы:


1. [**Обзор и предобработка данных**](#1)
2. [**Исследовательский анализ данных**](#2)
3. [**Общий вывод**](#3)

Для выполнения проекта будет использованы следующие инструменты:

- **Предобработка/исследовательский анализ** - библиотеки для анализа и визуализации (pandas/numpy/matplotlib/seaborn)
- **Дашборд** - Tableau Public

<a id='1'></a>
## Обзор и предобработка данных
На данном этапе данные будут предварительно изучены, после чего будут проверены на наличие дубликатов, пропущенных или аномальных значений, а также корректность типа хранимых данных.

In [53]:
# импортируем библиотеки для работы с данными

import pandas as pd
import numpy as np
import datetime as dt
import seaborn as sns
from matplotlib import pyplot as plt

# настройки отображения

pd.options.display.float_format = '{:,.2f}'.format
pd.options.mode.chained_assignment = None
sns.set_style('darkgrid')
plt.rcParams.update({'axes.labelsize': 12,'axes.titlesize': 16})
plt.rcParams['figure.figsize'] = [15, 5]

# путь к датасету

import os
os.chdir('C:\\Users\\dmitr\\GitHub\\Pet-Projects\\datasets')

### Общая статистика канала

In [39]:
# загружаем первый датафрейм (общая статистика канала), выводим общую информацию и 10 случайных строк
# первая строка в сырых данных содержит итоги столбцов, исключим её из выгрузки

overall = pd.read_excel('youtube_overall_october.xlsx').drop(index=0)

overall.info()
display(overall.sample(10, random_state=0).T)
print(f'Датафрейм содержит {content.shape[1]} столбца и {content.shape[0]} строк')

<class 'pandas.core.frame.DataFrame'>
Int64Index: 31 entries, 1 to 31
Data columns (total 24 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   Date                                     31 non-null     object 
 1   Clicks per end screen element shown (%)  31 non-null     float64
 2   End screen element clicks                31 non-null     float64
 3   Teaser clicks per card teaser shown (%)  31 non-null     float64
 4   Card teaser clicks                       31 non-null     float64
 5   Clicks per card shown (%)                28 non-null     float64
 6   Card clicks                              31 non-null     float64
 7   Comments added                           31 non-null     float64
 8   Shares                                   31 non-null     float64
 9   Dislikes                                 31 non-null     float64
 10  Likes                                    31 non-null

Unnamed: 0,3,30,14,11,28,26,23,12,18,24
Date,2022-10-01,2022-10-24,2022-10-03,2022-10-17,2022-10-11,2022-10-04,2022-10-08,2022-10-25,2022-10-26,2022-10-18
Clicks per end screen element shown (%),2.29,1.23,1.90,2.03,1.38,1.45,1.62,1.96,1.75,1.60
End screen element clicks,33.00,20.00,31.00,39.00,25.00,43.00,20.00,28.00,26.00,29.00
Teaser clicks per card teaser shown (%),0.54,0.14,0.25,0.00,0.74,0.00,0.00,0.16,0.27,0.29
Card teaser clicks,3.00,1.00,2.00,0.00,5.00,0.00,0.00,1.00,2.00,2.00
Clicks per card shown (%),25.00,0.00,25.00,0.00,14.29,0.00,,33.33,20.00,16.67
Card clicks,2.00,0.00,1.00,0.00,1.00,0.00,0.00,1.00,1.00,1.00
Comments added,1.00,4.00,3.00,2.00,3.00,11.00,5.00,2.00,0.00,1.00
Shares,65.00,109.00,74.00,85.00,107.00,111.00,95.00,82.00,111.00,123.00
Dislikes,1.00,-1.00,6.00,2.00,0.00,8.00,2.00,5.00,5.00,3.00


Датафрейм содержит 24 столбца и 220 строк


Описание данных:

- `Clicks per end screen element shown (%)` - отношение нажатий на элемент конечной заставки к его показам;
- `End screen element clicks` - число нажатий на элемент конечной заставки;
- `Teaser clicks per card teaser shown (%)` - отношение количества кликов по тизеру к общему числу его показов;
- `Card teaser clicks` -  количество кликов по тизеру;
- `Clicks per card shown (%)` - отношение количества кликов по подсказке к общему числу ее показов;
- `Card clicks` - клики на подсказку;
- `Comments added` - количество новых комментариев;
- `Shares` - количество нажатий на кнопку "Поделиться";
- `Dislikes` - количество нажатий на кнопку "Не нравится";
- `Likes` - количество нажатий на кнопку "Нравится";
- `Subscribers gained` - общее число пользователей, подписавшихся на этот канал за выбранный период времени;
- `Returning viewers` - вернувшиеся зрители;
- `New viewers` - новые зрители;
- `Unique viewers` - уникальные зрители;
- `Impressions click-through rate (%)` - как часто пользователи просматривают видео после того, как увидят его значок;
- `Impressions` - показы;
- `Videos published` - количество опубликованных видео;
- `Videos added` - количество добавленных видео;
- `Subscribers` - количество подписчиков;
- `Average percentage viewed (%)` - средний процент просмотров (%);
- `Views` - просмотры;
- `Watch time (hours)` - время просмотра (часы);
- `Average view duration` - средняя продолжительность просмотра.


Приведём названия колонок к единому стилю и преобразуем даты:

In [51]:
# меняем названия колонок

overall.columns = [
    x
    .lower()
    .replace(' ' , '_')
    .replace('-', '_')
    .replace('(', '')
    .replace(')', '')
    for x in overall.columns
]

# преобразуем даты

overall['date'] = pd.to_datetime(overall['date'])

Изучим описательную статистику таблицы:

In [52]:
overall.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
clicks_per_end_screen_element_shown_%,31.0,1.84,0.36,1.23,1.61,1.77,2.15,2.55
end_screen_element_clicks,31.0,30.45,7.0,18.0,26.0,30.0,35.5,46.0
teaser_clicks_per_card_teaser_shown_%,31.0,0.28,0.23,0.0,0.15,0.25,0.36,0.75
card_teaser_clicks,31.0,1.84,1.53,0.0,1.0,2.0,2.0,6.0
clicks_per_card_shown_%,28.0,12.18,14.23,0.0,0.0,6.67,20.0,50.0
card_clicks,31.0,0.55,0.68,0.0,0.0,0.0,1.0,2.0
comments_added,31.0,2.06,2.24,0.0,1.0,2.0,2.5,11.0
shares,31.0,90.84,18.35,59.0,74.5,90.0,107.0,128.0
dislikes,31.0,2.68,2.52,-1.0,1.0,2.0,5.0,8.0
likes,31.0,110.29,37.48,57.0,88.0,109.0,124.5,277.0


### Статистика по видео

In [3]:
# загружаем второй датафрейм (статистика по каждому видео), выводим общую информацию и 10 случайных строк
# первая строка в сырых данных содержит итоги столбцов, исключим её из выгрузки

content = pd.read_excel('youtube_content_october.xlsx').drop(index=0)

content.info()
display(content.describe())
content.sample(10, random_state=0)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 220 entries, 1 to 220
Data columns (total 24 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   Content                                  220 non-null    object 
 1   Video title                              220 non-null    object 
 2   Video publish time                       191 non-null    object 
 3   Clicks per end screen element shown (%)  178 non-null    float64
 4   End screen element clicks                195 non-null    float64
 5   Teaser clicks per card teaser shown (%)  176 non-null    float64
 6   Card teaser clicks                       195 non-null    float64
 7   Card clicks                              195 non-null    float64
 8   Clicks per card shown (%)                39 non-null     float64
 9   Subscribers gained                       195 non-null    float64
 10  Unique viewers                           220 non-n

Unnamed: 0,Clicks per end screen element shown (%),End screen element clicks,Teaser clicks per card teaser shown (%),Card teaser clicks,Card clicks,Clicks per card shown (%),Subscribers gained,Unique viewers,Returning viewers,New viewers,Average percentage viewed (%),Subscribers,Comments added,Shares,Dislikes,Likes,Views,Watch time (hours),Impressions,Impressions click-through rate (%)
count,178.0,195.0,176.0,195.0,195.0,39.0,195.0,220.0,220.0,220.0,194.0,195.0,195.0,195.0,195.0,195.0,195.0,195.0,220.0,217.0
mean,1.66,4.84,0.32,0.29,0.09,10.23,7.51,400.65,149.3,251.35,35.86,6.93,0.33,14.44,0.43,17.53,549.1,42.14,6474.91,3.88
std,1.94,9.5,0.92,1.08,0.55,21.46,18.34,861.37,352.25,574.62,10.99,18.43,1.11,28.4,1.31,33.58,1088.48,94.2,17507.34,2.62
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.63,-48.0,0.0,0.0,-2.0,-1.0,0.0,0.0,0.0,0.0
25%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,41.75,18.0,19.0,27.21,0.0,0.0,2.0,0.0,3.0,82.0,6.31,888.75,2.13
50%,1.17,1.0,0.0,0.0,0.0,0.0,2.0,156.5,60.5,85.5,35.61,2.0,0.0,5.0,0.0,7.0,237.0,15.06,2369.5,4.0
75%,2.21,5.0,0.0,0.0,0.0,5.55,6.0,352.5,149.25,220.25,43.61,6.0,0.0,15.0,0.0,16.0,554.0,38.56,4767.25,4.96
max,11.59,62.0,6.47,13.0,7.0,100.0,151.0,6807.0,4154.0,4983.0,67.98,145.0,12.0,183.0,14.0,291.0,8090.0,842.76,167318.0,18.7


Unnamed: 0,Content,Video title,Video publish time,Clicks per end screen element shown (%),End screen element clicks,Teaser clicks per card teaser shown (%),Card teaser clicks,Card clicks,Clicks per card shown (%),Subscribers gained,...,Subscribers,Comments added,Shares,Dislikes,Likes,Views,Watch time (hours),Average view duration,Impressions,Impressions click-through rate (%)
153,DFLRIY0ir1o,«Конор Макгрегор». Джон Кавана | Саммари ®,"Oct 4, 2018",,0.0,0.0,0.0,0.0,,1.0,...,1.0,0.0,0.0,0.0,3.0,74.0,3.9,0:03:09,1276.0,4.0
75,-szfQJ1-9OM,«Привычка достигать». Бернард Рос | Саммари,"Sep 12, 2017",1.56,2.0,0.0,0.0,0.0,,4.0,...,4.0,0.0,13.0,0.0,11.0,320.0,28.35,0:05:18,5173.0,4.18
72,1HFRquFwhIM,«Первоклассный сервис как конкурентное преимущ...,"Jul 28, 2021",1.49,3.0,0.0,0.0,0.0,,3.0,...,2.0,0.0,13.0,0.0,8.0,325.0,23.08,0:04:15,9172.0,2.07
162,erxfLffk8IQ,Взрывной рост компании «Кнопка»,"Dec 28, 2019",0.0,0.0,0.0,0.0,0.0,,0.0,...,0.0,0.0,0.0,0.0,3.0,54.0,4.49,0:04:59,1731.0,1.79
163,Sd97h4xhepo,«Отдел продаж по захвату рынка». Часть 3. Миха...,"Oct 31, 2019",0.0,0.0,0.0,0.0,0.0,,0.0,...,0.0,0.0,0.0,0.0,2.0,52.0,3.84,0:04:25,1482.0,1.96
144,z41Du_6vDHI,«Уоррен Баффет» Элис Шрёдер | Саммари,"Jan 23, 2018",0.0,0.0,0.0,0.0,0.0,,0.0,...,0.0,0.0,1.0,0.0,5.0,88.0,13.72,0:09:21,1442.0,2.64
64,APZqHC1Jo0s,«Красная Таблетка» Андрей Курпатов | (АНИМАЦИЯ),"May 26, 2018",2.06,7.0,0.0,0.0,0.0,,2.0,...,2.0,0.0,5.0,1.0,6.0,367.0,14.02,0:02:17,2833.0,8.82
154,fUPNozpFav8,«Золотая лихорадка». Владислав Мусатов | Самма...,"Feb 13, 2019",0.0,0.0,0.0,0.0,0.0,,4.0,...,4.0,0.0,5.0,0.0,2.0,74.0,5.22,0:04:13,1196.0,2.34
220,ygIEgoCZFnA,Antonio 07 Acoustic | Music by RomanSergeevCom,,,,,,,,,...,,,,,,,,,14.0,0.0
136,BJuRCUn5Xt4,«Экономика впечатлений» Джозеф Пайн и Джеймс Г...,"Oct 6, 2019",3.09,3.0,0.0,0.0,0.0,,2.0,...,2.0,0.0,6.0,0.0,5.0,117.0,7.79,0:03:59,1669.0,3.06


Датафрейм содержит 24 столбца и 220 строк


- `Impressions`	How many times your video thumbnails were shown to viewers. Includes only impressions on YouTube, not on external sites or apps.
- `CTR (Impressions click-through rate)`	Views per impressions shown. This measures how often viewers watched a video after seeing an impression. Wondering whether your Impressions click-through rate is high or low?	Сведения о том, как часто пользователи просматривают видео после того, как увидят его значок.
- `Views`	Total views for the selected date range, region and other filters.	
- `Unique viewers`	Estimated number of people that watched your content within the selected date range.	
- `New viewers`	Viewers who discovered your channel for the first time by watching this video	
- `Returning viewers`		Постоянные зрители
		
- `Average view duration`	Estimated average minutes watched per view for the selected content, date range, region and other filters.	Данные о среднем времени просмотра по выбранному видео или временному диапазону.
- `Watch time (hours)`	Estimated total hours of viewing time of your content from your audience.	Общее время, в течение которого пользователи смотрели ваши видео.
		
	
- `Likes`	The change in total likes found by subtracting "likes removed" from "likes added" for the selected date range, region and other filters. Prior to September 1, 2012, "likes removed" were not subtracted.	
- `Comments added`	The number of comments added on your video or channel. This count may include deleted comments as well as live chat.	
- `Subscribers gained`	The total number of times users subscribed to this channel for the selected date range and region.
		
		
- `Card clicks`	The number of times a card has been clicked.	
- `Clicks per card shown`	The average card clicks per impression. This measures how often viewers clicked a card after seeing it.	
- `Card teaser clicks`	The number of times a teaser has been clicked. Card icon clicks get attributed to the last teaser shown.	
- `Teaser clicks per card teaser shown`	The average teaser clicks per teaser impression. It measures how often viewers clicked a teaser after seeing it.	

- `clicks per end screen element shown (%)`	How often viewers clicked an end screen element when it was shown.
- `End screen element clicks`	The number of times an end screen element was clicked.
- `teaser clicks per card teaser shown (%)`	The average teaser clicks per teaser impression. It measures how often viewers clicked a teaser after seeing it.
- `card teaser clicks`- The number of times a teaser has been clicked. Card icon clicks get attributed to the last teaser shown.
- `clicks per card shown (%)` - The average card clicks per impression. This measures how often viewers clicked a card after seeing it.
- `card clicks`	The number of times a card has been clicked