# Исследование канала Youtube

## Задачи 

### 1.Проанализировать данные, осуществить предобработку данных, а именно:

- исследовать пропущенные значения;
- исследовать соответствие типов;
- исследовать дубликаты;
- проверить корректность наименований колонок;
- переименовать  колонки в случае необходимости.

 
### 2. Проанализировать соотношение данных с заявленными метриками со стороны заказчика на возможность их отображения в дашборде. В случае отсутствия необходимых данных сообщить об этом заказчику.

### Описание данных

- **Content - id** контента
- **Video title** - название ролика
- **Video publish time** - дата публикации (месяц, день, год)
- **Clicks per end screen element shown (%)** - отношение нажатий на элемент конечной заставки к его показам
- **End screen element clicks** - число нажатий на элемент конечной заставки
- **Teaser clicks per card teaser shown (%)** - отношение количества кликов по тизеру к общему числу его показов
- **Card teaser clicks** - количество кликов по тизеру. Если зритель нажал на значок подсказки, это считается кликом по последнему показанному тизеру
- **Card clicks** - сколько раз зрители нажимали на подсказку
- **Clicks per card shown (%)** - отношение количества кликов по подсказке к общему числу ее показов
- **Subscribers gained** - сколько зрителей подписалось на канал
- **Unique viewers** - количество зрителей, посмотревших контент в указанный промежуток времени
- **Returning viewers** - постоянные зрители
- **New viewers** - зрители, впервые попавшие на канал, кликнув по этому видео
- **Average percentage viewed (%)** - процент видео (по времени), которое просматривается во время произведения
- **Subscribers** - количество подписчиков
- **Comments added** - количество добавленных комментариев
- **Shares** - сколько зрителей кликнуло "поделиться"
- **Dislikes** - сколько зрителей кникнуло "дизлайк"
- **Likes** - сколько зрителей кникнуло "лайк"
- **Views** - общее количество просмотров
- **Watch time (hours)** - общее время, в течение которого пользователи смотрели видео
- **Average view duration** - данные о среднем времени просмотра по выбранному видео или временному диапазону
- **Impressions** - информация о том, сколько раз значки ваших видео были показаны пользователям (только показы на YouTube)
- **Impressions click-through rate (%)** - сколько пользователей переходят с показа значка видео на само видео.


In [1]:
import pandas as pd
pd.set_option('display.max_colwidth', None)
import datetime as dt
from datetime import datetime, timedelta
import time as tm

In [2]:
all_video = pd.read_csv(r'C:\Users\123123\Downloads\Pet-projects\Youtube аналитика\Content 2022-10-01_2022-11-01 RomanSergeevCom - Table data.csv')

In [3]:
october_day = pd.read_csv(r'C:\Users\123123\Downloads\Pet-projects\Youtube аналитика\Date 2022-10-01_2022-11-01 RomanSergeevCom - Table data.csv', parse_dates=['Date'])

In [4]:
# приведём названия столбцов к нижнему регистру
all_video.columns = all_video.columns.str.lower()
october_day.columns = october_day.columns.str.lower()

# приведём названия столбцов к snake_case
all_video.columns = all_video.columns.str.replace(' ', '_')
october_day.columns = october_day.columns.str.replace(' ', '_')

# изменим тип у столбцов с датами
all_video['video_publish_time'] = pd.to_datetime(all_video['video_publish_time'])
october_day['date'] = pd.to_datetime(october_day['date'], errors='coerce')

In [5]:
def first_look(df):
    print('---------------------------Первые 5 строк----------------------------')
    display(df.head())
    print(' ')
    print(' ')
    print('--------------Общая информация--------------')
    print(' ')
    print(df.info())
    print(' ')
    print('-------------Пропуски------------- ')
    print(' ')
    count=0
    for element in df.columns:
        if df[element].isna().sum() > 0:
            print(element, ' - ', df[element].isna().sum(), 'пропусков')
            count = +1
    if count == 0:
        print(' ')
        print('Пропусков НЕТ')
    print(' ')
    print('-------------Дубликаты------------ ')
    print(' ')
    if df.duplicated().sum() > 0:
        print(' ')
        print('Дубликатов: ', df.duplicated().sum())
    else:
        print('Дубликатов НЕТ')
    print(' ')  

In [6]:
percent_null = round(all_video.isnull().mean() * 100, 2).rename('%')
cnt_null = all_video.isnull().sum().rename('cnt')
miss_val = cnt_null.to_frame().join(percent_null)
miss_val[miss_val.cnt != 0]

Unnamed: 0,cnt,%
video_title,1,0.45
video_publish_time,30,13.57
clicks_per_end_screen_element_shown_(%),42,19.0
end_screen_element_clicks,25,11.31
teaser_clicks_per_card_teaser_shown_(%),44,19.91
card_teaser_clicks,25,11.31
card_clicks,25,11.31
clicks_per_card_shown_(%),181,81.9
subscribers_gained,25,11.31
average_percentage_viewed_(%),26,11.76


## Предобработка датафрейма - october_day

In [7]:
first_look(october_day)

---------------------------Первые 5 строк----------------------------


Unnamed: 0,date,clicks_per_end_screen_element_shown_(%),end_screen_element_clicks,teaser_clicks_per_card_teaser_shown_(%),card_teaser_clicks,clicks_per_card_shown_(%),card_clicks,comments_added,shares,dislikes,...,unique_viewers,impressions_click-through_rate_(%),impressions,videos_published,videos_added,subscribers,average_percentage_viewed_(%),views,watch_time_(hours),average_view_duration
0,NaT,1.83,944,0.29,57,11.41,17,64,2816,83,...,62738,4.47,1424477,1,1,101,31.92,107075,8217.0323,0:04:36
1,2022-10-14,2.55,36,0.32,2,20.0,1,0,107,3,...,2230,4.32,42037,0,0,7,30.67,3085,236.706,0:04:36
2,2022-10-19,2.45,46,0.25,2,16.67,1,0,99,1,...,2654,4.83,46610,0,0,21,32.68,3824,307.4319,0:04:49
3,2022-10-01,2.29,33,0.54,3,25.0,2,1,65,1,...,1983,3.73,44269,0,0,-2,30.91,2860,204.9421,0:04:17
4,2022-10-20,2.27,38,0.16,1,0.0,0,3,91,4,...,2471,4.62,44581,0,0,3,32.65,3429,275.8032,0:04:49


 
 
--------------Общая информация--------------
 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 24 columns):
 #   Column                                   Non-Null Count  Dtype         
---  ------                                   --------------  -----         
 0   date                                     31 non-null     datetime64[ns]
 1   clicks_per_end_screen_element_shown_(%)  32 non-null     float64       
 2   end_screen_element_clicks                32 non-null     int64         
 3   teaser_clicks_per_card_teaser_shown_(%)  32 non-null     float64       
 4   card_teaser_clicks                       32 non-null     int64         
 5   clicks_per_card_shown_(%)                29 non-null     float64       
 6   card_clicks                              32 non-null     int64         
 7   comments_added                           32 non-null     int64         
 8   shares                                   32 non-null     int64         

# пропуски
missing_data = pd.DataFrame(chart_data.isna().sum())
missing_data.columns = ['nan']
missing_data['% missing'] = round(missing_data['nan'] / len(chart_data) * 100, 2)
missing_data['types'] = chart_data.dtypes
missing_data.sort_values(by='% missing', ascending=False)

In [8]:
# проверим пропуски в дате
october_day.query('date != date')
print(october_day['end_screen_element_clicks'].sum())
print(october_day['card_teaser_clicks'].sum())
print(october_day['clicks_per_card_shown_(%)'].median())

1888
114
11.41


**Пустое - 32 значение даты выводит обобщённые показатели за месяц, где-то половину суммы, где-то медиану.**

In [9]:
# проверим пропуски в кликах по карточке
october_day[october_day['clicks_per_card_shown_(%)'].isna()]

Unnamed: 0,date,clicks_per_end_screen_element_shown_(%),end_screen_element_clicks,teaser_clicks_per_card_teaser_shown_(%),card_teaser_clicks,clicks_per_card_shown_(%),card_clicks,comments_added,shares,dislikes,...,unique_viewers,impressions_click-through_rate_(%),impressions,videos_published,videos_added,subscribers,average_percentage_viewed_(%),views,watch_time_(hours),average_view_duration
23,2022-10-08,1.62,20,0.0,0,,0,5,95,2,...,2012,3.9,42394,0,0,-10,29.1,2766,200.8965,0:04:21
25,2022-10-29,1.53,24,0.0,0,,0,2,59,0,...,2211,4.6,41362,0,0,8,33.15,3062,238.8405,0:04:40
29,2022-10-30,1.29,21,0.0,0,,0,1,68,1,...,2537,4.8,46261,0,0,-9,30.88,3463,249.3828,0:04:19


**Значения кликов в эти дни нулевые поэтому заполним 0 и удалим пропуски в дате**

In [10]:
october_day['clicks_per_card_shown_(%)'] = october_day['clicks_per_card_shown_(%)'].fillna(0)
october_day.dropna(subset='date', inplace=True)

**Изменим тип данных в "average_view_duration" и переведём секунды**

In [11]:
# функция для перевода object в int(секунды)
def time_to_int(data):
    a = tm.strptime(data['average_view_duration'], '%H:%M:%S')
    return dt.timedelta(hours=a.tm_hour, minutes=a.tm_min, seconds=a.tm_sec).seconds

october_day['average_view_duration'] = october_day.apply(time_to_int, axis=1)

**Датафрейм october_day готов к исследованию**

In [12]:
october_day.to_csv('october_day.csv', index=False)

## Предобработка датафрейма - all_video

In [13]:
first_look(all_video)

---------------------------Первые 5 строк----------------------------


Unnamed: 0,content,video_title,video_publish_time,clicks_per_end_screen_element_shown_(%),end_screen_element_clicks,teaser_clicks_per_card_teaser_shown_(%),card_teaser_clicks,card_clicks,clicks_per_card_shown_(%),subscribers_gained,...,subscribers,comments_added,shares,dislikes,likes,views,watch_time_(hours),average_view_duration,impressions,impressions_click-through_rate_(%)
0,Total,,NaT,1.83,944.0,0.29,57.0,17.0,11.41,2041.0,...,101.0,64.0,2816.0,83.0,3419.0,107075.0,8217.0323,0:04:36,1424477,4.47
1,ZFcv558-PDo,«Подсознание может всё!» Джон Кехо | Саммари ®,2019-02-06,0.87,25.0,0.15,2.0,0.0,0.0,151.0,...,145.0,6.0,183.0,5.0,179.0,8090.0,483.5454,0:03:35,167318,2.98
2,73eE66Hk_1A,«От нуля к единице». Питер Тиль | Саммари ®,2022-10-04,1.27,33.0,,0.0,0.0,,25.0,...,-48.0,12.0,76.0,14.0,291.0,7239.0,362.0123,0:03:00,130379,3.51
3,65Xci_uI_e0,«Магия утра». Хэл Элрод | Саммари,2017-01-30,1.36,25.0,0.1,1.0,1.0,20.0,89.0,...,87.0,1.0,174.0,1.0,98.0,5685.0,842.7552,0:08:53,21762,18.7
4,OSjaA86Z4Ho,"«Богатый папа, бедный папа». Роберт Кийосаки | Саммари ®",2017-10-23,1.57,39.0,0.18,3.0,0.0,0.0,60.0,...,59.0,1.0,96.0,4.0,138.0,4817.0,358.6836,0:04:28,103528,2.78


 
 
--------------Общая информация--------------
 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 221 entries, 0 to 220
Data columns (total 24 columns):
 #   Column                                   Non-Null Count  Dtype         
---  ------                                   --------------  -----         
 0   content                                  221 non-null    object        
 1   video_title                              220 non-null    object        
 2   video_publish_time                       191 non-null    datetime64[ns]
 3   clicks_per_end_screen_element_shown_(%)  179 non-null    float64       
 4   end_screen_element_clicks                196 non-null    float64       
 5   teaser_clicks_per_card_teaser_shown_(%)  177 non-null    float64       
 6   card_teaser_clicks                       196 non-null    float64       
 7   card_clicks                              196 non-null    float64       
 8   clicks_per_card_shown_(%)                40 non-null     float64     

In [14]:
# удалим итоговую строку
all_video.dropna(subset='video_title', inplace=True)

In [15]:
# видео с пропусками в дате выхода
#all_video[all_video['video_publish_time'].isna()]

**Проанализировав 29 видео с пропусками в дате выпуска, выявлено, что 25 из них - аудио, случайно попавшее в датафрейм и 4 видео с большинством пропусков в значениях. Чтобы не терять время удалим их**

In [16]:
# удаляем ненужные строки и строки с большинством пустых значений
all_video.dropna(subset='video_publish_time', inplace=True)

In [17]:
# распределение значений 'clicks_per_card_shown_(%)'
all_video['clicks_per_card_shown_(%)'].value_counts()

0.00      29
50.00      3
33.33      2
20.00      1
11.11      1
29.17      1
100.00     1
22.22      1
Name: clicks_per_card_shown_(%), dtype: int64

**152 пропуска в "clicks_per_card_shown_(%)" - "отношение кол-ва кликов на подсказку к числу её показов. Не самая популярная функция, большинство заполненых значений - 0, поэтому заполним пропуски 0."**

In [18]:
# заполняем пропуски в 'clicks_per_card_shown_(%)'
all_video['clicks_per_card_shown_(%)'] = all_video['clicks_per_card_shown_(%)'].fillna(0)

In [19]:
# распределение значений 'clicks_per_end_screen_element_shown_(%)'
all_video['clicks_per_end_screen_element_shown_(%)'].value_counts()

0.00     54
0.87      4
1.92      4
2.17      4
1.49      2
         ..
2.89      1
0.60      1
2.08      1
0.54      1
10.00     1
Name: clicks_per_end_screen_element_shown_(%), Length: 106, dtype: int64

**13 пропусков - 'clicks_per_end_screen_element_shown_(%)' - отношение нажатий на элемент конечной заставки. Большинство заполненых значений - 0, поэтому также заполним пропуски 0.**

In [20]:
# заполняем пропуски в 'clicks_per_end_screen_element_shown_(%)'
all_video['clicks_per_end_screen_element_shown_(%)'] = all_video['clicks_per_end_screen_element_shown_(%)'].fillna(0)

In [21]:
# распределение значений 'teaser_clicks_per_card_teaser_shown_(%)'
#all_video['teaser_clicks_per_card_teaser_shown_(%)'].value_counts()

**Таже ситуация с 16 пропусками в "teaser_clicks_per_card_teaser_shown_(%)" - "отношение кол-ва кликов по тизеру"**

In [22]:
# заполняем пропуски в 'teaser_clicks_per_card_teaser_shown_(%)'
all_video['teaser_clicks_per_card_teaser_shown_(%)'] = all_video['teaser_clicks_per_card_teaser_shown_(%)'].fillna(0)

In [23]:
# пропуск в "average_view_duration"
all_video[all_video['average_view_duration'].isna()]

Unnamed: 0,content,video_title,video_publish_time,clicks_per_end_screen_element_shown_(%),end_screen_element_clicks,teaser_clicks_per_card_teaser_shown_(%),card_teaser_clicks,card_clicks,clicks_per_card_shown_(%),subscribers_gained,...,subscribers,comments_added,shares,dislikes,likes,views,watch_time_(hours),average_view_duration,impressions,impressions_click-through_rate_(%)
195,amAL38R6mpA,Дудл видео для бизнеса | 18+,2019-07-08,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,3.0,0.0,0.0,0.0,0.0,,0,


In [24]:
# пропуск в "impressions_click-through_rate_(%)""
all_video[all_video['impressions_click-through_rate_(%)'].isna()]

Unnamed: 0,content,video_title,video_publish_time,clicks_per_end_screen_element_shown_(%),end_screen_element_clicks,teaser_clicks_per_card_teaser_shown_(%),card_teaser_clicks,card_clicks,clicks_per_card_shown_(%),subscribers_gained,...,subscribers,comments_added,shares,dislikes,likes,views,watch_time_(hours),average_view_duration,impressions,impressions_click-through_rate_(%)
195,amAL38R6mpA,Дудл видео для бизнеса | 18+,2019-07-08,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,3.0,0.0,0.0,0.0,0.0,,0,


- **average_percentage_viewed_(%)  -  1 пропуск - заполним средним по всем видео**
- **average_view_duration  -  1 пропуск - удалим его, т.к. практически все значения 0**
- **impressions_click-through_rate_(%)  -  1 пропуск - заполним 0, т.к. практически все значения 0**

In [25]:
# заполним средним значением по всем видео
all_video['average_percentage_viewed_(%)'] = (all_video['average_percentage_viewed_(%)'].
                                              fillna(all_video['average_percentage_viewed_(%)'].mean()))

In [26]:
# удалим его, т.к. большинство значений 0
all_video.dropna(subset='average_view_duration', inplace=True)

**Переведём среднее время просмотра в числовой тип**

In [27]:
# используем функцию time_to_int
all_video['avg_view_duration'] = all_video.apply(time_to_int, axis=1)

In [28]:
# заполним 0, т.к. большинство значений 0
all_video['impressions_click-through_rate_(%)'] = all_video['impressions_click-through_rate_(%)'].fillna(0)

**Датафрейм all_video готов к исследованию**

In [29]:
all_video.to_csv('all_video.csv', index=False)