# Данные

В данных представлена статистика с различными метриками социальных сетей (репосты, лайки, просмотры и т.д.). Используются данные за один месяц (декабрь 2022 года).

Полный датасет можно найти по ссылке: https://www.kaggle.com/datasets/ramjasmaurya/top-1000-social-media-channels.

# Какие данные представлены?

Используются датасеты со статистикой по трем социальным сетям - Instagram, TikTok, YouTube.

### Instagram

- Rank - колонка с индексом
- name - имя блогера
- instagram name - ник блогера в Instagram
- Category_1 - категория производимого блогером контента 1
- Category_2 - категория производимого блогером контента 2
- followers - количество подписчиков
- country - в какой стране проживает основная аудитория блогера
- Eng. (Auth.) - вовлеченность подписчиков (взаимодействия подписчиков с контентом блогера)
- Eng. (Avg.) - общая вовлеченность (взаимодействия как подписчиков так и не подписчиков)

### TikTok

- Rank - колонка с индексом
- Tiktoker name - ник блогера в TikTok
- Tiktok name - имя блогера
- followers - количество подписчиков
- views(avg) - среднее число просмотров
- likes(avg.) - среднее число лайков
- comments(avg.) - среднее число комментариев
- shares(avg.) - среднее число репостов

### YouTube

- s.no - колонка с индексом
- Youtube channel - название канала
- youtuber name - имя блогера
- Category - категория производимого блогером контента 1
- Category-2 - категория производимого блогером контента 2
- Followers - количество подписчиков
- Country - в какой стране проживает основная аудитория блогера
- Views (Avg.) - среднее число просмотров
- Likes (Avg.) - среднее число лайков
- Comments (Avg.) - среднее число комментариев

# Задача

Предобработать данные для составления дашборда в Microsoft Power BI. Дашборд должен упрощать поиск блогеров, соответствующих определенным условиям.

### Instagram

Сортировка по:

- рангу (числу подписчиков)
- категории контента
- стране, в которой проживает основная аудитория

### TikTok

Сортировка по:

- рангу (числу подписчиков)
- уровню вовлеченности подписчиков
- уровню привлекательности контента блогера

### YouTube

Сортировка по:

- рангу (числу подписчиков)
- категории контента
- стране, в которой проживает основная аудитория

In [1]:
# Загрузка нужных библиотек
import re

import pandas as pd
import numpy as np

# 1. Instagram

In [2]:
# Загрузка данных
df_inst = pd.read_csv('data/instagram/social media influencers-INSTAGRAM - -DEC 2022.csv')
print(df_inst.shape)
df_inst.head()

(1000, 9)


Unnamed: 0,Rank,name,instagram name,Category_1,Category_2,followers,country,Eng. (Auth.),Eng. (Avg.)
0,1,leomessi,Leo Messi,Sports with a ball,Family,409.8M,Argentina,17.8M,23.4M
1,2,cristiano,Cristiano Ronaldo,Sports with a ball,,523M,India,11.7M,14.7M
2,3,neymarjr,NJ 🇧🇷,Sports with a ball,,198.9M,Brazil,6.7M,9.5M
3,4,kyliejenner,Kylie 🤍,Fashion,Modeling,376.3M,United States,2.7M,4.3M
4,5,kendalljenner,Kendall,Modeling,Fashion,268M,United States,3.2M,5M


Переименуем нужные колонки, остальные удалим.

In [3]:
df_inst = df_inst.drop(columns=['Rank', 'Category_2'])

df_inst = df_inst.rename(columns={'name': 'Ник Instagram',
                                  'instagram name': 'Имя',
                                  'followers': 'Подписчики',
                                  'country': 'Основная аудитория',
                                  'Eng. (Auth.)': 'Вовлеченность подписчиков',
                                  'Eng. (Avg.)': 'Общая вовлеченность',
                                  'Category_1': 'Категория контента'})

df_inst = df_inst[['Ник Instagram', 'Имя', 'Основная аудитория', 'Подписчики', 'Вовлеченность подписчиков', 'Общая вовлеченность', 'Категория контента']]

df_inst

Unnamed: 0,Ник Instagram,Имя,Основная аудитория,Подписчики,Вовлеченность подписчиков,Общая вовлеченность,Категория контента
0,leomessi,Leo Messi,Argentina,409.8M,17.8M,23.4M,Sports with a ball
1,cristiano,Cristiano Ronaldo,India,523M,11.7M,14.7M,Sports with a ball
2,neymarjr,NJ 🇧🇷,Brazil,198.9M,6.7M,9.5M,Sports with a ball
3,kyliejenner,Kylie 🤍,United States,376.3M,2.7M,4.3M,Fashion
4,kendalljenner,Kendall,United States,268M,3.2M,5M,Modeling
...,...,...,...,...,...,...,...
995,thiago6,Thiago Alcantara,United Kingdom,10.4M,129.9K,222.7K,Sports with a ball
996,soycintiacossio,Cintia Cossio,Colombia,6M,313.4K,390.6K,Modeling
997,feat.dino,이찬,South Korea,2.7M,716.6K,876.4K,Lifestyle
998,djokernole,Novak Djokovic,United States,11.8M,158.6K,197.5K,Sports with a ball


Посмотрим, есть ли в данных пропуски.

In [4]:
df_inst.isnull().sum()

Ник Instagram                 0
Имя                          19
Основная аудитория            1
Подписчики                    0
Вовлеченность подписчиков     0
Общая вовлеченность           0
Категория контента           50
dtype: int64

In [5]:
df_inst.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Ник Instagram              1000 non-null   object
 1   Имя                        981 non-null    object
 2   Основная аудитория         999 non-null    object
 3   Подписчики                 1000 non-null   object
 4   Вовлеченность подписчиков  1000 non-null   object
 5   Общая вовлеченность        1000 non-null   object
 6   Категория контента         950 non-null    object
dtypes: object(7)
memory usage: 54.8+ KB


Числовые данные представлены в виде строк, поэтому проведем преобразование к числовому типу данных.

In [6]:
def str_to_int(str_number):
    '''
    Функция для получения из строки числа.
    Если в строке есть символ 'M', строка преобразуется в число и умножается на миллион.
    Если в строке есть символ 'K', строка преобразуется в число и умножается на тысячу.
    Если нет ни одного из этих символов, то возвращается преобразованная строка.
    '''
    if 'M' in str_number:
        str_number = str_number.replace('M', '')
        str_number = float(str_number) * 1000000

        return str_number
    
    elif 'K' in str_number:
        str_number = str_number.replace('K', '')
        str_number = float(str_number) * 1000

        return str_number

    else:
        str_number = float(str_number)

        return str_number

In [7]:
df_inst['Подписчики'] = df_inst['Подписчики'].apply(str_to_int)

df_inst['Вовлеченность подписчиков'] = df_inst['Вовлеченность подписчиков'].apply(str_to_int)

df_inst['Общая вовлеченность'] = df_inst['Общая вовлеченность'].apply(str_to_int)

Сделаем колонку с рангом блогеров в зависимости от количества подписчиков.

In [8]:
def inst_ranking(sub_count):
    '''
    Функция возвращает ранг в зависимости от переданного числа.
    Больше 100 миллионов - "Мега".
    Больше 30 миллионов и меньше 100 миллионов - "Макро".
    Больше 10 миллионов и меньше 30 миллионов - "Микро".
    Меньше 10 миллионов - "Нано".
    '''
    if sub_count > 100000000:
        return 'Мега (>100M)'
    elif (sub_count > 30000000) and (sub_count < 100000000):
        return 'Макро (>30M) & (<100M)'
    elif (sub_count > 10000000) and (sub_count < 30000000):
        return 'Микро (>10M) & (<30M)'
    else:
        return 'Нано (<10M)'

In [9]:
df_inst['Ранг'] = df_inst['Подписчики'].apply(inst_ranking)

Удалим дубликаты и пустые значения.

In [10]:
df_inst = df_inst.drop_duplicates()
df_inst = df_inst.dropna()
df_inst

Unnamed: 0,Ник Instagram,Имя,Основная аудитория,Подписчики,Вовлеченность подписчиков,Общая вовлеченность,Категория контента,Ранг
0,leomessi,Leo Messi,Argentina,409800000.0,17800000.0,23400000.0,Sports with a ball,Мега (>100M)
1,cristiano,Cristiano Ronaldo,India,523000000.0,11700000.0,14700000.0,Sports with a ball,Мега (>100M)
2,neymarjr,NJ 🇧🇷,Brazil,198900000.0,6700000.0,9500000.0,Sports with a ball,Мега (>100M)
3,kyliejenner,Kylie 🤍,United States,376300000.0,2700000.0,4300000.0,Fashion,Мега (>100M)
4,kendalljenner,Kendall,United States,268000000.0,3200000.0,5000000.0,Modeling,Мега (>100M)
...,...,...,...,...,...,...,...,...
995,thiago6,Thiago Alcantara,United Kingdom,10400000.0,129900.0,222700.0,Sports with a ball,Микро (>10M) & (<30M)
996,soycintiacossio,Cintia Cossio,Colombia,6000000.0,313400.0,390600.0,Modeling,Нано (<10M)
997,feat.dino,이찬,South Korea,2700000.0,716600.0,876400.0,Lifestyle,Нано (<10M)
998,djokernole,Novak Djokovic,United States,11800000.0,158600.0,197500.0,Sports with a ball,Микро (>10M) & (<30M)


Каком образом распределились ранги блогеров?

In [11]:
df_inst['Ранг'].value_counts()

Ранг
Микро (>10M) & (<30M)     478
Нано (<10M)               240
Макро (>30M) & (<100M)    175
Мега (>100M)               30
Name: count, dtype: int64

Переименуем значения колонки со странами аудитории.

In [12]:
df_inst = df_inst.replace({'Основная аудитория': {'Argentina': 'Аргентина',
                                                  'India': 'Индия',
                                                  'Brazil': 'Бразилия',
                                                  'United States': 'США',
                                                  'France': 'Франция',
                                                  'South Korea': 'Южная Корея',
                                                  'Indonesia': 'Индонезия',
                                                  'Mexico': 'Мексика',
                                                  'Ethiopia': 'Эфиопия',
                                                  'Spain': 'Испания',
                                                  'Turkey': 'Турция',
                                                  'Italy': 'Италия',
                                                  'Morocco': 'Морокко',
                                                  'Poland': 'Польша',
                                                  'China': 'Китай',
                                                  'United Kingdom': 'Великобритания',
                                                  'Iran': 'Иран',
                                                  'Russia': 'Россия',
                                                  'Colombia': 'Колумбия',
                                                  'Australia': 'Австралия',
                                                  'Philippines': 'Филиппины',
                                                  'Yemen': 'Йемен',
                                                  'Egypt': 'Египет',
                                                  'United Arab Emirates': 'ОАЭ',
                                                  'Germany': 'Германия',
                                                  'Thailand': 'Таиланд',
                                                  'Portugal': 'Португалия',
                                                  'Nigeria': 'Нигерия',
                                                  'Iraq': 'Ирак',
                                                  'Algeria': 'Алжир',
                                                  'Albania': 'Албания',
                                                  'Syria': 'Сирия',
                                                  'Japan': 'Япония',
                                                  'Chile': 'Чили'}})

df_inst                            

Unnamed: 0,Ник Instagram,Имя,Основная аудитория,Подписчики,Вовлеченность подписчиков,Общая вовлеченность,Категория контента,Ранг
0,leomessi,Leo Messi,Аргентина,409800000.0,17800000.0,23400000.0,Sports with a ball,Мега (>100M)
1,cristiano,Cristiano Ronaldo,Индия,523000000.0,11700000.0,14700000.0,Sports with a ball,Мега (>100M)
2,neymarjr,NJ 🇧🇷,Бразилия,198900000.0,6700000.0,9500000.0,Sports with a ball,Мега (>100M)
3,kyliejenner,Kylie 🤍,США,376300000.0,2700000.0,4300000.0,Fashion,Мега (>100M)
4,kendalljenner,Kendall,США,268000000.0,3200000.0,5000000.0,Modeling,Мега (>100M)
...,...,...,...,...,...,...,...,...
995,thiago6,Thiago Alcantara,Великобритания,10400000.0,129900.0,222700.0,Sports with a ball,Микро (>10M) & (<30M)
996,soycintiacossio,Cintia Cossio,Колумбия,6000000.0,313400.0,390600.0,Modeling,Нано (<10M)
997,feat.dino,이찬,Южная Корея,2700000.0,716600.0,876400.0,Lifestyle,Нано (<10M)
998,djokernole,Novak Djokovic,США,11800000.0,158600.0,197500.0,Sports with a ball,Микро (>10M) & (<30M)


Переименуем значения колонки с категориями контента.

In [13]:
df_inst = df_inst.replace({'Категория контента': {'Sports with a ball': 'Виды спорта с мячом',
                                                  'Fashion': 'Мода',
                                                  'Modeling': 'Модель',
                                                  'Music': 'Музыка',
                                                  'Photography': 'Фотография',
                                                  'Lifestyle': 'Стиль жизни',
                                                  'Fitness & Gym': 'Фитнес',
                                                  'Art/Artists': 'Искусство/Художники',
                                                  'Cinema & Actors/actresses': 'Кино и Актеры/Актрисы',
                                                  'Finance & Economics': 'Финансы и Экономика',
                                                  'Science': 'Наука',
                                                  'Shows': 'Шоу',
                                                  'Beauty': 'Красота',
                                                  'Humor & Fun & Happiness': 'Юмор/Шутки',
                                                  'Family': 'Семья',
                                                  'Racing Sports': 'Гоночные виды спорта',
                                                  'Clothing & Outfits': 'Одежда',
                                                  'Computers & Gadgets': 'Компьютеры и Гаджеты',
                                                  'Food & Cooking': 'Еда',
                                                  'Nature & landscapes': 'Природа',
                                                  'Literature & Journalism': 'Литература и Журналистика',
                                                  'Business & Careers': 'Бизнес и Карьера',
                                                  'Cars & Motorbikes': 'Автомобили и Мотоциклы',
                                                  'Luxury': 'Предметы роскоши',
                                                  'Gaming': 'Компьютерные игры',
                                                  'Machinery & Technologies': 'Машины и технологии',
                                                  'Adult content': 'Контент для взрослых',
                                                  'Animals': 'Животные',
                                                  'Education': 'Образование',
                                                  'Water sports': 'Водные виды спорта',
                                                  'Winter sports': 'Зимние виды спорта',
                                                  'Travel': 'Путешествия'}})

df_inst

Unnamed: 0,Ник Instagram,Имя,Основная аудитория,Подписчики,Вовлеченность подписчиков,Общая вовлеченность,Категория контента,Ранг
0,leomessi,Leo Messi,Аргентина,409800000.0,17800000.0,23400000.0,Виды спорта с мячом,Мега (>100M)
1,cristiano,Cristiano Ronaldo,Индия,523000000.0,11700000.0,14700000.0,Виды спорта с мячом,Мега (>100M)
2,neymarjr,NJ 🇧🇷,Бразилия,198900000.0,6700000.0,9500000.0,Виды спорта с мячом,Мега (>100M)
3,kyliejenner,Kylie 🤍,США,376300000.0,2700000.0,4300000.0,Мода,Мега (>100M)
4,kendalljenner,Kendall,США,268000000.0,3200000.0,5000000.0,Модель,Мега (>100M)
...,...,...,...,...,...,...,...,...
995,thiago6,Thiago Alcantara,Великобритания,10400000.0,129900.0,222700.0,Виды спорта с мячом,Микро (>10M) & (<30M)
996,soycintiacossio,Cintia Cossio,Колумбия,6000000.0,313400.0,390600.0,Модель,Нано (<10M)
997,feat.dino,이찬,Южная Корея,2700000.0,716600.0,876400.0,Стиль жизни,Нано (<10M)
998,djokernole,Novak Djokovic,США,11800000.0,158600.0,197500.0,Виды спорта с мячом,Микро (>10M) & (<30M)


In [14]:
# Сохранение датасета
# df_inst.to_excel('data/df_inst.xlsx', index=False)

# 2. TikTok

In [15]:
# Загрузка данных
df_tiktok = pd.read_csv('data/tiktok/social media influencers-TIKTOK - ---DEC 2022.csv')
print(df_tiktok.shape)
df_tiktok.head()

(1000, 8)


Unnamed: 0,Rank,Tiktoker name,Tiktok name,followers,views(avg),likes(avg.),comments(avg.),shares(avg.)
0,1,mrbeast,MrBeast,60.3M,29.2M,3.5M,30.8K,7.2K
1,2,karolg,Karol G,42.4M,23.7M,3.4M,21.7K,25.7K
2,3,yzn47,يزن الأسمر,8.9M,48.9M,998.4K,16.3K,60.9K
3,4,centralcee,CentralCee,4.4M,19.8M,3.6M,23.3K,24.2K
4,5,adinross,adin,6.1M,21.1M,3.3M,17.5K,25.3K


Переименуем нужные колонки, остальные удалим.

In [16]:
df_tiktok = df_tiktok.drop(columns=['Rank'])

df_tiktok = df_tiktok.rename(columns={'Tiktoker name': 'Ник TikTok',
                                      'Tiktok name': 'Имя',
                                      'followers': 'Подписчики',
                                      'views(avg)': 'Просмотры',
                                      'likes(avg.)': 'Лайки',
                                      'comments(avg.)': 'Комментарии',
                                      'shares(avg.)': 'Репосты'})

df_tiktok

Unnamed: 0,Ник TikTok,Имя,Подписчики,Просмотры,Лайки,Комментарии,Репосты
0,mrbeast,MrBeast,60.3M,29.2M,3.5M,30.8K,7.2K
1,karolg,Karol G,42.4M,23.7M,3.4M,21.7K,25.7K
2,yzn47,يزن الأسمر,8.9M,48.9M,998.4K,16.3K,60.9K
3,centralcee,CentralCee,4.4M,19.8M,3.6M,23.3K,24.2K
4,adinross,adin,6.1M,21.1M,3.3M,17.5K,25.3K
...,...,...,...,...,...,...,...
995,jiembasands,Jiemba Sands,4.9M,3.4M,247.4K,207,264
996,crissa_ace,Crissa Jackson,14.9M,1.6M,141.7K,1.2K,580
997,ichadude,Alyssa & Dude,468.8K,2.3M,85.5K,997,1K
998,kanebrown,Kane Brown,5.2M,1.7M,96.7K,1.3K,1.2K


Посмотрим, есть ли в данных пропуски.

In [17]:
df_tiktok.isnull().sum()

Ник TikTok     0
Имя            0
Подписчики     0
Просмотры      0
Лайки          0
Комментарии    0
Репосты        0
dtype: int64

In [18]:
df_tiktok.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Ник TikTok   1000 non-null   object
 1   Имя          1000 non-null   object
 2   Подписчики   1000 non-null   object
 3   Просмотры    1000 non-null   object
 4   Лайки        1000 non-null   object
 5   Комментарии  1000 non-null   object
 6   Репосты      1000 non-null   object
dtypes: object(7)
memory usage: 54.8+ KB


Числовые данные представлены в виде строк, поэтому проведем преобразование к числовому типу данных.

In [19]:
df_tiktok['Подписчики'] = df_tiktok['Подписчики'].apply(str_to_int)

df_tiktok['Просмотры'] = df_tiktok['Просмотры'].apply(str_to_int)

df_tiktok['Лайки'] = df_tiktok['Лайки'].apply(str_to_int)

df_tiktok['Комментарии'] = df_tiktok['Комментарии'].apply(str_to_int)

df_tiktok['Репосты'] = df_tiktok['Репосты'].apply(str_to_int)

Сделаем колонку с рангом блогеров в зависимости от количества подписчиков.

In [20]:
def tiktok_ranking(sub_count):
    '''
    Функция возвращает ранг в зависимости от переданного числа.
    Больше 35 миллионов - "Мега".
    Больше 10 миллионов и меньше 35 миллионов - "Макро".
    Больше 3 миллионов и меньше 10 миллионов - "Микро".
    Меньше 3 миллионов - "Нано".
    '''
    if sub_count > 35000000:
        return 'Мега (>35M)'
    elif (sub_count > 10000000) and (sub_count < 35000000):
        return 'Макро (>10M) & (<35M)'
    elif (sub_count > 3000000) and (sub_count < 10000000):
        return 'Микро (>3M) & (<10M)'
    else:
        return 'Нано (<3M)'

In [21]:
df_tiktok['Ранг'] = df_tiktok['Подписчики'].apply(tiktok_ranking)

Удалим дубликаты и пустые значения.

In [22]:
df_tiktok = df_tiktok.drop_duplicates()
df_tiktok = df_tiktok.dropna()
df_tiktok

Unnamed: 0,Ник TikTok,Имя,Подписчики,Просмотры,Лайки,Комментарии,Репосты,Ранг
0,mrbeast,MrBeast,60300000.0,29200000.0,3500000.0,30800.0,7200.0,Мега (>35M)
1,karolg,Karol G,42400000.0,23700000.0,3400000.0,21700.0,25700.0,Мега (>35M)
2,yzn47,يزن الأسمر,8900000.0,48900000.0,998400.0,16300.0,60900.0,Микро (>3M) & (<10M)
3,centralcee,CentralCee,4400000.0,19800000.0,3600000.0,23300.0,24200.0,Микро (>3M) & (<10M)
4,adinross,adin,6100000.0,21100000.0,3300000.0,17500.0,25300.0,Микро (>3M) & (<10M)
...,...,...,...,...,...,...,...,...
995,jiembasands,Jiemba Sands,4900000.0,3400000.0,247400.0,207.0,264.0,Микро (>3M) & (<10M)
996,crissa_ace,Crissa Jackson,14900000.0,1600000.0,141700.0,1200.0,580.0,Макро (>10M) & (<35M)
997,ichadude,Alyssa & Dude,468800.0,2300000.0,85500.0,997.0,1000.0,Нано (<3M)
998,kanebrown,Kane Brown,5200000.0,1700000.0,96700.0,1300.0,1200.0,Микро (>3M) & (<10M)


Каком образом распределились ранги блогеров?

In [23]:
df_tiktok['Ранг'].value_counts()

Ранг
Микро (>3M) & (<10M)     386
Нано (<3M)               383
Макро (>10M) & (<35M)    198
Мега (>35M)               32
Name: count, dtype: int64

Сделаем новую колонку с метрикой "Привлекательность", запишем туда отношение количества лайков к количеству подписчиков.

In [24]:
df_tiktok['Привлекательность'] = round((df_tiktok['Лайки'] / df_tiktok['Подписчики']) * 100)
df_tiktok

Unnamed: 0,Ник TikTok,Имя,Подписчики,Просмотры,Лайки,Комментарии,Репосты,Ранг,Привлекательность
0,mrbeast,MrBeast,60300000.0,29200000.0,3500000.0,30800.0,7200.0,Мега (>35M),6.0
1,karolg,Karol G,42400000.0,23700000.0,3400000.0,21700.0,25700.0,Мега (>35M),8.0
2,yzn47,يزن الأسمر,8900000.0,48900000.0,998400.0,16300.0,60900.0,Микро (>3M) & (<10M),11.0
3,centralcee,CentralCee,4400000.0,19800000.0,3600000.0,23300.0,24200.0,Микро (>3M) & (<10M),82.0
4,adinross,adin,6100000.0,21100000.0,3300000.0,17500.0,25300.0,Микро (>3M) & (<10M),54.0
...,...,...,...,...,...,...,...,...,...
995,jiembasands,Jiemba Sands,4900000.0,3400000.0,247400.0,207.0,264.0,Микро (>3M) & (<10M),5.0
996,crissa_ace,Crissa Jackson,14900000.0,1600000.0,141700.0,1200.0,580.0,Макро (>10M) & (<35M),1.0
997,ichadude,Alyssa & Dude,468800.0,2300000.0,85500.0,997.0,1000.0,Нано (<3M),18.0
998,kanebrown,Kane Brown,5200000.0,1700000.0,96700.0,1300.0,1200.0,Микро (>3M) & (<10M),2.0


Сделаем распределение блогеров по уровню привлекательности.

In [25]:
def tiktok_attraction_level(attraction):
    '''
    Функция возвращает уровень привлекательности в зависимости от переданного значения.
    Больше или равно 150 - "Высокий".
    Больше или равно 50 и меньше 150 - "Средний".
    Меньше 50 - "Низкий".
    '''
    if attraction >= 150:
        return 'Высокий'
    elif (attraction >= 50) and (attraction < 150):
        return 'Средний'
    else:
        return 'Низкий'

In [26]:
df_tiktok['Уровень привлекательности'] = df_tiktok['Привлекательность'].apply(tiktok_attraction_level)

Сделаем новую колонку с метрикой "Вовлеченность", запишем туда сумму лайков, комментариев и репостов.

In [27]:
df_tiktok['Вовлеченность'] = df_tiktok['Лайки'] + df_tiktok['Комментарии'] + df_tiktok['Репосты']
df_tiktok

Unnamed: 0,Ник TikTok,Имя,Подписчики,Просмотры,Лайки,Комментарии,Репосты,Ранг,Привлекательность,Уровень привлекательности,Вовлеченность
0,mrbeast,MrBeast,60300000.0,29200000.0,3500000.0,30800.0,7200.0,Мега (>35M),6.0,Низкий,3538000.0
1,karolg,Karol G,42400000.0,23700000.0,3400000.0,21700.0,25700.0,Мега (>35M),8.0,Низкий,3447400.0
2,yzn47,يزن الأسمر,8900000.0,48900000.0,998400.0,16300.0,60900.0,Микро (>3M) & (<10M),11.0,Низкий,1075600.0
3,centralcee,CentralCee,4400000.0,19800000.0,3600000.0,23300.0,24200.0,Микро (>3M) & (<10M),82.0,Средний,3647500.0
4,adinross,adin,6100000.0,21100000.0,3300000.0,17500.0,25300.0,Микро (>3M) & (<10M),54.0,Средний,3342800.0
...,...,...,...,...,...,...,...,...,...,...,...
995,jiembasands,Jiemba Sands,4900000.0,3400000.0,247400.0,207.0,264.0,Микро (>3M) & (<10M),5.0,Низкий,247871.0
996,crissa_ace,Crissa Jackson,14900000.0,1600000.0,141700.0,1200.0,580.0,Макро (>10M) & (<35M),1.0,Низкий,143480.0
997,ichadude,Alyssa & Dude,468800.0,2300000.0,85500.0,997.0,1000.0,Нано (<3M),18.0,Низкий,87497.0
998,kanebrown,Kane Brown,5200000.0,1700000.0,96700.0,1300.0,1200.0,Микро (>3M) & (<10M),2.0,Низкий,99200.0


Сделаем распределение блогеров по уровню вовлеченности.

In [28]:
def tiktok_involvement_level(involvement):
    '''
    Функция возвращает уровень вовлеченности в зависимости от переданного значения.
    Больше или равно 1.5 млн. - "Высокий".
    Больше или равно 200 тыс. и меньше 1.5 млн. - "Средний".
    Меньше 200 тыс. - "Низкий".
    '''
    if involvement >= 1500000:
        return 'Высокий'
    elif (involvement >= 200000) and (involvement < 1500000):
        return 'Средний'
    else:
        return 'Низкий'

In [29]:
df_tiktok['Уровень вовлеченности'] = df_tiktok['Вовлеченность'].apply(tiktok_involvement_level)

Удалим колонки с числовыми значениями привлекательности и вовлеченности, оставим только уровни.

In [30]:
df_tiktok = df_tiktok.drop(columns=['Привлекательность', 'Вовлеченность'])
df_tiktok

Unnamed: 0,Ник TikTok,Имя,Подписчики,Просмотры,Лайки,Комментарии,Репосты,Ранг,Уровень привлекательности,Уровень вовлеченности
0,mrbeast,MrBeast,60300000.0,29200000.0,3500000.0,30800.0,7200.0,Мега (>35M),Низкий,Высокий
1,karolg,Karol G,42400000.0,23700000.0,3400000.0,21700.0,25700.0,Мега (>35M),Низкий,Высокий
2,yzn47,يزن الأسمر,8900000.0,48900000.0,998400.0,16300.0,60900.0,Микро (>3M) & (<10M),Низкий,Средний
3,centralcee,CentralCee,4400000.0,19800000.0,3600000.0,23300.0,24200.0,Микро (>3M) & (<10M),Средний,Высокий
4,adinross,adin,6100000.0,21100000.0,3300000.0,17500.0,25300.0,Микро (>3M) & (<10M),Средний,Высокий
...,...,...,...,...,...,...,...,...,...,...
995,jiembasands,Jiemba Sands,4900000.0,3400000.0,247400.0,207.0,264.0,Микро (>3M) & (<10M),Низкий,Средний
996,crissa_ace,Crissa Jackson,14900000.0,1600000.0,141700.0,1200.0,580.0,Макро (>10M) & (<35M),Низкий,Низкий
997,ichadude,Alyssa & Dude,468800.0,2300000.0,85500.0,997.0,1000.0,Нано (<3M),Низкий,Низкий
998,kanebrown,Kane Brown,5200000.0,1700000.0,96700.0,1300.0,1200.0,Микро (>3M) & (<10M),Низкий,Низкий


In [31]:
# Сохранение датасета
# df_tiktok.to_excel('data/df_tiktok.xlsx', index=False)

# 3. YouTube

In [32]:
# Загрузка данных
df_youtube = pd.read_csv('data/youtube/social media influencers-YOUTUBE - --DEC 2022.csv')
print(df_youtube.shape)
df_youtube.head()

(1003, 10)


Unnamed: 0,s.no,Youtube channel,youtuber name,Category,Followers,Country,\nViews (Avg.),Likes (Avg.),Comments (Avg.),Category-2
0,1,tseries,T-Series,Music & Dance,229.5M,India,103.8K,2.8K,158,
1,2,setindia,SET India,,147.2M,India,0,0,0,
2,3,checkgate,Cocomelon - Nursery Rhymes,Education,146.6M,,9.5M,48.3K,0,
3,4,MrBeast,MrBeast,Video games,117M,United States,68.5M,2.9M,99.9K,Humor
4,5,PewDiePie,PewDiePie,Animation,111.6M,United States,1.4M,110.7K,7.8K,


Переименуем нужные колонки, остальные удалим.

In [33]:
df_youtube = df_youtube.drop(columns=['s.no', 'Category-2'])

df_youtube = df_youtube.rename(columns={'youtuber name': 'Название канала',
                                        'Youtube channel': 'Ник YouTube',
                                        'Country': 'Основная аудитория',
                                        'Followers': 'Подписчики',
                                        '\nViews (Avg.)': 'Просмотры',
                                        'Likes (Avg.)': 'Лайки',
                                        'Comments (Avg.)': 'Комментарии',
                                        'Category': 'Категория контента'})

df_youtube = df_youtube[['Название канала', 'Ник YouTube', 'Основная аудитория', 'Подписчики', 'Просмотры', 'Лайки', 'Комментарии', 'Категория контента']]

df_youtube

Unnamed: 0,Название канала,Ник YouTube,Основная аудитория,Подписчики,Просмотры,Лайки,Комментарии,Категория контента
0,T-Series,tseries,India,229.5M,103.8K,2.8K,158,Music & Dance
1,SET India,setindia,India,147.2M,0,0,0,
2,Cocomelon - Nursery Rhymes,checkgate,,146.6M,9.5M,48.3K,0,Education
3,MrBeast,MrBeast,United States,117M,68.5M,2.9M,99.9K,Video games
4,PewDiePie,PewDiePie,United States,111.6M,1.4M,110.7K,7.8K,Animation
...,...,...,...,...,...,...,...,...
998,Classic Mr Bean,ClassicMrBean,India,10.1M,48.3K,624,23,
999,Anupam Movie Songs,Anupam Movie Songs,Bangladesh,10.1M,41.2K,315,18,Music & Dance
1000,Anand Audio,AnandAudio,India,10.3M,175.5K,2.2K,109,
1001,Wylsacom,Wylsacom,Russia,10.3M,291.7K,13K,950,Science & Technology


Посмотрим, есть ли в данных пропуски.

In [34]:
df_youtube.isnull().sum()

Название канала         0
Ник YouTube             0
Основная аудитория    177
Подписчики              0
Просмотры               0
Лайки                   0
Комментарии             0
Категория контента    297
dtype: int64

In [35]:
df_youtube.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1003 entries, 0 to 1002
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Название канала     1003 non-null   object
 1   Ник YouTube         1003 non-null   object
 2   Основная аудитория  826 non-null    object
 3   Подписчики          1003 non-null   object
 4   Просмотры           1003 non-null   object
 5   Лайки               1003 non-null   object
 6   Комментарии         1003 non-null   object
 7   Категория контента  706 non-null    object
dtypes: object(8)
memory usage: 62.8+ KB


Числовые данные представлены в виде строк, поэтому проведем преобразование к числовому типу данных.

In [36]:
df_youtube['Подписчики'] = df_youtube['Подписчики'] .apply(str_to_int)

df_youtube['Просмотры'] = df_youtube['Просмотры'].apply(str_to_int)

df_youtube['Лайки'] = df_youtube['Лайки'].apply(str_to_int)

df_youtube['Комментарии'] = df_youtube['Комментарии'].apply(str_to_int)

Сделаем колонку с рангом блогеров в зависимости от количества подписчиков.

In [37]:
def youtube_ranking(sub_count):
    '''
    Функция возвращает ранг в зависимости от переданного числа.
    Больше 50 миллионов - "Мега".
    Больше 30 миллионов и меньше 50 миллионов - "Макро".
    Больше 15 миллионов и меньше 30 миллионов - "Микро".
    Меньше 15 миллионов - "Нано".
    '''
    if sub_count > 50000000:
        return 'Мега (>50M)'
    elif (sub_count > 30000000) and (sub_count < 50000000):
        return 'Макро (>30M) & (<50M)'
    elif (sub_count > 15000000) and (sub_count < 30000000):
        return 'Микро (>15M) & (<30M)'
    else:
        return 'Нано (<15M)'

In [38]:
df_youtube['Ранг'] = df_youtube['Подписчики'].apply(youtube_ranking)

Удалим дубликаты и пустые значения.

In [39]:
df_youtube = df_youtube.drop_duplicates()
df_youtube = df_youtube.dropna()
df_youtube

Unnamed: 0,Название канала,Ник YouTube,Основная аудитория,Подписчики,Просмотры,Лайки,Комментарии,Категория контента,Ранг
0,T-Series,tseries,India,229500000.0,103800.0,2800.0,158.0,Music & Dance,Мега (>50M)
3,MrBeast,MrBeast,United States,117000000.0,68500000.0,2900000.0,99900.0,Video games,Мега (>50M)
4,PewDiePie,PewDiePie,United States,111600000.0,1400000.0,110700.0,7800.0,Animation,Мега (>50M)
7,WWE,WWEFanNation,United States,91800000.0,144900.0,5100.0,207.0,Video games,Мега (>50M)
9,Zee Music Company,zeemusiccompany,India,89700000.0,89600.0,2400.0,91.0,Music & Dance,Мега (>50M)
...,...,...,...,...,...,...,...,...,...
984,Roshan Zindagi,Roshan Zindagi,India,10200000.0,21200.0,652.0,15.0,Education,Нано (<15M)
989,Sab Kuchh Sekho Jano,Sabkuchhsikhojano,India,10100000.0,11800.0,1200.0,72.0,News & Politics,Нано (<15M)
991,Fox News,FoxNewsChannel,United States,10100000.0,98400.0,4000.0,884.0,News & Politics,Нано (<15M)
992,Santa Fe Klan Official,Santa Fe Klan Official,Mexico,10100000.0,0.0,0.0,0.0,Music & Dance,Нано (<15M)


Каком образом распределились ранги блогеров?

In [40]:
df_youtube['Ранг'].value_counts()

Ранг
Нано (<15M)              321
Микро (>15M) & (<30M)    199
Макро (>30M) & (<50M)     38
Мега (>50M)               20
Name: count, dtype: int64

Переименуем значения колонки со странами аудитории.

In [41]:
df_youtube = df_youtube.replace({'Основная аудитория': {'India': 'Индия',
                                                        'United States': 'США',
                                                        'Brazil': 'Бразилия',
                                                        'Mexico': 'Мексика',
                                                        'Russia': 'Россия',
                                                        'Colombia': 'Колумбия',
                                                        'France': 'Франция',
                                                        'Indonesia': 'Индонезия',
                                                        'Iraq': 'Ирак',
                                                        'Philippines': 'Филиппины',
                                                        'Turkey': 'Турция',
                                                        'Thailand': 'Таиланд',
                                                        'Argentina': 'Аргентина',
                                                        'Saudi Arabia': 'Саудовская Аравия',
                                                        'United Kingdom': 'Великобритания',
                                                        'Spain': 'Испания',
                                                        'Bangladesh': 'Бангладеш',
                                                        'Pakistan': 'Пакистан',
                                                        'Jordan': 'Иордания',
                                                        'Peru': 'Перу',
                                                        'Algeria': 'Алжир',
                                                        'Japan': 'Япония',
                                                        'Morocco': 'Марокко',
                                                        'Somalia': 'Сомали'}})

df_youtube                   

Unnamed: 0,Название канала,Ник YouTube,Основная аудитория,Подписчики,Просмотры,Лайки,Комментарии,Категория контента,Ранг
0,T-Series,tseries,Индия,229500000.0,103800.0,2800.0,158.0,Music & Dance,Мега (>50M)
3,MrBeast,MrBeast,США,117000000.0,68500000.0,2900000.0,99900.0,Video games,Мега (>50M)
4,PewDiePie,PewDiePie,США,111600000.0,1400000.0,110700.0,7800.0,Animation,Мега (>50M)
7,WWE,WWEFanNation,США,91800000.0,144900.0,5100.0,207.0,Video games,Мега (>50M)
9,Zee Music Company,zeemusiccompany,Индия,89700000.0,89600.0,2400.0,91.0,Music & Dance,Мега (>50M)
...,...,...,...,...,...,...,...,...,...
984,Roshan Zindagi,Roshan Zindagi,Индия,10200000.0,21200.0,652.0,15.0,Education,Нано (<15M)
989,Sab Kuchh Sekho Jano,Sabkuchhsikhojano,Индия,10100000.0,11800.0,1200.0,72.0,News & Politics,Нано (<15M)
991,Fox News,FoxNewsChannel,США,10100000.0,98400.0,4000.0,884.0,News & Politics,Нано (<15M)
992,Santa Fe Klan Official,Santa Fe Klan Official,Мексика,10100000.0,0.0,0.0,0.0,Music & Dance,Нано (<15M)


Переименуем значения колонки с категориями контента.

In [42]:
df_youtube = df_youtube.replace({'Категория контента': {'Music & Dance': 'Музыка и Танцы',
                                                        'Video games': 'Компьютерные игры',
                                                        'Animation': 'Анимация',
                                                        'Movies': 'Кино',
                                                        'News & Politics': 'Новости и Политика',
                                                        'Daily vlogs': 'Ежедневный влог',
                                                        'Humor': 'Юмор',
                                                        'Fitness': 'Фитнес',
                                                        'Food & Drinks': 'Еда и Напитки',
                                                        'Beauty': 'Красота',
                                                        'DIY & Life Hacks': 'DIY и Лайфхаки',
                                                        'Science & Technology': 'Наука и Технологии',
                                                        'Sports': 'Спорт',
                                                        'Education': 'Образование',
                                                        'Toys': 'Игрушки',
                                                        'Health & Self Help': 'Здоровье',
                                                        'Animals & Pets': 'Животные',
                                                        'ASMR': 'ASMR',
                                                        'Design/art': 'Дизайн/Рисование',
                                                        'Fashion': 'Мода',
                                                        'Travel': 'Путешествия'}})

df_youtube

Unnamed: 0,Название канала,Ник YouTube,Основная аудитория,Подписчики,Просмотры,Лайки,Комментарии,Категория контента,Ранг
0,T-Series,tseries,Индия,229500000.0,103800.0,2800.0,158.0,Музыка и Танцы,Мега (>50M)
3,MrBeast,MrBeast,США,117000000.0,68500000.0,2900000.0,99900.0,Компьютерные игры,Мега (>50M)
4,PewDiePie,PewDiePie,США,111600000.0,1400000.0,110700.0,7800.0,Анимация,Мега (>50M)
7,WWE,WWEFanNation,США,91800000.0,144900.0,5100.0,207.0,Компьютерные игры,Мега (>50M)
9,Zee Music Company,zeemusiccompany,Индия,89700000.0,89600.0,2400.0,91.0,Музыка и Танцы,Мега (>50M)
...,...,...,...,...,...,...,...,...,...
984,Roshan Zindagi,Roshan Zindagi,Индия,10200000.0,21200.0,652.0,15.0,Образование,Нано (<15M)
989,Sab Kuchh Sekho Jano,Sabkuchhsikhojano,Индия,10100000.0,11800.0,1200.0,72.0,Новости и Политика,Нано (<15M)
991,Fox News,FoxNewsChannel,США,10100000.0,98400.0,4000.0,884.0,Новости и Политика,Нано (<15M)
992,Santa Fe Klan Official,Santa Fe Klan Official,Мексика,10100000.0,0.0,0.0,0.0,Музыка и Танцы,Нано (<15M)


Сделаем новую колонку с метрикой "Вовлеченность подписчиков", запишем туда сумму просмотров, комментариев и лайков.

In [43]:
df_youtube['Вовлеченность подписчиков'] = df_youtube['Просмотры'] + df_youtube['Комментарии'] + df_youtube['Лайки']
df_youtube

Unnamed: 0,Название канала,Ник YouTube,Основная аудитория,Подписчики,Просмотры,Лайки,Комментарии,Категория контента,Ранг,Вовлеченность подписчиков
0,T-Series,tseries,Индия,229500000.0,103800.0,2800.0,158.0,Музыка и Танцы,Мега (>50M),106758.0
3,MrBeast,MrBeast,США,117000000.0,68500000.0,2900000.0,99900.0,Компьютерные игры,Мега (>50M),71499900.0
4,PewDiePie,PewDiePie,США,111600000.0,1400000.0,110700.0,7800.0,Анимация,Мега (>50M),1518500.0
7,WWE,WWEFanNation,США,91800000.0,144900.0,5100.0,207.0,Компьютерные игры,Мега (>50M),150207.0
9,Zee Music Company,zeemusiccompany,Индия,89700000.0,89600.0,2400.0,91.0,Музыка и Танцы,Мега (>50M),92091.0
...,...,...,...,...,...,...,...,...,...,...
984,Roshan Zindagi,Roshan Zindagi,Индия,10200000.0,21200.0,652.0,15.0,Образование,Нано (<15M),21867.0
989,Sab Kuchh Sekho Jano,Sabkuchhsikhojano,Индия,10100000.0,11800.0,1200.0,72.0,Новости и Политика,Нано (<15M),13072.0
991,Fox News,FoxNewsChannel,США,10100000.0,98400.0,4000.0,884.0,Новости и Политика,Нано (<15M),103284.0
992,Santa Fe Klan Official,Santa Fe Klan Official,Мексика,10100000.0,0.0,0.0,0.0,Музыка и Танцы,Нано (<15M),0.0


In [44]:
#df_youtube.to_excel('data/df_youtube.xlsx', index=False)