# Загрузка датасета

In [1052]:
import pandas as pd

In [1053]:
data = pd.read_csv('shop_users.csv', index_col='Unnamed: 0')

In [1054]:
df = data

In [1055]:
df

Unnamed: 0,id,bdate,city,country,last_seen,followers_count,common_count,sex,is_closed,home_town,relation,costs,games
0,19,1.1.2005,"{'id': 2, 'title': 'Saint-Petersburg'}","{'id': 1, 'title': 'Россия'}","{'platform': 2, 'time': 1662237362}",39326.0,0,1,0.0,,,"{'costs': 25000, 'currency': 'RUR'}","[{'name': 'Dota 2'}, {'name': 'CS:GO'}, {'name..."
1,510,1.1.1985,,"{'id': 1, 'title': 'Россия'}","{'platform': 7, 'time': 1661321803}",19698.0,0,2,0.0,,,"{'costs': 50000, 'currency': 'RUR'}","[{'name': 'League of Legends'}, {'name': 'Valo..."
2,674,1.1.1979,"{'id': 99, 'title': 'Новосибирск'}","{'id': 1, 'title': 'Россия'}","{'platform': 7, 'time': 1662202619}",,0,2,1.0,,,"{'costs': 75000, 'currency': 'RUR'}",[{'name': 'Fortnite'}]
3,1018,1.1.2002,"{'id': 2, 'title': 'Saint-Petersburg'}","{'id': 1, 'title': 'Россия'}","{'platform': 1, 'time': 1613708136}",,0,2,1.0,,,"{'costs': 100000, 'currency': 'RUR'}","[{'name': 'PUBG'}, {'name': 'Hearthstone'}, {'..."
4,1586,1.1.1989,,"{'id': 1, 'title': 'Россия'}","{'platform': 7, 'time': 1619550770}",31433.0,0,2,0.0,,,"{'costs': 100000, 'currency': 'RUR'}",[{'name': 'FIFA'}]
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3520,741237782,22.2.2000,,"{'id': 1, 'title': 'Россия'}","{'platform': 4, 'time': 1661793146}",,0,2,1.0,,,"{'costs': 25000, 'currency': 'RUR'}",[{'name': 'CS:GO'}]
3521,741237783,4.8.2005,"{'id': 1, 'title': 'Россия'}","{'platform': 4, 'time': 1658820057}",,0.0,2,1,,,"{'costs': 50000, 'currency': 'RUR'}",[{'name': 'Fortnite'}],no
3522,741237784,30.11.2002,"{'id': 1, 'title': 'Россия'}","{'platform': 2, 'time': 1662237422}",0,0.0,2,0,,0,"{'costs': 50000, 'currency': 'RUR'}","[{'name': 'PUBG'}, {'name': 'Hearthstone'}, {'...",no
3523,741237785,5.6.2008,"{'id': 1, 'title': 'Россия'}","{'platform': 4, 'time': 1662232523}",1,0.0,2,0,,,"{'costs': 25000, 'currency': 'RUR'}",[{'name': 'FIFA'}],no


# Формулировка задания

## Описание кейса

Компания, занимающаяся развитием киберспорта, планирует запустить таргетированную рекламу среди пользователей Вконтакте. В связи с этим им необходимо изучить целевую аудиторию и составить портреты пользователей, увлекающихся киберспортом, в том числе в разрезе онлайн-игр. Нашему коллеге-аналитику необходимо построить дашборд с анализом выборки пользователей из онлайн-магазина, расположенного на платформе Вконтакте. Специалист по сбору данных представил датасет с выгруженной информацией по профилям в формате csv. Однако данные в нем в том виде, в котором они есть, не подходят для построения дашборда.

## Описание датасета

1. id пользователя
2. возраст (кол-во лет)
3. пол (1: женский, 2: мужской, 0: не указан)
3. город проживания (если указан)
4. страна проживания (если указана)
5. количество подписчиков (если указано)
6. дата последнего входа в магазин
7. сумма трат в магазине (значение обязательно должно быть указано, пользователей с неуказанным значением необходимо исключить; значения должны быть соизмеримы, т.е. указаны в единой валюте)
8. наименования игр, которыми интересуется пользователь (значение обязательно должно быть указано, пользователей с неуказанным значением необходимо исключить)

# Предобработка

## Поиск пустых строк

In [1056]:
df.isna().sum()

Unnamed: 0,0
id,0
bdate,0
city,1553
country,0
last_seen,26
followers_count,873
common_count,0
sex,0
is_closed,4
home_town,2967


## Удаление пустых строх (last_seen, sex, costs, games)

In [1057]:
df = df.dropna(subset=['last_seen', 'is_closed', 'sex', 'costs', 'games'])

In [1058]:
df = df.reset_index(drop=True)

In [1059]:
df.isna().sum()

Unnamed: 0,0
id,0
bdate,0
city,1539
country,0
last_seen,0
followers_count,857
common_count,0
sex,0
is_closed,0
home_town,2916


Удалено **30** пустых строк

## Подсчёт возраста (bdate, age)

In [1060]:
from datetime import datetime

In [1061]:
df['bdate'] = pd.to_datetime(df['bdate'], format='%d.%m.%Y')

In [1062]:
df['age'] = (datetime.now() - df['bdate']).dt.days / 365.25

In [1063]:
df['age'] = df['age'].round().astype('int')

In [1064]:
df.insert(1, 'age', df.pop('age'))

In [1065]:
df = df.drop(columns=['bdate'])

In [1066]:
df['age']

Unnamed: 0,age
0,21
1,41
2,47
3,24
4,37
...,...
3462,17
3463,35
3464,19
3465,24


## Обрабатываем столбцы

### city

In [1067]:
import numpy as np

In [1068]:
df['city'] = df['city'].str.extract(r"'title':\s*'([^']*)'") if df['city'].dtype == 'object' else np.nan

In [1069]:
df['city'].dropna().unique()

array(['Saint-Petersburg', 'Новосибирск', 'москва', 'Саратов',
       'Foster City', 'Донецк', 'Нижний Новгород', 'Рязань',
       'Ивано-Франковск', 'Phuket', 'Краснодар', 'Los Angeles',
       'Челябинск', 'Pattaya', 'Улан-Удэ', 'Алматы', 'Ногинск', 'Самара',
       'Бийск', 'Кингисепп', 'Воронеж', 'Тель-Авив', 'Сочи', 'Мурманск',
       'Киев', 'Praha', 'Кириши', 'Калининград', 'Братск', 'Элиста',
       'Нефтеюганск', 'Минск', 'Сургут', 'Нур-Султан / Астана', 'Ижевск',
       'Гатчина', 'Старая Русса', 'Казань', 'Пермь', 'Дюртюли',
       'Смоленск', 'Moscow', 'Астрахань', 'Южно-Сахалинск', 'Paphos',
       'Пятигорск', 'Орехово-Зуево', 'Саранск', 'Надым', 'Троицк',
       'Североморск', 'Иркутск', 'Лида', 'Салехард', 'Уфа',
       'Сосновый Бор', 'Усинск', 'Ростов-на-Дону', 'Новочеркасск',
       'Leipzig', 'санкт-петербург', 'Чебоксары', 'Ломоносов', 'Обнинск',
       'Хотьково', 'Хабаровск', 'Саянск', 'Белгород', 'Сестрорецк',
       'Питкяранта', 'Барнаул', 'Балаково', 'Петроза

In [1070]:
city_mapping = {
    'санкт-петербург': 'Санкт-Петербург',
    'Saint-Petersburg': 'Санкт-Петербург',
    'москва': 'Москва',
    'Moscow': 'Москва',
}

In [1071]:
df['city'] = df['city'].map(city_mapping).fillna(df['city'])

In [1072]:
df['city'].dropna().unique()

array(['Санкт-Петербург', 'Новосибирск', 'Москва', 'Саратов',
       'Foster City', 'Донецк', 'Нижний Новгород', 'Рязань',
       'Ивано-Франковск', 'Phuket', 'Краснодар', 'Los Angeles',
       'Челябинск', 'Pattaya', 'Улан-Удэ', 'Алматы', 'Ногинск', 'Самара',
       'Бийск', 'Кингисепп', 'Воронеж', 'Тель-Авив', 'Сочи', 'Мурманск',
       'Киев', 'Praha', 'Кириши', 'Калининград', 'Братск', 'Элиста',
       'Нефтеюганск', 'Минск', 'Сургут', 'Нур-Султан / Астана', 'Ижевск',
       'Гатчина', 'Старая Русса', 'Казань', 'Пермь', 'Дюртюли',
       'Смоленск', 'Астрахань', 'Южно-Сахалинск', 'Paphos', 'Пятигорск',
       'Орехово-Зуево', 'Саранск', 'Надым', 'Троицк', 'Североморск',
       'Иркутск', 'Лида', 'Салехард', 'Уфа', 'Сосновый Бор', 'Усинск',
       'Ростов-на-Дону', 'Новочеркасск', 'Leipzig', 'Чебоксары',
       'Ломоносов', 'Обнинск', 'Хотьково', 'Хабаровск', 'Саянск',
       'Белгород', 'Сестрорецк', 'Питкяранта', 'Барнаул', 'Балаково',
       'Петрозаводск', 'Сергиев Посад', 'Кост

### country

In [1073]:
df['country'] = df['country'].str.extract(r"'title':\s*'([^']*)'") if df['country'].dtype == 'object' else np.nan

In [1074]:
df['country'].dropna().unique()

array(['Россия', 'США', 'Украина', 'Таиланд', 'Казахстан', 'Израиль',
       'Чехия', 'Беларусь', 'Кипр', 'Антигуа и Барбуда', 'Германия',
       'Нидерланды', 'Болгария', 'Швеция', 'Черногория', 'Азербайджан',
       'Объединенные Арабские Эмираты', 'Испания', 'Пакистан', 'Норвегия',
       'Сербия', 'Монако', 'Великобритания', 'Италия', 'Мальта',
       'Молдова', 'Канада', 'Кыргызстан', 'Южно-Африканская Республика',
       'Финляндия', 'Эстония', 'Колумбия', 'Албания', 'Бразилия',
       'Польша', 'Ботсвана', 'Узбекистан', 'Джерси', 'Литва', 'Бельгия'],
      dtype=object)

### last_seen

In [1075]:
import ast

In [1076]:
df['last_seen'] = df['last_seen'].apply(lambda x: ast.literal_eval(x)['time'] if isinstance(x, str) else None)

In [1077]:
df['last_seen'] = pd.to_datetime(df['last_seen'], unit='s')

In [1078]:
df['last_seen']

Unnamed: 0,last_seen
0,2022-09-03 20:36:02
1,2022-08-24 06:16:43
2,2022-09-03 10:56:59
3,2021-02-19 04:15:36
4,2021-04-27 19:12:50
...,...
3462,2022-09-03 06:16:08
3463,2022-07-26 07:20:57
3464,2022-09-03 20:37:02
3465,2022-09-03 19:15:23


### followers_count

In [1079]:
df['followers_count'] = pd.to_numeric(df['followers_count'], errors='coerce').astype('Int64')

In [1080]:
df['followers_count']

Unnamed: 0,followers_count
0,39326
1,19698
2,
3,
4,31433
...,...
3462,
3463,
3464,0
3465,1


### common_count

В API ВК это количество общих друзей с текущим пользователем. Не требуется.

In [1081]:
df = df.drop('common_count', axis=1)

### sex

In [1082]:
gender_map = {
    0: 'не указан',
    1: 'Женский',
    2: 'Мужской'
}

In [1083]:
df['sex'] = df['sex'].map(gender_map)

In [1084]:
df['sex']

Unnamed: 0,sex
0,Женский
1,Мужской
2,Мужской
3,Мужской
4,Мужской
...,...
3462,Мужской
3463,Мужской
3464,Мужской
3465,Мужской


### is_closed

In [1085]:
df['is_closed'] = df['is_closed'].astype(int)

In [1086]:
df['is_closed']

Unnamed: 0,is_closed
0,0
1,0
2,1
3,1
4,0
...,...
3462,1
3463,1
3464,0
3465,0


### home_town

In [1087]:
df['home_town'].dropna().unique()

array(['Москва, Bangkok', 'Нижнекамск', 'Санкт-Петербург',
       'Донецкая Народная Республика', 'Москва', 'Великий Новгород',
       'Питер', 'Санкт Петербург', 'Челябинск', 'г.Новосибирск',
       'СПб, УУ', 'Канаш, Аликово, Москва', 'Leningrad', 'Ногинск',
       'Озёрный', 'СПб', 'Ленинград',
       'Новосибирск, Академгородок - Москва - Саратов', 'Сертолово',
       'Воронеж', 'Санкт - Петербург', 'Уфа, хотя теперь уже Питер!))',
       'Киев',
       'Prague, Praha, Прага, Los Angeles,New York,Москва,Санкт-Петербург',
       'Кириши', 'Калининград', 'Братск', 'Мурманск', 'Алматы', 'Россия',
       'Казань', 'Планета Земля', 'Смоленск', 'Зеленоград',
       'Нижний Новгород', 'Moscow', 'Орехово-Зуево', 'Октябррррьььский',
       'Майкоп', 'Ленинград :)', 'Питер,Самара,Милан', 'Cуpгyт, Hехворoщ',
       'Его нет на карте', 'ЯНАО, с. Лопхари, Питер', 'Уфа', 'KARELIA',
       'Москва-Грозный', '...', 'Оха, Кильмезь',
       'Белград, Сербия, <- соседи, сцуко, жгут))), Крымск, Ленинс

In [1088]:
df['home_town'].notna().sum()

np.int64(551)

Неиформативно. Не требуется.

In [1089]:
df = df.drop('home_town', axis=1)

### relation

In [1090]:
df['relation'].dropna().unique()

array(['4', '0', '6', '1', '2', '5', '7', '3', '8'], dtype=object)

Из документации API ВК:  

0. — не указано;  
1. — не женат/не замужем;
2. — есть друг/есть подруга;
3. — помолвлен/помолвлена;
4. — женат/замужем;
5. — всё сложно;
6. — в активном поиске;
7. — влюблён/влюблена;
8. — в гражданском браке.

Неиформативно. Не требуется.

In [1091]:
df = df.drop('relation', axis=1)

### costs

In [1092]:
df['costs'].dropna().unique()

array(["{'costs': 25000, 'currency': 'RUR'}",
       "{'costs': 50000, 'currency': 'RUR'}",
       "{'costs': 75000, 'currency': 'RUR'}",
       "{'costs': 100000, 'currency': 'RUR'}",
       "{'costs': 1500, 'currency': 'USD'}",
       "{'costs': 2500, 'currency': 'USD'}",
       "{'costs': 200000, 'currency': 'KZT'}",
       "{'costs': 150000, 'currency': 'KZT'}",
       "{'costs': 1500, 'currency': 'EUR'}",
       "{'costs': 250000, 'currency': 'KZT'}",
       "{'costs': 2000, 'currency': 'EUR'}",
       "{'costs': 5000, 'currency': 'EUR'}",
       "{'costs': 3000, 'currency': 'USD'}"], dtype=object)

Курс валют на 07.07.2025 (Т.к. дата покупки не указана, считаем по нынешнему курсу)

In [1093]:
exchange_rates = {
    'USD': 78.72,
    'EUR': 92.41,
    'KZT': 0.1515,
    'RUR': 1.0
}

In [1094]:
def convert_to_rur(row):
    try:
        data = ast.literal_eval(row)
        amount = data['costs']
        currency = data['currency']
        return amount * exchange_rates.get(currency, 1.0)
    except:
        return None

In [1095]:
df['costs'] = df['costs'].apply(convert_to_rur)

In [1096]:
df['costs'] = df['costs'].round().astype('Int64')

In [1097]:
df['costs'].dropna().unique()

<IntegerArray>
[ 25000,  50000,  75000, 100000, 118080, 196800,  30300,  22725, 138615,
  37875, 184820, 462050, 236160]
Length: 13, dtype: Int64

### games

In [1098]:
df['games'] = df['games'].apply(
    lambda x: [game['name'] for game in ast.literal_eval(x)]
    if isinstance(x, str) and x.startswith('[') else []
)

In [1099]:
df['games']

Unnamed: 0,games
0,"[Dota 2, CS:GO, Warcraft III]"
1,"[League of Legends, Valorant, Apex Legends]"
2,[Fortnite]
3,"[PUBG, Hearthstone, Overwatch]"
4,[FIFA]
...,...
3462,"[PUBG, Hearthstone, Overwatch]"
3463,"[PUBG, Hearthstone, Overwatch]"
3464,[CS:GO]
3465,[CS:GO]


## Результат

In [1100]:
df.isna().sum()

Unnamed: 0,0
id,0
age,0
city,1539
country,0
last_seen,0
followers_count,857
sex,0
is_closed,0
costs,0
games,0


In [1101]:
df

Unnamed: 0,id,age,city,country,last_seen,followers_count,sex,is_closed,costs,games
0,19,21,Санкт-Петербург,Россия,2022-09-03 20:36:02,39326,Женский,0,25000,"[Dota 2, CS:GO, Warcraft III]"
1,510,41,,Россия,2022-08-24 06:16:43,19698,Мужской,0,50000,"[League of Legends, Valorant, Apex Legends]"
2,674,47,Новосибирск,Россия,2022-09-03 10:56:59,,Мужской,1,75000,[Fortnite]
3,1018,24,Санкт-Петербург,Россия,2021-02-19 04:15:36,,Мужской,1,100000,"[PUBG, Hearthstone, Overwatch]"
4,1586,37,,Россия,2021-04-27 19:12:50,31433,Мужской,0,100000,[FIFA]
...,...,...,...,...,...,...,...,...,...,...
3462,741281008,17,Санкт-Петербург,Россия,2022-09-03 06:16:08,,Мужской,1,50000,"[PUBG, Hearthstone, Overwatch]"
3463,741278238,35,,Россия,2022-07-26 07:20:57,,Мужской,1,50000,"[PUBG, Hearthstone, Overwatch]"
3464,741268233,19,,Россия,2022-09-03 20:37:02,0,Мужской,0,50000,[CS:GO]
3465,741254343,24,,Россия,2022-09-03 19:15:23,1,Мужской,0,25000,[CS:GO]


Данные подготовлены, теперь можно строить дашборды.