In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error

# Загрузка данных
df = pd.read_csv('data/missing_accounts.csv')
# Удаляем ненужные колонки, если есть (например, vk_city, если она пустая)
df = df.drop(columns=['id', 'status', 'extra_mobile_country', 'extra_signup_at',
                     'created_at', 'updated_at', 'can_buy', 'can_resell', 'extra_first_name', 'extra_last_name'])
df.dropna()
print(df.shape)

(9417, 16)


In [8]:
filtered_df = df[df['is_resell'] == True]

# Группировка по seller_username и расчет медианы по price
median_price = filtered_df.groupby('seller_username')['price'].median().reset_index()
median_price = median_price.rename(columns={'price': 'median_price'})

# Группировка по seller_username для получения seller_sold_accounts_count (максимум проданных аккаунтов)
sold_accounts = filtered_df.groupby('seller_username')['seller_sold_accounts_count'].max().reset_index()

# Объединение медианной цены и количества проданных аккаунтов
result = pd.merge(median_price, sold_accounts, on='seller_username')

# Вывод результата
print(result)

account_count = filtered_df.groupby('seller_username').size().reset_index(name='account_count')

# Объединение всех данных: медианная цена, количество проданных аккаунтов и количество аккаунтов
result_with_count = pd.merge(result, account_count, on='seller_username')


    seller_username  median_price  seller_sold_accounts_count
0           214wwqq          23.0                         781
1         299Annask        3300.0                          31
2         4svDazz2K          49.0                         548
3         AccSeller          20.0                        4634
4           Akron1x          20.0                        2358
..              ...           ...                         ...
151        velarsen          35.0                           2
152          vovchi         112.5                         840
153       westerest          99.0                           3
154          xxxpob          53.0                         144
155       zapolneni          10.0                        1112

[156 rows x 3 columns]


In [9]:
file_path = 'data/seller_data.xlsx'
result_with_count.to_excel(file_path, index=False)

In [10]:
seller_usernames = [
    'Vasyan22', 'Roma11rus', 'AlexDazy', 'nude', 'DottyDot', 'kolohosenka', 'sellvk', 
    'Scomir', 'lenakukaa', 'Qwaser10', 'liverpool93', 'mix', 'kiev1976', 'DRuMMC', 
    'cheapseo', 'tuzik', 'Klim447', 'hfrtnf9', 'Stillbo', 'Trump', 'sotka100', 
    'phantomvk', 'SolomonGod', 'v15h', 'Lukalias', 'PR1VET', 'kvich', 'DDRV', 
    'skif', 'Minas', 'shades90', 'AlexBober24', 'adron115', 'Unix18', 'Geser35'
]

# Фильтрация по is_resell == True и seller_username из списка
filtered_by_usernames = filtered_df[filtered_df['seller_username'].isin(seller_usernames)]
len(seller_usernames)

35

In [11]:
len(filtered_by_usernames)

410