In [1]:
import pandas as pd
from sqlalchemy import create_engine

db_url = "postgresql://robot-startml-ro:pheiph0hahj1Vaif@postgres.lab.karpov.courses:6432/startml"
engine = create_engine(db_url)

Для начала посмотрим, сколько записей в каждой из таблиц.

In [2]:
def check_table_size(table):
    query = f"""
    SELECT COUNT(*)
    FROM {table};
    """
    size = pd.read_sql(query, engine).iloc[0, 0]
    return size

def check_new_feed_data_size():
    query = """
    SELECT COUNT(*)
    FROM feed_data
    WHERE NOT (action = 'view' AND target = 1);
    """
    size = pd.read_sql(query, engine).iloc[0, 0]
    return size

In [3]:
print("Количество пользователей:            ", f"{check_table_size('user_data'):8}")
print("Количество постов:                   ", f"{check_table_size('post_text_df'):8}")
print("Количество взаимодействий с постами: ", f"{check_table_size('feed_data'):8}")
print("Новое количество взаимодействий:     ", f"{check_new_feed_data_size():8}")

Количество пользователей:               163205
Количество постов:                        7023
Количество взаимодействий с постами:  76892800
Новое количество взаимодействий:      68686455


Теперь необходимо написать функции, которые выгружают из таблиц данные (при этом обращаем внимание, что из таблицы взаимодействий необходимо выгрузить только 5_000_000 записей).

In [4]:
def load_user_data():
    query = """
    SELECT user_id, age, gender, city, country, exp_group, os, source
    FROM user_data;
    """

    conn = engine.connect().execution_options(stream_results=True)
    user_data = pd.read_sql(query, conn)
    conn.close()

    return user_data

def load_post_data():
    query = """
    SELECT post_id, text, topic
    FROM post_text_df;
    """

    conn = engine.connect().execution_options(stream_results=True)
    post_data = pd.read_sql(query, conn)
    conn.close()
    
    return post_data

def load_feed_data():
    CHUNKSIZE = 100000

    query = """
    SELECT timestamp, user_id, post_id,
    CASE 
        WHEN action = 'like' THEN 1
        ELSE target
    END AS target
    FROM feed_data
    WHERE NOT (action = 'view' AND target = 1)
    LIMIT 5000000;
    """

    conn = engine.connect().execution_options(stream_results=True)
    chunks = []

    for chunk_dataframe in pd.read_sql(query, conn, chunksize=CHUNKSIZE):
        chunks.append(chunk_dataframe)
    conn.close()

    return pd.concat(chunks, ignore_index=True)

In [5]:
user_data = load_user_data()
post_data = load_post_data()
feed_data = load_feed_data()

Далее необходимо ознакомиться с данными, узнать, какие колонки являются категориальными, сколько в них значений и как лучше их закодировать в данном случае.

In [6]:
user_data.head()

Unnamed: 0,user_id,age,gender,city,country,exp_group,os,source
0,200,34,1,Degtyarsk,Russia,3,Android,ads
1,201,37,0,Abakan,Russia,0,Android,ads
2,202,17,1,Smolensk,Russia,4,Android,ads
3,203,18,0,Moscow,Russia,1,iOS,ads
4,204,36,0,Anzhero-Sudzhensk,Russia,3,Android,ads


In [7]:
print("Количество уникальных возрастов: ", len(user_data['age'].unique()))
print("Возраст: ", sorted(user_data['age'].unique()))

Количество уникальных возрастов:  76
Возраст:  [14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 92, 95]


Можно подумать над тем, чтобы разбить возраста по возрастным группам, но пока лучше оставить как есть, при чем некотегировальным признаком.

In [8]:
print("Количество уникальных гендеров: ", len(user_data['gender'].unique()))
print("Гендеры: ", user_data['gender'].unique())

Количество уникальных гендеров:  2
Гендеры:  [1 0]


In [9]:
print("Количество уникальных городов: ", len(user_data['city'].unique()))
print("Города: ", ", ".join(user_data['city'].unique()))

Количество уникальных городов:  3915
Города:  Degtyarsk, Abakan, Smolensk, Moscow, Anzhero-Sudzhensk, Dugulubgey, Kamenka, Groznyy, Zima, Yuzhnouralsk, Mykolaiv, Minsk, Podolsk, Kamianske, Horodenka, Lviv, Kansk, Novosibirsk, Vologda, Ulyanovsk, Chernihiv, Yekaterinburg, Vilyuysk, Saint Petersburg, Baku, Perm, Barnaul, Kursk, Volgograd, Troitsk, Ufa, Rostov, Saransk, Smarhon’, Zlatoust, Ekibastuz, Krasnoyarsk, Nizhniy Tagil, Jyväskylä, Lesosibirsk, Shakhty, Krasnodar, Kashin, Salavat, Tsimlyansk, Yelizovo, Rubtsovsk, Odintsovo, Pyatigorsk, Yelabuga, Gaziantep, Khabarovsk, Ağcabədi, Kislovodsk, Asipovichy, M.Ə. Rəsulzadə, Vladimir, Birobidzhan, Beloyarskiy, Tyumen, Murom, Omsk, Severodvinsk, Yuzhno-Sakhalinsk, Taganrog, Mahilyow, Artëm, Neftekamsk, Syktyvkar, Arzamas, Makhachkala, Vladivostok, Lipetsk, Stavropol, Tobolsk, Novokuznetsk, Velikiy Novgorod, Voronezh, Buguruslan, Novouralsk, Zelënodol’sk, Horokhiv, Berdsk, Murmansk, Dzerzhinskiy, Tomsk, Neman, Pushkino, Yessentuki, Novohrad-

Города нельзя закодировать OneHotEncoding, необходимо подумать, стоит ли нам вообще оставлять города. Аналогично необходимо подумать, раз есть города, нужно ли оставлять страны.

In [10]:
print("Количество уникальных стран: ", len(user_data['country'].unique()))
print("Страны: ", ", ".join(user_data['country'].unique()))

Количество уникальных стран:  11
Страны:  Russia, Ukraine, Belarus, Azerbaijan, Kazakhstan, Finland, Turkey, Latvia, Cyprus, Switzerland, Estonia


Cтраны можно закодировать OneHotEncoding.

In [11]:
print("Количество уникальных групп: ", len(user_data['exp_group'].unique()))
print("Группы: ", user_data['exp_group'].unique())

Количество уникальных групп:  5
Группы:  [3 0 4 1 2]


In [12]:
print("Количество уникальных ОС: ", len(user_data['os'].unique()))
print("ОС: ", ", ".join(user_data['os'].unique()))

Количество уникальных ОС:  2
ОС:  Android, iOS


In [13]:
print("Количество уникальных источников: ", len(user_data['source'].unique()))
print("Источники: ", ", ".join(user_data['source'].unique()))

Количество уникальных источников:  2
Источники:  ads, organic


In [14]:
post_data.head()

Unnamed: 0,post_id,text,topic
0,1,UK economy facing major risks\n\nThe UK manufa...,business
1,2,Aids and climate top Davos agenda\n\nClimate c...,business
2,3,Asian quake hits European shares\n\nShares in ...,business
3,4,India power shares jump on debut\n\nShares in ...,business
4,5,Lacroix label bought by US firm\n\nLuxury good...,business


In [15]:
print("Количество уникальных рубрик: ", len(post_data['topic'].unique()))
print("Рубрики: ", ", ".join(post_data['topic'].unique()))

Количество уникальных рубрик:  7
Рубрики:  business, covid, entertainment, sport, politics, tech, movie


In [16]:
from sklearn.feature_extraction.text import TfidfVectorizer

# vectorizer = TfidfVectorizer()
# X_tfidf = vectorizer.fit_transform(post_data['text'])

# tfidf_df = pd.DataFrame(X_tfidf.toarray(), columns=vectorizer.get_feature_names_out())

post_data = post_data.drop(columns=['text'])
# post_data = pd.concat([post_data, tfidf_df], axis=1)

post_data.head()

Unnamed: 0,post_id,topic
0,1,business
1,2,business
2,3,business
3,4,business
4,5,business


In [17]:
len(post_data.columns)

2

Рубрики можно закодировать OneHotEncoding. А вот на счёт текста надо подумать, как его закодировать.

In [19]:
feed_data.head()

Unnamed: 0,timestamp,user_id,post_id,target
0,2021-11-18 17:50:06,137203,1244,1
1,2021-11-18 17:51:54,137203,4002,1
2,2021-11-18 17:51:56,137203,4528,0
3,2021-11-18 17:54:50,137203,4695,0
4,2021-11-18 17:56:34,137203,1539,0


In [19]:
# filtered_feed_data = feed_data[(feed_data['action'] == 'like') | ((feed_data['action'] == 'view') & (feed_data['target'] == 1))]
# grouped_data = filtered_feed_data.groupby(['user_id', 'post_id']).size().reset_index(name='count')

# sorted_data = filtered_feed_data.sort_values(by=['user_id', 'post_id', 'timestamp'])

# sorted_data['next_action'] = sorted_data.groupby(['user_id', 'post_id'])['action'].shift(-1)
# sorted_data['next_target'] = sorted_data.groupby(['user_id', 'post_id'])['target'].shift(-1)

# view_rows = sorted_data[(sorted_data['action'] == 'view') & (sorted_data['target'] == 1)]

# view_followed_by_like = view_rows[view_rows['next_action'] == 'like']

# all_views_followed_by_like = len(view_rows) == len(view_followed_by_like)

# print("Все действия 'view' с target=1 следуют перед 'like':", all_views_followed_by_like)

In [20]:
feed_data = feed_data.drop(columns=['timestamp'])

feed_data.head()

Unnamed: 0,user_id,post_id,target
0,137203,1244,1
1,137203,4002,1
2,137203,4528,0
3,137203,4695,0
4,137203,1539,0


Получается, что мы можем убрать action и target, а просто заменить на не поставил лайк / поставил лайк.

Тперь необходимо поработать с признаками перед тем, как смердживать таблицы, чтобы в итоге получить что-то адекватное.

In [21]:
def merge_data(user_data, post_data, feed_data):

    merged_data = feed_data.merge(user_data, on='user_id', how='left')
    merged_data = merged_data.merge(post_data, on='post_id', how='left')
    
    return merged_data

In [23]:
merged_data = merge_data(user_data, post_data, feed_data)
merged_data.head()

Unnamed: 0,user_id,post_id,target,age,gender,city,country,exp_group,os,source,topic
0,137203,1244,1,22,0,Khabarovsk,Russia,2,iOS,organic,politics
1,137203,4002,1,22,0,Khabarovsk,Russia,2,iOS,organic,covid
2,137203,4528,0,22,0,Khabarovsk,Russia,2,iOS,organic,movie
3,137203,4695,0,22,0,Khabarovsk,Russia,2,iOS,organic,movie
4,137203,1539,0,22,0,Khabarovsk,Russia,2,iOS,organic,sport


In [None]:
merged_data = merged_data.drop(columns=['user_id', 'post_id'])

KeyError: "['user_id', 'post_id'] not found in axis"

In [27]:
merged_data.head(30)

Unnamed: 0,target,age,gender,city,country,exp_group,os,source,topic
0,1,22,0,Khabarovsk,Russia,2,iOS,organic,politics
1,1,22,0,Khabarovsk,Russia,2,iOS,organic,covid
2,0,22,0,Khabarovsk,Russia,2,iOS,organic,movie
3,0,22,0,Khabarovsk,Russia,2,iOS,organic,movie
4,0,22,0,Khabarovsk,Russia,2,iOS,organic,sport
5,1,22,0,Khabarovsk,Russia,2,iOS,organic,movie
6,0,22,0,Khabarovsk,Russia,2,iOS,organic,covid
7,1,22,0,Khabarovsk,Russia,2,iOS,organic,movie
8,1,22,0,Khabarovsk,Russia,2,iOS,organic,movie
9,0,22,0,Khabarovsk,Russia,2,iOS,organic,covid
