In [130]:
import os
import pandas as pd
import glob

In [131]:
DIALOGS_DATA_PATH = "../data/dialogs"
DIALOGS_META_DATA_PATH = "../data/dialogs_meta"

MERGED_DATA_PATH = "../data/merged_data"

In [132]:
!cd ../data/

In [133]:
dialogs_data_files = glob.glob(f"{DIALOGS_DATA_PATH}/*.csv")
dialogs_meta_data_files = glob.glob(f"{DIALOGS_META_DATA_PATH}/*.json")

## merging all dialogs_data (csv files) into one

In [134]:
df_array = []

for d in dialogs_data_files:
    local_df = pd.read_csv(d)
    local_df["dialog_id"] = os.path.basename(d).split(".")[0]
    
    df_array.append(local_df)
    
df = pd.concat(df_array, ignore_index=True)

In [135]:
df.shape

(2050459, 11)

In [136]:
if not os.path.isdir(MERGED_DATA_PATH):
    os.mkdir(MERGED_DATA_PATH)

if "Unnamed: 0" in df:
    df = df.drop(["Unnamed: 0"], axis=True)
    
df.to_csv(f"{MERGED_DATA_PATH}/dialogs_data_all.csv", index=False)

In [137]:
df.shape

(2050459, 10)

In [138]:
df.head(10)

Unnamed: 0,id,date,from_id,to_id,fwd_from,message,type,duration,dialog_id,reactions
0,699122,2022-10-19 08:29:36+00:00,PeerUser(user_id=962137152),PeerChannel(channel_id=1124109395),,,text,,-1001124109395,
1,699121,2022-10-19 08:29:35+00:00,PeerUser(user_id=962137152),PeerChannel(channel_id=1124109395),,Поточний етап у САЗ: Запис-2 (дозапис/корекція...,text,,-1001124109395,
2,699120,2022-10-14 11:46:37+00:00,PeerUser(user_id=255144521),PeerChannel(channel_id=1124109395),,,text,,-1001124109395,
3,699119,2022-10-14 11:46:34+00:00,PeerUser(user_id=255144521),PeerChannel(channel_id=1124109395),"MessageFwdHeader(date=datetime.datetime(2022, ...",🗳 Вибори до Студентської колегії ХХІІ скликанн...,photo,,-1001124109395,
4,699118,2022-10-10 14:05:28+00:00,PeerUser(user_id=962137152),PeerChannel(channel_id=1124109395),,Дубіна Ярослава Анатоліївна надсилає сповіщенн...,text,,-1001124109395,
5,699117,2022-10-04 11:05:10+00:00,PeerUser(user_id=962137152),PeerChannel(channel_id=1124109395),,Дубіна Ярослава Анатоліївна надсилає сповіщенн...,text,,-1001124109395,
6,699116,2022-10-01 15:25:57+00:00,PeerUser(user_id=962137152),PeerChannel(channel_id=1124109395),,Дубіна Ярослава Анатоліївна надсилає сповіщенн...,text,,-1001124109395,
7,699115,2022-09-29 05:32:56+00:00,PeerUser(user_id=962137152),PeerChannel(channel_id=1124109395),,Дубіна Ярослава Анатоліївна надсилає сповіщенн...,text,,-1001124109395,
8,699114,2022-09-26 10:12:03+00:00,PeerUser(user_id=962137152),PeerChannel(channel_id=1124109395),,,text,,-1001124109395,
9,699113,2022-09-26 10:12:03+00:00,PeerUser(user_id=962137152),PeerChannel(channel_id=1124109395),,Поточний етап у САЗ: Семестрова корекція закін...,text,,-1001124109395,


In [139]:
min(df["date"]),max(df["date"])

('2017-05-17 15:57:10+00:00', '2022-11-08 09:57:15+00:00')

In [140]:
df.groupby(["type"])["type"].count()

type
photo       161094
sticker      53129
text       1749438
video        43091
voice        43707
Name: type, dtype: int64

In [141]:
df.groupby(["type"])["duration"].sum()

type
photo            0.0
sticker          0.0
text             0.0
video      2429009.0
voice       966708.0
Name: duration, dtype: float64

## merging all dialogs_meta_data (json files) into one

In [142]:
#merge all provided meta data

df1_array = []

for d in dialogs_meta_data_files:
    local_df = pd.read_json(d)
    local_df = local_df.rename({'id': 'dialog_id'}, axis=1)
    df1_array.append(local_df)
    
df1_meta = pd.concat(df1_array, ignore_index=True)

In [143]:
#exclude meta data of chats with no downloaded messages

df2_array = []

for d in dialogs_meta_data_files:
    local_df = pd.read_json(d)
    local_df = local_df.rename({'id': 'dialog_id'}, axis=1)
    if(not local_df.empty):
        id = local_df.iat[0,0]
        if str(id) in set(df["dialog_id"]):
            df2_array.append(local_df)
    
df2_meta = pd.concat(df2_array, ignore_index=True)

In [144]:
df1_meta.to_csv(f"{MERGED_DATA_PATH}/all_meta_data.csv", index=False)
df2_meta.to_csv(f"{MERGED_DATA_PATH}/dialogs_users_all.csv", index=False)

In [145]:
df2_meta.shape

(13791, 4)

In [146]:
df2_meta.head(100)

Unnamed: 0,dialog_id,name,type,users
0,-1001124109395,Філіал КМЦ,Group,"{'user_id': 350500073, 'first_name': 'Пєтя кн-..."
1,-1001124109395,Філіал КМЦ,Group,"{'user_id': 346039675, 'first_name': 'Sofia', ..."
2,-1001124109395,Філіал КМЦ,Group,"{'user_id': 362602841, 'first_name': 'Даша', '..."
3,-1001124109395,Філіал КМЦ,Group,"{'user_id': 381081723, 'first_name': 'Антон', ..."
4,-1001124109395,Філіал КМЦ,Group,"{'user_id': 691654799, 'first_name': 'Іруся!',..."
...,...,...,...,...
95,-1001124109395,Філіал КМЦ,Group,"{'user_id': 424033713, 'first_name': 'Sofiia',..."
96,-1001124109395,Філіал КМЦ,Group,"{'user_id': 578090273, 'first_name': 'Katherin..."
97,-1001124109395,Філіал КМЦ,Group,"{'user_id': 420470026, 'first_name': 'Никита',..."
98,-1001124109395,Філіал КМЦ,Group,"{'user_id': 340227209, 'first_name': 'Dmytro',..."


In [147]:
df2_meta.groupby(["type"])["type"].count()

type
Channel              14
Group             13599
Private dialog      178
Name: type, dtype: int64

In [148]:
df2_meta["type"]

0                 Group
1                 Group
2                 Group
3                 Group
4                 Group
              ...      
13786    Private dialog
13787    Private dialog
13788    Private dialog
13789    Private dialog
13790    Private dialog
Name: type, Length: 13791, dtype: object