In [2]:
import os

import numpy as np
import pandas as pd
import dask.dataframe as dd
import featuretools as ft

In [None]:
# 對raw data做"前處理的前處理"

_raw_data_fd_pa = r'D:\issp_data\raw_tsdr'

def _preprocess_tsdr(raw_data_fl_nm: str, dest_folder_pa: str) -> None:
    _use_cols = [r'モニターCue ※納品不可', r'日時(yyyy-mm-dd hh:mm:ss)',
                 r'接触時間（duration)', r'アプリカテゴリ']
    _dtypes = {
        r'モニターCue ※納品不可': np.int64, 
        r'日時(yyyy-mm-dd hh:mm:ss)': str,
        r'接触時間（duration)': np.int64, 
        r'アプリカテゴリ': str
    }
    _selected_cates = [r'ツール類', r'ソーシャルネットワーキング', r'ゲーム']
        
    # step 1: load raw data from disk
    df = dd.read_csv(os.path.join(_raw_data_fd_pa, raw_data_fl_nm), 
                     sep='\t', usecols=_use_cols, dtype=_dtypes)

    # rename dataframe columns from japanese to english
    df = df.rename(columns={
        r'モニターCue ※納品不可': r'Monitor_ID',
        r'日時(yyyy-mm-dd hh:mm:ss)': r'Timestamp',
        r'接触時間（duration)': r'Duration',
        r'アプリカテゴリ': r'Cate_Label'
    })

    # step 2: filter/remove the data we need/don't need
    # remove non top-3-categories rows
    df = df.loc[df[r'Cate_Label'].isin(_selected_cates)]
    
    # remove those rows with any missing value
    df = df.dropna()

    # step 3: transform data to the form we need
    # replace category name (str) with label number (int)
    f = lambda cate: {
            r'ツール類': 0,
            r'ソーシャルネットワーキング': 1,
            r'ゲーム': 2
        }[cate]
    df['Cate_Label'] = df['Cate_Label'].map(f, meta=('Cate_Label', int))

    # generate date columns
    df['Date'] = df['Timestamp'].map(lambda x: x[:10], meta=('Date', str))

    # convert time (str dtype) to timestamp (int dtype), then divide 10^9
    df['Timestamp'] = df['Timestamp'].astype('M8[us]').\
        astype(np.int64) // 10 ** 9

    # step 4: generate ret data as result
    # split original df into 3 categories            
    f = lambda x: x.tolist()
        
    for i in range(3):  # 因為是3個類別, 故range == 3
        print(raw_data_fl_nm, i)  # for testing usage
            
        _dfc = df[df['Cate_Label'] == i]
        _dfc_gr = _dfc.groupby(['Monitor_ID', 'Date'])
            
        _dfc_gr['Timestamp']\
            .apply(f, meta=('Timestamp', int))\
            .compute()\
            .to_csv(os.path.join(dest_folder_pa,
                                 f'{raw_data_fl_nm[:-4]}_{i}_ts.csv'), header=False)
        _dfc_gr['Duration']\
            .apply(f, meta=('Duration', int))\
            .compute()\
            .to_csv(os.path.join(dest_folder_pa, 
                                 f'{raw_data_fl_nm[:-4]}_{i}_dr.csv'), header=False)


file_ls = os.listdir(_raw_data_fd_pa)
target_pa = r'D:\issp_data\raw_tsdr\test'

for fl in file_ls:
    print(f'>> {fl}')
    _preprocess_tsdr(fl, target_pa)

In [20]:
df_ts = pd.read_csv(r'D:\issp_data\pre_tsdr\s35809_MobileApp_201701_104628_0_ts.csv', 
                    names=['Monitor_ID', 'Timestamp', 'TS'], index_col='Monitor_ID')
# df_dr = pd.read_csv(r'D:\issp_data\pre_tsdr\s35809_MobileApp_201701_104628_0_dr.csv', 
#                     names=['Monitor_ID', 'Timestamp', 'DR'], index_col='Monitor_ID')
df_user = pd.\
    read_csv(r'D:\issp_data\user_attributes_2016.csv', 
             encoding='shift-jis').\
    rename(columns={r'モニターID.11桁.': 'Monitor_ID'}).\
    set_index('Monitor_ID')

entities = {
    r'timeseries': (df_ts, 'Monitor_ID'),
#     r'duration': (df_dr, r'Monitor_ID', r'Timestamp'),
    r'user': (df_user, 'Monitor_ID')
}

relationships = [
    ('timeseries', 'Monitor_ID', 'user', 'Monitor_ID')
]

                  モニターID 社外提供  居住都道府県.参考. 居住都道府県.参考._名称  居住エリア 居住エリア_名称  \
Monitor_ID                                                                
50000203856  B9Y92QG667PMB2YD          45           宮　崎     10       九州   
50000300858  SLGTF9J3ZB74GW5P          22           静　岡      6       東海   
50000245614  9M76AYT89V9UKFPQ          13           東　京      4       京浜   
50000448787  GW49ZJG54MQ2NJP4          14           神奈川      4       京浜   
50000193009  Q5XWK5L2V7N5NUAJ          13           東　京      4       京浜   
50000300091  4JP53UZBLBBUDFH6          44           大　分     10       九州   
50000167549  BY2PZYX2WJJXFCX7          12           千　葉      4       京浜   
50000223851  NPV4B3ABKDSKQUDM          22           静　岡      6       東海   
50000349846  77AAVDV65X943TYR          22           静　岡      6       東海   
50000392547  VB6B38V53DBZUQ7J          19           山　梨      3       関東   
50000201763  8Y94TQF9DSGRKV24          23           愛　知      6       東海   
50000396892  Y2KV65VAJ5KL

[32680 rows x 75 columns]


In [5]:
feature_matrix_customers, features_defs = ft.dfs(entities=entities,
                                                 relationships=relationships,
                                                 target_entity='timeseries')



In [6]:
features_defs

[<Feature: SUM(user.居住都道府県.参考.)>,
 <Feature: SUM(user.居住エリア)>,
 <Feature: SUM(user.年齢.5才刻み.)>,
 <Feature: SUM(user.年齢.10才刻み.)>,
 <Feature: SUM(user.世代)>,
 <Feature: SUM(user.性別)>,
 <Feature: SUM(user.性年代)>,
 <Feature: SUM(user.メディアターゲット区分)>,
 <Feature: SUM(user.未既婚)>,
 <Feature: SUM(user.職業)>,
 <Feature: SUM(user.職業.詳細.)>,
 <Feature: SUM(user.職種)>,
 <Feature: SUM(user.仕事環境)>,
 <Feature: SUM(user.個人年収)>,
 <Feature: SUM(user.X1ヶ月平均小遣い)>,
 <Feature: SUM(user.最終学歴)>,
 <Feature: SUM(user.家族人数)>,
 <Feature: SUM(user.家族構成)>,
 <Feature: SUM(user.世帯年収)>,
 <Feature: SUM(user.家屋形態)>,
 <Feature: SUM(user.生協加入有無)>,
 <Feature: SUM(user.配偶者の同居有無)>,
 <Feature: SUM(user.同居配偶者年齢.5才刻み.)>,
 <Feature: SUM(user.同居配偶者年齢.10才刻み.)>,
 <Feature: SUM(user.同居配偶者職業)>,
 <Feature: SUM(user.末子年齢)>,
 <Feature: SUM(user.家族人員.17才以下男子.)>,
 <Feature: SUM(user.家族人員.17才以下女子.)>,
 <Feature: SUM(user.家族人員.0.2才.乳児..)>,
 <Feature: SUM(user.家族人員.3.5才.就学前児童..)>,
 <Feature: SUM(user.家族人員.6.11才.小学生..)>,
 <Feature: SUM(user.家族人員.12.14才

In [7]:
feature_matrix_customers

Unnamed: 0_level_0,SUM(user.居住都道府県.参考.),SUM(user.居住エリア),SUM(user.年齢.5才刻み.),SUM(user.年齢.10才刻み.),SUM(user.世代),SUM(user.性別),SUM(user.性年代),SUM(user.メディアターゲット区分),SUM(user.未既婚),SUM(user.職業),...,MODE(user.家族人員.65才以上._名称),MODE(user.自動車.自家用車保有.有無_名称),MODE(user.同居子供人数.17才以下._名称),MODE(user.同居子供人数.14才以下._名称),DAY(Timestamp),YEAR(Timestamp),MONTH(Timestamp),WEEKDAY(Timestamp),NUM_WORDS(TS),NUM_CHARACTERS(TS)
Monitor_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,45.0,10.0,6.0,4.0,5.0,1.0,4.0,6.0,2.0,1.0,...,無し,有り,子供なし(17才以下),子供なし(14才以下),1,2017,1,6,223,2676
1,22.0,6.0,10.0,6.0,3.0,2.0,12.0,4.0,1.0,6.0,...,有り,有り,子供なし(17才以下),子供なし(14才以下),16,2017,1,0,15,180
2,13.0,4.0,7.0,4.0,4.0,2.0,10.0,3.0,1.0,2.0,...,無し,無し,2人,2人,4,2017,1,2,24,288
3,14.0,4.0,6.0,4.0,5.0,2.0,10.0,3.0,1.0,5.0,...,無し,有り,1人,1人,21,2017,1,5,37,444
4,13.0,4.0,5.0,3.0,6.0,1.0,3.0,6.0,1.0,1.0,...,無し,無し,2人,2人,23,2017,1,0,25,300
5,44.0,10.0,10.0,6.0,2.0,2.0,12.0,4.0,1.0,6.0,...,有り,有り,子供なし(17才以下),子供なし(14才以下),29,2017,1,6,14,168
6,12.0,4.0,6.0,4.0,5.0,2.0,10.0,3.0,2.0,3.0,...,無し,無し,子供なし(17才以下),子供なし(14才以下),14,2017,1,5,18,216
7,22.0,6.0,6.0,4.0,5.0,2.0,10.0,3.0,1.0,1.0,...,無し,有り,1人,子供なし(14才以下),6,2017,1,4,47,564
8,22.0,6.0,10.0,6.0,2.0,1.0,6.0,7.0,1.0,5.0,...,有り,有り,子供なし(17才以下),子供なし(14才以下),3,2017,1,1,211,2532
9,19.0,3.0,9.0,5.0,3.0,1.0,5.0,7.0,1.0,2.0,...,無し,有り,1人,1人,4,2017,1,2,223,2676


In [8]:
feature_matrix_customers.shape

(345201, 304)

In [21]:
feature_matrix_customers_2, features_defs_2 = ft.dfs(entities=entities,
                                                     relationships=relationships,
                                                     target_entity='user')



ValueError: 'Monitor_ID' is both an index level and a column label, which is ambiguous.

In [None]:
features_defs_2

In [None]:
feature_matrix_customers_2

In [None]:
def _preprocess_user(raw_user_csv_pa: str) -> None:
    df = pd.read_csv(raw_user_csv_pa, encoding='shift_jis')

    # remove not number columns (just for testing)
    df = df.drop([r'モニターID 社外提供'], axis=1)
    df = df.drop(filter(lambda x: r'名称' in x, df.columns), axis=1)

    # save to csv
    df.to_csv(raw_user_csv_pa.split('.')[0] + r'_modified.csv')
    
    
_preprocess_user(r'D:\issp_data\user_attributes_2016.csv')

In [None]:
import featuretools as ft
data = ft.demo.load_mock_customer()

customers_df = data["customers"]
sessions_df = data["sessions"]
transactions_df = data["transactions"]

# 這邊不太懂
entities = {
    "customers": (customers_df, "customer_id"),
    "sessions": (sessions_df, "session_id", "session_start"),
    "transactions": (transactions_df, "transaction_id", "transaction_time")
}
relationships = [
    ("sessions", "session_id", "transactions", "session_id"),
    ("customers", "customer_id", "sessions", "customer_id")
]

feature_matrix_customers, features_defs = ft.dfs(entities=entities,
                                                 relationships=relationships,
                                                 target_entity="customers")

# feature_matrix_customers

features_defs

In [None]:
_use_cols = [
#     'モニターID.11桁.', 

    '居住都道府県.参考.', 
    '居住都道府県.参考._名称', 
    '居住エリア',
    '居住エリア_名称', 

# # 年齡1 單純考量年齡: 這裡也是分群/還是回歸??
#     '年齢.5才刻み.',  # 1: 19及以下, 2: 20~24, 3: 25~29, ... 9: 55~59, 10: 60及以上 
#     '年齢.10才刻み.',  # 1: 1X歲和以下, 2: 2X歲, ..., 5: 5X歲, 6: 6X歲和以上

# # 年齡-(個性?) 聯合考量: --> 這個我不知道要幹麻的, 但很像個性解析?? 或許有點幫助??
#     '世代', 
# #     '世代_名称', 
    
# # 性別1 單純考量性別: 
#     '性別',  # 1: 男性, 2: 女性 

# # 性別-年齡 聯合考量: 第一種分群方式
# #     {
# #         '1': '男性10代', '2': '男性20代', '3': '男性30代',
# #         '4': '男性40代', '5': '男性50代', '6': '男性60代',
# #         '7': '女性10代', '8': '女性20代', '9': '女性30代',
# #         '10': '女性40代', '11': '女性50代', '12': '女性60代'
# #     }
#     '性年代',

# # 性別-年齡 聯合考量: 第二種分群方式, 比上面分得更稀疏, 不知道效果如何
# #     {
# #         '1': 'T層  (〜19才の男女)', 
# #         '2': 'F1層 (20〜34才の女性)', '3': 'F2層 (35〜49才の女性)', '4': 'F3層 (50才以上の女性)',
# #         '5': 'M1層 (20〜34才の男性)', '6': 'M2層 (35〜49才の男性)', '7': 'M3層 (50才以上の男性)'
# #     }
#     'メディアターゲット区分',

# # 未婚/已婚狀態
#     '未既婚',  # 1: 既婚, 2: 已婚
    
# 職業大分類
#     {
#         1: 
#     }
    
    '職業', '職業_名称', 
    
    
    '職業.詳細.', '職業.詳細._名称',
    '職種', '職種_名称', '仕事環境', '仕事環境_名称', '個人年収', '個人年収_名称', 'X1ヶ月平均小遣い',
    'X1ヶ月平均小遣い_名称', '最終学歴', '最終学歴_名称', '家族人数', '家族人数_名称', '家族構成', '家族構成_名称',
    '世帯年収', '世帯年収_名称', '家屋形態', '家屋形態_名称', '生協加入有無', '生協加入有無_名称', '配偶者の同居有無',
    '配偶者の同居有無_名称', '同居配偶者年齢.5才刻み.', '同居配偶者年齢.5才刻み._名称', '同居配偶者年齢.10才刻み.',
    '同居配偶者年齢.10才刻み._名称', '同居配偶者職業', '同居配偶者職業_名称', '末子年齢', '末子年齢_名称',
    '家族人員.17才以下男子.', '家族人員.17才以下男子._名称', '家族人員.17才以下女子.',
    '家族人員.17才以下女子._名称', '家族人員.0.2才.乳児..', '家族人員.0.2才.乳児.._名称',
    '家族人員.3.5才.就学前児童..', '家族人員.3.5才.就学前児童.._名称', '家族人員.6.11才.小学生..',
    '家族人員.6.11才.小学生.._名称', '家族人員.12.14才.中学生..', '家族人員.12.14才.中学生.._名称',
    '家族人員.15.17才.高校生..', '家族人員.15.17才.高校生.._名称', '家族人員.65才以上.',
    '家族人員.65才以上._名称', '自動車.自家用車保有.有無', '自動車.自家用車保有.有無_名称', '同居子供人数.17才以下.',
    '同居子供人数.17才以下._名称', '同居子供人数.14才以下.', '同居子供人数.14才以下._名称'
]

df = pd.read_csv(r'C:\Users\howard810804\Desktop\proj_issp\drive-download-20191002T113331Z-001\1. 2016_attributes.csv',
                 encoding='shift_jis')

df = df.drop([r'モニターID 社外提供'], axis=1)
df = df.drop(filter(lambda x: r'名称' in x, df.columns), axis=1)
print(df.iloc[1, :])

# df = df.drop(['モニターID 社外提供'], axis=1)

# place = df.loc[:, '居住都道府県.参考.': '居住エリア_名称']
# place_detai = place.iloc[:, :2]
# # place.head(30)
# place_detai.head(30)



# df.head(30)

In [None]:
col = r'職業.詳細.'
ret = set(df[col].tolist())
print(ret)

In [None]:
# _raw_user_fd_pa = r'D:\issp_data\raw_user'

# file_ls = os.listdir(_raw_user_fd_pa)
# target_pa = r'D:\issp_data\raw_user\test'
# for fl in file_ls:
#     print(f'>> {fl}')
#     _preprocess_tsdr(fl, target_pa)