In [3]:
import pandas as pd
import codecs

In [2]:
# メモリ削減
def reduce_mem_usage(df):
    start_mem = df.memory_usage().sum() / 1024**2
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))

    for col in df.columns:
        col_type = df[col].dtype

        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            df[col] = df[col].astype('category')

    end_mem = df.memory_usage().sum() / 1024**2
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))

    return df

In [6]:
# csvを読み込みデータフレームに変換
df = {}
with codecs.open("../../data/input/useVideos.csv", "r", "utf-8", "ignore") as file:
    df = pd.read_table(file, delimiter=",")

In [7]:
df

Unnamed: 0.1,Unnamed: 0,video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,description,channel_id,subscriber_count
0,0,5ugKfHgsmYw,18.07.02,陸自ヘリ、垂直に落下＝路上の車が撮影,時事通信映像センター,25.0,2018-02-06T03:04:37.000Z,"事故|""佐賀""|""佐賀県""|""ヘリコプター""|""ヘリ""|""自衛隊""|""墜落""|""落下""|""現...",188085.0,591.0,189.0,0.0,https://i.ytimg.com/vi/5ugKfHgsmYw/default.jpg,True,False,False,佐賀県神埼市の民家に墜落した陸上自衛隊のＡＨ６４Ｄ戦闘ヘリコプターが垂直に落下する様子を、近...,UCNLxBzguoGLqXWA8_BtHSHA,72700.0
1,1,5ugKfHgsmYw,18.07.02,陸自ヘリ、垂直に落下＝路上の車が撮影,時事通信映像センター,25.0,2018-02-06T03:04:37.000Z,"事故|""佐賀""|""佐賀県""|""ヘリコプター""|""ヘリ""|""自衛隊""|""墜落""|""落下""|""現...",188085.0,591.0,189.0,0.0,https://i.ytimg.com/vi/5ugKfHgsmYw/default.jpg,True,False,False,佐賀県神埼市の民家に墜落した陸上自衛隊のＡＨ６４Ｄ戦闘ヘリコプターが垂直に落下する様子を、近...,UCNLxBzguoGLqXWA8_BtHSHA,74900.0
2,2,5ugKfHgsmYw,18.07.02,陸自ヘリ、垂直に落下＝路上の車が撮影,時事通信映像センター,25.0,2018-02-06T03:04:37.000Z,"事故|""佐賀""|""佐賀県""|""ヘリコプター""|""ヘリ""|""自衛隊""|""墜落""|""落下""|""現...",188085.0,591.0,189.0,0.0,https://i.ytimg.com/vi/5ugKfHgsmYw/default.jpg,True,False,False,佐賀県神埼市の民家に墜落した陸上自衛隊のＡＨ６４Ｄ戦闘ヘリコプターが垂直に落下する様子を、近...,UCNLxBzguoGLqXWA8_BtHSHA,75100.0
3,12,5ugKfHgsmYw,18.08.02,陸自ヘリ、垂直に落下＝路上の車が撮影,時事通信映像センター,25.0,2018-02-06T03:04:37.000Z,"事故|""佐賀""|""佐賀県""|""ヘリコプター""|""ヘリ""|""自衛隊""|""墜落""|""落下""|""現...",312569.0,807.0,250.0,0.0,https://i.ytimg.com/vi/5ugKfHgsmYw/default.jpg,True,False,False,佐賀県神埼市の民家に墜落した陸上自衛隊のＡＨ６４Ｄ戦闘ヘリコプターが垂直に落下する様子を、近...,UCNLxBzguoGLqXWA8_BtHSHA,72700.0
4,13,5ugKfHgsmYw,18.08.02,陸自ヘリ、垂直に落下＝路上の車が撮影,時事通信映像センター,25.0,2018-02-06T03:04:37.000Z,"事故|""佐賀""|""佐賀県""|""ヘリコプター""|""ヘリ""|""自衛隊""|""墜落""|""落下""|""現...",312569.0,807.0,250.0,0.0,https://i.ytimg.com/vi/5ugKfHgsmYw/default.jpg,True,False,False,佐賀県神埼市の民家に墜落した陸上自衛隊のＡＨ６４Ｄ戦闘ヘリコプターが垂直に落下する様子を、近...,UCNLxBzguoGLqXWA8_BtHSHA,74900.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
167580,23504,f4NWt_O2vBg,18.14.06,まらしぃ（marasy） piano live tour 2018,marasy8,10.0,2018-06-13T10:46:36.000Z,"ピアノ|""piano""|""marasy8""|""まらしぃ""",35735.0,1959.0,9.0,311.0,https://i.ytimg.com/vi/f4NWt_O2vBg/default.jpg,False,False,False,まらしぃです。今年も秋にライブツアーをやらせて頂けることになりました。とても嬉しいです。色々...,UCcvLSRIWJIAGFDyWtzkbiHA,1620000.0
167581,23505,0EaUDUgczQ0,18.14.06,【ポケモンGO】カイオーガ５連戦＋１戦してたら思わぬ結果になった【色違い】,はっちゃんねる,20.0,2018-06-13T10:00:00.000Z,"ポケモンgo|""ポケモン""|""GO""|""はつだ""|""はっちゃんねる""|""実況""|""攻略""|""...",38214.0,551.0,75.0,90.0,https://i.ytimg.com/vi/0EaUDUgczQ0/default.jpg,False,False,False,先日のニキのホウオウの色違い。悔しかった・・・！！！ので一人でカイオーガ行きまくって来ました...,UC6z9hHYTAV8eW--F4JndgiQ,113000.0
167582,23506,niKln6fWWrY,18.14.06,The Youth Board Asks #1 – How Does The Report ...,Supercell,29.0,2018-06-13T10:33:56.000Z,[none],640996.0,10105.0,1034.0,1961.0,https://i.ytimg.com/vi/niKln6fWWrY/default.jpg,False,False,False,In connection with this year's Stand Up To Bul...,UCXO2ZE-H4ZVjJDjTuQzv-Bw,637000.0
167583,23507,EmoDAd0eYiM,18.14.06,Harke Haldar | किन हुन दिएनन् खम्बेले देउतिको ...,Kantipur TV HD,23.0,2018-06-13T14:15:01.000Z,"nepali comedy video|""nepali comedy serial""|""ne...",134920.0,3766.0,180.0,408.0,https://i.ytimg.com/vi/EmoDAd0eYiM/default.jpg,False,False,False,Nepali Comedy Video - Harke Haldar | Popular N...,UC3yDoaqQzOd1bNP74ZrGPTA,1800000.0


In [8]:
df.columns

Index(['Unnamed: 0', 'video_id', 'trending_date', 'title', 'channel_title',
       'category_id', 'publish_time', 'tags', 'views', 'likes', 'dislikes',
       'comment_count', 'thumbnail_link', 'comments_disabled',
       'ratings_disabled', 'video_error_or_removed', 'description',
       'channel_id', 'subscriber_count'],
      dtype='object')

# カテゴリIDのOne Hot Encoding化