In [1]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

In [2]:
import pandas as pd
import os

from util import create_songs_dataframe

In [3]:
def unique_df(df):
    """
    データフレームを楽曲名に関して一意にして，インデックスも振り直す関数．
    
    Parameters
    ----------
    df : DataFrame
        楽曲名に関して重複のあるデータフレーム
    
    Returns
    ----------
    df_unique : DataFrame
        楽曲名に関して一意なデータフレーム
    """
    
    df_unique = df.drop_duplicates(subset='SongName')  # 楽曲名が重複しているものを削除
    df_unique = df_unique.reset_index(drop=True)       # インデックスの振り直し
    
    return df_unique

In [4]:
# 真はなぜか声優名も入れないと1曲しかヒットしない
# ロコとジュリアも該当しない曲のヒットが多すぎるので声優名を付ける
character_list = ['天海春香', '如月千早', '星井美希', '萩原雪歩', '高槻やよい',
                  '菊地真(平田宏美)', '水瀬伊織', '四条貴音', '秋月律子', '三浦あずさ',
                  '双海亜美', '双海真美', '我那覇響', '春日未来', '最上静香',
                  '伊吹翼', '田中琴葉', '島原エレナ', '佐竹美奈子', '所恵美',
                  '徳川まつり', '箱崎星梨花', '野々原茜', '望月杏奈', 'ロコ(中村温姫)',
                  '七尾百合子', '高山紗代子', '松田亜利沙', '高坂海美', '中谷育',
                  '天空橋朋花', 'エミリー', '北沢志保', '舞浜歩', '木下ひなた',
                  '矢吹可奈', '横山奈緒', '二階堂千鶴', '馬場このみ', '大神環',
                  '豊川風花', '宮尾美也', '福田のり子', '真壁瑞希', '篠宮可憐',
                  '百瀬莉緒', '永吉昴', '北上麗花', '周防桃子', 'ジュリア(愛美)',
                  '白石紬', '桜守歌織']
len(character_list)

52

In [5]:
df_dict = {}
songs_df = pd.DataFrame()
for character in character_list:
    url = 'https://www.uta-net.com/search/?Aselect=1&Keyword=' +\
            character + '&Bselect=3&x=0&y=0'
    char_df = create_songs_dataframe(url)
    df_dict[character] = char_df
    songs_df = pd.concat([songs_df, char_df])
    print(character, 'done!')

天海春香 done!
如月千早 done!
星井美希 done!
萩原雪歩 done!
高槻やよい done!
菊地真(平田宏美) done!
水瀬伊織 done!
四条貴音 done!
秋月律子 done!
三浦あずさ done!
双海亜美 done!
双海真美 done!
我那覇響 done!
春日未来 done!
最上静香 done!
伊吹翼 done!
田中琴葉 done!
島原エレナ done!
佐竹美奈子 done!
所恵美 done!
徳川まつり done!
箱崎星梨花 done!
野々原茜 done!
望月杏奈 done!
ロコ(中村温姫) done!
七尾百合子 done!
高山紗代子 done!
松田亜利沙 done!
高坂海美 done!
中谷育 done!
天空橋朋花 done!
エミリー done!
北沢志保 done!
舞浜歩 done!
木下ひなた done!
矢吹可奈 done!
横山奈緒 done!
二階堂千鶴 done!
馬場このみ done!
大神環 done!
豊川風花 done!
宮尾美也 done!
福田のり子 done!
真壁瑞希 done!
篠宮可憐 done!
百瀬莉緒 done!
永吉昴 done!
北上麗花 done!
周防桃子 done!
ジュリア(愛美) done!
白石紬 done!
桜守歌織 done!


In [22]:
# label指定で不適当な楽曲情報を削除
df_dict['如月千早'] = df_dict['如月千早'].drop(21).reset_index(drop=True)
df_dict['エミリー'] = df_dict['エミリー'].drop([6, 7]).reset_index(drop=True)
songs_df = songs_df.reset_index(drop=True).drop([69, 746, 747])

In [23]:
songs_df = unique_df(songs_df)  # 曲名の重複を削除して，インデックス振り直し
print(songs_df.shape)
songs_df.head()

(401, 6)


Unnamed: 0,Artist,Composer,Lyricist,SongName,URL,Lyric
0,天海春香(中村繪里子),NBGI(LindaAI-CUE),NBGI(LindaAI-CUE),I Want,https://www.uta-net.com/song/275902/,まるで荒れる波涛のように背筋つらぬき　心狂わす出逢いそう　出逢い夢うつつと見紛(みまご)うほ...
1,天海春香(中村繪里子),イイジマケン,イイジマケン,あ・り・が・と・YESTERDAYS,https://www.uta-net.com/song/143280/,Don't Don't Don't Stay Good-byeDon't Don't Don...
2,天海春香(中村繪里子)、菊地真(平田宏美),若林充,yura,YES♪,https://www.uta-net.com/song/260171/,YES♪広い空のようなみんな夢を見てるそして叶えてく輝くこの宇宙(そら)でどこ行(ゆ)こうM...
3,天海春香(中村繪里子)、星井美希(長谷川明子)、高槻やよい(仁後真耶子)、双海亜美/真美(下...,藤末樹,yura,いっしょ,https://www.uta-net.com/song/260172/,いっしょに歌おういっしょの時代(とき)の中いっしょで行こういっしょな夢を見よういっしょにいよ...
4,IM@S ALLSTARS++,NBGI(高田龍一),NBGI(mft),L・O・B・M,https://www.uta-net.com/song/275775/,アッ！とね　言わせて見たいいっぱい愛があふれるウットリするような世界創ろうガッカリするのまだ...


In [24]:
# データの書き出し
data_path = './datasets/'
char_path = os.path.join(data_path, 'character')
if not os.path.exists(char_path):
    os.makedirs(char_path)

# キャラごとのデータを保存
for name, df in df_dict.items():
    df.to_csv(os.path.join(char_path, name + '_songs.csv'), encoding='utf-8_sig')

songs_df.to_csv(os.path.join(data_path, 'all_songs.csv'), encoding='utf-8_sig')  # 全楽曲のdfを保存