# 가수와 소속사 매칭
* 전 실시간 음원 파일을 가져와 곡을 확인
* 해당일 실시간 음원 파일의 곡과 비교하여 새로 생긴 곡만 추출

## 라이브러리

In [1]:
import pandas as pd
import os

### 사이트 설정

In [24]:
# 음원 사이트 설정
# flo, bugs, genie, melon, vibe, soribada 중 택1.
site_name = 'bugs'

## 기존 파일 가져오기

In [29]:
# 현재 작업 경로
path = 'c:/data/Wantreez/Crawling/music/'

In [30]:
# 매칭 파일 저장 경로, 폴더 생성
folder_path = f'/crawled_data/match_{site_name}/'
created_folder_path = path + folder_path
os.makedirs(created_folder_path, exist_ok=True)

In [31]:
# 실시간 순위 파일 위치로 작업위치 이동
file_folder_path = f'/crawled_data/live_{site_name}/'
file_path = path + file_folder_path
try:
    os.chdir(file_path)
except:
    pass

In [32]:
# 파일 이름들
file_list = os.listdir()
file_list

['live_bugs_20220422_105549.xlsx',
 'live_bugs_20220425_110806.xlsx',
 'live_bugs_20220426_110837.xlsx',
 'live_bugs_20220427_110836.xlsx']

### 가져올 날짜 설정

In [33]:
# 가져올 날짜 설정
start_date = '2022-04-22'
end_date = '2022-04-22'
mod_start_date = start_date.replace('-', '')
mod_end_date = end_date.replace('-', '')
mod_start_date, mod_end_date

('20220422', '20220422')

In [37]:
for i, one_file in enumerate(file_list):
    if mod_start_date == mod_end_date:
        start_idx = i
        end_idx = i
    else:
        if mod_start_date in one_file:
            start_idx = i
        elif mod_end_date in one_file:
            end_idx = i
mod_file_list = file_list[start_idx:end_idx+1]
mod_file_list

['live_bugs_20220427_110836.xlsx']

In [39]:
df = pd.DataFrame()
for one in mod_file_list:
    temp = pd.read_excel(one)
    df = pd.concat([df, temp], ignore_index=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   날짜      100 non-null    object
 1   순위      100 non-null    int64 
 2   곡       100 non-null    object
 3   가수      100 non-null    object
 4   앨범      100 non-null    object
dtypes: int64(1), object(4)
memory usage: 4.0+ KB


In [40]:
df.head()

Unnamed: 0,날짜,순위,곡,가수,앨범
0,2022-04-27,1,LOVE DIVE,IVE (아이브),LOVE DIVE
1,2022-04-27,2,봄여름가을겨울 (Still Life),BIGBANG (빅뱅),봄여름가을겨울 (Still Life)
2,2022-04-27,3,TOMBOY,(여자)아이들,I NEVER DIE
3,2022-04-27,4,봄 to 러브,10CM,우리들의 블루스 OST Part 3
4,2022-04-27,5,ZOOM,제시(Jessi),ZOOM


In [41]:
len(df['곡'].unique())

100

In [42]:
artist_list = df['가수'].unique()
len(df['가수'].unique())

68

In [43]:
mod_artist_list = [x.strip() for x in artist_list]
mod_artist_list[:5]

['IVE (아이브)', 'BIGBANG (빅뱅)', '(여자)아이들', '10CM', '제시(Jessi)']

### 기존 파일 가수 목록 출력

In [44]:
dict = {'가수':mod_artist_list}
artist_df = pd.DataFrame(dict)
artist_df.to_excel(f'{created_folder_path}{site_name}_{start_date}_{end_date}.xlsx', index=False)
print(f'{site_name}_{start_date}_{end_date}.xlsx' + ' 출력 완료.')

bugs_2022-04-22_2022-04-22.xlsx 출력 완료.


## 새로운 실시간 음원 파일 불러오기

### 가져올 날짜 설정

In [45]:
new_date = '2022-04-25'
mod_new_date = new_date.replace('-', '')
mod_new_date

'20220425'

In [46]:
for i, one_file in enumerate(file_list):
    if mod_new_date in one_file:
        new_idx = i
new_file_name = file_list[new_idx]
new_file_name

'live_bugs_20220425_110806.xlsx'

In [47]:
new_df = pd.read_excel(new_file_name)
new_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   날짜      100 non-null    object
 1   순위      100 non-null    int64 
 2   곡       100 non-null    object
 3   가수      100 non-null    object
 4   앨범      100 non-null    object
dtypes: int64(1), object(4)
memory usage: 4.0+ KB


In [48]:
new_artist_list = new_df['가수'].unique()
len(new_artist_list)

73

In [49]:
mod_new_artist_list = [x.strip() for x in new_artist_list]


In [50]:
new_pop_artist_list = []
for one in mod_new_artist_list:
    if one not in mod_artist_list:
        new_pop_artist_list.append(one)
len(new_pop_artist_list)

16

In [51]:
dict = {'새로운_가수':new_pop_artist_list}
new_in_artist = pd.DataFrame(dict)
new_in_artist

Unnamed: 0,새로운_가수
0,릴러말즈 (Leellamarz)\n\n_x000D_\n릴러말즈 (Leellamarz)
1,The Kid LAROI
2,Kep1er (케플러)
3,하현상
4,싸이 (PSY)
5,V
6,The Weeknd(위켄드)
7,Mina Okabe
8,주호
9,DKZ


In [52]:
# 파일로 출력
file_name = f'{site_name}_new_in_artists_{new_date}.xlsx'
new_in_artist.to_excel(created_folder_path + file_name, index=False)
print(f'{file_name} 출력 완료.')

bugs_new_in_artists_2022-04-25.xlsx 출력 완료.


# 코드 마지막