##### 요구사항
* 공연기간을 시작일과 종료일로 나누어 두 개의 컬럼에 넣기 <br>
* 현재일 기준으로 종료된 공연 삭제 <br>
* 'URL' 결측치에 기본 프로필 이미지 넣기 <br>
* 모든 사이트의 공연데이터를 하나로 합치기 <br>

### 공연데이터 정리하기

In [75]:
import pandas as pd
import numpy as np

In [76]:
df_melon = pd.read_csv('../ticketMerge/티켓머지_일정데이터/melon_data.csv')

In [77]:
df_melon.head(2)

Unnamed: 0,상품 제목,포스터 URL,상세 포스터 URL,공연장소,공연기간,캐스팅 리스트,해당 링크
0,2024 BAEKHYUN ASIA TOUR ‘Lonsdaleite［dot］’,https://cdnticket.melon.co.kr/resource/image/u...,https://cdnticket.melon.co.kr/resource/image/u...,KSPO DOME (올림픽 체조경기장),2024.07.27 - 2024.07.28,['백현 (BAEKHYUN)'],https://ticket.melon.com/performance/index.htm...
1,IVE THE 1ST WORLD TOUR ‘SHOW WHAT I HAVE’－ENCORE,https://cdnticket.melon.co.kr/resource/image/u...,https://cdnticket.melon.co.kr/resource/image/u...,KSPO DOME (올림픽 체조경기장),2024.08.10 - 2024.08.11,['IVE (아이브)'],https://ticket.melon.com/performance/index.htm...


In [78]:
# 결측치 확인

In [79]:
df_melon.isna().sum()

상품 제목         0
포스터 URL       0
상세 포스터 URL    3
공연장소          0
공연기간          0
캐스팅 리스트       0
해당 링크         0
dtype: int64

In [80]:
# 공연시간을 안전하게 dt_melon으로 별도 저장하여 시작일과 종료일 두 컬럼으로 분리하여 넣어주기

In [81]:
dt_melon = pd.DataFrame(df_melon['공연기간']) 

In [82]:
dt_melon

Unnamed: 0,공연기간
0,2024.07.27 - 2024.07.28
1,2024.08.10 - 2024.08.11
2,2024.08.10 - 2024.08.10
3,2024.07.27 - 2024.07.27
4,2024.07.27 - 2024.07.27
...,...
104,2024.08.20 - 2024.08.20
105,2024.08.31 - 2024.08.31
106,2024.09.14 - 2024.09.15
107,2024.11.08 - 2024.11.08


In [83]:
# "-"를 기준으로 공연기간 분리
# 시작일과 종료일로 나누기

In [84]:
dt_melon[['시작일', '종료일']] = dt_melon['공연기간'].str.split(' - ', expand=True)

In [85]:
dt_melon

Unnamed: 0,공연기간,시작일,종료일
0,2024.07.27 - 2024.07.28,2024.07.27,2024.07.28
1,2024.08.10 - 2024.08.11,2024.08.10,2024.08.11
2,2024.08.10 - 2024.08.10,2024.08.10,2024.08.10
3,2024.07.27 - 2024.07.27,2024.07.27,2024.07.27
4,2024.07.27 - 2024.07.27,2024.07.27,2024.07.27
...,...,...,...
104,2024.08.20 - 2024.08.20,2024.08.20,2024.08.20
105,2024.08.31 - 2024.08.31,2024.08.31,2024.08.31
106,2024.09.14 - 2024.09.15,2024.09.14,2024.09.15
107,2024.11.08 - 2024.11.08,2024.11.08,2024.11.08


In [86]:
# 필요 없어진 '공연기간' 컬럼 삭제
dt_melon = dt_melon.drop(columns=['공연기간'])

In [87]:
dt_melon

Unnamed: 0,시작일,종료일
0,2024.07.27,2024.07.28
1,2024.08.10,2024.08.11
2,2024.08.10,2024.08.10
3,2024.07.27,2024.07.27
4,2024.07.27,2024.07.27
...,...,...
104,2024.08.20,2024.08.20
105,2024.08.31,2024.08.31
106,2024.09.14,2024.09.15
107,2024.11.08,2024.11.08


In [88]:
dt_melon.isna().sum()

시작일    0
종료일    0
dtype: int64

In [89]:
# 원래 데이터와 합치기

In [90]:
df_melon = pd.concat([df_melon, dt_melon], axis=1)

In [91]:
df_melon = df_melon.drop(columns=['공연기간'])

In [92]:
df_melon.head(1)

Unnamed: 0,상품 제목,포스터 URL,상세 포스터 URL,공연장소,캐스팅 리스트,해당 링크,시작일,종료일
0,2024 BAEKHYUN ASIA TOUR ‘Lonsdaleite［dot］’,https://cdnticket.melon.co.kr/resource/image/u...,https://cdnticket.melon.co.kr/resource/image/u...,KSPO DOME (올림픽 체조경기장),['백현 (BAEKHYUN)'],https://ticket.melon.com/performance/index.htm...,2024.07.27,2024.07.28


In [93]:
df_melon.isna().sum()

상품 제목         0
포스터 URL       0
상세 포스터 URL    3
공연장소          0
캐스팅 리스트       0
해당 링크         0
시작일           0
종료일           0
dtype: int64

In [94]:
# 상세 포스터 URL 에 nan 자리에 기본이미지 넣어주기
# 기본 이미지 : 'https://i.namu.wiki/i/Q_IXq7dWDGtUxGHGKbRCC5_I9X2AG7tvZRs8D3Bs34AV6mumP0Sqou_0NP3yqzbWM9X3LiaKIhBFYMsS-ZGt5xbSKxFUtTGEWVt3p9lIgQ8MTJwrTXEK44Mw-kGAVpnnUs41zeeXbi6Zqpsm_6Qa_A.webp'

In [95]:
df_melon['상세 포스터 URL'].fillna('https://i.namu.wiki/i/Q_IXq7dWDGtUxGHGKbRCC5_I9X2AG7tvZRs8D3Bs34AV6mumP0Sqou_0NP3yqzbWM9X3LiaKIhBFYMsS-ZGt5xbSKxFUtTGEWVt3p9lIgQ8MTJwrTXEK44Mw-kGAVpnnUs41zeeXbi6Zqpsm_6Qa_A.webp', inplace=True)

In [96]:
df_melon.isna().sum()

상품 제목         0
포스터 URL       0
상세 포스터 URL    0
공연장소          0
캐스팅 리스트       0
해당 링크         0
시작일           0
종료일           0
dtype: int64

In [97]:
df_melon.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 109 entries, 0 to 108
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   상품 제목       109 non-null    object
 1   포스터 URL     109 non-null    object
 2   상세 포스터 URL  109 non-null    object
 3   공연장소        109 non-null    object
 4   캐스팅 리스트     109 non-null    object
 5   해당 링크       109 non-null    object
 6   시작일         109 non-null    object
 7   종료일         109 non-null    object
dtypes: object(8)
memory usage: 6.9+ KB


In [98]:
# 종료일을 'date' 데이터 타입으로 변환하고 현재일 기준으로, 종료된 공연 삭제하기

In [99]:
df_melon['종료일_date'] = pd.to_datetime(df_melon['종료일'])

In [100]:
df_melon['종료일_date']

0     2024-07-28
1     2024-08-11
2     2024-08-10
3     2024-07-27
4     2024-07-27
         ...    
104   2024-08-20
105   2024-08-31
106   2024-09-15
107   2024-11-08
108   2024-06-28
Name: 종료일_date, Length: 109, dtype: datetime64[ns]

In [101]:
import datetime as dt

In [102]:
dt.datetime.now()

datetime.datetime(2024, 7, 5, 15, 45, 49, 400817)

In [103]:
current = dt.datetime.now()

In [104]:
df_melon = df_melon[df_melon['종료일_date'] >= current]

In [105]:
df_melon['종료일_date'] >= current

0      True
1      True
2      True
3      True
4      True
       ... 
103    True
104    True
105    True
106    True
107    True
Name: 종료일_date, Length: 77, dtype: bool

In [121]:
df_melon.head(2)

Unnamed: 0,상품 제목,포스터 URL,상세 포스터 URL,공연장소,캐스팅 리스트,해당 링크,시작일,종료일,종료일_date
0,2024 BAEKHYUN ASIA TOUR ‘Lonsdaleite［dot］’,https://cdnticket.melon.co.kr/resource/image/u...,https://cdnticket.melon.co.kr/resource/image/u...,KSPO DOME (올림픽 체조경기장),백현 (BAEKHYUN),https://ticket.melon.com/performance/index.htm...,2024.07.27,2024.07.28,2024-07-28
1,IVE THE 1ST WORLD TOUR ‘SHOW WHAT I HAVE’－ENCORE,https://cdnticket.melon.co.kr/resource/image/u...,https://cdnticket.melon.co.kr/resource/image/u...,KSPO DOME (올림픽 체조경기장),IVE (아이브),https://ticket.melon.com/performance/index.htm...,2024.08.10,2024.08.11,2024-08-11


In [106]:
current_date = df_melon['종료일_date'] >= current

In [107]:
current_date.unique()

array([ True])

In [108]:
# 캐스팅 리스트에서 가수 이름을 , 로 구별하여 나열하기
# [ , ] , '  문자 삭제하기

In [109]:
df_melon['캐스팅 리스트']

0                                      ['백현 (BAEKHYUN)']
1                                          ['IVE (아이브)']
2                                                ['박서준']
3                                                     []
4                                                ['이준형']
                             ...                        
103                                                   []
104                                              ['AJR']
105    ['Kazumi Tateishi Trio', 'Yoshida Keico', '젠틀레...
106                                            ['RIIZE']
107                                     ['Matt Maltese']
Name: 캐스팅 리스트, Length: 77, dtype: object

In [110]:
df_melon['캐스팅 리스트'] = df_melon['캐스팅 리스트'].str.replace('[', '').str.replace(']', '').str.replace("'", "")

In [111]:
df_melon['캐스팅 리스트']

0                                          백현 (BAEKHYUN)
1                                              IVE (아이브)
2                                                    박서준
3                                                       
4                                                    이준형
                             ...                        
103                                                     
104                                                  AJR
105    Kazumi Tateishi Trio, Yoshida Keico, 젠틀레인 (Gen...
106                                                RIIZE
107                                         Matt Maltese
Name: 캐스팅 리스트, Length: 77, dtype: object

In [112]:
# csv 파일로 저장하기

In [122]:
df_melon.to_csv('../ticketMerge/df_melon.csv')

#### 가수데이터 정리하기

In [114]:
artist_melon = pd.read_csv('../ticketMerge/티켓머지_아티스트데이터/melon_artist.csv')

In [115]:
artist_melon

Unnamed: 0,이름,URL
0,HYUN),https://cdnimg.melon.co.kr/cm2/artistcrop/imag...
1,IVE (아이브),https://cdnimg.melon.co.kr/cm2/artistcrop/imag...
2,박서준,https://cdnimg.melon.co.kr/cm/artistcrop/image...
3,이준형,https://cdnimg.melon.co.kr/cm2/artistcrop/imag...
4,쿠기 (Coogie),https://cdnimg.melon.co.kr/cm2/artistcrop/imag...
...,...,...
188,젠틀레인 (Gentle Rain),https://cdnimg.melon.co.kr/cm2/artistcrop/imag...
189,RIIZE,https://cdnimg.melon.co.kr/cm2/artistcrop/imag...
190,Matt Maltese,https://cdnimg.melon.co.kr/cm/artistcrop/image...
191,Chihiro Yamazaki+Route 14 Band,https://cdnimg.melon.co.kr/cm2/artistcrop/imag...


In [116]:
artist_melon.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      193 non-null    object
 1   URL     193 non-null    object
dtypes: object(2)
memory usage: 3.1+ KB


In [117]:
artist_melon = artist_melon.drop_duplicates()

In [118]:
artist_melon

Unnamed: 0,이름,URL
0,HYUN),https://cdnimg.melon.co.kr/cm2/artistcrop/imag...
1,IVE (아이브),https://cdnimg.melon.co.kr/cm2/artistcrop/imag...
2,박서준,https://cdnimg.melon.co.kr/cm/artistcrop/image...
3,이준형,https://cdnimg.melon.co.kr/cm2/artistcrop/imag...
4,쿠기 (Coogie),https://cdnimg.melon.co.kr/cm2/artistcrop/imag...
...,...,...
188,젠틀레인 (Gentle Rain),https://cdnimg.melon.co.kr/cm2/artistcrop/imag...
189,RIIZE,https://cdnimg.melon.co.kr/cm2/artistcrop/imag...
190,Matt Maltese,https://cdnimg.melon.co.kr/cm/artistcrop/image...
191,Chihiro Yamazaki+Route 14 Band,https://cdnimg.melon.co.kr/cm2/artistcrop/imag...


In [119]:
artist_melon.to_csv('../ticketMerge/artist_melon.csv')