In [59]:
from sqlalchemy import create_engine
import pandas as pd

In [60]:
engine = create_engine('postgresql+psycopg2://musiq:musiq@localhost:4444/musiq')

In [61]:
wrap = lambda c: ", ".join(k.strip() for k in c.strip().split("\n") if k.strip() not in ("", None))

In [177]:
def song_listing(conn):
    songs = []
    rs = conn.execute('select * from song')
    for row in rs:
        songs.append({
            'id': row[0],
            'track_id': row[1],
            'artist': row[2].lower(),
            'name': row[3],
            'cover_image': row[4],
            'link': row[5],
            'lyric': wrap(row[6]) if row[6] else None,
            'language': row[7],
        })
        
    return songs

In [178]:
def siamzone_listing(conn):
    siamzone = []
    rs = conn.execute('select * from siamzone_song')
    
    for row in rs:
        siamzone.append({
            'id': row[0],
            'song_id': row[1],
            'artist': row[2].lower(),
            'artist_en': row[3].lower() if row[3] else None,
            'name': row[4].lower(),
            'lyric': wrap(row[5]) if row[5] else None,
        })
        
    return siamzone

In [64]:
def artist_mapping_listing(conn):
    artist_map = []
    rs = conn.execute('select * from artist_map')
    for row in rs:
        artist_map.append({
            'id': row[0],
            'artist': row[1],
            'siamzone_artist': row[2],
        })
        
    return artist_map

# Read Song from DB

In [327]:
spotify_song, siamzone_song, artist_mapping = None, None, None

with engine.connect() as conn:
    spotify_song = pd.DataFrame.from_dict(song_listing(conn))
    siamzone_song = pd.DataFrame.from_dict(siamzone_listing(conn))
    artist_name_mapping = pd.DataFrame.from_dict(artist_mapping_listing(conn))

## Spotify's Song

In [328]:
spotify_song.set_index('id', inplace=True)

In [329]:
spotify_song[spotify_song['language'] == 'TH'].head()

Unnamed: 0_level_0,track_id,artist,name,cover_image,link,lyric,language
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
6,4OHu1M6xtQLkgTSao8nYS3,samblack,ไม่ยินดี,https://i.scdn.co/image/ab67616d00004851b12d3e...,https://open.spotify.com/track/4OHu1M6xtQLkgTS...,,TH
62,6VmtHYkk81yli04paFVxqJ,meyou,พัทยา (Pattaya),https://i.scdn.co/image/ab67616d0000485119bf48...,https://open.spotify.com/track/6VmtHYkk81yli04...,"hook, ตกหลุมรักสาวพัทยา, ก็เธอช่างสวยเกินจะจิน...",TH
67,4hccrJgNG1BwPa3CWw4NNg,urboytj,กอดได้ไหม,https://i.scdn.co/image/ab67616d000048518b1d41...,https://open.spotify.com/track/4hccrJgNG1BwPa3...,"VERSE, ไม่ได้มาเรียกร้องอะไร, แค่ต้องการมาใช้ค...",TH
129,7tFrJ1JPTVmQKVU5XlGQdb,hers,ยังคงคอย,https://i.scdn.co/image/ab67616d00004851c175e7...,https://open.spotify.com/track/7tFrJ1JPTVmQKVU...,"เธอยังคงคิดถึงบ้างไหม, ในวันที่เรานั้นไกลห่าง,...",TH
238,7JC59jSvjSbJ2MszeV6fBs,copter,เดี๋ยวเธอกับเขาก็คืนดีกัน Feat. 3rd Tilly Birds,https://i.scdn.co/image/ab67616d00004851a232ea...,https://open.spotify.com/track/7JC59jSvjSbJ2Ms...,,TH


In [330]:
spotify_song.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3415 entries, 6 to 3367
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   track_id     3415 non-null   object
 1   artist       3415 non-null   object
 2   name         3415 non-null   object
 3   cover_image  3415 non-null   object
 4   link         3415 non-null   object
 5   lyric        356 non-null    object
 6   language     1112 non-null   object
dtypes: object(7)
memory usage: 213.4+ KB


In [331]:
spotify_song[spotify_song['language'] == 'TH'].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1112 entries, 6 to 3367
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   track_id     1112 non-null   object
 1   artist       1112 non-null   object
 2   name         1112 non-null   object
 3   cover_image  1112 non-null   object
 4   link         1112 non-null   object
 5   lyric        342 non-null    object
 6   language     1112 non-null   object
dtypes: object(7)
memory usage: 69.5+ KB


In [332]:
spotify_song[(spotify_song['language'] == 'TH') & spotify_song['lyric'].isnull()].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 770 entries, 6 to 3367
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   track_id     770 non-null    object
 1   artist       770 non-null    object
 2   name         770 non-null    object
 3   cover_image  770 non-null    object
 4   link         770 non-null    object
 5   lyric        0 non-null      object
 6   language     770 non-null    object
dtypes: object(7)
memory usage: 48.1+ KB


### Export All

In [287]:
spotify_song[['track_id', 'artist', 'name']].to_csv('export/label.thai-song.csv')

### Export only Thai song

In [288]:
spotify_song[spotify_song['language'] == 'TH'][['track_id', 'artist', 'name']].to_csv('export/label.thai-song.csv')

## Siamzone's Song

In [311]:
siamzone_song.set_index('id', inplace=True)

In [312]:
siamzone_song.head()

Unnamed: 0_level_0,song_id,artist,artist_en,name,lyric
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,1,,ฉันสวย,"ก้น ไม่มี ก้น ไม่มี ก้น ไม่มี, ก็ก้นหนูลาป่วย,..."
2,2,1,,นาทีที่เจ็ด (นาทีที่เจ็บ),กี่พันวันที่ดีครั้งนั้น ถูกทำลายลงหมดไม่เหลือ ...
3,3,1,,ยอมตั้งแต่หน้าประตู,หมื่นเหตุผลที่ทิ้งฉันไป กี่พันคำที่เธอคร่ำครวญ...
4,4,1011,,ไม่ไว้ใจ,บอกเขาว่ายินดี ได้เจอกันสักที ฟังเรื่องเขามามา...
5,5,1011,,เวลาที่หายไป,"เช้าทีไรอยากหลับตาไม่ต้องการตื่นขึ้นมา, เจอใคร..."


## Artist map

In [313]:
artist_name_mapping.set_index('id', inplace=True)

In [314]:
artist_name_mapping.head()

Unnamed: 0_level_0,artist,siamzone_artist
id,Unnamed: 1_level_1,Unnamed: 2_level_1
22,BTS,
23,Urworld,
24,Justin Bieber,
25,"Bruno Mars, Anderson .Paak, Silk Sonic",
26,TWICE,


## Cleansing artist name

To be sure that we have fresh data we should call `song-manipulator.ipynb` to create `export/name_cleansing.csv` first.

In [141]:
%%capture
%run song-manipulator.ipynb

### Reading artist name

In [315]:
song_cleansing = pd.read_csv('export/name_cleansing.csv')
song_cleansing['song_id'] = song_cleansing['siamzone_id']
song_cleansing['artist'] = song_cleansing['artist'].str.lower()
song_cleansing['title'] = song_cleansing['title'].str.lower()
song_cleansing['mod_title'] = song_cleansing['mod_title'].str.lower()
song_cleansing.set_index('id', inplace=True)
song_cleansing.head()

Unnamed: 0_level_0,track_id,artist,title,mod_title,link,has_lyrics,found,siamzone_id,song_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
18,4tM3ygBuSy0QzB0ihYZQcf,"sprite, guygeegee",ทน,ทน,https://open.spotify.com/track/4tM3ygBuSy0QzB0...,False,True,19474.0,19474.0
21,19CoWVqDyUbiqxoyMf4HkJ,anatomy rabbit,extraordinary,extraordinary,https://open.spotify.com/track/19CoWVqDyUbiqxo...,False,True,18445.0,18445.0
27,2ozCc0MSm3ybXugQqfnKOn,violette wautier,กักตัว,กักตัว,https://open.spotify.com/track/2ozCc0MSm3ybXug...,False,True,19658.0,19658.0
31,7ip4DUtdpLH4TkHfKgFbpf,serious bacon,1001 (you're lovely),1001,https://open.spotify.com/track/7ip4DUtdpLH4TkH...,False,True,19021.0,19021.0
7,0JK7pZajOQyfJ2OPxkrWbh,pp krit,"หลอกกันทั้งนั้น (fake news) - from ""แปลรักฉันด...",หลอกกันทั้งนั้น,https://open.spotify.com/track/0JK7pZajOQyfJ2O...,True,True,,


In [316]:
song_cleansing.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 18 to 3270
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   track_id     712 non-null    object 
 1   artist       712 non-null    object 
 2   title        712 non-null    object 
 3   mod_title    712 non-null    object 
 4   link         712 non-null    object 
 5   has_lyrics   712 non-null    bool   
 6   found        712 non-null    bool   
 7   siamzone_id  649 non-null    float64
 8   song_id      649 non-null    float64
dtypes: bool(2), float64(2), object(5)
memory usage: 45.9+ KB


# Data merging

## Artist name mapping

In [317]:
artist_name_mapping['artist'] = artist_name_mapping['artist'].str.lower()
artist_name_mapping['siamzone_artist'] = artist_name_mapping['siamzone_artist'].str.lower()

In [318]:
artist_name_mapping[artist_name_mapping.siamzone_artist.notna()].head()

Unnamed: 0_level_0,artist,siamzone_artist
id,Unnamed: 1_level_1,Unnamed: 2_level_1
30,"sprite, guygeegee",สไปร์ท ศุกลวัฒน์ พวงสมบัติ\t\t\t\t\t\t\t\t\t\t...
32,"f.hero, txrbo",ฟักกลิ้ง ฮีโร่
33,"f.hero, txrbo",ฟักกลิ้ง ฮีโร่\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t(f...
34,"f.hero, txrbo",ฟักกลิ้ง ฮีโร่\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t(f...
35,"f.hero, txrbo",ฟักกลิ้ง ฮีโร่\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t(f...


## Spotify + Artist mapp

In [319]:
spotify_with_am = pd.merge(
    spotify_song[spotify_song['language'] == 'TH'][[
        'track_id', 
        'artist', 
        'name', 
        'cover_image', 
        'link', 
        'lyric', 
        'language'
    ]], 
    artist_name_mapping[['artist', 'siamzone_artist']],
    how='left',
    on=['artist']
)

In [320]:
spotify_with_am.head()

Unnamed: 0,track_id,artist,name,cover_image,link,lyric,language,siamzone_artist
0,4OHu1M6xtQLkgTSao8nYS3,samblack,ไม่ยินดี,https://i.scdn.co/image/ab67616d00004851b12d3e...,https://open.spotify.com/track/4OHu1M6xtQLkgTS...,,TH,
1,6VmtHYkk81yli04paFVxqJ,meyou,พัทยา (Pattaya),https://i.scdn.co/image/ab67616d0000485119bf48...,https://open.spotify.com/track/6VmtHYkk81yli04...,"hook, ตกหลุมรักสาวพัทยา, ก็เธอช่างสวยเกินจะจิน...",TH,มิว ชิษณุชา ตันติเมธ
2,6VmtHYkk81yli04paFVxqJ,meyou,พัทยา (Pattaya),https://i.scdn.co/image/ab67616d0000485119bf48...,https://open.spotify.com/track/6VmtHYkk81yli04...,"hook, ตกหลุมรักสาวพัทยา, ก็เธอช่างสวยเกินจะจิน...",TH,มิว ชิษณุชา ตันติเมธ\t\t\t\t\t\t\t\t\t\t\t\t\t...
3,6VmtHYkk81yli04paFVxqJ,meyou,พัทยา (Pattaya),https://i.scdn.co/image/ab67616d0000485119bf48...,https://open.spotify.com/track/6VmtHYkk81yli04...,"hook, ตกหลุมรักสาวพัทยา, ก็เธอช่างสวยเกินจะจิน...",TH,มิว ชิษณุชา ตันติเมธ\t\t\t\t\t\t\t\t\t\t\t\t\t...
4,6VmtHYkk81yli04paFVxqJ,meyou,พัทยา (Pattaya),https://i.scdn.co/image/ab67616d0000485119bf48...,https://open.spotify.com/track/6VmtHYkk81yli04...,"hook, ตกหลุมรักสาวพัทยา, ก็เธอช่างสวยเกินจะจิน...",TH,มิว ชิษณุชา ตันติเมธ\t\t\t\t\t\t\t\t\t\t\t\t\t...


## Song cleansing + Siamzone 

In [321]:
siamzone_song.set_index('id', inplace=True)

KeyError: "None of ['id'] are in the columns"

In [226]:
siamzone_song.sort_values(by=['song_id'], ascending=False).head(20)

Unnamed: 0_level_0,song_id,artist,artist_en,name,lyric
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
20387,21785,ซิลวี่ ภาวิดา มอริจจิ\t\t\t\t\t\t\t\t\t\t\t\t\...,silvy,xl,"People, didn't know what I got, People, used t..."
20386,21784,บ.เบิ้ล สามร้อย,,หราง (เวลคัมทูเรือนจำ),"ไซรู้ว่าผิดก็ยังทำ ไซรู้ว่าปล้ำยังไม่พอ, คำพูด..."
20385,21783,บี้ เดอะสกา\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t(bie ...,bie the ska,missed call (มิสคอล),"โทรไปก็ไม่รับสาย กดไม่รู้กี่ร้อยสาย, ทำเหมือนไ..."
20384,21782,ใบปอ รัตติยา,,บ่น่าเสียเวลา,"คงเป็นได้แค่ของเก่า, ในเมื่อเขาบ่เอาเฮาแล้ว, ค..."
20383,21781,เอกรวี ธีระพันธ์,,คืนเมือ,"ครอบครัว ยังคองทาง, คืนสานาง คืนบ้านเฮา, หากเม..."
20382,21780,ต้นข้าว อาร์ สยาม,,ใจเหลือเหลือ,"ลำพังรักเธอคนเดียว ทำให้ลำบากใจมากอยู่แล้ว, ยั..."
20381,21779,เม้ก อภิสิทธิ์ จันทะเสน,,บักพากหัวใจ,"ขะเจ้าเเค่เข้ามาคุยนำมึงเล่นๆ ซื่อๆ, เขาบ่ได้จ..."
20380,21778,พีท พิทยา ชูช่วย\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t...,peet model,ปล่อยฉันเถอะ,"คำถามในหัวของฉัน, เป็นร้อยเป็นพันเรื่องเธอ, นี..."
20379,21777,จูน ธิติยา,,รักไม่ชัดเจน,"ความรักในตอนนี้ มันไม่พอดีหรือไม่ดีพอ, ที่เธอใ..."
20378,21776,โต๋ ศักดิ์สิทธิ์ เวชสุภาพร,,เป็นของเธอ (ost. หว่ออ้ายหนี่ เธอที่รัก),"เข้าใจ คืนวันที่เปลี่ยนผัน, หนทาง พาเราห่างไกล..."


In [322]:
song_cleansing.head()

Unnamed: 0_level_0,track_id,artist,title,mod_title,link,has_lyrics,found,siamzone_id,song_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
18,4tM3ygBuSy0QzB0ihYZQcf,"sprite, guygeegee",ทน,ทน,https://open.spotify.com/track/4tM3ygBuSy0QzB0...,False,True,19474.0,19474.0
21,19CoWVqDyUbiqxoyMf4HkJ,anatomy rabbit,extraordinary,extraordinary,https://open.spotify.com/track/19CoWVqDyUbiqxo...,False,True,18445.0,18445.0
27,2ozCc0MSm3ybXugQqfnKOn,violette wautier,กักตัว,กักตัว,https://open.spotify.com/track/2ozCc0MSm3ybXug...,False,True,19658.0,19658.0
31,7ip4DUtdpLH4TkHfKgFbpf,serious bacon,1001 (you're lovely),1001,https://open.spotify.com/track/7ip4DUtdpLH4TkH...,False,True,19021.0,19021.0
7,0JK7pZajOQyfJ2OPxkrWbh,pp krit,"หลอกกันทั้งนั้น (fake news) - from ""แปลรักฉันด...",หลอกกันทั้งนั้น,https://open.spotify.com/track/0JK7pZajOQyfJ2O...,True,True,,


In [323]:
spotify_with_am.head()

Unnamed: 0,track_id,artist,name,cover_image,link,lyric,language,siamzone_artist
0,4OHu1M6xtQLkgTSao8nYS3,samblack,ไม่ยินดี,https://i.scdn.co/image/ab67616d00004851b12d3e...,https://open.spotify.com/track/4OHu1M6xtQLkgTS...,,TH,
1,6VmtHYkk81yli04paFVxqJ,meyou,พัทยา (Pattaya),https://i.scdn.co/image/ab67616d0000485119bf48...,https://open.spotify.com/track/6VmtHYkk81yli04...,"hook, ตกหลุมรักสาวพัทยา, ก็เธอช่างสวยเกินจะจิน...",TH,มิว ชิษณุชา ตันติเมธ
2,6VmtHYkk81yli04paFVxqJ,meyou,พัทยา (Pattaya),https://i.scdn.co/image/ab67616d0000485119bf48...,https://open.spotify.com/track/6VmtHYkk81yli04...,"hook, ตกหลุมรักสาวพัทยา, ก็เธอช่างสวยเกินจะจิน...",TH,มิว ชิษณุชา ตันติเมธ\t\t\t\t\t\t\t\t\t\t\t\t\t...
3,6VmtHYkk81yli04paFVxqJ,meyou,พัทยา (Pattaya),https://i.scdn.co/image/ab67616d0000485119bf48...,https://open.spotify.com/track/6VmtHYkk81yli04...,"hook, ตกหลุมรักสาวพัทยา, ก็เธอช่างสวยเกินจะจิน...",TH,มิว ชิษณุชา ตันติเมธ\t\t\t\t\t\t\t\t\t\t\t\t\t...
4,6VmtHYkk81yli04paFVxqJ,meyou,พัทยา (Pattaya),https://i.scdn.co/image/ab67616d0000485119bf48...,https://open.spotify.com/track/6VmtHYkk81yli04...,"hook, ตกหลุมรักสาวพัทยา, ก็เธอช่างสวยเกินจะจิน...",TH,มิว ชิษณุชา ตันติเมธ\t\t\t\t\t\t\t\t\t\t\t\t\t...


In [302]:
siamzone_song[siamzone_song['name'] == "ทน"]

Unnamed: 0_level_0,song_id,artist,artist_en,name,lyric
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
19504,20898,สไปร์ท ศุกลวัฒน์ พวงสมบัติ\t\t\t\t\t\t\t\t\t\t...,sprite,ทน,"พี่ไม่มี Louis Vuitton มีแต่หนี้ก้อนโต, นวลน้อ..."


In [303]:
spotify_with_am[
    ~spotify_with_am['siamzone_artist'].isnull()
    &
    (
        spotify_with_am['siamzone_artist'].str.contains('มิว ชิษณุชา ตันติเมธ')
        |
        spotify_with_am['artist'].str.contains('มิว ชิษณุชา ตันติเมธ')
    )
    &
    spotify_with_am['name'].str.contains('พัทยา')
    &
    spotify_with_am['lyric'].isnull()
]

Unnamed: 0,track_id,artist,name,cover_image,link,lyric,language,siamzone_artist


In [324]:
def update_lyric(track_ids, lyric):
    if None == lyric:
        return
    
    for track_id in track_ids:
        spotify_with_am.loc[track_id == spotify_with_am['track_id'], 'lyric'] = lyric

In [325]:
# import warnings
# warnings.filterwarnings("ignore", 'This pattern has match groups')
i = 1
for _, t in siamzone_song.iterrows():
    sp_am = spotify_with_am[
        ~spotify_with_am['siamzone_artist'].isnull()
        &
        (
            spotify_with_am['siamzone_artist'].str.contains(t['artist'], regex=False)
            |
            spotify_with_am['artist'].str.contains(t['artist'], regex=False)
        )
        &
        spotify_with_am['name'].str.contains(t['name'], regex=False)
        &
        spotify_with_am['lyric'].isnull()
        &
        (spotify_with_am['language'] == 'TH')
    ]
    
    if not sp_am.empty:
        print(f'{i}.', t['artist'], '-', t['name'], end=" => ")
        update_lyric(track_ids=sp_am['track_id'].to_list(), lyric=t['lyric'])
        print('Done', len(t['lyric']) if t['lyric'] else 0)
        i += 1

1. ซิลลี่ ฟูลส์ - ขี้หึง => Done 1093
2. โซฟา - เรื่องมหัศจรรย์ => Done 883
3. ดา เอ็นโดรฟิน - คืนข้ามปี => Done 815
4. ตู่ ภพธร สุนทรญาณกิจ - ถ้าหาก => Done 1066
5. บิ๊กแอส & บอดี้สแลม - เรา => Done 898
6. บุดดาเบลส - ลืมไปก่อน => Done 1470
7. ปราโมทย์ วิเลปะนะ - คืนที่ดาวเต็มฟ้า => Done 843
8. โปเตโต้ - เธอยัง... => Done 1396
9. พอส															(pause) - ดาว => Done 1030
10. แพนเค้ก - ใจเย็น => Done 1678
11. มัสคีเทียร์ - ไกล => Done 1546
12. มัสคีเทียร์ - ของขวัญ => Done 1314
13. มัสคีเทียร์ - ความทรงจำ => Done 1027
14. โรส ศิรินทิพย์ หาญประดิษฐ์ - ปีใหม่ใหม่ => Done 1220
15. สิงโต นำโชค - เธอคือของขวัญ => Done 888
16. แสตมป์ อภิวัชร์ เอื้อถาวรสุข - คนที่คุณก็รู้ว่าใคร => Done 1086
17. อีทีซี - เจ้าชายนิทรา => Done 961
18. เอิ้น พิยะดา หาชัยภูมิ - ทำไมต้องรักเธอ => Done 1342
19. พาราด็อกซ์ - คนบนฟ้า => Done 969
20. วัชราวลี - ร่มสีเทา => Done 1225
21. วัชราวลี															(whatcharawalee) - ลูกอม => Done 1236
22. โพลีแคท - ลา => Done 1103
23. วัชราวลี - ทราย => Done 964
24. สิงโ

141. ค็อกเทล															(cocktail) - เงาของเมื่อวาน => Done 1147
142. อะตอม ชนกันต์ รัตนอุดม															(atom) - รถคันเก่า => Done 1176
143. โปเตโต้															(potato) - เท่าไหร่ไม่จำ => Done 913
144. พีฮอต วัชรินทร์ พึ่งสุข															(p-hot) - เบอร์มาดิ => Done 3483
145. ชาติ สุชาติ แซ่เห้ง - ที่เหลือ => Done 984
146. แสตมป์ อภิวัชร์ เอื้อถาวรสุข															(stamp) - ภูเขาบังเส้นผม => Done 1673
147. บอดี้สแลม															(bodyslam) - วิชาตัวเบา => Done 1059
148. บิ๊กแอส															(big ass) - ตลอดไป...มีจริง => Done 1071
149. บิ๊ก ภูวดิท ศิลาอุดมเดช															(og-anic) - ทุ่มหมดตัว => Done 1849
150. โทนี่ ผี - วินาทีที่เธอไป => Done 1654
151. เอิ๊ต ภัทรวี ศรีสันติสุข															(earth patravee) - ไม่ให้เธอหายไป => Done 1096
152. น้อย กฤษฎา สุโกศล แคลปป์ - แด่ศาลที่เคารพ => Done 751
153. แคลช															(clash) - ใจเย็นเย็น => Done 1756
154. บีไฟว์															(b5) - บีบมือ => Done 1096
155. เอนัน ศิริศักดิ์ เลขวัฒนะโรจน์															(ironboy) - ก็ดี

259. ปาล์มมี่															(palmy) - เคว้ง => Done 759
260. แก้ม วิชญาณี เปียกลิ่น - รักไปทำไม => Done 1231
261. ดี เจอราร์ด															(d gerrard) - คู่หู => Done 1826
262. สวีท มัลเลท															(sweet mullet) - ชีวิตหลังเอ่ยคำลา => Done 992
263. ส้ม มารี เออเจนี เลอเลย์ - โลกอีกใบ => Done 963
264. กวินท์ ดูวาล															(gavin.d) - รักได้ป่าว => Done 1727
265. กวินท์ ดูวาล - กอด => Done 1729
266. หนุ่ม กะลา - ปล่อย => Done 796
267. แสตมป์ อภิวัชร์ เอื้อถาวรสุข															(stamp) - 1% => Done 1413
268. ส้ม มารี เออเจนี เลอเลย์															(zom marie) - หรือฉันคิดไปเอง => Done 1260
269. ตั้ง ตะวันวาด วนวิทย์															(tangbadvoice) - เปรตป่ะ => Done 3046
270. เคลียร์															(klear) - ถ้าฉันเป็นแม่เธอ => Done 1308
271. หนุ่ม กะลา															(num kala) - ลม => Done 786
272. เขียนไขและวานิช - หนีห่าง => Done 570
273. บอดี้สแลม															(bodyslam) - ความหมาย => Done 828
274. โอ โอฬาร ชูใจ															(wanyai) - เงา => Done 1201
275. ส้ม มารี เออเจนี เ

In [333]:
spotify_with_am[
    (spotify_with_am['language'] == 'TH') 
    & 
    spotify_with_am.lyric.isnull()
].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 929 entries, 0 to 2630
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   track_id         929 non-null    object
 1   artist           929 non-null    object
 2   name             929 non-null    object
 3   cover_image      929 non-null    object
 4   link             929 non-null    object
 5   lyric            0 non-null      object
 6   language         929 non-null    object
 7   siamzone_artist  831 non-null    object
dtypes: object(8)
memory usage: 65.3+ KB


In [334]:
unique_spotify_song = spotify_with_am.drop_duplicates(['track_id'])
unique_spotify_song[~unique_spotify_song.lyric.isnull()].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 691 entries, 1 to 2623
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   track_id         691 non-null    object
 1   artist           691 non-null    object
 2   name             691 non-null    object
 3   cover_image      691 non-null    object
 4   link             691 non-null    object
 5   lyric            691 non-null    object
 6   language         691 non-null    object
 7   siamzone_artist  589 non-null    object
dtypes: object(8)
memory usage: 48.6+ KB


In [340]:
spotify_song[(spotify_song.language == 'TH') & spotify_song.lyric.isnull()].head()

Unnamed: 0_level_0,track_id,artist,name,cover_image,link,lyric,language
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
6,4OHu1M6xtQLkgTSao8nYS3,samblack,ไม่ยินดี,https://i.scdn.co/image/ab67616d00004851b12d3e...,https://open.spotify.com/track/4OHu1M6xtQLkgTS...,,TH
238,7JC59jSvjSbJ2MszeV6fBs,copter,เดี๋ยวเธอกับเขาก็คืนดีกัน Feat. 3rd Tilly Birds,https://i.scdn.co/image/ab67616d00004851a232ea...,https://open.spotify.com/track/7JC59jSvjSbJ2Ms...,,TH
359,2K7gwruclvSWntbV21vP6a,earth patravee,คิดไม่คิด,https://i.scdn.co/image/ab67616d000048516f60ad...,https://open.spotify.com/track/2K7gwruclvSWntb...,,TH
501,2opZpuOcnBYJbfqm2IJIMU,wan thanakrit,ยิ่งใกล้ยิ่งไม่รู้จัก,https://i.scdn.co/image/ab67616d00004851bd57d8...,https://open.spotify.com/track/2opZpuOcnBYJbfq...,,TH
989,4SeC84Av9mcpn7TZq3WWpv,pause,หน้าที่ของความรัก(Mission) Feat. เล็ก พงษธร,https://i.scdn.co/image/ab67616d00004851ec0f6a...,https://open.spotify.com/track/4SeC84Av9mcpn7T...,,TH


In [341]:
unique_spotify_song[~unique_spotify_song.lyric.isnull()].head()

Unnamed: 0,track_id,artist,name,cover_image,link,lyric,language,siamzone_artist
1,6VmtHYkk81yli04paFVxqJ,meyou,พัทยา (Pattaya),https://i.scdn.co/image/ab67616d0000485119bf48...,https://open.spotify.com/track/6VmtHYkk81yli04...,"hook, ตกหลุมรักสาวพัทยา, ก็เธอช่างสวยเกินจะจิน...",TH,มิว ชิษณุชา ตันติเมธ
7,4hccrJgNG1BwPa3CWw4NNg,urboytj,กอดได้ไหม,https://i.scdn.co/image/ab67616d000048518b1d41...,https://open.spotify.com/track/4hccrJgNG1BwPa3...,"VERSE, ไม่ได้มาเรียกร้องอะไร, แค่ต้องการมาใช้ค...",TH,ยัวร์บอยทีเจ\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t(urb...
8,7tFrJ1JPTVmQKVU5XlGQdb,hers,ยังคงคอย,https://i.scdn.co/image/ab67616d00004851c175e7...,https://open.spotify.com/track/7tFrJ1JPTVmQKVU...,"เธอยังคงคิดถึงบ้างไหม, ในวันที่เรานั้นไกลห่าง,...",TH,เฮอร์ส\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t(hers)
9,7JC59jSvjSbJ2MszeV6fBs,copter,เดี๋ยวเธอกับเขาก็คืนดีกัน Feat. 3rd Tilly Birds,https://i.scdn.co/image/ab67616d00004851a232ea...,https://open.spotify.com/track/7JC59jSvjSbJ2Ms...,"เพราะเธอยังคิดถึงเขาทุกวัน, ถึงตัวเธอจะอยู่กับ...",TH,คอปเตอร์
16,0JK7pZajOQyfJ2OPxkrWbh,pp krit,"หลอกกันทั้งนั้น (Fake News) - From ""แปลรักฉันด...",https://i.scdn.co/image/ab67616d000048510abc19...,https://open.spotify.com/track/0JK7pZajOQyfJ2O...,"สายตาที่เธอมองฉัน คำพูดดีๆเหล่านั้น, ที่ทำ เหม...",TH,พีพี กฤษฏ์ อำนวยเดชกร\t\t\t\t\t\t\t\t\t\t\t\t\...


In [342]:
%run DBConnector.ipynb

In [369]:
from sqlalchemy.sql import select, update

with engine.connect() as conn:
    for i, t in unique_spotify_song[~unique_spotify_song.lyric.isnull()].iterrows():
        rs = conn.execute(
            select(song_table).\
            where(song_table.c.track_id == t['track_id']).\
            where(song_table.c.lyrics == None)
        )
        
        rows = rs.fetchall()
        if 0 == len(rows):
            continue
        
        for row in rows:
            conn.execute(
                update(song_table).\
                where(song_table.c.track_id == t['track_id']).\
                values(lyrics=t['lyric'])
            )

----

In [164]:
siamzone_with_sc = pd.merge(
    song_cleansing[['track_id', 'artist', 'title', 'mod_title', 'siamzone_id', 'song_id']],
    siamzone_song[['song_id', 'lyric']],
    how='left',
    on=['song_id']
)

In [165]:
siamzone_with_sc.head()

Unnamed: 0,track_id,artist,title,mod_title,siamzone_id,song_id,lyric
0,4tM3ygBuSy0QzB0ihYZQcf,"SPRITE, GUYGEEGEE",ทน,ทน,19474.0,19474.0,"คงจะเป็นคำถามที่ไม่มีคำตอบ, และอาจจะดูเข้าใจแต..."
1,19CoWVqDyUbiqxoyMf4HkJ,Anatomy Rabbit,Extraordinary,Extraordinary,18445.0,18445.0,"จะเอายังไง ช่วยตอบให้แน่ใจ, เรื่องของเราจะเอาย..."
2,2ozCc0MSm3ybXugQqfnKOn,Violette Wautier,กักตัว,กักตัว,19658.0,19658.0,"หย่างอ้อมบ้าน ชวนหมู่เล่นเกมส์ก่อนน๊า, เลาะเล่..."
3,7ip4DUtdpLH4TkHfKgFbpf,SERIOUS BACON,1001 (You're Lovely),1001,19021.0,19021.0,"หากเป็นฝันร้าย ตื่นมาก็หาย, ต่อให้จะเป็นยังไงม..."
4,0JK7pZajOQyfJ2OPxkrWbh,PP Krit,"หลอกกันทั้งนั้น (Fake News) - From ""แปลรักฉันด...",หลอกกันทั้งนั้น,,,


In [150]:
siamzone_with_sc.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 633 entries, 0 to 632
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   song_id    633 non-null    int64 
 1   lyric      633 non-null    object
 2   track_id   633 non-null    object
 3   mod_title  633 non-null    object
dtypes: int64(1), object(3)
memory usage: 24.7+ KB


## Lyric fill

In [157]:
song_with_lyric = pd.merge(
    spotify_with_am[['track_id', 'artist', 'name', 'cover_image', 'link', 'lyric']],
    siamzone_with_sc[['track_id', 'lyric']],
    how='left',
    on=['track_id']
).drop_duplicates(['track_id'])

In [159]:
song_with_lyric[['artist', 'name', 'lyric_x', 'lyric_y']].head(20)

Unnamed: 0,artist,name,lyric_x,lyric_y
0,SAMBLACK,ไม่ยินดี,,
1,MEYOU,พัทยา (Pattaya),"hook, ตกหลุมรักสาวพัทยา, ก็เธอช่างสวยเกินจะจิน...",
7,UrboyTJ,กอดได้ไหม,"VERSE, ไม่ได้มาเรียกร้องอะไร, แค่ต้องการมาใช้ค...","ผีสางตนไหนมันดนบันดาล ให้เธอจำแลงลงมา, ทันใดที..."
8,Hers,ยังคงคอย,"เธอยังคงคิดถึงบ้างไหม, ในวันที่เรานั้นไกลห่าง,...","ลา ลาลัลลาลัล ลา ลา ลาลัลลาลัล ลา, ลา ลาลัลลาล..."
9,Copter,เดี๋ยวเธอกับเขาก็คืนดีกัน Feat. 3rd Tilly Birds,,
16,PP Krit,"หลอกกันทั้งนั้น (Fake News) - From ""แปลรักฉันด...","สายตาที่เธอมองฉัน คำพูดดีๆเหล่านั้น, ที่ทำ เหม...",
18,Earth Patravee,คิดไม่คิด,,"ก็มันไม่ตั้งใจ ผิดไปก็รู้ตัว, ที่แกล้งหนีไปเพร..."
22,Wan Thanakrit,ยิ่งใกล้ยิ่งไม่รู้จัก,,"I never let no man, make me feel worthless, Tr..."
25,Pause,หน้าที่ของความรัก(Mission) Feat. เล็ก พงษธร,,
26,Ae Jirakorn,เรื่องเดียวที่ถูก - เพลงประกอบละคร ภาตุฆาต,,


In [155]:
song_with_lyric.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 605 entries, 0 to 1641
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   track_id     605 non-null    object
 1   artist       605 non-null    object
 2   name         605 non-null    object
 3   cover_image  605 non-null    object
 4   link         605 non-null    object
 5   lyric_x      185 non-null    object
 6   lyric_y      605 non-null    object
dtypes: object(7)
memory usage: 37.8+ KB


### Remapping

In [156]:
song_with_lyric.rename(columns={'lyric_x': 'lyric'}, inplace=True)
song_with_lyric.head()

Unnamed: 0,track_id,artist,name,cover_image,link,lyric,lyric_y
0,4hccrJgNG1BwPa3CWw4NNg,UrboyTJ,กอดได้ไหม,https://i.scdn.co/image/ab67616d000048518b1d41...,https://open.spotify.com/track/4hccrJgNG1BwPa3...,"VERSE, ไม่ได้มาเรียกร้องอะไร, แค่ต้องการมาใช้ค...","ผีสางตนไหนมันดนบันดาล ให้เธอจำแลงลงมา, ทันใดที..."
1,7tFrJ1JPTVmQKVU5XlGQdb,Hers,ยังคงคอย,https://i.scdn.co/image/ab67616d00004851c175e7...,https://open.spotify.com/track/7tFrJ1JPTVmQKVU...,"เธอยังคงคิดถึงบ้างไหม, ในวันที่เรานั้นไกลห่าง,...","ลา ลาลัลลาลัล ลา ลา ลาลัลลาลัล ลา, ลา ลาลัลลาล..."
2,2K7gwruclvSWntbV21vP6a,Earth Patravee,คิดไม่คิด,https://i.scdn.co/image/ab67616d000048516f60ad...,https://open.spotify.com/track/2K7gwruclvSWntb...,,"ก็มันไม่ตั้งใจ ผิดไปก็รู้ตัว, ที่แกล้งหนีไปเพร..."
6,2opZpuOcnBYJbfqm2IJIMU,Wan Thanakrit,ยิ่งใกล้ยิ่งไม่รู้จัก,https://i.scdn.co/image/ab67616d00004851bd57d8...,https://open.spotify.com/track/2opZpuOcnBYJbfq...,,"I never let no man, make me feel worthless, Tr..."
9,1zX4JRQpUlQSHwccLL6pJN,Ink Waruntorn,เหงา เหงา (Insomnia),https://i.scdn.co/image/ab67616d00004851e3f31f...,https://open.spotify.com/track/1zX4JRQpUlQSHwc...,,"ไม่หาหรอกเหตุผล ที่คนจะเปลี่ยนผัน, รักเราที่มั..."


In [300]:
for i, row in song_with_lyric.iterrows():
    if row['lyric_y'] != None:
        song_with_lyric.loc[i, 'lyric'] = row['lyric_y']

In [301]:
song_with_lyric.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 633 entries, 0 to 1698
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           633 non-null    int64 
 1   track_id     633 non-null    object
 2   artist       633 non-null    object
 3   name         633 non-null    object
 4   cover_image  633 non-null    object
 5   link         633 non-null    object
 6   lyric_x      230 non-null    object
 7   lyric_y      633 non-null    object
 8   lyric        633 non-null    object
dtypes: int64(1), object(8)
memory usage: 65.6+ KB


In [302]:
unique_song = song_with_lyric.drop_duplicates(['track_id'])

In [303]:
unique_song.head()

Unnamed: 0,id,track_id,artist,name,cover_image,link,lyric_x,lyric_y,lyric
0,18,4tM3ygBuSy0QzB0ihYZQcf,"SPRITE, GUYGEEGEE",ทน,https://i.scdn.co/image/ab67616d000048511530f7...,https://open.spotify.com/track/4tM3ygBuSy0QzB0...,,"คงจะเป็นคำถามที่ไม่มีคำตอบ, และอาจจะดูเข้าใจแต...","คงจะเป็นคำถามที่ไม่มีคำตอบ, และอาจจะดูเข้าใจแต..."
1,21,19CoWVqDyUbiqxoyMf4HkJ,Anatomy Rabbit,Extraordinary,https://i.scdn.co/image/ab67616d00004851bfe7c9...,https://open.spotify.com/track/19CoWVqDyUbiqxo...,,"จะเอายังไง ช่วยตอบให้แน่ใจ, เรื่องของเราจะเอาย...","จะเอายังไง ช่วยตอบให้แน่ใจ, เรื่องของเราจะเอาย..."
3,174,0LLETxISOeZVam4l0RwcpV,Anatomy Rabbit,แอบหวัง,https://i.scdn.co/image/ab67616d00004851108d67...,https://open.spotify.com/track/0LLETxISOeZVam4...,,"ไร้ซึ่งตัวตนในสายตาเธอ, ไร้ซึ่งการมองเห็นฉันเส...","ไร้ซึ่งตัวตนในสายตาเธอ, ไร้ซึ่งการมองเห็นฉันเส..."
5,2953,12DssMinsDjVI4kHF57NL7,Da Endorphine,คืนข้ามปี,https://i.scdn.co/image/ab67616d000048513f3739...,https://open.spotify.com/track/12DssMinsDjVI4k...,,มองเวลาก็เกือบเที่ยงคืน.. สิ้นคืนนี้ ก็เป็นเวล...,มองเวลาก็เกือบเที่ยงคืน.. สิ้นคืนนี้ ก็เป็นเวล...
7,27,2ozCc0MSm3ybXugQqfnKOn,Violette Wautier,กักตัว,https://i.scdn.co/image/ab67616d00004851816fb6...,https://open.spotify.com/track/2ozCc0MSm3ybXug...,,"หย่างอ้อมบ้าน ชวนหมู่เล่นเกมส์ก่อนน๊า, เลาะเล่...","หย่างอ้อมบ้าน ชวนหมู่เล่นเกมส์ก่อนน๊า, เลาะเล่..."


In [304]:
unique_song = unique_song[['id', 'track_id', 'artist', 'name', 'cover_image', 'link', 'lyric']]

In [305]:
unique_song.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 633 entries, 0 to 1698
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           633 non-null    int64 
 1   track_id     633 non-null    object
 2   artist       633 non-null    object
 3   name         633 non-null    object
 4   cover_image  633 non-null    object
 5   link         633 non-null    object
 6   lyric        633 non-null    object
dtypes: int64(1), object(6)
memory usage: 39.6+ KB


In [306]:
unique_song.to_csv('export/song_summary.csv')

In [21]:
%%capture
%run ./song-manipulator.ipynb

[{'id': '2', 'track_id': '2bgTY4UwhfBYhGT4HUYStN', 'artist': 'BTS', 'title': 'Butter', 'mod_title': 'Butter', 'link': 'https://open.spotify.com/track/2bgTY4UwhfBYhGT4HUYStN', 'has_lyrics': 'False'}, {'id': '3', 'track_id': '52h8p62Jx8KzQynM6heq7n', 'artist': 'Urworld', 'title': 'Sunkissed', 'mod_title': 'Sunkissed', 'link': 'https://open.spotify.com/track/52h8p62Jx8KzQynM6heq7n', 'has_lyrics': 'False'}, {'id': '8', 'track_id': '4iJyoBOLtHqaGxP12qzhQI', 'artist': 'Justin Bieber', 'title': 'Peaches (feat. Daniel Caesar & Giveon)', 'mod_title': 'Peaches', 'link': 'https://open.spotify.com/track/4iJyoBOLtHqaGxP12qzhQI', 'has_lyrics': 'False'}, {'id': '9', 'track_id': '7MAibcTli4IisCtbHKrGMh', 'artist': 'Bruno Mars, Anderson .Paak, Silk Sonic', 'title': 'Leave The Door Open', 'mod_title': 'Leave The Door Open', 'link': 'https://open.spotify.com/track/7MAibcTli4IisCtbHKrGMh', 'has_lyrics': 'False'}, {'id': '10', 'track_id': '3iPbmpKBMflYd7UjdYftoj', 'artist': 'TWICE', 'title': 'Alcohol-Free'

926
[{'id': '19456', 'song_id': '20880', 'artist_name': 'ไอเฮดมันเดย์\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t(I Hate Monday)', 'title': 'ยิ่งใกล้ยิ่งเก็บ'}]


In [2]:
df.head()

Unnamed: 0,id,track_id,artist,title,mod_title,link,has_lyrics,found,siamzone_id
0,18,4tM3ygBuSy0QzB0ihYZQcf,"SPRITE, GUYGEEGEE",ทน,ทน,https://open.spotify.com/track/4tM3ygBuSy0QzB0...,False,True,19474.0
1,21,19CoWVqDyUbiqxoyMf4HkJ,Anatomy Rabbit,Extraordinary,Extraordinary,https://open.spotify.com/track/19CoWVqDyUbiqxo...,False,True,18445.0
2,27,2ozCc0MSm3ybXugQqfnKOn,Violette Wautier,กักตัว,กักตัว,https://open.spotify.com/track/2ozCc0MSm3ybXug...,False,True,19658.0
3,31,7ip4DUtdpLH4TkHfKgFbpf,SERIOUS BACON,1001 (You're Lovely),1001,https://open.spotify.com/track/7ip4DUtdpLH4TkH...,False,True,19021.0
4,7,0JK7pZajOQyfJ2OPxkrWbh,PP Krit,"หลอกกันทั้งนั้น (Fake News) - From ""แปลรักฉันด...",หลอกกันทั้งนั้น,https://open.spotify.com/track/0JK7pZajOQyfJ2O...,True,True,


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 712 entries, 0 to 711
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           712 non-null    object
 1   track_id     712 non-null    object
 2   artist       712 non-null    object
 3   title        712 non-null    object
 4   mod_title    712 non-null    object
 5   link         712 non-null    object
 6   has_lyrics   712 non-null    object
 7   found        712 non-null    bool  
 8   siamzone_id  649 non-null    object
dtypes: bool(1), object(8)
memory usage: 45.3+ KB
