# 项目：评估和清理Spotify和Youtube数据

## 1. 分析目标

此数据分析的目的是，根据Spotify和Youtube流媒体市场数据，挖掘产品和用户倾向，以便制定更有效的市场策略来提升营收和用户体验。

本实战项目的目的在于练习评估数据干净和整洁度，并且基于评估结果，对数据进行清洗，从而得到可供下一步分析的数据。

## 2. 简介

数据集包含世界各地各种艺术家的歌曲，对于每首歌曲，包含以下信息：  
- Spotify（一个音乐播放平台）上音乐版本的多个统计数据，包括流媒体播放次数；
- 该歌曲在YouTube（一个视频播放平台）上的官方音乐视频的观看次数。  
  
此数据集可以用于构建线性回归模型，预测歌曲不同特征对播放次数、观看次数的影响。

变量含义如下：  
- `Track`：歌曲在Spotify平台上的名字。
- `Artist`：艺术家的名字。
- `Url_spotify`：艺术家的Spotify链接。
- `Album`：歌曲所在的专辑在Spotify上的名字。
- `Album_type`：歌曲是作为单曲还是包含在专辑中。
- `Uri`：用于通过API查找歌曲的Spotify链接。
- `Danceability`：描述一首歌曲是否适合跳舞，基于包括节奏、稳定性、节拍强度和整体规律性在内的音乐元素的组合。  
值为0.0表示最不适合跳舞，值为1.0表示最适合跳舞。
- `Energy`：能量指数，介于0.0到1.0之间，表示强度和活动性的感知度量。通常，有活力的音轨更加快速、响亮和嘈杂。  
例如，重金属音乐的能量指数较高，而巴赫前奏曲的能量指数较低。
- `Key`：音轨所在的调式（调式指音乐作品所基于的音阶和调性）。整数使用标准的音高类别符号进行映射。  
例如，0表示C音，1表示C♯/D♭音，2表示D音，依此类推。如果没有检测到调式，则该值为-1。
- `Loudness`：音轨的整体响度，以分贝（dB）为单位。响度值在整个音轨上进行平均，用于比较音轨的相对响度。  
响度是音响的强度（振幅）的主要心理相关特征。值通常在-60到0 dB之间。
- `Speechiness`：检测歌曲中是否存在语音。  
属性值接近1.0表示录音中几乎全部为语音（例如脱口秀、有声书、诗歌）。大于0.66的值描述的是可能完全由语音组成的歌曲。  
介于0.33和0.66之间的值描述的是可能包含音乐和语音，比如说唱音乐。小于0.33的值很可能代表音乐和其他非语音的音轨。
- `Acousticness`：0.0到1.0之间的置信度测量，表示歌曲是否为纯声乐。1.0表示非常有信心该歌曲为声乐。
- `Instrumentalness`：预测歌曲是否不包含人声。在这个上下文中，"Ooh"和"aah"声音被视为器乐。说唱或朗诵的歌曲明显属于"vocal"（有人声）。 instrumentalness值越接近1.0，歌曲中不包含人声的可能性越大。大于0.5的值通常表示器乐曲目。
- `Liveness`：检测录音中是否存在观众。较高的liveness值表示该歌曲更有可能是现场演出。值大于0.8很有可能表示该歌曲是现场演出的。
- `Valence`：介于0.0到1.0之间的衡量指标，描述歌曲所传达的音乐积极性。  
具有较高valence值的歌曲听起来更积极（例如快乐、欢快、欣快），而具有较低valence值的歌曲听起来更消极（例如悲伤、沮丧、愤怒）。
- `Tempo`：歌曲的整体估计速度，以每分钟的节拍数（BPM）为单位。在音乐术语中，tempo是给定乐曲的速度或节奏，直接由平均拍子时长得出。
- `Duration_ms`：歌曲的持续时间，以毫秒为单位。
- `Stream`：歌曲在Spotify上的播放次数。
- `Url_youtube`：与该歌曲相关联的YouTube视频的URL（如果有）。
- `Title`：YouTube上视频剪辑的标题。
- `Channel`：发布视频的频道名称。  
- `Views`：观看次数。
- `Likes`：点赞数。
- `Comments`：评论数。
- `Description`：YouTube上视频的描述。
- `Licensed`：表示视频是否代表有版权的内容，即内容已上传到与YouTube内容合作伙伴相关联的频道，并由该合作伙伴进行认领。
- `official_video`：布尔值，指示找到的视频是否为该歌曲的官方视频。

## 3. 读取数据

导入数据分析所需要的库，并通过Pandas的`read_csv`函数，将原始数据文件"spotify_youtube_music.csv"里的数据内容，解析为DataFrame，并赋值给变量`original_data`。  
先尝试读取了一遍，发现将索引列也都读进DataFrame了，所以重新读取时将第一列设置为索引列。

In [3]:
import pandas as pd
pd.set_option('display.max_columns', None)
original_data = pd.read_csv("spotify_youtube_music.csv", index_col=0)
original_data.head()

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,official_video,Stream
0,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Feel Good Inc.,Demon Days,album,spotify:track:0d28khcov6AiegSCpG5TuT,0.818,0.705,6.0,-6.679,0.177,0.00836,0.00233,0.613,0.772,138.559,222640.0,https://www.youtube.com/watch?v=HyHNuVaZJ-k,Gorillaz - Feel Good Inc. (Official Video),Gorillaz,693555221.0,6220896.0,169907.0,Official HD Video for Gorillaz' fantastic trac...,True,True,1040235000.0
1,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Rhinestone Eyes,Plastic Beach,album,spotify:track:1foMv2HQwfQ2vntFf9HFeG,0.676,0.703,8.0,-5.815,0.0302,0.0869,0.000687,0.0463,0.852,92.761,200173.0,https://www.youtube.com/watch?v=yYDmaexVHic,Gorillaz - Rhinestone Eyes [Storyboard Film] (...,Gorillaz,72011645.0,1079128.0,31003.0,The official video for Gorillaz - Rhinestone E...,True,True,310083700.0
2,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,New Gold (feat. Tame Impala and Bootie Brown),New Gold (feat. Tame Impala and Bootie Brown),single,spotify:track:64dLd6rVqDLtkXFYrEUHIU,0.695,0.923,1.0,-3.93,0.0522,0.0425,0.0469,0.116,0.551,108.014,215150.0,https://www.youtube.com/watch?v=qJa-VFwPpYA,Gorillaz - New Gold ft. Tame Impala & Bootie B...,Gorillaz,8435055.0,282142.0,7399.0,Gorillaz - New Gold ft. Tame Impala & Bootie B...,True,True,63063470.0
3,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,On Melancholy Hill,Plastic Beach,album,spotify:track:0q6LuUqGLUiCPP1cbdwFs3,0.689,0.739,2.0,-5.81,0.026,1.5e-05,0.509,0.064,0.578,120.423,233867.0,https://www.youtube.com/watch?v=04mfKJWDSzI,Gorillaz - On Melancholy Hill (Official Video),Gorillaz,211754952.0,1788577.0,55229.0,Follow Gorillaz online:\nhttp://gorillaz.com \...,True,True,434663600.0
4,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Clint Eastwood,Gorillaz,album,spotify:track:7yMiX7n9SBvadzox8T5jzT,0.663,0.694,10.0,-8.627,0.171,0.0253,0.0,0.0698,0.525,167.953,340920.0,https://www.youtube.com/watch?v=1V_xRb0x9aw,Gorillaz - Clint Eastwood (Official Video),Gorillaz,618480958.0,6197318.0,155930.0,The official music video for Gorillaz - Clint ...,True,True,617259700.0


## 4. 评估数据

在这一部分，将对在上一部分建立的`original_data`这个DataFrame所包含的数据进行评估。

评估主要从两个方面进行：结构和内容，即整齐度和干净度。  
数据的结构性问题指不符合“每列是一个变量，每行是一个观察值，每个单元格是一个值”这三个标准，数据的内容性问题包括存在丢失数据、重复数据、无效数据等。

### 4.1 评估数据整齐度

In [6]:
original_data.sample(3)

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,official_video,Stream
1218,Julieta Venegas,https://open.spotify.com/artist/2QWIScpFDNxmS6...,Me Voy,Limon Y Sal,album,spotify:track:100Tm6z29RfHTdUQ6NIs0s,0.575,0.679,2.0,-3.845,0.0278,0.0664,0.0,0.0956,0.601,107.878,187520.0,https://www.youtube.com/watch?v=y8rBC6GCUjg,Julieta Venegas - Me Voy (Video Stereo),julietavenegasVEVO,322686064.0,1530474.0,38571.0,Vídeo oficial de Julieta Venegas de su tema Me...,True,True,195711218.0
13370,Zac Efron,https://open.spotify.com/artist/6U1dBXJhC8gXFj...,The Greatest Show,The Greatest Show,single,spotify:track:43ay9lQZ5rfNcOOHhRF2cM,0.417,0.824,11.0,-7.36,0.105,0.000239,0.0545,0.0725,0.4,157.92,302147.0,https://www.youtube.com/watch?v=RW61RQZojMQ,"The Greatest Showman | ""The Greatest Show"" Lyr...",Fox Family Entertainment,39658798.0,318536.0,0.0,Sing-a-long with Hugh Jackman during their epi...,False,True,477353955.0
16968,Dan + Shay,https://open.spotify.com/artist/7z5WFjZAIYejWy...,"10,000 Hours (with Justin Bieber)",Good Things,album,spotify:track:4j5ffIFh7bFT7GZciP1TCy,0.654,0.63,10.0,-4.644,0.0259,0.149,0.0,0.111,0.43,89.991,167693.0,https://www.youtube.com/watch?v=Y2E71oe0aSM,"Dan + Shay, Justin Bieber - 10,000 Hours (Offi...",Dan And Shay,253268221.0,3079414.0,71657.0,LISTEN TO THE NEW ALBUM:\nhttps://wmna.sh/good...,True,True,892645032.0


从抽样的数据来看，数据符合“每列一个变量，每行一个观察值，每个单元格一个值”，具体来看每行是关于一种商品的交易记录，每列是交易相关的各个变量，不存在结构性问题。

### 4.2 评估数据干净度

In [5]:
original_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20718 entries, 0 to 20717
Data columns (total 27 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Artist            20718 non-null  object 
 1   Url_spotify       20718 non-null  object 
 2   Track             20718 non-null  object 
 3   Album             20718 non-null  object 
 4   Album_type        20718 non-null  object 
 5   Uri               20718 non-null  object 
 6   Danceability      20716 non-null  float64
 7   Energy            20716 non-null  float64
 8   Key               20716 non-null  float64
 9   Loudness          20716 non-null  float64
 10  Speechiness       20716 non-null  float64
 11  Acousticness      20716 non-null  float64
 12  Instrumentalness  20716 non-null  float64
 13  Liveness          20716 non-null  float64
 14  Valence           20716 non-null  float64
 15  Tempo             20716 non-null  float64
 16  Duration_ms       20716 non-null  float64
 17

从输出结果来看，共有20718条观察值，其中只有前5列变量不存在空缺值。   
有2条记录同时缺少Danceability、Energy~Duration_ms这些必要属性信息，属于无效数据，其它的空缺值大多是关于Youtube视频的，可能部分歌曲并无上传相关视频到油管上，不过`Stream`播放量也是关键信息，这个变量缺失的记录需要好好确定是否需要删除。
  
此外，`Key`感觉更像是个称名变量，需要考虑是否将其变量类型转化为字符串，而且该变量的值全为整数，所以可以考虑将小数点及其后面的零给去掉。  
`Licensed`和`official_video`的变量值为True/False，所以其类型应该改为boolean。

#### 4.2.1 评估缺失数据

猜想有2条记录应该是Danceability、Energy~Duration_ms这些必要属性信息同时存在缺失，根据条件提取出缺失观察值。

In [8]:
original_data[(original_data['Danceability'].isnull()) & (original_data['Energy'].isnull())]

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,official_video,Stream
11890,Natasha Bedingfield,https://open.spotify.com/artist/7o95ZoZt5ZYn31...,These Words,Unwritten,album,spotify:track:6MFQeWtk7kxWGydnJB2y36,,,,,,,,,,,,https://www.youtube.com/watch?v=e5RuGj0g1tk,Natasha Bedingfield - These Words (Official Vi...,NBedingfieldVEVO,21655597.0,165220.0,7780.0,"Natasha Bedingfield - These Words (I Love You,...",True,True,110442210.0
13843,White Noise for Babies,https://open.spotify.com/artist/4ZfEELHfyKd4od...,Rain in the Early Morning,Soothing Rain for Background Sounds and Natura...,album,spotify:track:4juc1w1fGFn8CxKp8gGThc,,,,,,,,,,,,,,,,,,,,,145339552.0


【思考】：这两条含有缺失值的记录需要删除吗？  
可以先把这两条记录提取出来，这两首歌曲都有很高的播放量，第一首歌曲有Youtube视频，第二首歌曲是白噪音。它们作为特殊值/极端值提供了一定的有效信息。  
⭐还是需要将这两条记录删除，我们需要建模来预测不同特征对于播放量和观看量的影响，这两条记录不能提供不同的特征信息。  
  
接着，设置筛选条件筛选出`Views`和`Stream`同时为0的记录，因为这些记录也不能为建模、预测提供有效信息。

In [10]:
original_data[(original_data['Stream'].isnull()) & (original_data['Views'].isnull())]

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,official_video,Stream
5392,José Alfredo Jimenez,https://open.spotify.com/artist/2T06whb4s6Uiuf...,En El Ultimo Trago,Viejos Amigos,album,spotify:track:2NHHppsOEAr4SUTJzHSmEt,0.578,0.456,10.0,-10.406,0.0578,0.734,0.0,0.29,0.935,81.752,136827.0,,,,,,,,,,
5894,Santiago Ziesmer,https://open.spotify.com/artist/5isi7xwETQC1Hb...,Kapitel 2.2 & Kapitel 3.1 - Die kleine Hexe - ...,Die kleine Hexe - Das Hörspiel,album,spotify:track:79MPQusu1yEsrOKVF6lRYz,0.652,0.243,5.0,-17.702,0.947,0.67,0.0,0.236,0.71,80.284,306827.0,,,,,,,,,,
5896,Santiago Ziesmer,https://open.spotify.com/artist/5isi7xwETQC1Hb...,Kapitel 3.3 & Kapitel 4.1 - Die kleine Hexe - ...,Die kleine Hexe - Das Hörspiel,album,spotify:track:7MLFFmgellBUse8m8MiAa3,0.689,0.333,7.0,-16.246,0.926,0.76,0.0,0.857,0.529,106.169,197840.0,,,,,,,,,,
5897,Santiago Ziesmer,https://open.spotify.com/artist/5isi7xwETQC1Hb...,Kapitel 4.2 & Kapitel 5.1 - Die kleine Hexe - ...,Die kleine Hexe - Das Hörspiel,album,spotify:track:1XHT2kjA7ALtCD85JPe9oj,0.639,0.232,5.0,-18.99,0.952,0.635,0.0,0.399,0.56,91.071,322447.0,,,,,,,,,,
5899,Santiago Ziesmer,https://open.spotify.com/artist/5isi7xwETQC1Hb...,Kapitel 1 - Folge 47: Atomgespenster,Folge 47: Atomgespenster,album,spotify:track:0xBIT7wT6GMbxXNQzyFoDK,0.568,0.66,7.0,-11.62,0.645,0.562,0.0,0.732,0.343,126.242,209813.0,,,,,,,,,,
5900,Santiago Ziesmer,https://open.spotify.com/artist/5isi7xwETQC1Hb...,Kapitel 6.2 & Kapitel 7.1 - Die kleine Hexe - ...,Die kleine Hexe - Das Hörspiel,album,spotify:track:28kkMPsoW1tIg0hEmvEjcb,0.592,0.362,1.0,-15.9,0.707,0.69,0.0,0.319,0.65,106.518,301987.0,,,,,,,,,,
7052,KC & The Sunshine Band,https://open.spotify.com/artist/3mQBpAOMWYqAZy...,Please Don't Go - Single Version,Do You Wanna Go Party,album,spotify:track:6dw6BquK0Mv72p6HpusqKN,0.482,0.615,6.0,-11.093,0.0398,0.00888,2e-06,0.0431,0.437,96.307,230533.0,,,,,,,,,,
7059,KC & The Sunshine Band,https://open.spotify.com/artist/3mQBpAOMWYqAZy...,Boogie Shoes,Saturday Night Fever (The Original Movie Sound...,compilation,spotify:track:00rC38CxKlB12JUrFlTtdo,0.872,0.839,3.0,-11.649,0.0755,0.577,0.0286,0.0375,0.963,116.03,136240.0,,,,,,,,,,
7060,KC & The Sunshine Band,https://open.spotify.com/artist/3mQBpAOMWYqAZy...,Get Down Tonight,KC & the Sunshine Band: 25th Anniversary Colle...,album,spotify:track:7sAWOqtpE9uWGYML3WLNGw,0.661,0.859,10.0,-9.483,0.0303,0.0946,0.000131,0.471,0.89,112.766,191867.0,,,,,,,,,,
7819,Hector & Tito,https://open.spotify.com/artist/5aB4SpKYteOJ8p...,Baila Morena - Live,Season Finale,album,spotify:track:6GXtIudxkU3OHFOmd0o613,0.804,0.54,4.0,-12.861,0.0682,0.196,0.0,0.123,0.799,93.997,154667.0,,,,,,,,,,


⭐以上筛选结果表明，`Views`和`Stream`同时为0的记录不包含观看量、播放量相关的信息，也不包含与Youtube有关的信息，无法提供有效数据，可以删除。

## 清理数据

## 保存清理后的数据