In [1]:
# Import spacy
import spacy

# Install Chinese language model
!spacy download zh_core_web_sm

Collecting zh-core-web-sm==3.7.0
  Using cached https://github.com/explosion/spacy-models/releases/download/zh_core_web_sm-3.7.0/zh_core_web_sm-3.7.0-py3-none-any.whl (48.5 MB)
[+] Download and installation successful
You can now load the package via spacy.load('zh_core_web_sm')


In [2]:
# Import os to upload documents and metadata
import os

# Load spaCy visualizer
from spacy import displacy

# Import pandas DataFrame packages
import pandas as pd
pd.options.mode.chained_assignment = None  # default='warn'

# Import graphing package
import plotly.express as px

In [3]:
# Create empty lists for file names and contents
texts = []
file_names = []

# Iterate through each file in the folder
for _file_name in os.listdir('corpus'):
# Look for only text files
    if _file_name.endswith('.txt'):
    # Append contents of each text file to text list
        texts.append(open('corpus' + '/' + _file_name, 'r', encoding='utf-8').read())
        # Append name of each file to file name list
        file_names.append(_file_name)

In [4]:
# Create dictionary object associating each file name with its text
d = {'Filename':file_names,'Text':texts}

In [5]:
# Turn dictionary into a dataframe
songs_df = pd.DataFrame(d)

In [6]:
songs_df.head()

Unnamed: 0,Filename,Text
0,你不是真正的快乐 (You’re Not Truly Happy).txt,人群中哭着\n你只想变成透明的颜色\n你再也不会梦 或痛 或心动了\n你已经决定了 你已经决...
1,如果我們不曾相遇 (What If We Had Never Met).txt,如果我們不曾相遇 我會是在哪裡？\n如果我們從不曾相識 不存在這首歌曲\n\n每秒都活著 每...
2,"後來的我們 (Here, After, Us).txt",然後呢\n他們說你的心 似乎痊癒了\n也開始有個人 為你守護著\n我該心安或是 心痛呢\n\...
3,突然好想你 (Suddenly I Miss You).txt,最怕空气突然安静\n最怕朋友突然的关心\n最怕回忆 突然翻滚绞痛着不平息\n最怕突然 听到你...
4,離開地球表面 (Leaving the Earth’s Surface).txt,丟掉手錶 丟外套\n丟掉背包 再丟嘮叨\n丟掉電視 丟掉電腦\n丟掉腦袋 再丟煩惱\n\n衝...


In [7]:
# Remove extra spaces from lyrics
songs_df['Text'] = songs_df['Text'].str.replace('\s+', ' ', regex=True).str.strip()
songs_df.head()

Unnamed: 0,Filename,Text
0,你不是真正的快乐 (You’re Not Truly Happy).txt,人群中哭着 你只想变成透明的颜色 你再也不会梦 或痛 或心动了 你已经决定了 你已经决定了 ...
1,如果我們不曾相遇 (What If We Had Never Met).txt,如果我們不曾相遇 我會是在哪裡？ 如果我們從不曾相識 不存在這首歌曲 每秒都活著 每秒都死去...
2,"後來的我們 (Here, After, Us).txt",然後呢 他們說你的心 似乎痊癒了 也開始有個人 為你守護著 我該心安或是 心痛呢 然後呢 其...
3,突然好想你 (Suddenly I Miss You).txt,最怕空气突然安静 最怕朋友突然的关心 最怕回忆 突然翻滚绞痛着不平息 最怕突然 听到你的消息...
4,離開地球表面 (Leaving the Earth’s Surface).txt,丟掉手錶 丟外套 丟掉背包 再丟嘮叨 丟掉電視 丟掉電腦 丟掉腦袋 再丟煩惱 衝啥大 衝啥小...


In [8]:
# Remove .txt from title of each song
songs_df['Filename'] = songs_df['Filename'].str.replace('.txt', '', regex=True)
songs_df.head()

Unnamed: 0,Filename,Text
0,你不是真正的快乐 (You’re Not Truly Happy),人群中哭着 你只想变成透明的颜色 你再也不会梦 或痛 或心动了 你已经决定了 你已经决定了 ...
1,如果我們不曾相遇 (What If We Had Never Met),如果我們不曾相遇 我會是在哪裡？ 如果我們從不曾相識 不存在這首歌曲 每秒都活著 每秒都死去...
2,"後來的我們 (Here, After, Us)",然後呢 他們說你的心 似乎痊癒了 也開始有個人 為你守護著 我該心安或是 心痛呢 然後呢 其...
3,突然好想你 (Suddenly I Miss You),最怕空气突然安静 最怕朋友突然的关心 最怕回忆 突然翻滚绞痛着不平息 最怕突然 听到你的消息...
4,離開地球表面 (Leaving the Earth’s Surface),丟掉手錶 丟外套 丟掉背包 再丟嘮叨 丟掉電視 丟掉電腦 丟掉腦袋 再丟煩惱 衝啥大 衝啥小...


In [12]:
# Create Title column
songs_df['Title'] = songs_df['Filename'].apply(lambda x: x.replace('.txt', ''))
songs_df.head()

Unnamed: 0,Filename,Text,Title
0,你不是真正的快乐 (You’re Not Truly Happy),人群中哭着 你只想变成透明的颜色 你再也不会梦 或痛 或心动了 你已经决定了 你已经决定了 ...,你不是真正的快乐 (You’re Not Truly Happy)
1,如果我們不曾相遇 (What If We Had Never Met),如果我們不曾相遇 我會是在哪裡？ 如果我們從不曾相識 不存在這首歌曲 每秒都活著 每秒都死去...,如果我們不曾相遇 (What If We Had Never Met)
2,"後來的我們 (Here, After, Us)",然後呢 他們說你的心 似乎痊癒了 也開始有個人 為你守護著 我該心安或是 心痛呢 然後呢 其...,"後來的我們 (Here, After, Us)"
3,突然好想你 (Suddenly I Miss You),最怕空气突然安静 最怕朋友突然的关心 最怕回忆 突然翻滚绞痛着不平息 最怕突然 听到你的消息...,突然好想你 (Suddenly I Miss You)
4,離開地球表面 (Leaving the Earth’s Surface),丟掉手錶 丟外套 丟掉背包 再丟嘮叨 丟掉電視 丟掉電腦 丟掉腦袋 再丟煩惱 衝啥大 衝啥小...,離開地球表面 (Leaving the Earth’s Surface)


In [13]:
# Load nlp pipeline
nlp = spacy.load('zh_core_web_sm')

# Check what functions it performs
print(nlp.pipe_names)

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'ner']


In [14]:
# Define a function that runs the nlp pipeline on any given input text
def process_text(text):
    return nlp(text)

In [15]:
# Apply the function to the "Text" column, so that the nlp pipeline is called on each student essay
songs_df['Doc'] = songs_df['Text'].apply(process_text)

In [16]:
# Define a function to retrieve tokens from a doc object
def get_token(doc):
    return [(token.text) for token in doc]

In [17]:
# Run the token retrieval function on the doc objects in the dataframe
songs_df['Tokens'] = songs_df['Doc'].apply(get_token)
songs_df.head()

Unnamed: 0,Filename,Text,Title,Doc,Tokens
0,你不是真正的快乐 (You’re Not Truly Happy),人群中哭着 你只想变成透明的颜色 你再也不会梦 或痛 或心动了 你已经决定了 你已经决定了 ...,你不是真正的快乐 (You’re Not Truly Happy),"(人群, 中, 哭, 着, 你, 只, 想, 变成, 透明, 的, 颜色, 你, 再, 也,...","[人群, 中, 哭, 着, 你, 只, 想, 变成, 透明, 的, 颜色, 你, 再, 也,..."
1,如果我們不曾相遇 (What If We Had Never Met),如果我們不曾相遇 我會是在哪裡？ 如果我們從不曾相識 不存在這首歌曲 每秒都活著 每秒都死去...,如果我們不曾相遇 (What If We Had Never Met),"(如果, 我, 們, 不曾, 相遇, 我, 會, 是, 在, 哪裡, ？, 如果, 我, 們...","[如果, 我, 們, 不曾, 相遇, 我, 會, 是, 在, 哪裡, ？, 如果, 我, 們..."
2,"後來的我們 (Here, After, Us)",然後呢 他們說你的心 似乎痊癒了 也開始有個人 為你守護著 我該心安或是 心痛呢 然後呢 其...,"後來的我們 (Here, After, Us)","(然後, 呢, 他, 們說, 你, 的, 心, 似乎, 痊癒, 了, 也, 開始, 有, 個...","[然後, 呢, 他, 們說, 你, 的, 心, 似乎, 痊癒, 了, 也, 開始, 有, 個..."
3,突然好想你 (Suddenly I Miss You),最怕空气突然安静 最怕朋友突然的关心 最怕回忆 突然翻滚绞痛着不平息 最怕突然 听到你的消息...,突然好想你 (Suddenly I Miss You),"(最, 怕, 空气, 突然, 安静, 最, 怕, 朋友, 突然, 的, 关心, 最, 怕, ...","[最, 怕, 空气, 突然, 安静, 最, 怕, 朋友, 突然, 的, 关心, 最, 怕, ..."
4,離開地球表面 (Leaving the Earth’s Surface),丟掉手錶 丟外套 丟掉背包 再丟嘮叨 丟掉電視 丟掉電腦 丟掉腦袋 再丟煩惱 衝啥大 衝啥小...,離開地球表面 (Leaving the Earth’s Surface),"(丟掉, 手錶, 丟外, 套, 丟掉, 背包, 再, 丟嘮, 叨, 丟掉, 電視, 丟掉, ...","[丟掉, 手錶, 丟外, 套, 丟掉, 背包, 再, 丟嘮, 叨, 丟掉, 電視, 丟掉, ..."


In [18]:
# Define a function to retrieve lemmas from a doc object
def get_lemma(doc):
    return [(token.lemma_) for token in doc]

# Run the lemma retrieval function on the doc objects in the dataframe
songs_df['Lemmas'] = songs_df['Doc'].apply(get_lemma)
songs_df.head()

Unnamed: 0,Filename,Text,Title,Doc,Tokens,Lemmas
0,你不是真正的快乐 (You’re Not Truly Happy),人群中哭着 你只想变成透明的颜色 你再也不会梦 或痛 或心动了 你已经决定了 你已经决定了 ...,你不是真正的快乐 (You’re Not Truly Happy),"(人群, 中, 哭, 着, 你, 只, 想, 变成, 透明, 的, 颜色, 你, 再, 也,...","[人群, 中, 哭, 着, 你, 只, 想, 变成, 透明, 的, 颜色, 你, 再, 也,...","[, , , , , , , , , , , , , , , , , , , , , , ,..."
1,如果我們不曾相遇 (What If We Had Never Met),如果我們不曾相遇 我會是在哪裡？ 如果我們從不曾相識 不存在這首歌曲 每秒都活著 每秒都死去...,如果我們不曾相遇 (What If We Had Never Met),"(如果, 我, 們, 不曾, 相遇, 我, 會, 是, 在, 哪裡, ？, 如果, 我, 們...","[如果, 我, 們, 不曾, 相遇, 我, 會, 是, 在, 哪裡, ？, 如果, 我, 們...","[, , , , , , , , , , , , , , , , , , , , , , ,..."
2,"後來的我們 (Here, After, Us)",然後呢 他們說你的心 似乎痊癒了 也開始有個人 為你守護著 我該心安或是 心痛呢 然後呢 其...,"後來的我們 (Here, After, Us)","(然後, 呢, 他, 們說, 你, 的, 心, 似乎, 痊癒, 了, 也, 開始, 有, 個...","[然後, 呢, 他, 們說, 你, 的, 心, 似乎, 痊癒, 了, 也, 開始, 有, 個...","[, , , , , , , , , , , , , , , , , , , , , , ,..."
3,突然好想你 (Suddenly I Miss You),最怕空气突然安静 最怕朋友突然的关心 最怕回忆 突然翻滚绞痛着不平息 最怕突然 听到你的消息...,突然好想你 (Suddenly I Miss You),"(最, 怕, 空气, 突然, 安静, 最, 怕, 朋友, 突然, 的, 关心, 最, 怕, ...","[最, 怕, 空气, 突然, 安静, 最, 怕, 朋友, 突然, 的, 关心, 最, 怕, ...","[, , , , , , , , , , , , , , , , , , , , , , ,..."
4,離開地球表面 (Leaving the Earth’s Surface),丟掉手錶 丟外套 丟掉背包 再丟嘮叨 丟掉電視 丟掉電腦 丟掉腦袋 再丟煩惱 衝啥大 衝啥小...,離開地球表面 (Leaving the Earth’s Surface),"(丟掉, 手錶, 丟外, 套, 丟掉, 背包, 再, 丟嘮, 叨, 丟掉, 電視, 丟掉, ...","[丟掉, 手錶, 丟外, 套, 丟掉, 背包, 再, 丟嘮, 叨, 丟掉, 電視, 丟掉, ...","[, , , , , , , , , , , , , , , , , , , , , , ,..."


In [19]:
# Define a function to retrieve lemmas from a doc object
def get_pos(doc):
    #Return the coarse- and fine-grained part of speech text for each token in the doc
    return [(token.pos_, token.tag_) for token in doc]

# Define a function to retrieve parts of speech from a doc object
songs_df['POS'] = songs_df['Doc'].apply(get_pos)

In [20]:
# Create a list of part of speech tags
list(songs_df['POS'])

[[('NOUN', 'NN'),
  ('PART', 'LC'),
  ('VERB', 'VV'),
  ('PART', 'AS'),
  ('PRON', 'PN'),
  ('ADV', 'AD'),
  ('VERB', 'VV'),
  ('VERB', 'VV'),
  ('VERB', 'VA'),
  ('PART', 'DEC'),
  ('NOUN', 'NN'),
  ('PRON', 'PN'),
  ('ADV', 'AD'),
  ('ADV', 'AD'),
  ('ADV', 'AD'),
  ('VERB', 'VV'),
  ('NOUN', 'NN'),
  ('CCONJ', 'CC'),
  ('NOUN', 'NN'),
  ('CCONJ', 'CC'),
  ('VERB', 'VV'),
  ('PART', 'SP'),
  ('PRON', 'PN'),
  ('ADV', 'AD'),
  ('VERB', 'VV'),
  ('PART', 'AS'),
  ('PRON', 'PN'),
  ('ADV', 'AD'),
  ('VERB', 'VV'),
  ('PART', 'AS'),
  ('PRON', 'PN'),
  ('ADV', 'AD'),
  ('VERB', 'VV'),
  ('PART', 'AS'),
  ('ADV', 'AD'),
  ('X', 'BA'),
  ('NOUN', 'NT'),
  ('ADP', 'P'),
  ('NOUN', 'NN'),
  ('VERB', 'VV'),
  ('PART', 'AS'),
  ('PART', 'MSP'),
  ('VERB', 'VV'),
  ('ADV', 'AD'),
  ('VERB', 'VA'),
  ('ADV', 'AD'),
  ('ADV', 'AD'),
  ('VERB', 'VV'),
  ('NOUN', 'NN'),
  ('PART', 'SP'),
  ('ADV', 'AD'),
  ('ADP', 'P'),
  ('NOUN', 'NN'),
  ('VERB', 'VV'),
  ('PROPN', 'NR'),
  ('ADV', 'AD'),
  ('VER

In [21]:
songs_df.head()

Unnamed: 0,Filename,Text,Title,Doc,Tokens,Lemmas,POS
0,你不是真正的快乐 (You’re Not Truly Happy),人群中哭着 你只想变成透明的颜色 你再也不会梦 或痛 或心动了 你已经决定了 你已经决定了 ...,你不是真正的快乐 (You’re Not Truly Happy),"(人群, 中, 哭, 着, 你, 只, 想, 变成, 透明, 的, 颜色, 你, 再, 也,...","[人群, 中, 哭, 着, 你, 只, 想, 变成, 透明, 的, 颜色, 你, 再, 也,...","[, , , , , , , , , , , , , , , , , , , , , , ,...","[(NOUN, NN), (PART, LC), (VERB, VV), (PART, AS..."
1,如果我們不曾相遇 (What If We Had Never Met),如果我們不曾相遇 我會是在哪裡？ 如果我們從不曾相識 不存在這首歌曲 每秒都活著 每秒都死去...,如果我們不曾相遇 (What If We Had Never Met),"(如果, 我, 們, 不曾, 相遇, 我, 會, 是, 在, 哪裡, ？, 如果, 我, 們...","[如果, 我, 們, 不曾, 相遇, 我, 會, 是, 在, 哪裡, ？, 如果, 我, 們...","[, , , , , , , , , , , , , , , , , , , , , , ,...","[(SCONJ, CS), (PRON, PN), (VERB, VV), (ADV, AD..."
2,"後來的我們 (Here, After, Us)",然後呢 他們說你的心 似乎痊癒了 也開始有個人 為你守護著 我該心安或是 心痛呢 然後呢 其...,"後來的我們 (Here, After, Us)","(然後, 呢, 他, 們說, 你, 的, 心, 似乎, 痊癒, 了, 也, 開始, 有, 個...","[然後, 呢, 他, 們說, 你, 的, 心, 似乎, 痊癒, 了, 也, 開始, 有, 個...","[, , , , , , , , , , , , , , , , , , , , , , ,...","[(ADV, AD), (PART, SP), (PRON, PN), (VERB, VV)..."
3,突然好想你 (Suddenly I Miss You),最怕空气突然安静 最怕朋友突然的关心 最怕回忆 突然翻滚绞痛着不平息 最怕突然 听到你的消息...,突然好想你 (Suddenly I Miss You),"(最, 怕, 空气, 突然, 安静, 最, 怕, 朋友, 突然, 的, 关心, 最, 怕, ...","[最, 怕, 空气, 突然, 安静, 最, 怕, 朋友, 突然, 的, 关心, 最, 怕, ...","[, , , , , , , , , , , , , , , , , , , , , , ,...","[(ADV, AD), (VERB, VV), (NOUN, NN), (ADV, AD),..."
4,離開地球表面 (Leaving the Earth’s Surface),丟掉手錶 丟外套 丟掉背包 再丟嘮叨 丟掉電視 丟掉電腦 丟掉腦袋 再丟煩惱 衝啥大 衝啥小...,離開地球表面 (Leaving the Earth’s Surface),"(丟掉, 手錶, 丟外, 套, 丟掉, 背包, 再, 丟嘮, 叨, 丟掉, 電視, 丟掉, ...","[丟掉, 手錶, 丟外, 套, 丟掉, 背包, 再, 丟嘮, 叨, 丟掉, 電視, 丟掉, ...","[, , , , , , , , , , , , , , , , , , , , , , ,...","[(VERB, VA), (ADV, AD), (VERB, VV), (VERB, VV)..."


In [23]:
songs_df = songs_df[['Filename', 'Title', 'Text', 'Tokens', 'Lemmas', 'POS']]
songs_df.head()

Unnamed: 0,Filename,Title,Text,Tokens,Lemmas,POS
0,你不是真正的快乐 (You’re Not Truly Happy),你不是真正的快乐 (You’re Not Truly Happy),人群中哭着 你只想变成透明的颜色 你再也不会梦 或痛 或心动了 你已经决定了 你已经决定了 ...,"[人群, 中, 哭, 着, 你, 只, 想, 变成, 透明, 的, 颜色, 你, 再, 也,...","[, , , , , , , , , , , , , , , , , , , , , , ,...","[(NOUN, NN), (PART, LC), (VERB, VV), (PART, AS..."
1,如果我們不曾相遇 (What If We Had Never Met),如果我們不曾相遇 (What If We Had Never Met),如果我們不曾相遇 我會是在哪裡？ 如果我們從不曾相識 不存在這首歌曲 每秒都活著 每秒都死去...,"[如果, 我, 們, 不曾, 相遇, 我, 會, 是, 在, 哪裡, ？, 如果, 我, 們...","[, , , , , , , , , , , , , , , , , , , , , , ,...","[(SCONJ, CS), (PRON, PN), (VERB, VV), (ADV, AD..."
2,"後來的我們 (Here, After, Us)","後來的我們 (Here, After, Us)",然後呢 他們說你的心 似乎痊癒了 也開始有個人 為你守護著 我該心安或是 心痛呢 然後呢 其...,"[然後, 呢, 他, 們說, 你, 的, 心, 似乎, 痊癒, 了, 也, 開始, 有, 個...","[, , , , , , , , , , , , , , , , , , , , , , ,...","[(ADV, AD), (PART, SP), (PRON, PN), (VERB, VV)..."
3,突然好想你 (Suddenly I Miss You),突然好想你 (Suddenly I Miss You),最怕空气突然安静 最怕朋友突然的关心 最怕回忆 突然翻滚绞痛着不平息 最怕突然 听到你的消息...,"[最, 怕, 空气, 突然, 安静, 最, 怕, 朋友, 突然, 的, 关心, 最, 怕, ...","[, , , , , , , , , , , , , , , , , , , , , , ,...","[(ADV, AD), (VERB, VV), (NOUN, NN), (ADV, AD),..."
4,離開地球表面 (Leaving the Earth’s Surface),離開地球表面 (Leaving the Earth’s Surface),丟掉手錶 丟外套 丟掉背包 再丟嘮叨 丟掉電視 丟掉電腦 丟掉腦袋 再丟煩惱 衝啥大 衝啥小...,"[丟掉, 手錶, 丟外, 套, 丟掉, 背包, 再, 丟嘮, 叨, 丟掉, 電視, 丟掉, ...","[, , , , , , , , , , , , , , , , , , , , , , ,...","[(VERB, VA), (ADV, AD), (VERB, VV), (VERB, VV)..."


In [24]:
# Save csv to working directory
songs_df.to_csv('mayday_songs_spacy.csv')