In [44]:
import os
import re
import glob
import pandas as pd
import scipy

In [2]:
os.chdir('/Users/qiongli/Dropbox/Dissertation/Data Analysis/freq_Experiment')
#os.getcwd()
#glob.glob('WK6*.txt')

# Type-token analysis

In [3]:
# Four steps:
#1 Create a dictionary with file names as the keys and the chat text as values.
#2 Separate native speaker and L2 learner dataset.
#3 Extract the W + SFP constructions from the NS and L2 dataset, respectively.
#4 Calculate the type-token frequency of W + SFP construction
# Note: SFP: sentence final particles including a, ba, and ne.

# Step 1: 
# Create a dictionary: file name (key) --> text data (value)

In [4]:
def get_dic(path):
    # takes file path as input and return a dictionary 
    # with file name as key and the chat data as the value.
    fname=glob.glob(path)
    dic={}
    for f in fname:
        with open(f) as file:
            data=file.read()
        dic[f]=data
    return dic

In [5]:
# Define all the path or six chat sessions:
path_wk1 = 'WK1*.txt'
path_wk2 = 'WK2*.txt'
path_wk3 = 'WK3*.txt'
path_wk4 = 'WK4*.txt'
path_wk5 = 'WK5*.txt'
path_wk6 = 'WK6*.txt'
path_all = 'WK*.txt'
# get_dic(path_wk6)

# Step 2:
# Separate NS and L2 data

In [6]:
def get_NS_text(text):
    # gets all the native speaker (NS) lines from a text
    NS_text=''
    for line in text.splitlines():
        if line.startswith('NS'):
            NS_text+=line
    return NS_text

def get_L2_text(text):
    # gets all the L2 learner (L2) lines from a text
    L2_text=''
    for line in text.splitlines():
        if line.startswith('L2'):
            L2_text+=line
    return L2_text 

# Step 3:
# Get SFPs a, ba, and ne from NS and L2 datasets

In [7]:
# Get W + a
def get_a_NS(path):
    # gets SFP a from NS datasets in each week
    # the input path determines which week of data to analyze
    dic = get_dic(path)
    NS_text=''
    for key in dic.keys():
        text=dic[key]
        NS_text+=get_NS_text(text)
    li = re.findall('\w{1,3}啊', NS_text)
    return li
#print(get_a_NS(path_wk6))

def get_a_L2(path):
    # gets SFP a from L2 datasets in each week
    # the input path determines which week of data to analyze
    dic = get_dic(path)
    L2_text=''
    for key in dic.keys():
        text=dic[key]
        L2_text+=get_L2_text(text)
    li = re.findall('\w{1,3}啊', L2_text)
    return li
#print(get_a_L2(path_wk6))

In [8]:
# Get W + ba
def get_ba_NS(path):
    dic = get_dic(path)
    NS_text=''
    for key in dic.keys():
        text=dic[key]
        NS_text+=get_NS_text(text)
    li = re.findall('\w{1,3}吧', NS_text)
    return li

def get_ba_L2(path):
    dic = get_dic(path)
    L2_text=''
    for key in dic.keys():
        text=dic[key]
        L2_text+=get_L2_text(text)
    li = re.findall('\w{1,3}吧', L2_text)
    return li
#print(get_ba_NS(path_wk6))
#print(get_ba_L2(path_wk6))

In [9]:
# Get W + ne
def get_ne_NS(path):
    dic = get_dic(path)
    NS_text=''
    for key in dic.keys():
        text=dic[key]
        NS_text+=get_NS_text(text)
    li = re.findall('\w{1,3}呢', NS_text)
    return li

def get_ne_L2(path):
    dic = get_dic(path)
    L2_text=''
    for key in dic.keys():
        text=dic[key]
        L2_text+=get_L2_text(text)
    li = re.findall('\w{1,3}呢', L2_text)
    return li
#print(get_ne_NS(path_wk6))
#print(get_ne_L2(path_wk6))

# Step 4: 
# Token frequency, type frequency, type-token ratio

In [10]:
def get_ratio(li):
    # takes a list and calculates its type-token ratio
    ratio = len(set(li))/len(li)
    return ratio

# W + a

In [11]:
# Get a list of W + a from the NS dataset in each phase
NS_a1=get_a_NS(path_wk1)+get_a_NS(path_wk2) # Phase 1
NS_a2=get_a_NS(path_wk3)+get_a_NS(path_wk4) # Phase 2 
NS_a3=get_a_NS(path_wk5)+get_a_NS(path_wk6) # Phase 3 

# Get a list of W + a from the L2 dataset in each phase
L2_a1=get_a_L2(path_wk1)+get_a_L2(path_wk2)
L2_a2=get_a_L2(path_wk3)+get_a_L2(path_wk4)
L2_a3=get_a_L2(path_wk5)+get_a_L2(path_wk6)

In [82]:
# adjust the NS_a1 list. Remove the unnecessary words to get the W + a construction
NS_a1_adjusted = ['好啊', '期待啊', '羡慕啊', '棒啊', '这样啊', '吓人啊', '这样啊', '名字啊', '是啊', 
                  '名字啊', '好啊', '什么啊', '对啊', '了啊', '我啊', '难啊', '词汇啊', '语法啊', 
                  '不错啊', '麻烦啊', '淇淋啊', '淇淋啊', '的啊', '公司啊', '什么啊', '对啊', '聚会啊', 
                  '船啊', '正常啊', '是啊', '是啊', '厉害啊', '意思啊', '有啊', '菜啊', '做法啊', 
                  '我啊', '这样啊', '愿者啊', '会啊', '不错啊', '专业啊', 've啊', '对啊', '的啊', 
                  '辣啊', '鸭子啊', '的啊', '好啊', '漂亮啊', '对啊', '同意啊', '是啊', '天啊', '学习啊', 
                  '是啊', '什么啊', '尴尬啊', '的啊', '月饼啊', '这样啊', '大餐啊', '北方啊', 'ct啊', 'ne啊', '这样啊'] # '对啊对啊‘ counted as 1 in the NS_a1 list, but counted as 2 in NS_a1_adjusted list

NS_a2_adjusted = ['的啊', '巧啊', '这样啊', '哪里啊', '是啊', '是啊', '是啊', '再见啊', '真的啊', '的啊', '了啊', 
                  '是啊', '好啊', '棒啊', '孤独啊', '什么啊', '礼物啊', '是啊', '的啊', '纽约啊', '的啊', '怎么样啊', 
                  '年级啊', '的啊', '棒啊', '是啊', '有意思啊', '有意思啊', '春天啊', '是啊', '天啊', '知道啊', '对啊', 
                  '对啊', '熊猫啊', '早啊', '贝啊', '见啊', '周啊', '了啊', '哪有啊', '春假啊', '哪儿啊', '回去啊', 
                  '的啊', '活动啊', '近啊', '身体啊', '多少啊', '实验啊', '这样啊', '有趣啊', '知道啊', '哪里啊', 
                  '节啊', '什么啊', '的啊', '的啊'] # '对啊对啊‘ counted as 1 in the NS_a2 list, but counted as 2 in NS_a2_adjusted list

NS_a3_adjusted = ['圣诞节啊', '歌啊', '年级啊', '一起啊', '这样啊', '哪儿啊', '哪儿啊', '繁华啊', '的啊', '好啊', '对啊', 
                  '缘分啊', '中文啊', '知道啊', '节目啊', '的啊', '小说啊', '文歌啊', '聊啊', '好啊', '辛苦啊', '苏州啊', 
                  '一下啊', '这样啊', 'll啊', '感恩节啊', '喜欢啊', '什么啊', '的啊', '这样啊', '这样啊', '这样啊', '有才啊', 
                  '多啊', '天啊', '妆啊', '是啊', '是啊', '童趣啊', '期待啊', '我啊', '化妆啊', '南瓜啊', '考试啊', 'ts啊', 
                  '什么啊', '什么啊', '这样啊', '我啊', '地道啊', '羡慕啊', '火锅啊', '聊啊', '你好啊', '期待啊', '好奇啊', 
                  '没有啊', '知道啊', '这样啊', '喜欢啊', '再见啊', '忙啊', '人啊', '鬼啊', '鬼片啊', '这样啊', '做啊','什么啊', 
                  '吃啊', '这样啊', '特别啊', '庆祝啊', '什么啊', '当然啊', '意思啊', '是啊', '会啊', '道具啊', '会啊'] # dropped '啊啊', '呃啊' from the NS_a3 list
print('type')
print(len(set(NS_a1_adjusted)),len(set(NS_a2_adjusted)),len(set(NS_a3_adjusted)))
print('token')
print(len(NS_a1_adjusted),len(NS_a2_adjusted),len(NS_a3_adjusted))

type
44 37 55
token
66 58 79


In [13]:
# NS Type-token ratio of a in each phase
NS_ratio_a1 = get_ratio(NS_a1_adjusted)
print(NS_ratio_a1) # type-token ration in Phase 1
NS_ratio_a2 = get_ratio(NS_a2_adjusted)
print(NS_ratio_a2) # type-token ration in Phase 2
NS_ratio_a3 = get_ratio(NS_a3_adjusted)
print(NS_ratio_a3) # type-token ration in Phase 3

0.6666666666666666
0.6379310344827587
0.6962025316455697


In [74]:
# adjust the L2_a1 list. Remove the unnecessary words to get the W + a construction
L2_a1_adjusted = ['是啊', '这样啊', '可怜啊', '对啊', '对啊', '对啊', '是啊', '是啊', '是啊', '好看啊', '是啊', 
                  '是啊', '对啊', '是啊', '对啊', '对啊', '对啊', '难啊', '好啊', '对啊', '好啊', '好啊', '是啊', 
                  '是啊', '对啊', '的啊', '对啊', '对啊', '了啊', '好啊', '有趣啊', '好啊', '冰岛啊', '那里啊', '好吃啊', 
                  '对啊', '父母啊', '可爱啊', '烂漫啊', '好啊', '好吃啊', '对啊', '好啊'] # removed 6 '啊啊' from L2_a1 list

L2_a2_adjusted = ['没有啊', '够了啊', '可怜啊', '工作啊', '是啊', '对啊', '对啊', '是啊', '好吃啊', '是啊', '对啊', '好看啊', 
                  '确实啊', '人啊', '对啊', '嗯对啊', 'AC啊', '对啊', '好啊', '中国啊', '对啊', '热心啊', '对啊', '对不起啊', 
                  '难啊', '难啊', '嗯对啊', '好啊', '是啊', '难啊', '意思啊', '对啊', '独子啊', '对啊', '不起啊', '对啊', '对啊',
                  '对啊', '对啊', '对啊', '好啊', '好玩啊', '喜欢啊', '是啊', '对啊', '好吃啊', '好吃啊', '聊天啊', '收到啊', 
                  '没有啊', '对啊', '好啊', '有啊', '是啊', '是的啊', '是啊', '是啊', '电池啊', '是啊', '对啊', '厉害啊', 
                  '厉害啊', '懂行啊', '好啊', '难啊', '对啊', '喜欢啊', '好啊', '对啊', '可怜啊', '糟糕啊', '有趣啊', '熊猫啊', 
                  '可惜啊', '是啊', '对啊', '有意思啊', '那样啊', '那好啊', '对啊', '好啊', '对啊', '对啊', '对啊', '对啊', 
                  '没错啊', '忙啊', '没有啊', '了啊', '对啊', '对啊', '听过啊', '对啊', '好啊', '养啊', '对啊', '是啊', '是啊', 
                  '对啊', '好啊', '是啊', '好吃啊', '鱼啊', '鱼啊', '不错啊'] # remived '啊啊', '哈哈啊' from L2_a2

L2_a3_adjusted = ['是的啊', '年级啊', '决定啊', '这样子啊', '照片啊', '谢谢啊', '是啊', '你啊', '是啊', '有意思啊', '是啊', '是啊',
                  '对啊', '城市啊', '是啊', '安排啊', '好玩啊', '是啊', '对啊', '对啊', '是的啊', '有意思啊', '对啊', '没错啊', 
                  '好啊', '对啊', '是啊', '对啊', '好啊', '对不起啊', '好啊', '好吃啊', '忙啊', '知道啊', '是啊', '对啊', 
                  '城市啊', '是啊', '嗯对啊', '好吃啊', '是啊', '是啊', '对啊', '是啊', '北方啊', '是啊', '火锅啊', '香啊', 
                  '好吃啊', '试啊', '好啊', '是啊', '是啊', 'ht啊', '好玩啊', '这样啊', '万圣节啊', '有意思啊', '对啊', '错啊', 
                  '的啊', '是啊', '是啊', '厉害啊', '好啊', '好啊', '有意思啊', '好啊', '样子啊', '对啊'] 
                    # removed 9 of '啊啊', '哈哈啊', '嗯啊’ 
print(L2_a3_adjusted)
print(len(L2_a3_adjusted))
len(L2_a1_adjusted), len(L2_a2_adjusted), len(L2_a3_adjusted)

['是的啊', '年级啊', '决定啊', '这样子啊', '照片啊', '谢谢啊', '是啊', '你啊', '是啊', '有意思啊', '是啊', '是啊', '对啊', '城市啊', '是啊', '安排啊', '好玩啊', '是啊', '对啊', '对啊', '是的啊', '有意思啊', '对啊', '没错啊', '好啊', '对啊', '是啊', '对啊', '好啊', '对不起啊', '好啊', '好吃啊', '忙啊', '知道啊', '是啊', '对啊', '城市啊', '是啊', '嗯对啊', '好吃啊', '是啊', '是啊', '对啊', '是啊', '北方啊', '是啊', '火锅啊', '香啊', '好吃啊', '试啊', '好啊', '是啊', '是啊', 'ht啊', '好玩啊', '这样啊', '万圣节啊', '有意思啊', '对啊', '错啊', '的啊', '是啊', '是啊', '厉害啊', '好啊', '好啊', '有意思啊', '好啊', '样子啊', '对啊']
70


(43, 105, 70)

In [15]:
# L2 Type-token ratio of a in each phase
L2_ratio_a1 = get_ratio(L2_a1_adjusted)
print(L2_ratio_a1) # type-token ration in Phase 1
L2_ratio_a2 = get_ratio(L2_a2_adjusted)
print(L2_ratio_a2) # type-token ration in Phase 2
L2_ratio_a3 = get_ratio(L2_a3_adjusted)
print(L2_ratio_a3) # type-token ration in Phase 3

0.37209302325581395
0.4095238095238095
0.44285714285714284


# W + ba

In [95]:
# Get a list of W + ba from the NS dataset in each phase
NS_ba1=get_ba_NS(path_wk1)+get_ba_NS(path_wk2) # Phase 1
NS_ba2=get_ba_NS(path_wk3)+get_ba_NS(path_wk4) # Phase 2 
NS_ba3=get_ba_NS(path_wk5)+get_ba_NS(path_wk6) # Phase 3 

# Get a list of W + ba from the L2 dataset in each phase
L2_ba1=get_ba_L2(path_wk1)+get_ba_L2(path_wk2)
L2_ba2=get_ba_L2(path_wk3)+get_ba_L2(path_wk4)
L2_ba3=get_ba_L2(path_wk5)+get_ba_L2(path_wk6)

In [83]:
NS_ba1_adjusted = ['图片吧', '好吧', '新年吧', '假期吧', '聊吧', '圣诞节吧', '这里吧', '远吧', '通知吧', '巧克力吧', '春假吧', 
                   '对吧', '聊吧', '好吧', '多吧', '事情吧', '年级吧', '月吧', '也许吧', '情况吧', 'er吧', '觉吧', '顿饭吧', 
                   '啥吧', '开始吧', '菜吧', '开始吧', '北方吧', '暑假吧', '经历吧', '过吧', '开始吧', '棒吧', '一样吧', '这吧', 
                   '春假吧', '学生吧', '美吧', '认识吧', '这吧']

NS_ba2_adjusted = ['春假吧', '春假吧', '漂亮吧', '加州吧', '对吧', '了吧', '好吧', '人们吧', 'hi吧', '好吧', '细节吧', '饭吧', 
                   '聚吧', '还好吧', '计划吧', '艺术吧', '了吧', '什么吧', '会吧', '半吧', '聊吧', '是吧', '这里吧', '时间吧', 
                   '回去吧', '庆祝吧', '个吧', '作业吧', '这样吧', '元旦吧', '幸福吧', '这样吧', '开始吧', '新年吧', '吃饭吧', 
                   '好吧', '实习吧', '逛逛吧', '经历吧', '这里吧', '感恩节吧', '远吧'] # removed 2 ‘酒吧'

NS_ba3_adjusted = ['开始吧', '对吧', '正宗吧', '男票吧', '忙吧', '了吧', '社团吧', '是的吧', '新年吧', '春假吧', '多吧', 
                   '一样吧', '没有吧', '月吧', '住吧', '诞节吧', '万圣节吧', '对吧', '娃娃吧', '努力吧', '星期吧', '这吧', 
                   '好吧', '还行吧', '多吧', '这里吧', '回家吧', '新年吧', '过去吧', '近吧', '不过吧', '火吧', '东西吧', 
                   '聊吧', '对吧', '个吧', '忙吧', '圣诞节吧', '天吧', '天吧', '课吧', '不错吧', '好吃吧', '多吧', '派对吧']
print('type')
print(len(set(NS_ba1_adjusted)),len(set(NS_ba2_adjusted)),len(set(NS_ba3_adjusted)))
print('token')
print(len(NS_ba1_adjusted),len(NS_ba2_adjusted),len(NS_ba3_adjusted))

type
34 36 38
token
40 42 45


In [18]:
# NS Type-token ratio of Ba in each phase
NS_ratio_ba1 = get_ratio(NS_ba1_adjusted)
print(NS_ratio_ba1) 
NS_ratio_ba2 = get_ratio(NS_ba2_adjusted)
print(NS_ratio_ba2)
NS_ratio_ba3 = get_ratio(NS_ba3_adjusted)
print(NS_ratio_ba3) 

0.85
0.8571428571428571
0.8444444444444444


In [72]:
L2_ba1_adjusted = ['走吧', '前吧', '小时吧', '到吧', '好吧', '对吧', '好吧', '好吧', '了吧', '没有吧', '可以吧', '好吧', 
                   '去吧', '午饭吧', '可以吧']

L2_ba2_adjusted = ['春假吧', '城市吧', '这里吧', '是吧', '聊吧', '好吧', '研究生吧', '上学吧', '好吧', '好吧', '好吧', '好吧', 
                   '好吧', '好吧', '学吧', '行吧', '定吧', '一吧', '忙吧', '韩国吧', '回家吧', '收到吧', '点吧', '好吧', 
                   '好吧', '衣服吧', '好吧', '好吧', '好吧', '很好吧', '暑假吧', '好玩吧', '多吧', '暑假吧', '清淡吧']

L2_ba3_adjusted = ['韩国吧', '好吧', '好吧', '对吧', '新年吧', '红包吧', '好吧', '传统吧', '这里吧', '这个吧', '景色吧', '行吧', 
                   '海边吧', '70吧', '是吧', '了吧', '好吧', '好吧']

len(L2_ba1_adjusted), len(L2_ba2_adjusted), len(L2_ba3_adjusted)

(15, 35, 18)

In [20]:
# L2 Type-token ratio of ba in each phase
L2_ratio_ba1 = get_ratio(L2_ba1_adjusted)
print(L2_ratio_ba1)
L2_ratio_ba2 = get_ratio(L2_ba2_adjusted)
print(L2_ratio_ba2) 
L2_ratio_ba3 = get_ratio(L2_ba3_adjusted)
print(L2_ratio_ba3)

0.7333333333333333
0.6571428571428571
0.7777777777777778


# W + ne

In [21]:
# Get a list of W + ne from the NS dataset in each phase
NS_ne1=get_ne_NS(path_wk1)+get_ne_NS(path_wk2) # Phase 1
NS_ne2=get_ne_NS(path_wk3)+get_ne_NS(path_wk4) # Phase 2 
NS_ne3=get_ne_NS(path_wk5)+get_ne_NS(path_wk6) # Phase 3 

# Get a list of W + ne from the L2 dataset in each phase
L2_ne1=get_ne_L2(path_wk1)+get_ne_L2(path_wk2)
L2_ne2=get_ne_L2(path_wk3)+get_ne_L2(path_wk4)
L2_ne3=get_ne_L2(path_wk5)+get_ne_L2(path_wk6)

In [84]:
NS_ne1_adjusted = ['你呢', '好的呢', '嗯呢', '你呢', '嗯呢', '事情呢', '的呢', '什么呢', '新年呢', '了呢', '什么呢', '了呢', 
                   '开心呢', '的呢', '冷呢', '时候呢', '哪儿呢', '了呢', '什么呢', '你呢', '你呢', '为什么呢', '什么呢', 
                   '东西呢', '玩呢', '你呢', '工作呢', '人物呢', '你们呢', '名字呢', '救生员呢', '你呢', '钱呢', '怎么样呢', 
                   '过呢', '你呢', '什么呢', '什么呢', '的呢', '为什么呢', '关系呢', '看呢', '年代呢', '年代呢', '然后呢', 
                   '调料呢', '牌子呢', '在呢', '你呢', '的呢', '的呢', '是呢', '看呢', '的呢', '好呢', '你呢', '人呢', '没有呢',
                   '什么呢', '玩呢', '怎么样呢', '你呢', '什么呢', '办呢', '玩儿呢', '衣服呢', '你呢', '你呢', '什么呢', '什么呢',
                   '多久呢', '你呢', '什么呢', '你呢', '穿呢', '装扮呢', '的呢', '时候呢', '你呢', '你呢', '你呢', '你呢', 
                   '你呢','你呢', '你呢', '你呢', '棒呢', '你呢', '好的呢', '的呢', '什么呢', '幸福呢', '天呢', '餐厅呢', 
                   '了呢', '假呢', '了呢', '哪些呢']

NS_ne2_adjusted = ['什么呢', '的呢', '你呢', '什么呢', '什么呢', '你呢', '你呢', '什么呢', '什么呢', '你呢', '好呢', '学期呢', 
                   '过呢', '加州呢', '好呢', '你呢', '你呢', '什么呢', '你呢', 'ent呢', '新年呢', '今年呢', '好的呢', 
                   '万圣节呢', '你呢', '什么呢', '你呢', '你呢', '你呢', '你呢', '你呢', '你呢', '你呢', '你呢', '的呢', 
                   '了呢', '好听呢', '为什么呢', '季节呢', '语言呢', '什么呢', '了呢', '了呢', '说呢', '专业呢', '干嘛呢', 
                   '你呢', '年呢', '食物呢', '什么呢', '感恩节呢', '你呢', '了呢', '不少呢', '好呢', '了呢', '你呢', '什么呢', 
                   '不知道呢', '你呢', '哪里呢', '的呢', '春假呢', '的呢', '电视呢', '干什么呢', '什么呢', '你呢', '兴趣呢', 
                   '题目呢', '什么呢', '你呢', '你呢', '今年呢', '课呢', '课呢', '棒呢', '你呢', '游戏呢', '你呢']

NS_ne3_adjusted = ['你呢', '你们呢', '年轻呢', '你呢', '着呢', '你呢', '菜呢', '你呢', '多呢', '是的呢', '是呢', '人文呢', 
                   '哪里呢', '多久呢', '上班呢', '春假呢', '什么呢', '你呢', '什么呢', '菜呢', '开心呢', '嗯呢', '是呢', 
                   '什么呢', '公司呢', '你呢', '的呢', '你呢', '菜呢', '活动呢', '假期呢', '活动呢', '的呢', '你呢', '玩呢', 
                   '哪里呢', '在呢', '计划呢', '装扮呢', '你呢', '什么呢', '礼物呢', '的呢', '你呢', '没有呢', '过呢', '短呢', 
                   '你呢', '过呢', '一些呢', '美丽呢', '地方呢', '你呢', '了呢', '的呢', '了呢', '是的呢', '没有呢', '期待呢', 
                   '感恩节呢', '说过呢', '你呢', '过呢', '什么呢', '什么呢', '做呢', '什么呢', '下来呢', '传统呢', '的呢', 
                   '南瓜呢', '糖呢', '巧克力呢', '你呢', '喜欢呢', '的呢', '说呢', '礼物呢', '什么呢', '你呢', '什么呢', '你呢', 
                   '的呢', '什么呢', '加班呢', '你呢', '你呢', '什么呢', '什么呢', '干嘛呢', '礼物呢']
print('type')
print(len(set(NS_ne1_adjusted)),len(set(NS_ne2_adjusted)),len(set(NS_ne3_adjusted)))
print('token')
print(len(NS_ne1_adjusted),len(NS_ne2_adjusted),len(NS_ne3_adjusted))

type
46 34 45
token
98 80 91


In [23]:
# NS Type-token ratio of ne in each phase
NS_ratio_ne1 = get_ratio(NS_ne1_adjusted)
print(NS_ratio_ne1) 
NS_ratio_ne2 = get_ratio(NS_ne2_adjusted)
print(NS_ratio_ne2)
NS_ratio_ne3 = get_ratio(NS_ne3_adjusted)
print(NS_ratio_ne3) 

0.46938775510204084
0.425
0.4945054945054945


In [71]:
L2_ne1_adjusted = ['你呢', '什么呢', '你呢', '你呢', '你呢', '你呢', '你呢', '你呢', '你呢', '你呢', '你呢', '你呢', '你呢', 
                   '你呢', '你呢', '你呢', '你呢', '你呢', '知道呢', '你呢', '你呢', '你呢', '你呢', '你呢', '你呢', '大学呢', 
                   '什么呢', '你呢', '什么呢', '怎么样呢', '你呢', '你呢', '你呢', '你呢', '你呢', '中国呢', '节日呢', '你呢', 
                   '你呢', '你呢', '你呢']

L2_ne2_adjusted = ['你呢', '景点呢', '你呢', '你呢', '你呢', '你呢', '你呢', '什么呢', '你呢', '你呢', '你呢', '你呢', '你呢', 
                   '什么呢', '的呢', '什么呢', '艺术呢', '你呢', '你呢', '你呢', '不同呢', '你呢', '你呢', '你呢', '的呢', 
                   '你呢', '打算呢', '打算呢', '为什么呢', '了呢', '你呢', '你呢', '你呢', '怎么样呢', '人呢', '你呢', '你呢', 
                   '什么呢', '家呢', '你呢', '外套呢', '你呢', '习俗呢', '怎么样呢', '你呢', '事情呢', '你呢', '你呢', '的呢', 
                   '为什么呢', '跟呢', '你呢', '你呢', '你呢', '你呢', '你呢', '部分呢', '方便呢', '过呢', '你呢', '中元节呢', 
                   '你呢', '然后呢', '你呢', '什么课呢', '研究呢', '好呢', '你呢', '你呢', '你呢', '什么呢']

L2_ne3_adjusted =  ['什么呢', '活动呢', '觉得呢', '你呢', '个呢', '你呢', '你呢', '你呢', '你呢', '你呢', '好看呢', '你呢', 
                   '你呢', '你呢', '你呢', '春假呢', '知道呢', '活动呢', '你呢', '羊杂汤呢', '你呢', '你呢', '你呢', '你呢', 
                   '你呢', '你呢', '你呢', '人呢', '你呢', '打算呢', '过呢', '打算呢', '专业呢', '你呢', '你呢', '你呢', 
                   '你呢', '你呢', '你呢', '感恩节呢', '你呢', '你呢', '怎么样呢', '你呢', '你呢', '你们呢', '什么呢', '谁呢', 
                   '你呢', '你呢', '你呢', '你呢', '什么呢', '你呢', '经历呢', '的呢', '做呢', '你呢', '你呢', '你呢', '你呢']
len(L2_ne1_adjusted), len(L2_ne2_adjusted), len(L2_ne3_adjusted)

(41, 71, 61)

In [25]:
# L2 Type-token ratio of ne in each phase
L2_ratio_ne1 = get_ratio(L2_ne1_adjusted)
print(L2_ratio_ne1) 
L2_ratio_ne2 = get_ratio(L2_ne2_adjusted)
print(L2_ratio_ne2)
L2_ratio_ne3 = get_ratio(L2_ne3_adjusted)
print(L2_ratio_ne3) 

0.17073170731707318
0.3380281690140845
0.32786885245901637


# Contingency Analysis

In [26]:
#1 NS dataset: Get all the W + SFP constructions (all SFPs all phases in one object)
#2 NS dataset: Creat a dictionary with W + SFP as the key and its frequency as the value 
                # -> for contingency calculation
#3 L2 datasets: Get a dictionary with W + SFP as the key and its frequency as the value 
                # for each SFP in each phase

# Step 1:
# All W + SFP constructions from the NS dataset

In [27]:
# get all the a, ba, and ne from the three phases
All_NS_a = NS_a1_adjusted + NS_a2_adjusted + NS_a3_adjusted
All_NS_ba = NS_ba1_adjusted + NS_ba2_adjusted + NS_ba3_adjusted
All_NS_ne = NS_ne1_adjusted + NS_ne2_adjusted + NS_ne3_adjusted

# Token frequency of W + a, ba, and ne
print(len(All_NS_a), len(All_NS_ba), len(All_NS_ne))

# get all the SFPs used by the NS in the control group
All_NS_SFPs = All_NS_a + All_NS_ba + All_NS_ne
# print(sorted(All_NS_SFPs))

203 127 269


# Step 2: 
# Type frequency of W + SFP in the NS dataset

In [28]:
def getContruction_dic(a_list):
    # takes a list as input and returns a dictionary with list elements as the key 
    # and the elements' frequency as values
    result_dic = {}
    for i in a_list:
        if i in result_dic:
            result_dic[i]+=1
        else:
            result_dic[i]=1
    return result_dic

In [29]:
# get type frequency of W + SFP
All_NS_SFPs_dic = getContruction_dic(All_NS_SFPs)
for i in sorted(All_NS_SFPs_dic.keys()):
    print("%s:%s"% (i, All_NS_SFPs_dic[i])) # formatting: W + SFP: frequency

ct啊:1
ent呢:1
er吧:1
hi吧:1
ll啊:1
ne啊:1
ts啊:1
ve啊:1
一下啊:1
一些呢:1
一样吧:2
一起啊:1
万圣节吧:1
万圣节呢:1
上班呢:1
下来呢:1
不少呢:1
不知道呢:1
不过吧:1
不错吧:1
不错啊:2
专业呢:1
专业啊:1
东西吧:1
东西呢:1
个吧:2
中文啊:1
为什么呢:3
也许吧:1
了吧:3
了呢:12
了啊:3
事情吧:1
事情呢:1
人们吧:1
人呢:1
人啊:1
人文呢:1
人物呢:1
什么吧:1
什么呢:36
什么啊:10
今年呢:2
会吧:1
会啊:3
传统呢:1
住吧:1
作业吧:1
你们呢:2
你呢:66
你好啊:1
假呢:1
假期吧:1
假期呢:1
做呢:1
做啊:1
做法啊:1
元旦吧:1
公司呢:1
公司啊:1
关系呢:1
兴趣呢:1
再见啊:2
冷呢:1
办呢:1
加州吧:1
加州呢:1
加班呢:1
努力吧:1
化妆啊:1
北方吧:1
北方啊:1
半吧:1
南瓜呢:1
南瓜啊:1
厉害啊:1
吃啊:1
吃饭吧:1
同意啊:1
名字呢:1
名字啊:2
吓人啊:1
周啊:1
哪些呢:1
哪儿呢:1
哪儿啊:3
哪有啊:1
哪里呢:3
哪里啊:2
啥吧:1
喜欢呢:1
喜欢啊:2
嗯呢:3
回去吧:1
回去啊:1
回家吧:1
图片吧:1
圣诞节吧:2
圣诞节啊:1
在呢:2
地方呢:1
地道啊:1
多久呢:2
多吧:4
多呢:1
多啊:1
多少啊:1
大餐啊:1
天吧:2
天呢:1
天啊:3
好吃吧:1
好吧:6
好听呢:1
好呢:4
好啊:6
好奇啊:1
好的呢:3
妆啊:1
娃娃吧:1
季节呢:1
孤独啊:1
学习啊:1
学期呢:1
学生吧:1
实习吧:1
实验啊:1
对吧:5
对啊:7
小说啊:1
尴尬啊:1
工作呢:1
巧克力吧:1
巧克力呢:1
巧啊:1
干什么呢:1
干嘛呢:2
年代呢:2
年呢:1
年级吧:1
年级啊:2
年轻呢:1
幸福吧:1
幸福呢:1
庆祝吧:1
庆祝啊:1
开始吧:5
开心呢:2
当然啊:1
忙吧:2
忙啊:1
怎么样呢:2
怎么样啊:1
情况吧:1
意思啊:2
感恩节吧:1
感恩节呢:2
感恩节啊:1
愿者啊:1
我啊:4
救生员呢:1
文歌啊:1
新年吧:4
新年呢:2
早啊:1
时候呢:2
时间吧:1
星期吧:1
春假吧:5
春假呢:2

# Step 3: 
# Frequency of W + SFP in the L2 dataset

In [97]:
# frequency of W + a in each phase
L2_a1_dic = getContruction_dic(L2_a1_adjusted)
print('phase1')
print(L2_a1_dic)
L2_a2_dic = getContruction_dic(L2_a2_adjusted)
print('phase2')
print(L2_a2_dic)
L2_a3_dic = getContruction_dic(L2_a3_adjusted)
print('phase3')
print(L2_a3_dic)
(len(L2_a1_dic), len(L2_a2_dic), len(L2_a3_dic))

phase1
{'是啊': 9, '这样啊': 1, '可怜啊': 1, '对啊': 13, '好看啊': 1, '难啊': 1, '好啊': 7, '的啊': 1, '了啊': 1, '有趣啊': 1, '冰岛啊': 1, '那里啊': 1, '好吃啊': 2, '父母啊': 1, '可爱啊': 1, '烂漫啊': 1}
phase2
{'没有啊': 3, '够了啊': 1, '可怜啊': 2, '工作啊': 1, '是啊': 13, '对啊': 30, '好吃啊': 4, '好看啊': 1, '确实啊': 1, '人啊': 1, '嗯对啊': 2, 'AC啊': 1, '好啊': 9, '中国啊': 1, '热心啊': 1, '对不起啊': 1, '难啊': 4, '意思啊': 1, '独子啊': 1, '不起啊': 1, '好玩啊': 1, '喜欢啊': 2, '聊天啊': 1, '收到啊': 1, '有啊': 1, '是的啊': 1, '电池啊': 1, '厉害啊': 2, '懂行啊': 1, '糟糕啊': 1, '有趣啊': 1, '熊猫啊': 1, '可惜啊': 1, '有意思啊': 1, '那样啊': 1, '那好啊': 1, '没错啊': 1, '忙啊': 1, '了啊': 1, '听过啊': 1, '养啊': 1, '鱼啊': 2, '不错啊': 1}
phase3
{'是的啊': 2, '年级啊': 1, '决定啊': 1, '这样子啊': 1, '照片啊': 1, '谢谢啊': 1, '是啊': 17, '你啊': 1, '有意思啊': 4, '对啊': 10, '城市啊': 2, '安排啊': 1, '好玩啊': 2, '没错啊': 1, '好啊': 7, '对不起啊': 1, '好吃啊': 3, '忙啊': 1, '知道啊': 1, '嗯对啊': 1, '北方啊': 1, '火锅啊': 1, '香啊': 1, '试啊': 1, 'ht啊': 1, '这样啊': 1, '万圣节啊': 1, '错啊': 1, '的啊': 1, '厉害啊': 1, '样子啊': 1}


(16, 43, 31)

In [69]:
# frequency of W + ba in each phase
L2_ba1_dic = getContruction_dic(L2_ba1_adjusted)
print(L2_ba1_dic)
L2_ba2_dic = getContruction_dic(L2_ba2_adjusted)
print(L2_ba2_dic)
L2_ba3_dic = getContruction_dic(L2_ba3_adjusted)
print(L2_ba3_dic)
(len(L2_ba1_dic), len(L2_ba2_dic), len(L2_ba3_dic))

{'走吧': 1, '前吧': 1, '小时吧': 1, '到吧': 1, '好吧': 4, '对吧': 1, '了吧': 1, '没有吧': 1, '可以吧': 2, '去吧': 1, '午饭吧': 1}
{'春假吧': 1, '城市吧': 1, '这里吧': 1, '是吧': 1, '聊吧': 1, '好吧': 12, '研究生吧': 1, '上学吧': 1, '学吧': 1, '行吧': 1, '定吧': 1, '一吧': 1, '忙吧': 1, '韩国吧': 1, '回家吧': 1, '收到吧': 1, '点吧': 1, '衣服吧': 1, '很好吧': 1, '暑假吧': 2, '好玩吧': 1, '多吧': 1, '清淡吧': 1}
{'韩国吧': 1, '好吧': 5, '对吧': 1, '新年吧': 1, '红包吧': 1, '传统吧': 1, '这里吧': 1, '这个吧': 1, '景色吧': 1, '行吧': 1, '海边吧': 1, '70吧': 1, '是吧': 1, '了吧': 1}


(11, 23, 14)

In [70]:
# frequency of W + ne in each phase
L2_ne1_dic = getContruction_dic(L2_ne1_adjusted)
print(L2_ne1_dic)
L2_ne2_dic = getContruction_dic(L2_ne2_adjusted)
print(L2_ne2_dic)
L2_ne3_dic = getContruction_dic(L2_ne3_adjusted)
print(L2_ne3_dic)
(len(L2_ne1_dic), len(L2_ne2_dic), len(L2_ne3_dic))

{'你呢': 33, '什么呢': 3, '知道呢': 1, '大学呢': 1, '怎么样呢': 1, '中国呢': 1, '节日呢': 1}
{'你呢': 39, '景点呢': 1, '什么呢': 5, '的呢': 3, '艺术呢': 1, '不同呢': 1, '打算呢': 2, '为什么呢': 2, '了呢': 1, '怎么样呢': 2, '人呢': 1, '家呢': 1, '外套呢': 1, '习俗呢': 1, '事情呢': 1, '跟呢': 1, '部分呢': 1, '方便呢': 1, '过呢': 1, '中元节呢': 1, '然后呢': 1, '什么课呢': 1, '研究呢': 1, '好呢': 1}
{'什么呢': 3, '活动呢': 2, '觉得呢': 1, '你呢': 38, '个呢': 1, '好看呢': 1, '春假呢': 1, '知道呢': 1, '羊杂汤呢': 1, '人呢': 1, '打算呢': 2, '过呢': 1, '专业呢': 1, '感恩节呢': 1, '怎么样呢': 1, '你们呢': 1, '谁呢': 1, '经历呢': 1, '的呢': 1, '做呢': 1}


(7, 24, 20)

# Correlation

In [91]:
f_location = '/Users/qiongli/Dropbox/Dissertation/Data Analysis/'
fname_ctrl = 'Analysis_contingency_ctrl_all_final.csv'
ctrl_cont = pd.read_csv(f_location+fname_ctrl)
ctrl_cont_learner = ctrl_cont[(ctrl_cont['Phase 1']>0)|(ctrl_cont['Phase 2']>0)|(ctrl_cont['Phase 3']>0)]
#ctrl_cont_learner

In [93]:
ctrl_cont_learner = ctrl_cont_learner.fillna(0)
#ctrl_cont_learner
from scipy.stats import pearsonr
ctrl_corr1 = pearsonr(ctrl_cont_learner['Contingency'], ctrl_cont_learner['Phase 1'])
ctrl_corr2 = pearsonr(ctrl_cont_learner['Contingency'], ctrl_cont_learner['Phase 2'])
ctrl_corr3 = pearsonr(ctrl_cont_learner['Contingency'], ctrl_cont_learner['Phase 3'])
ctrl_corr1, ctrl_corr2, ctrl_corr3

((0.29192141671135596, 0.0052418585401527006),
 (0.3982909966142249, 0.00010113417993827471),
 (0.38030728634229732, 0.00021779629550450888))

Unnamed: 0,NS SFP,Contingency,Phase 1,Phase 2,Phase 3
0,对啊:16,0.574809,2.0,10.0,11.0
4,好啊:6,0.395789,2.0,1.0,1.0
5,是啊:21,0.365035,10.0,7.0,10.0
13,火鸡啊:1,0.168421,1.0,0.0,0.0
16,天啊:1,0.168421,2.0,0.0,0.0
17,人啊:4,0.114071,0.0,1.0,0.0
19,春假啊:2,0.068430,1.0,0.0,0.0
20,不错啊:2,0.001178,0.0,2.0,1.0
34,哪啊:2,-0.134520,1.0,0.0,1.0
37,的啊:3,-0.273921,2.0,0.0,0.0


In [66]:
fname_exp = 'Analysis_contingency_exp_all_final.csv'
exp_cont = pd.read_csv(f_location+fname_exp)
exp_cont_L2 = exp_cont.dropna(thresh=3)
exp_cont_L2 = exp_cont_L2.fillna(0)
exp_cont_L2.head()

Unnamed: 0,NS SFP,Contingency,Phase 1,Phase 2,Phase 3
0,这样啊:16,0.56703,1.0,0.0,2.0
1,是啊:15,0.465336,9.0,13.0,17.0
4,不错啊:2,0.329418,0.0,1.0,0.0
6,喜欢啊:2,0.329418,0.0,2.0,0.0
7,年级啊:2,0.329418,0.0,0.0,1.0


In [67]:
exp_corr1 = pearsonr(exp_cont_L2['Contingency'], exp_cont_L2['Phase 1'])
exp_corr2 = pearsonr(exp_cont_L2['Contingency'], exp_cont_L2['Phase 2'])
exp_corr3 = pearsonr(exp_cont_L2['Contingency'], exp_cont_L2['Phase 3'])
exp_corr1, exp_corr2, exp_corr3

((0.22575461097419028, 0.019383901609217252),
 (0.25814104146831229, 0.0072632264776712439),
 (0.26776841636149989, 0.0052969968848394586))