# Prerequisites

In [1]:
import json
import os
import random

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# package in . directory
from bichoice import utils

In [2]:
# declare a namespace
D = utils.GlobalSettings({
        'DATADIR': './data/',
        'OUTDIR': './outputs/csv-data/',
    })

if not os.path.exists(D.OUTDIR):
    os.makedirs(D.OUTDIR)

# Check Some Examples

In [3]:
train_m = utils.get_all_C3examples(os.path.join(D.DATADIR, 'c3-m-train.json'))
train_d = utils.get_all_C3examples(os.path.join(D.DATADIR, 'c3-d-train.json'))

In [4]:
def show_c3_example(e):
    '''show all info of a single example in C3'''
    print('-----PASSAGE-----')
    print('\n'.join(e.sentences))
    print('-----QUESTION-----')
    print(e.question)
    print('-----OPTIONS-----')
    for i, o in enumerate(e.options):
        print('    {}: {}'.format(chr(i+ord('A')), o))
    print('-----ANSWER-----')
    l = e.label
    print('    {}: {}'.format(chr(l+ord('A')), e.options[l]))

In [5]:
show_c3_example(random.choice(train_m))

-----PASSAGE-----
亲子活动是指，父母陪着孩子在假期参加一些社团或者企业组织的一些有益于儿童成长的活动，促进孩子与父母的关系，让孩子结识更多的好朋友。通过活动锻炼孩子参与探索的性格，能让孩子在少年时期，身心健康发展。
当前，随着我国改革开放和市场经济的深入发展及独生子女政策的实行，我国的家庭亲子关系正在发生急剧的变化，特别是青少年在这个多元化环境中有着显著变化。有研究表明：青少年期是人生中最关键而又有特色的时期，是依恋与独立两种倾向暂时冲突和对立的阶段。而许多的父母都没有或缺乏主动意识去调适与青少年子女的关系。许多父母，或多或少地面对过一种困惑，不知道为什么自己正确的意见与建议，却不能被孩子接受。而不少青少年学生在面对父母烦琐的教导时，则表现出较强的叛逆性格。而且工作压力大，很多家长没什么时间陪孩子，导致亲子间出现距离，这是父母所不乐见的。多参加亲子活动，能够让家长和孩子共同参与，相互合作完成活动内容，进而拉近彼此的关系。亲子活动的意义不仅能让孩子和父母更亲近，还能帮助孩子成长，让孩子结识更多的好朋友。
-----QUESTION-----
亲子活动能够：
-----OPTIONS-----
    A: 让孩子一生都身心健康
    B: 能够减少孩子和父母之间的矛盾
    C: 给孩子提出指导和意见
    D: 改变孩子的性格
-----ANSWER-----
    B: 能够减少孩子和父母之间的矛盾


In [6]:
show_c3_example(random.choice(train_d))

-----PASSAGE-----
女：今天本栏目邀请的嘉宾是中国人事科学研究院副研究员、中国国际人才开发与交流研究会理事李建钟先生。
男：主持人好!大家好!
女：您说过：“人才流动不仅是人口在地理空间上的重新分布，更是人力资本在世界范围内的重新配置和组合。”今天我们想了解的首要问题是：近年来，人才资源配置在全球范围内出现了什么新的趋向?
男：有三个新趋势是明显的。一是新兴国家，也就是发展势头在上升阶段的国家和地区，前些年外流的专家及技术人员开始“回归”；二是一些新兴国家和发展中国家，千方百计从全球吸引人才，正在努力从原来的人才“输出国”变为人才“进口国”；三是资本流动对人才流动产生了越来越大的影响。
女：是什么引导了当前的人才流动呢?
男：随着经济全球化的发展，企业都在拓展国外业务，其管理团队就必然会到相应的地区。新的投资地区由此也就成了相应的人才集中地。另外，资本流动也引导了人才流动。这种流动对管理知识等的传播影响深远。
女：这是否说明了人才的流向正在发生彻底的变化?
男：目前大概还不能下这样的结论。人才的全球流动受多种因素的影响。在全球总体经济、政治和收入分配格局没有发生大的变化的前提下，目前人才流动的大趋势并没有发生根本性的变化。
女：人才流总体流向有哪些特点呢?
男：发达国家和地区仍然保持着强大的人才吸引力。从大的趋势来看，人才流向的最终点仍是在美国，而中间站则是欧盟国家。在东亚地区，则是人才由中国流向日本、韩国、新加坡等国家。
女：对目前人才流失的状况，有一些担忧的声音，您怎么看?
男：各国对人才流动都从早期的普遍干涉，发展到后来的放松管制，再到倡导自由流动。“请进来”和“走出去”已经成为世界的潮流。事实上，劳动力的流动率，相对于资本、技术而言，是远远落后的。因此，有必要促进人才流动，对其权利给予保障，实行开放的政策。
-----QUESTION-----
目前人才流动的大趋势是什么?
-----OPTIONS-----
    A: 总体流向亚洲
    B: 总体流向发达国家
    C: 总体流向新兴国家
    D: 已经发生了根本变化
-----ANSWER-----
    B: 总体流向发达国家


# Some Statistics

In [7]:
print('statistics of C3')
train = train_m + train_d
train_stats_df = pd.DataFrame({
    'doc length': [len(''.join(e.sentences)) for e in train],
    'qas length': [len(e.question) for e in train],
    'num of opts': [len(e.options) for e in train],
})
train_stats_df.describe()

statistics of C3


Unnamed: 0,doc length,qas length,num of opts
count,11869.0,11869.0,11869.0
mean,222.263207,12.264555,3.788609
std,231.829301,4.165166,0.509814
min,10.0,3.0,2.0
25%,48.0,9.0,4.0
50%,96.0,12.0,4.0
75%,349.0,14.0,4.0
max,1540.0,56.0,4.0


# RandomBot & CountBot

In [8]:
def test_bot(bot, fn):
    correct_examples = []
    incorrect_examples = []
    for e in utils.get_all_C3examples(fn):
        pred = bot(e)
        if pred == e.label:
            correct_examples.append(e)
        else:
            incorrect_examples.append(e)
    return correct_examples, incorrect_examples

In [9]:
print('-----Random Bot-----')
bot = utils.RandomBot()

dev_acc = []
for _ in range(10):
    l1, l2 = test_bot(bot, os.path.join(D.DATADIR, 'c3-m-dev.json'))
    l3, l4 = test_bot(bot, os.path.join(D.DATADIR, 'c3-d-dev.json'))
    dev_acc.append(len(l1+l3)/len(l1+l2+l3+l4))

test_acc = []
for _ in range(10):
    l1, l2 = test_bot(bot, os.path.join(D.DATADIR, 'c3-m-test.json'))
    l3, l4 = test_bot(bot, os.path.join(D.DATADIR, 'c3-d-test.json'))
    test_acc.append(len(l1+l3)/len(l1+l2+l3+l4))

print('Acc on Dev:  {:.1%}'.format(np.mean(dev_acc)))
print('Acc on Test: {:.1%}'.format(np.mean(test_acc)))

-----Random Bot-----
Acc on Dev:  27.2%
Acc on Test: 27.4%


In [10]:
print('-----Count Bot-----')
bot = utils.CountBot()

dev_acc = []
for _ in range(10):
    l1, l2 = test_bot(bot, os.path.join(D.DATADIR, 'c3-m-dev.json'))
    l3, l4 = test_bot(bot, os.path.join(D.DATADIR, 'c3-d-dev.json'))
    dev_acc.append(len(l1+l3)/len(l1+l2+l3+l4))

test_acc = []
for _ in range(10):
    l1, l2 = test_bot(bot, os.path.join(D.DATADIR, 'c3-m-test.json'))
    l3, l4 = test_bot(bot, os.path.join(D.DATADIR, 'c3-d-test.json'))
    test_acc.append(len(l1+l3)/len(l1+l2+l3+l4))

print('Acc on Dev:  {:.1%}'.format(np.mean(dev_acc)))
print('Acc on Test: {:.1%}'.format(np.mean(test_acc)))

-----Count Bot-----
Acc on Dev:  33.7%
Acc on Test: 34.4%
