# Math23k Analysis Report

## Data Description
| Field             | Annotation                                          |
| --------          | --------------------------------------------------- |
| id                | Id of the problem |
| original_text	    | Original text of the problem |
| equation          | Solution to the problem |
| segmented_text    | Chinese word segmentation of the problem |


In [1]:
import numpy as np
import pandas as pd
import jieba

import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objs as go

In [2]:
path = "../raw_data/math23k/raw/train23k.json"

data = pd.read_json(path, orient='records')

## Record Examples

In [3]:
data.head()

Unnamed: 0,id,original_text,equation,segmented_text
0,946,甲数除以乙数的商是1.5，如果甲数增加20，则甲数是乙的4倍．原来甲数=．,x=20/(4-1.5)*1.5,甲 数 除以 乙 数 的 商 是 1.5 ， 如果 甲 数 增加 20 ， 则 甲 数 是 ...
1,21227,客车和货车分别从A、B两站同时相向开出，5小时后相遇．相遇后，两车仍按原速度前进，当它们相距...,x=196/(80%+((3)/(3+2))-1),客车 和 货车 分别 从 A 、 B 两站 同时 相向 开出 ， 5 小时 后 相遇 ． 相...
2,16892,图书角有书30本，第一天借出了(1/5)，第二天又还回5本，现在图书角有多少本书？,x=30*(1-(1/5))+5,图书 角 有 书 30 本 ， 第一天 借出 了 (1/5) ， 第 二 天 又 还 回 5...
3,8502,甲、乙两车同时从相距230千米的两地相向而行，3小时后两车还相距35千米．已知甲车每小时行4...,x=(230-35)/3-48,甲 、 乙 两车 同时 从 相距 230 千米 的 两地 相向 而 行 ， 3 小时 后 两...
4,23021,果园里有苹果树300棵，比桔树多20%，桔树有多少棵？,x=300/(1+20%),果园 里 有 苹果树 300 棵 ， 比 桔树 多 20% ， 桔树 有 多少 棵 ？


In [4]:
data.describe()

Unnamed: 0,id
count,21162.0
mean,11591.289434
std,6692.866886
min,1.0
25%,5801.25
50%,11579.5
75%,17383.75
max,23162.0


## The number of problems

In [5]:
len(data['id'].unique())

21162

## Part of missing values for every column

In [6]:
data.isnull().sum() / len(data)

id                0.0
original_text     0.0
equation          0.0
segmented_text    0.0
dtype: float64

In [7]:
def cut_word(text):
    return jieba.lcut(text)
data['content']=data['original_text'].apply(cut_word)
data.head()

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\THY\AppData\Local\Temp\jieba.cache
Loading model cost 0.821 seconds.
Prefix dict has been built succesfully.


Unnamed: 0,id,original_text,equation,segmented_text,content
0,946,甲数除以乙数的商是1.5，如果甲数增加20，则甲数是乙的4倍．原来甲数=．,x=20/(4-1.5)*1.5,甲 数 除以 乙 数 的 商 是 1.5 ， 如果 甲 数 增加 20 ， 则 甲 数 是 ...,"[甲数, 除以, 乙数, 的, 商是, 1.5, ，, 如果, 甲数, 增加, 20, ，,..."
1,21227,客车和货车分别从A、B两站同时相向开出，5小时后相遇．相遇后，两车仍按原速度前进，当它们相距...,x=196/(80%+((3)/(3+2))-1),客车 和 货车 分别 从 A 、 B 两站 同时 相向 开出 ， 5 小时 后 相遇 ． 相...,"[客车, 和, 货车, 分别, 从, A, 、, B, 两站, 同时, 相向, 开出, ，,..."
2,16892,图书角有书30本，第一天借出了(1/5)，第二天又还回5本，现在图书角有多少本书？,x=30*(1-(1/5))+5,图书 角 有 书 30 本 ， 第一天 借出 了 (1/5) ， 第 二 天 又 还 回 5...,"[图书, 角有, 书, 30, 本, ，, 第一天, 借出, 了, (, 1, /, 5, ..."
3,8502,甲、乙两车同时从相距230千米的两地相向而行，3小时后两车还相距35千米．已知甲车每小时行4...,x=(230-35)/3-48,甲 、 乙 两车 同时 从 相距 230 千米 的 两地 相向 而 行 ， 3 小时 后 两...,"[甲, 、, 乙, 两车, 同时, 从, 相距, 230, 千米, 的, 两地, 相向, 而..."
4,23021,果园里有苹果树300棵，比桔树多20%，桔树有多少棵？,x=300/(1+20%),果园 里 有 苹果树 300 棵 ， 比 桔树 多 20% ， 桔树 有 多少 棵 ？,"[果园, 里, 有, 苹果树, 300, 棵, ，, 比, 桔树, 多, 20%, ，, 桔..."


## Count of words of problems

In [8]:
def getsize(ser):
    return len(ser)

data['word_count']=data['content'].apply(getsize)
data.head()

Unnamed: 0,id,original_text,equation,segmented_text,content,word_count
0,946,甲数除以乙数的商是1.5，如果甲数增加20，则甲数是乙的4倍．原来甲数=．,x=20/(4-1.5)*1.5,甲 数 除以 乙 数 的 商 是 1.5 ， 如果 甲 数 增加 20 ， 则 甲 数 是 ...,"[甲数, 除以, 乙数, 的, 商是, 1.5, ，, 如果, 甲数, 增加, 20, ，,...",24
1,21227,客车和货车分别从A、B两站同时相向开出，5小时后相遇．相遇后，两车仍按原速度前进，当它们相距...,x=196/(80%+((3)/(3+2))-1),客车 和 货车 分别 从 A 、 B 两站 同时 相向 开出 ， 5 小时 后 相遇 ． 相...,"[客车, 和, 货车, 分别, 从, A, 、, B, 两站, 同时, 相向, 开出, ，,...",63
2,16892,图书角有书30本，第一天借出了(1/5)，第二天又还回5本，现在图书角有多少本书？,x=30*(1-(1/5))+5,图书 角 有 书 30 本 ， 第一天 借出 了 (1/5) ， 第 二 天 又 还 回 5...,"[图书, 角有, 书, 30, 本, ，, 第一天, 借出, 了, (, 1, /, 5, ...",28
3,8502,甲、乙两车同时从相距230千米的两地相向而行，3小时后两车还相距35千米．已知甲车每小时行4...,x=(230-35)/3-48,甲 、 乙 两车 同时 从 相距 230 千米 的 两地 相向 而 行 ， 3 小时 后 两...,"[甲, 、, 乙, 两车, 同时, 从, 相距, 230, 千米, 的, 两地, 相向, 而...",38
4,23021,果园里有苹果树300棵，比桔树多20%，桔树有多少棵？,x=300/(1+20%),果园 里 有 苹果树 300 棵 ， 比 桔树 多 20% ， 桔树 有 多少 棵 ？,"[果园, 里, 有, 苹果树, 300, 棵, ，, 比, 桔树, 多, 20%, ，, 桔...",17


In [9]:
cnt = data['word_count'].value_counts().reset_index()
cnt.columns = [ 'word_count' , 'problem_count']

fig = px.bar(
    cnt , x = 'word_count', y = 'problem_count' ,
    title = 'The length of problems'
)
fig.show()

## delete stopword

In [10]:
def get_stopword():
    s = set()
    with open("../raw_data/stopword/stopword.txt","r",encoding="UTF-8") as f:
        for line in f:
            s.add(line.strip())
    return s

def delete_stopword(words):
    return [w for w in words if w not in stopword]

stopword=get_stopword()
data['content']=data['content'].apply(delete_stopword)
data.head()

Unnamed: 0,id,original_text,equation,segmented_text,content,word_count
0,946,甲数除以乙数的商是1.5，如果甲数增加20，则甲数是乙的4倍．原来甲数=．,x=20/(4-1.5)*1.5,甲 数 除以 乙 数 的 商 是 1.5 ， 如果 甲 数 增加 20 ， 则 甲 数 是 ...,"[甲数, 除以, 乙数, 商是, 1.5, 甲数, 增加, 20, 甲数, 乙, 倍, 甲数]",24
1,21227,客车和货车分别从A、B两站同时相向开出，5小时后相遇．相遇后，两车仍按原速度前进，当它们相距...,x=196/(80%+((3)/(3+2))-1),客车 和 货车 分别 从 A 、 B 两站 同时 相向 开出 ， 5 小时 后 相遇 ． 相...,"[客车, 货车, A, B, 两站, 相向, 开出, 小时, 相遇, 相遇, 两车, 按原,...",63
2,16892,图书角有书30本，第一天借出了(1/5)，第二天又还回5本，现在图书角有多少本书？,x=30*(1-(1/5))+5,图书 角 有 书 30 本 ， 第一天 借出 了 (1/5) ， 第 二 天 又 还 回 5...,"[图书, 角有, 书, 30, 第一天, 借出, 第二天, 回, 图书, 角有, 本书]",28
3,8502,甲、乙两车同时从相距230千米的两地相向而行，3小时后两车还相距35千米．已知甲车每小时行4...,x=(230-35)/3-48,甲 、 乙 两车 同时 从 相距 230 千米 的 两地 相向 而 行 ， 3 小时 后 两...,"[甲, 乙, 两车, 相距, 230, 千米, 两地, 相向, 而行, 小时, 两车, 相距...",38
4,23021,果园里有苹果树300棵，比桔树多20%，桔树有多少棵？,x=300/(1+20%),果园 里 有 苹果树 300 棵 ， 比 桔树 多 20% ， 桔树 有 多少 棵 ？,"[果园, 里, 苹果树, 300, 棵, 桔树, 20%, 桔树, 棵]",17


## Evaluate difficulty

In [11]:
def calc_difficulty(equation):
    difficulty = 0

    def eval(x):
        if x == '+' : return 2
        elif x == '-' : return 3
        elif x == '*' : return 5
        elif x == '/' : return 8
        elif x == '(' : return 8
        elif x == '%' : return 5
        else : return 0

    for w in equation:
        difficulty += eval(w)
    return difficulty


data['difficulty']=data['equation'].apply(calc_difficulty)

cnt = data['difficulty'].value_counts().reset_index()
cnt.columns = [ 'difficulty' , 'problem_count']

fig = px.bar(
    cnt , x = 'difficulty', y = 'problem_count' ,
    title = 'The difficulty of problems'
)
fig.show()

## The most difficult problems

In [12]:
tmp = data[['id','original_text','difficulty']]
tmp = tmp.sort_values(['difficulty']).tail(10)
tmp ['id'] = tmp['id'] . astype(str)
fig = px.bar(
    tmp , x = 'difficulty', y = 'id' ,
    orientation = 'h',
    title = 'The difficulty of problems'
)
fig.show()