## 任务说明

- 任务主题：论文代码统计，统计所有论文出现代码的相关统计；
- 任务内容：使用正则表达式统计代码连接、页数和图表数据；
- 任务成果：学习正则表达式统计；

## 数据处理步骤

在原始arxiv数据集中作者经常会在论文的`comments`或`abstract`字段中给出具体的代码链接，所以我们需要从这些字段里面找出代码的链接。

- 确定数据出现的位置；
- 使用正则表达式完成匹配；
- 完成相关的统计；

## 正则表达式

正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

#### 普通字符：大写和小写字母、所有数字、所有标点符号和一些其他符号

| 字符       | 描述                                                         |
| ---------- | ------------------------------------------------------------ |
| **[ABC]**  | 匹配 [...] 中的所有字符，例如 [aeiou] 匹配字符串 "google runoob taobao" 中所有的 e o u a 字母。 |
| **[^ABC]** | 匹配除了 **[...]** 中字符的所有字符，例如 **[^aeiou]** 匹配字符串 "google runoob taobao" 中除了 e o u a 字母的所有字母。 |
| **[A-Z]**  | [A-Z] 表示一个区间，匹配所有大写字母，[a-z] 表示所有小写字母。 |
| .          | 匹配除换行符（\n、\r）之外的任何单个字符，相等于 **[^\n\r]**。 |
| **[\s\S]** | 匹配所有。\s 是匹配所有空白符，包括换行，\S 非空白符，包括换行。 |
| **\w**     | 匹配字母、数字、下划线。等价于 [A-Za-z0-9_]                  |

#### 特殊字符：有特殊含义的字符

| 特别字符 | 描述                                                         |
| :------- | :----------------------------------------------------------- |
| ( )      | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 \( 和 \)。 |
| *        | 匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 \*。     |
| +        | 匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 \+。     |
| .        | 匹配除换行符 \n 之外的任何单字符。要匹配 . ，请使用 \. 。    |
| [        | 标记一个中括号表达式的开始。要匹配 [，请使用 \[。            |
| ?        | 匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 \?。 |
| \        | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\"，而 '\(' 则匹配 "("。 |
| ^        | 匹配输入字符串的开始位置，除非在方括号表达式中使用，当该符号在方括号表达式中使用时，表示不接受该方括号表达式中的字符集合。要匹配 ^ 字符本身，请使用 \^。 |
| {        | 标记限定符表达式的开始。要匹配 {，请使用 \{。                |
| \|       | 指明两项之间的一个选择。要匹配 \|，请使用 \|。               |

#### 限定符

| 字符  | 描述                                                         |
| :---- | :----------------------------------------------------------- |
| *     | 匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。 |
| +     | 匹配前面的子表达式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。 |
| ?     | 匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do" 。? 等价于 {0,1}。 |
| {n}   | n 是一个非负整数。匹配确定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。 |
| {n,}  | n 是一个非负整数。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 |
| {n,m} | m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 |

## 具体代码实现以及讲解

首先我们来统计论文页数，也就是在`comments`字段中抽取pages和figures和个数，首先完成字段读取。


In [None]:
#正则表达式常用例子
'''
首先，从最基础的正则表达式说起。
假设我们的想法是把一个字符串中的所有"python"给匹配到。我们试一试怎么做
'''
import re

key = r"javapythonhtmlvhdl"#这是源文本
p1 = r"python"#这是我们写的正则表达式
pattern1 = re.compile(p1)#同样是编译
matcher1 = re.search(pattern1,key)#同样是查询
print(matcher1.group(0))

In [None]:
############初级####
import re

key = r"<h1>hello world<h1>"#源文本
p1 = r"<h1>.+<h1>"#我们写的正则表达式，下面会将为什么
pattern1 = re.compile(p1)
print(pattern1.findall(key))#发没发现，我怎么写成findall了？咋变了呢？


.字符在正则表达式代表着可以代表任何一个字符（包括它本身）


In [None]:
import re

key = r"afiouwehrfuichuxiuhong@xxx.edu.cnaskdjhfiosueh"
p1 = r"chuxiuhong@xxx\.edu\.cn"
pattern1 = re.compile(p1)
print(pattern1.findall(key))

.字符在正则表达式代表着可以代表任何一个字符（包括它本身）”，但是"hello world"可不是一个字符啊。
+的作用是将前面一个字符或一个子表达式重复一遍或者多遍。
比方说表达式“ab+”那么它能匹配到“abbbbb”，但是不能匹配到"a"，它要求你必须得有个b，多了不限，少了不行。你如果问我有没有那种“有没有都行，有多少都行的表达方式”，回答是有的。
*跟在其他符号后面表达可以匹配到它0次或多次


In [None]:
import re

key = r"http://www.nsfbuhwe.com and https://www.auhfisna.com"#胡编乱造的网址，别在意
p1 = r"https*://"#看那个星号！
pattern1 = re.compile(p1)
print(pattern1.findall(key))

2.比方说我们有这么一个字符串"cat hat mat qat"，如果你本来就知道"at"前面是c、h、m其中之一时这才构成单词，你想把这样的匹配出来。
[]代表匹配里面的字符中的任意一个
还是举个栗子，我们发现啊，有的程序员比较过分，，在<html></html>这对标签上，大小写混用，

In [None]:
import re

key = r"lalala<hTml>hello</Html>heiheihei"
p1 = r"<[Hh][Tt][Mm][Ll]>.+?</[Hh][Tt][Mm][Ll]>"
pattern1 = re.compile(p1)
print(pattern1.findall(key) )

我们既然有了范围性的匹配，自然有范围性的排除。

[^]代表除了内部包含的字符以外都能匹配
还是cat,hat,mat,qat这个例子，我们想匹配除了qat以外的，那么就应该这么写：

In [None]:
import re

key = r"mat cat hat pat"
p1 = r"[^p]at"#这代表除了p以外都匹配
pattern1 = re.compile(p1)
print( pattern1.findall(key))

3..+?  与 .+区别

In [None]:
import re

key = r"chuxiuhong@hit.edu.cn"
p1 = r"@.+\."#我想匹配到@后面一直到“.”之间的，在这里是hit
pattern1 = re.compile(p1)
print(pattern1.findall(key))

In [None]:
import re

key = r"chuxiuhong@hit.edu.cn"
p1 = r"@.+?\."#我想匹配到@后面一直到“.”之间的，在这里是hit
pattern1 = re.compile(p1)
print(pattern1.findall(key))

加了一个“?”我们就将贪婪的“+”改成了懒惰的“+”。这对于[abc]+,\w*之类的同样适用。

小测验：上面那个例子可以不使用懒惰匹配，想一种方法得到同样的结果

个人建议：在你使用"+","*"的时候，一定先想好到底是用贪婪型还是懒惰型，尤其是当你用到范围较大的项目上时，因为很有可能它就多匹配字符回来给你！！！

为了能够准确的控制重复次数，正则表达式还提供
{a,b}(代表a<=匹配次数<=b)

In [None]:
import re

key = r"saas and sas and saaas"
p1 = r"sa{1,2}s"
pattern1 = re.compile(p1)
print(pattern1.findall(key))


In [None]:
import re
key = "A. S. Mishchenko (1 and 2) and N. Nagaosa (1 and 3) ((1) CREST, Japan\n  Science and Technology Agency, (2) Russian Research Centre ``Kurchatov\n  Institute'', (3) The University of Tokyo)"
p1 = r"[(].*?[)]"#我想匹配到@后面一直到“.”之间的，在这里是hit
pattern1 = re.compile(p1)
print(pattern1.findall(key))

In [None]:
#例子：将字符串切分处理
import re
#把括号内的内容替换为空
t="A. S. Mishchenko (1 and 2) and N. Nagaosa (1 and 3) ((1) CREST, Japan\n  Science and Technology Agency, (2) Russian Research Centre ``Kurchatov\n  Institute'', (3) The University of Tokyo)"
#t='Peter Brommer and Franz G\\"ahler (Institut f\\"ur Theoretische und\n  Angewandte Physik, Universit\\"at Stuttgart)'
#删除\n
t1=re.sub(r"[\n]", "",t)
#删除((。。。。)内容
t1=re.sub(r"[(]{2}(.*?)[)]$", "",t1)
#删除()内容
t1=re.sub(r"[(](.*?)[)]", "",t1)
r1=[]
#切分 ， and 两种情况切分
t2=re.split(",| and ",t1)
for j in range(len(t2)):
    temp=re.split(" ",str.strip(t2[j]))
    temp = temp[-1:] + temp[:-1]
#    print(temp)  
    r1.append(temp)

r1

解释一下：
1.正则匹配串前加了r就是为了使得里面的特殊符号不用写反斜杠了。

2.[ ]具有去特殊符号的作用,也就是说[(]里的(只是平凡的括号

3.正则匹配串里的()是为了提取整个正则串中符合括号里的正则的内容

.是为了表示除了换行符的任一字符。*克林闭包，出现0次或无限次。

加了？是最小匹配，不加是贪婪匹配。

re.S是为了让.表示除了换行符的任一字符。

PS：这里再为大家提供2款非常方便的正则表达式工具供大家参考使用：

In [None]:
# 导入所需的package
import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式，匹配字符串的模式
import requests #用于网络连接，发送网络请求，使用域名获取对应信息
import json #读取数据，我们的数据为json格式的
import pandas as pd #数据处理，数据分析
import matplotlib.pyplot as plt #画图工具

In [None]:
def readArxivFile(path, columns=['id', 'submitter', 'authors', 'title', 'comments', 'journal-ref', 'doi',
       'report-no', 'categories', 'license', 'abstract', 'versions',
       'update_date', 'authors_parsed'], count=None):
    '''
    定义读取文件的函数
        path: 文件路径
        columns: 需要选择的列
        count: 读取行数
    '''
    
    data  = []
    with open(path, 'r') as f: 
        for idx, line in enumerate(f): 
            if idx == count:
                break
                
            d = json.loads(line)
            d = {col : d[col] for col in columns}
            data.append(d)

    data = pd.DataFrame(data)
    return data

#data = readArxivFile('/kaggle/input/arxiv/arxiv-metadata-oai-snapshot.json', ['id', 'abstract', 'categories', 'comments'])
#data = readArxivFile('/kaggle/input/arxiv/arxiv-metadata-oai-snapshot.json')
data = readArxivFile('/kaggle/input/arxiv/arxiv-metadata-oai-snapshot.json',['id', 'submitter', 'authors', 'title', 'comments', 'journal-ref', 'doi',
       'report-no', 'categories', 'license', 'abstract', 'versions',
       'update_date', 'authors_parsed'])
data

对pages进行抽取：

In [None]:
# 使用正则表达式匹配，XX pages
data['pages'] = data['comments'].apply(lambda x: re.findall('[1-9][0-9]* pages', str(x)))

# 筛选出有pages的论文
data = data[data['pages'].apply(len) > 0]

# 由于匹配得到的是一个list，如['19 pages']，需要进行转换
data['pages'] = data['pages'].apply(lambda x: float(x[0].replace(' pages', '')))

对pages进行统计，统计结果如下：论文平均的页数为17页，75%的论文在22页以内，最长的论文有11232页。

In [None]:
data['pages'].describe().astype(int)

接下来按照分类统计论文页数，选取了论文的第一个类别的主要类别：

In [None]:
# 选择主要类别
data['categories'] = data['categories'].apply(lambda x: x.split(' ')[0])
data['categories'] = data['categories'].apply(lambda x: x.split('.')[0])

# 每类论文的平均页数
plt.figure(figsize=(12, 6))
data.groupby(['categories'])['pages'].mean().plot(kind='bar')


接下来对论文图表个数进行抽取：

In [None]:
data['figures'] = data['comments'].apply(lambda x: re.findall('[1-9][0-9]* figures', str(x)))
data = data[data['figures'].apply(len) > 0]
data['figures'] = data['figures'].apply(lambda x: float(x[0].replace(' figures', '')))

最后我们对论文的代码链接进行提取，为了简化任务我们只抽取github链接：


In [None]:
# 筛选包含github的论文
data_with_code = data[
    (data.comments.str.contains('github')==True)|
                      (data.abstract.str.contains('github')==True)
]
data_with_code['text'] = data_with_code['abstract'].fillna('') + data_with_code['comments'].fillna('')

# 使用正则表达式匹配论文
pattern = '[a-zA-z]+://github[^\s]*'
data_with_code['code_flag'] = data_with_code['text'].str.findall(pattern).apply(len)

并对论文按照类别进行绘图：

In [None]:
data_with_code = data_with_code[data_with_code['code_flag'] == 1]
plt.figure(figsize=(12, 6))
data_with_code.groupby(['categories'])['code_flag'].count().plot(kind='bar')

In [None]:
#选择近2年的数据
#我们的任务要求对于2019年以后的paper进行分析，所以首先对于时间特征进行预处理，从而得到2019年以后的所有种类的论文：

data["year"] = pd.to_datetime(data["update_date"]).dt.year #将update_date从例如2019-02-20的str变为datetime格式，并提取处year
del data["update_date"] #删除 update_date特征，其使命已完成


In [None]:
# 选择时间从2019年以后的下面的论文
data2 = data[(data['year'].apply(lambda x: x>=2019)) & (data['journal-ref'].isnull()==False)]
data2.reset_index()

In [None]:
data2['categories'].value_counts()

In [None]:
data['categories'].value_counts()