In [None]:
# change the cell width
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

In [None]:
import json
import pandas as pd
from bs4 import BeautifulSoup
from xml.etree import cElementTree as ET

## API 获取数据

[Google 地图 API 演示](http://www.runoob.com/try/try.php?filename=tryhtml_map_first)

## XML 与 HTML
### XML 文件
不论是 XML 还是 HTML 首先需要理解文件结构：

```{xml}
<?xml version="1.0"?>
<data>
  <country name="Liechtenstein">
    <rank>1</rank>
    <year>2008</year>
    <gdppc>141100</gdppc>
    <neighbor name="Austria" direction="E"/>
    <neighbor name="Switzerland" direction="W"/>
  </country>
  <country name="Singapore">
    <rank>4</rank>
    <year>2011</year>
    <gdppc>59900</gdppc>
    <neighbor name="Malaysia" direction="N"/>
  </country>
  <country name="Panama">
    <rank>68</rank>
    <year>2011</year>
    <gdppc>13600</gdppc>
    <neighbor name="Costa Rica" direction="W"/>
    <neighbor name="Colombia" direction="E"/>
  </country>
</data>

```
需要在理解文件的结构的基础上，去解析数据内容。获取数据的过程中，需要注意 `attribute-value` 和 `text` 两个属性。因此对于 xml 文件读取过程中，注意使用 `getroot()`, `getchildren()` 等方法来访问文件相应的标签，以及使用 `attrib`， `text`来获取相应的数值——前者得到的是一个字典样式的数据，后者是一个数据值

In [None]:
# 通过 parse 方法来解析文件
tree = ET.parse("./data/country_data.xml")

In [None]:
# 通过 getroot 获取数据的 root，这样得到完整的数据
root = tree.getroot()

print("Get the root:\n", root)

In [None]:
for child in root.getchildren():
    # country 的属性 name 是对应的值，没有其他 text 值
    print("Attribute country:\t", child.attrib)
    for low_child in child.findall("year"):
        # 在每个 country 下，year 有相应的 text 值，而无其他属性值
        print("Country year:\t", low_child.text)

### HTML 文件
HTML 文件在结构上和 XML 相似，所以这里不再讲解关于结构上的问题，而主要关注 HTML 中的三个重要的三个，Element、Tag 以及 Attribute，关于三者的内容可以从下图中去了解：
![](https://www.techfry.com/images/php/html-element.gif)
其中 Attribute 部分需要注意使用 Class 和 ID 进行元素筛选时——ID 具有唯一性，使用 `find_all()`, `find()` 等方法——需要注意传入参数；在进行节点选择时，使用 `find_parents()`, `find_parent()`, `find_next_sibling()` , `next_siblings`, `previous_element` 等方法或者属性进行遍历或者搜索，详情参考 [Beautiful Soup 文档](https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html)

In [None]:
from pprint import pprint

In [None]:
with open("./data/beautifule.html", "r") as file:
    soup = BeautifulSoup(file, "lxml")

In [None]:
internal_link = soup.find_all("a", class_="reference internal")
internal_link

In [None]:
internal_link[0].text

In [None]:
# 获取属性值
internal_link[0].attrs

In [None]:
# 使用 ID 值筛选
encoding_id = soup.find_all(id="encodings")
len(encoding_id)

In [None]:
encoding_id[0].contents

## Json 文件
首先来了解 json 文件的结构，json 有存储形式存在差异，下面是以 array 和 字典形式（即 **records** 形式存储）——` [{column -> value}, ... , {column -> value}]`
```{json}
[
    {
        "Team Name": "Leicester City",
        "Wins": 23,
        "Draws": 12,
        "Losses": 3
    },
    {
        "Team Name": "Arsenal",
        "Wins": 20,
        "Draws": 11,
        "Losses": 7
    }
]
```
此外还有以字典嵌套形式（即 **index** ——`{index -> {column -> value}}` 或者 **columns** ——`{column -> {index -> value}}` 形式存储）
```{json}
{
    "Draws": {
        "0": 11,
        "1": 13,
    },
    "Losses": {
        "0": 7,
        "1": 6,
    },
    "Team Name": {
        "0": "Arsenal",
        "1": "Tottenham Hotspur",
    },
    "Wins": {
        "0": 20,
        "1": 19,
    }
}
```

In [None]:
filename = "./data/league.json"

In [None]:
df = pd.read_json(filename, orient="record")

In [None]:
df.head()

### json 库处理文件
对于数据结构整齐的数据，可以直接通过 pandas 的 read_json 方法来获取。对于数据结构不整齐或者想要获得指定的数据，那么可以参考访问字典的方式现将数据筛选出来之后再进行相关的处理。下面将进行指定数据提取的方式获取数据

In [None]:
with open(filename, "r") as file:
    print(type(file))
    data = json.load(file)

In [None]:
with open(filename, "r") as file:
    raw_data = file.read()
    print(type(raw_data), raw_data)
    data = json.loads(raw_data)

In [None]:
data

In [None]:
data_selected = dict()

for i in data:
    

## 正则表达式

通过一定的规则来描述或匹配字符串。所以在使用正则表达式过程中需要了解创建模式的基本符号——  `\w \W \d \D \s \S \t \r \n {} [] * + .`

### Word
* `\w` 用于匹配字符、数字以及 _
* `\W` 用于匹配不符合 `\w` 的字符

In [None]:
import re

In [None]:
text = "\\1word_ s\tt\nn"

def single_reg_search(pattern, text=text):
    pattern = re.compile(pattern)
    group = pattern.search(text)
    
    print(group.group())

In [None]:
# \w 的匹配
text = "\\1word_ s\tt\nn"

single_reg_search(r"\w", text)

In [None]:
# \W 的匹配
text = "\\1word_ s\tt\nn"
single_reg_search(r"\W", text)

### Digit
* `\d` 用于匹配数字，包括 0 到 9
* `\D` 用于匹配非数字

In [None]:
# \d 的匹配
text = "\\1word_ s\tt\nn"
single_reg_search(r"\d", text)

In [None]:
# \D 的匹配
text = "\\1word_ s\tt\nn"
single_reg_search(r"\D", text)

### Space And New Line

* ` ` 匹配空格
* `\t` 匹配一个 Tab 键位
* `\n` 匹配换行符
* `\s` 匹配空格、`\t`、`\n`
* `\S` 匹配非 `\s`

In [None]:
# 匹配 \t
text = "\\1word_ s\tt\nn"
single_reg_search(r"\t\w", text)

In [None]:
# 匹配 \n
text = "\\1word_ s\tt\nn"
single_reg_search(r"\n\w", text)

In [None]:
# 匹配 \s
text = "\\1word_ s\tt\nn"
single_reg_search(r"\s\w", text)

In [None]:
# 匹配 \S
text = "\\1word_ s\tt\nn"
single_reg_search(r"\S")

### 其他标识符

* `[]` 表示匹配的范围
* `{}` 表示匹配的数量
* `()` 构造一个组
* `？` 表示匹配零次和一次
* `+` 表示匹配一次或者多次
* `*` 表示零次或者多次
* `|` 表示 `|` 前后两种情况均可以使用
* `^` 有两种功能，一种是表示从行首；另一种是结合其他标识符，表示否定 `[^aeiou]`表示不筛选元音字符
* `$` 表示行尾

In [None]:
# 匹配元音字母
text = "\\1word_ s\tt\nn"

pattern = re.compile(r'[aeiou]')
pattern.search(text).group()

In [None]:
# 匹配多个字符

text = "\\1word_ s\tt\nn"

# 匹配一个
pattern = re.compile(r'\w{1}')
pattern.search(text).group()

In [None]:
# 匹配至少一个
pattern = re.compile(r'\w{1,}')
pattern.search(text).group()

In [None]:
# 匹配一个或者三个
pattern = re.compile(r'\w{1,3}')
pattern.search(text).group()

In [None]:
# 使用 + 匹配一次或者多次——解决示例，提取数据值
text = r"word 121\23.4 \t\s"
pattern = re.compile(r"\d+.*\d")

pattern.search(text).group()

In [None]:
pattern.groups

### 搜索方法
在使用 re 库时，可以通过 `search()`, `match()`, `findall()` 进行搜索匹配；使用 `group(n)` 方法可以返回指定匹配字符。此外需要注意一下，`findall()` 方法返回的结果是一个列表

In [None]:
# match 是表示从头开始搜索
text = r"word 121\23.4 \t\s"
pattern = re.compile(r"\d+.*\d")

print(pattern.match(text))

In [None]:
# search 表示完整搜索
text = r"word 121\23.4 \t\s"
pattern = re.compile(r"\d+.*\d")

pattern.search(text).group()

In [None]:
# 使用 findall 方法搜索
text = r"word 121\23.4 \t\s"
pattern = re.compile(r"\d+.*\d")

pattern.findall(text)

#### 组合方法使用
正则表达式的强大功能在于将以上标识符和其他字符组合使用，这样构造出强大的模式以此来进行筛选或者替换等工作。此外需要注意，在使用 `compile()` 方法时，可以传入 `re.IGNORECASE` 来表示忽略大小写

In [None]:
text = r"wordWORD 121\23.4 \t\s"

pattern = re.compile(r"(word)+", re.IGNORECASE)

pattern.search(text).group()

In [None]:
# 使用 findall 方法搜索，仅提取出数字
text = r"word 121\23.4 \t\s"
pattern = re.compile(r"(\d+\.?\d+)")

pattern.findall(text)