XML（可扩展标记语言eXtensible Markup Language）是一种用于标记电子文档结构的标记语言。它被设计用来传输和存储数据，同时具有自我描述性和可扩展性。下面我将简要解释XML的一些关键概念
![xml](./assets/xml.png)

1. **定义**：XML是一种标记语言，用于描述数据的结构和内容。它由一系列标签组成，这些标签定义了数据的层次结构和关系。

2. **Tags（标签）**：XML文档由标签组成，标签用尖括号（< >）括起来，通常成对出现，包括开始标签和结束标签。例如，`<book>`是一个开始标签，`</book>`是一个结束标签。

3. **Attributes（属性）**：标签可以包含属性，属性提供有关元素的额外信息。属性位于开始标签中，并以键值对的形式出现。例如，`<book id="001">`中的`id`就是一个属性。

4. **序列化和反序列化**：序列化是将数据结构或对象转换为XML格式的过程，而反序列化是将XML数据转换回原始数据结构或对象的过程。

举例说明：

假设我们有一个简单的XML文档，描述几本书的信息：

```xml
<library>
    <book id="001">
        <title>Harry Potter and the Sorcerer's Stone</title>
        <author>J.K. Rowling</author>
        <year>1997</year>
    </book>
    <book id="002">
        <title>The Great Gatsby</title>
        <author>F. Scott Fitzgerald</author>
        <year>1925</year>
    </book>
</library>
```

在这个例子中：
- `<library>`是根元素。
- `<book>`是子元素，具有一个`id`属性。
- `<title>`、`<author>`和`<year>`是子元素，包含书籍的标题、作者和出版年份信息。
  
这个XML文档可以被序列化为一个字符串，例如用于网络传输或存储。反之，反序列化则是将这个XML字符串转换回数据结构，以便在程序中使用。

总的来说，XML是一种灵活且强大的数据表示格式，被广泛用于数据交换和存储，特别是在Web开发和数据传输方面。

In [2]:
import xml.etree.ElementTree as ET
data = '''
<person>
    <name>Chuck</name>
    <phone type="intl">
        +1 734 303 4456
    </phone>
    <email hide="yes"/>
</person>
'''
input_xml = '''
<stuff>
    <users>
        <user x="2">
            <id>001</id>
            <name>Chuck</name>
        </user>
        <user x="7">
            <id>009</id>
            <name>Brent</name>
        </user>
    </users>
</stuff>
'''
tree = ET.fromstring(data)
stuff = ET.fromstring(input_xml)
lst = stuff.findall('users/user')
print('User count:', len(lst))
for item in lst:
    print('Name:', item.find('name').text)
    print('Id:', item.find('id').text)
    print('Attribute:', item.get('x'))

print('Name:', tree.find('name').text)
print('Attr:', tree.find('email').get('hide'))

User count: 2
Name: Chuck
Id: 001
Attribute: 2
Name: Brent
Id: 009
Attribute: 7
Name: Chuck
Attr: yes


XML Schema（XML Schema Definition, XSD）是一种用于描述和验证XML文档结构的语言。它定义了XML文档中元素的结构、数据类型和约束。以下是一个简单的XML Schema示例，用于描述一个包含学生信息的XML文档：

```xml
<?xml version="1.0" encoding="UTF-8"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">

  <xs:element name="student">
    <xs:complexType>
      <xs:sequence>
        <xs:element name="name" type="xs:string"/>
        <xs:element name="age" type="xs:integer"/>
        <xs:element name="grade" type="xs:string"/>
      </xs:sequence>
    </xs:complexType>
  </xs:element>

</xs:schema>
```

在这个示例中，XML Schema定义了一个名为`student`的元素，它包含了`name`、`age`和`grade`三个子元素。其中，`name`的数据类型是字符串（`xs:string`），`age`的数据类型是整数（`xs:integer`），`grade`的数据类型是字符串。

通过这个XML Schema，可以确保任何符合该结构的XML文档都符合这些定义，从而提供了一种验证XML文档结构的方式。XML Schema还支持更复杂的约束，如唯一性约束、键约束等，以满足更多的业务需求。

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，它以易于阅读和编写的文本格式来表示数据。JSON格式由键值对组成，其中键是字符串，值可以是字符串、数字、数组、对象、布尔值或null。JSON格式通常用于在网络传输数据或在不同系统之间交换数据。

### 应用和意义：

1. **数据交换**：JSON在Web开发中被广泛应用，用于客户端和服务器之间的数据交换。当客户端向服务器发送请求或接收响应时，数据通常以JSON格式进行编码和解码。

2. **API通信**：许多Web服务和API使用JSON作为数据交换格式。通过使用JSON，不同系统之间可以轻松地传输和解析数据，实现系统之间的互操作性。

3. **配置文件**：JSON格式也常用于配置文件，因为它易于阅读和编写。许多应用程序和服务使用JSON格式来存储配置信息，例如数据库连接信息、应用程序设置等。

4. **日志记录**：JSON格式也常用于日志记录，特别是在分布式系统中。将日志记录为JSON格式可以使日志数据结构化，便于后续分析和处理。

5. **NoSQL数据库**：许多NoSQL数据库支持JSON格式作为数据存储格式。JSON的灵活性和易读性使其成为存储和检索数据的理想选择。

6. **跨平台兼容性**：JSON是一种独立于编程语言的格式，几乎所有现代编程语言都支持JSON的解析和生成。这使得不同平台和系统之间可以轻松地交换数据。

7. **易读性**：与其他数据格式（如XML）相比，JSON具有更好的可读性。人类可以轻松地阅读和理解JSON数据，这在调试和开发过程中非常有用。

总的来说，JSON作为一种轻量级、易读、易写的数据交换格式，在Web开发、API通信、配置文件、日志记录等方面有着广泛的应用和重要意义。它简化了数据交换过程，促进了不同系统之间的互操作性和数据交流。

In [3]:
import json
data = '''
{
    "name": "Chuck",
    "phone": {
        "type": "intl",
        "number": "+1 734 303 4456"
    },
    "email": {
        "hide": "yes"
    }
}
    '''
info = json.loads(data)
print('Name:', info["name"])
print('Hide:', info["email"]["hide"])

Name: Chuck
Hide: yes


In [18]:
import json
input_json = '''
[
    {
        "id": "001",
        "x": "2",
        "name": "Chuck"
    },
    {
        "id": "009",
        "x": "7",
        "name": "Brent"
    }
]
'''
info = json.loads(input_json)
print('User count:', len(info))
for item in info:
    print('Name:', item['name'])
    print('Id:', item['id'])
    print('Attribute:', item['x'])

User count: 2
Name: Chuck
Id: 001
Attribute: 2
Name: Brent
Id: 009
Attribute: 7


### service oriented approach
![service_oriented_approach](./assets/service_oriented_approach.png)
Service Oriented Approach（面向服务的架构）可以总结如下：

1. **大多数非平凡的web应用程序使用服务**：
   - 现代复杂的web应用程序通常会利用各种服务来实现其功能。

2. **使用其他应用程序的服务**：
   - 这些web应用程序会调用其他应用程序提供的服务来完成特定的任务。
   - 例如：
     - **信用卡收费（Credit Card Charge）**：应用程序可能会调用专门处理信用卡支付的服务。
     - **酒店预订系统（Hotel Reservation systems）**：应用程序可能会使用酒店预订服务来处理预订相关的操作。

3. **服务发布“规则”供应用程序遵循**：
   - 服务会发布一组“规则”，即API（应用程序编程接口），应用程序必须遵循这些规则才能正确使用这些服务。
   - API定义了如何调用服务、传递什么参数以及如何处理返回结果。

4. **图示说明**：
   - 图片右侧的图示展示了一个应用程序通过API与多个服务交互的过程。应用程序通过API调用位于“云”中的服务，服务则处理具体的功能和任务。

总结来说，面向服务的架构是一种通过调用其他应用程序提供的服务来构建复杂web应用程序的方法。服务通过API提供接口，应用程序遵循这些接口规则进行调用，从而实现功能的模块化和复用。

### API(Application Program Interface)
![api](./assets/api.png)
API（Application Programming Interface，应用程序编程接口）是软件系统之间进行交互和数据交换的定义和协议。API提供了一组功能和规则，使不同的软件组件能够相互通信。它可以被看作是一组规范，允许开发者使用预定义的函数或方法来访问某个系统的功能，而不需要了解其内部实现细节。

### API的定义

1. **接口**：API是一种接口，通过这种接口，软件组件可以彼此通信。接口定义了一组方法、函数、数据结构和协议，这些都是访问某个系统或服务的功能所必须的。

2. **抽象层**：API提供了一种抽象层，使得开发者可以在不关心底层实现细节的情况下，使用某个系统或服务的功能。这种抽象层简化了开发过程，提高了代码的可维护性和可扩展性。

3. **协议**：API通常基于某种协议（如HTTP、HTTPS、TCP/IP等），这些协议定义了如何进行数据传输和处理。

### API的应用

1. **Web API**：Web API是通过HTTP协议提供的API，常用于Web服务。例如，RESTful API和GraphQL API是两种常见的Web API。它们允许客户端（如浏览器或移动应用）与服务器进行数据交换。

2. **操作系统API**：操作系统提供了一组API，使应用程序可以访问底层硬件和操作系统功能。例如，Windows API、POSIX API。

3. **库和框架API**：编程语言的标准库和第三方库通常提供API，使开发者可以使用预定义的功能。例如，Python的标准库、Java的标准库、React框架的API等。

4. **硬件API**：硬件设备（如图形卡、打印机等）通常通过API为开发者提供访问其功能的途径。例如，OpenGL API用于图形编程，DirectX API用于游戏开发。

5. **第三方服务API**：许多在线服务提供API，使得开发者可以集成这些服务。例如，Google Maps API、Twitter API、Facebook API等。

### API的优点

1. **模块化**：API使得软件系统可以模块化开发，不同的模块可以独立开发和测试，然后通过API进行集成。

2. **重用性**：通过API，开发者可以重用已有的功能和服务，而不需要从头开始开发。

3. **互操作性**：API使得不同的软件系统可以互操作，即使它们是用不同的编程语言或技术栈开发的。

4. **安全性**：API可以通过认证和授权机制，确保只有被授权的用户或系统可以访问其功能。

### API的设计原则

1. **清晰性**：API应该易于理解和使用，提供清晰的文档和示例代码。

2. **一致性**：API的设计应该保持一致，遵循统一的命名和参数传递规则。

3. **简洁性**：API应该尽量简洁，避免不必要的复杂性。

4. **可扩展性**：API设计应该考虑未来的扩展和变化，避免破坏性更新。

5. **安全性**：API应该包含必要的安全措施，如认证、授权、数据加密等。

通过API，开发者可以更高效地构建、集成和扩展软件系统，从而推动技术创新和业务发展。

In [1]:
import urllib.request, urllib.parse, urllib.error
import json

serviceurl = "http://maps.googleapis.com/maps/api/geocode/json?"

while True:
    address_input = input('Enter - ') # http://www.dr-chuck.com/page1.htm
    print(address_input)
    if len(address_input) < 1:
        break
    url = serviceurl + urllib.parse.urlencode({'address': address_input})
    print('Retrieving', url)
    
    try:
        uh = urllib.request.urlopen(url)
        data = uh.read().decode()
        print('Retrieved', len(data), 'characters')
    except Exception as e:
        print(f"Error retrieving data: {e}")
        continue

    try:
        js = json.loads(data)
    except json.JSONDecodeError:
        js = None

    if not js or 'status' not in js or js['status'] != 'OK':
        print('==== Failure To Retrieve ====')
        print(data)
        continue

    print(json.dumps(js, indent=4))
    lat = js["results"][0]["geometry"]["location"]["lat"]
    lng = js["results"][0]["geometry"]["location"]["lng"]
    print('lat', lat, 'lng', lng)
    location = js['results'][0]['formatted_address']
    print(location)


Ann Arbor,MI
Retrieving http://maps.googleapis.com/maps/api/geocode/json?address=Ann+Arbor%2CMI
Retrieved 236 characters
==== Failure To Retrieve ====
{
   "error_message" : "You must use an API key to authenticate each request to Google Maps Platform APIs. For additional information, please refer to http://g.co/dev/maps-no-account",
   "results" : [],
   "status" : "REQUEST_DENIED"
}
1
Retrieving http://maps.googleapis.com/maps/api/geocode/json?address=1
Retrieved 236 characters
==== Failure To Retrieve ====
{
   "error_message" : "You must use an API key to authenticate each request to Google Maps Platform APIs. For additional information, please refer to http://g.co/dev/maps-no-account",
   "results" : [],
   "status" : "REQUEST_DENIED"
}



### API Security & Rate Limiting
当然！API 安全性和速率限制是构建和维护安全、可靠的 API 的两个关键方面。让我们详细探讨这两个主题，并通过一些例子来说明。

API 安全性旨在保护 API 免受未经授权的访问和恶意使用。以下是一些常见的 API 安全措施：

1. **身份验证（Authentication）**：
   - **API 密钥**：客户端通过提供唯一的 API 密钥来访问 API。
   - **OAuth**：一种更安全的身份验证协议，允许用户授权第三方应用访问其资源，而无需共享凭据。
   - **JWT（JSON Web Tokens）**：一种紧凑的、URL 安全的令牌，用于在各方之间传输信息。

   **例子**：
   ```http
   GET /user/profile
   Host: api.example.com
   Authorization: Bearer <your_access_token>
   ```

2. **授权（Authorization）**：
   - 确保用户只能访问他们有权限访问的资源。例如，使用角色和权限来控制对 API 端点的访问。

   **例子**：
   ```http
   GET /admin/dashboard
   Host: api.example.com
   Authorization: Bearer <admin_access_token>
   ```

3. **加密（Encryption）**：
   - 使用 HTTPS 来加密传输中的数据，防止中间人攻击。

4. **输入验证（Input Validation）**：
   - 验证和清理输入数据，防止 SQL 注入、跨站脚本（XSS）等攻击。

5. **日志记录和监控（Logging and Monitoring）**：
   - 记录所有 API 请求和响应，以便检测和响应异常行为。

### 速率限制（Rate Limiting）

速率限制旨在控制客户端在特定时间段内对 API 的请求数量，以防止滥用和确保服务稳定性。以下是一些常见的速率限制策略：

1. **固定窗口算法（Fixed Window Algorithm）**：
   - 在固定的时间窗口内限制请求数量。例如，每小时允许 1000 次请求。

   **例子**：
   ```http
   HTTP/1.1 429 Too Many Requests
   Content-Type: application/json

   {
     "error": "Rate limit exceeded. Try again in 3600 seconds."
   }
   ```

2. **滑动窗口算法（Sliding Window Algorithm）**：
   - 类似于固定窗口，但窗口是滑动的，可以更精确地限制请求。

3. **令牌桶算法（Token Bucket Algorithm）**：
   - 允许突发流量，但限制长期速率。例如，每秒生成一个令牌，最多允许 10 个令牌。

   **例子**：
   ```http
   HTTP/1.1 429 Too Many Requests
   Content-Type: application/json

   {
     "error": "Rate limit exceeded. Try again later."
   }
   ```

4. **漏桶算法（Leaky Bucket Algorithm）**：
   - 类似于令牌桶，但处理请求的速率是恒定的。

### 结合 API 安全性和速率限制的例子

假设我们有一个提供天气数据的 API：

1. **身份验证和授权**：使用 OAuth 进行身份验证，并确保只有订阅了高级服务的用户才能访问高级天气数据。
2. **加密**：所有请求都通过 HTTPS 进行传输。
3. **输入验证**：验证所有输入参数，确保它们在预期的范围内。
4. **速率限制**：每个用户每分钟最多可以发出 60 个请求。

**例子**：
```http
GET /weather/current?location=NewYork
Host: api.weather.com
Authorization: Bearer <access_token>
```

**响应**：
```http
HTTP/1.1 200 OK
Content-Type: application/json

{
  "location": "New York",
  "temperature": "22°C",
  "humidity": "78%"
}
```

**速率限制响应**：
```http
HTTP/1.1 429 Too Many Requests
Content-Type: application/json

{
  "error": "Rate limit exceeded. Try again in 60 seconds."
}
```

通过实施这些安全措施和速率限制策略，可以确保 API 的安全性和可靠性，从而为用户提供更好的服务体验。

In [3]:
!pip install tweepy

Collecting tweepy
  Downloading tweepy-4.14.0-py3-none-any.whl.metadata (3.8 kB)
Collecting oauthlib<4,>=3.2.0 (from tweepy)
  Downloading oauthlib-3.2.2-py3-none-any.whl.metadata (7.5 kB)
Collecting requests<3,>=2.27.0 (from tweepy)
  Using cached requests-2.32.3-py3-none-any.whl.metadata (4.6 kB)
Collecting requests-oauthlib<2,>=1.2.0 (from tweepy)
  Downloading requests_oauthlib-1.3.1-py2.py3-none-any.whl.metadata (10 kB)
Collecting charset-normalizer<4,>=2 (from requests<3,>=2.27.0->tweepy)
  Downloading charset_normalizer-3.3.2-cp312-cp312-macosx_11_0_arm64.whl.metadata (33 kB)
Collecting idna<4,>=2.5 (from requests<3,>=2.27.0->tweepy)
  Using cached idna-3.7-py3-none-any.whl.metadata (9.9 kB)
Collecting urllib3<3,>=1.21.1 (from requests<3,>=2.27.0->tweepy)
  Using cached urllib3-2.2.2-py3-none-any.whl.metadata (6.4 kB)
Collecting certifi>=2017.4.17 (from requests<3,>=2.27.0->tweepy)
  Downloading certifi-2024.7.4-py3-none-any.whl.metadata (2.2 kB)
Downloading tweepy-4.14.0-py3-no

In [4]:
import tweepy

# Replace these with your own API keys
consumer_key = 'YOUR_CONSUMER_KEY'
consumer_secret = 'YOUR_CONSUMER_SECRET'
access_token = 'YOUR_ACCESS_TOKEN'
access_token_secret = 'YOUR_ACCESS_TOKEN_SECRET'

# Authenticate to Twitter
auth = tweepy.OAuth1UserHandler(consumer_key, consumer_secret, access_token, access_token_secret)
api = tweepy.API(auth)

# Verify authentication
try:
    api.verify_credentials()
    print("Authentication OK")
except:
    print("Error during authentication")

# Make a request
public_tweets = api.home_timeline()
for tweet in public_tweets:
    print(tweet.text)

Error during authentication


  """home_timeline(*, count, since_id, max_id, trim_user, \
  """mentions_timeline(*, count, since_id, max_id, trim_user, \
  """user_timeline(*, user_id, screen_name, since_id, count, max_id, \
  """get_favorites(*, user_id, screen_name, count, since_id, max_id, \
  """lookup_statuses(id, *, include_entities, trim_user, map, \
  """get_retweeter_ids(id, *, count, cursor, stringify_ids)
  """get_retweets(id, *, count, trim_user)
  """get_retweets_of_me(*, count, since_id, max_id, trim_user, \
  """search_tweets(q, *, geocode, lang, locale, result_type, count, \
  """get_lists(*, user_id, screen_name, reverse)
  """get_list_members(*, list_id, slug, owner_screen_name, owner_id, \
  """get_list_memberships(*, user_id, screen_name, count, cursor, \
  """get_list_ownerships(*, user_id, screen_name, count, cursor)
  """list_timeline( \
  """get_list_subscribers( \
  """get_list_subscriptions(*, user_id, screen_name, count, cursor)
  """get_follower_ids(*, user_id, screen_name, cursor, strin

Unauthorized: 401 Unauthorized
89 - Invalid or expired token.