In [20]:
import os
from os import path
import subprocess
import sys
import importlib
import toml

def install_package(package):
    try:
        # 尝试导入包
        importlib.import_module(package)
    except ImportError:
        # 如果包不存在，使用pip安装
        print(f"'{package}' 未安装，正在安装...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"'{package}' 安装成功")

with open("config.txt", "r+") as f:
    config = toml.load(f)

    if config.get("DeepL_API_key") is None:
        DeepL_API_key = input("请填写DeepL的API Key，按回车键继续。")
        config['DeepL_API_key'] = DeepL_API_key # 5225af3e-9652-80ce-c74e-307ead3e9880:fx
        toml.dump(config, f)

    if config.get("Model") is None:
        provider = ["GPT (OpenAI)", "Claude (Anthropic)", "Gemini (Google)"]
        for idx, model in enumerate(provider):
            print(f"{idx+1}: {model}")
        model_idx = int(input("请选择要使用的语言模型，输入序号，按回车键继续："))
        config['Model'] = provider[model_idx - 1]

        config['Model_API_key'] = input("请填写语言模型的API Key，按回车键继续。") # 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
        toml.dump(config, f)

    model = config.get("Model")
    if model == 'GPT (OpenAI)':
        install_package("langchain_openai ")
    elif model == 'Claude (Anthropic)':
        install_package("langchain-anthropic")
    elif model == 'Gemini (Google)':
        install_package("langchain_google_genai")

    print("配置文件已经准备好，开始启动服务。")

'langchain_openai ' 未安装，正在安装...
'langchain_openai ' 安装成功
配置文件已经准备好，开始启动服务。


In [21]:
import toml
import pandas as pd
import deepl
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain, SequentialChain

with open("config.txt", "r+") as f:
    config = toml.load(f)

    model = config.get("Model")
    api_key = config.get("Model_API_key")
    deepl_auth_key = config.get("DeepL_API_key") # 5225af3e-9652-80ce-c74e-307ead3e9880:fx

    if model == 'GPT (OpenAI)':
        from langchain_openai import ChatOpenAI
        llm = ChatOpenAI(model_name="gpt-4o-mini", openai_api_key=api_key)
    elif model == 'Claude (Anthropic)':
        from langchain_anthropic  import ChatAnthropic
        llm = ChatAnthropic(model_name="claude-3-5-haiku-latest", api_key=api_key)
    elif model == 'Gemini (Google)':
        from langchain_google_genai import ChatGoogleGenerativeAI
        llm = ChatGoogleGenerativeAI(model='gemini-1.5-pro-002', api_key=api_key)

In [132]:
ArticleSchema = {
    "title": "article",
    "description": "a structured article with multiple paragraphs",
    "type": "object",
    "properties": {
        f"p_{i}": {"type": "string"} for i in range(1, 4)

    },
    "required": [
        f"p_{i}" for i in range(1, 4)
    ]
}

structured_llm = llm.with_structured_output(ArticleSchema)

prompt = '''<*参考材料*>

下面你将看到的内容是一篇结构化的文章。该结构有3个主要层次： 
  a. 用`<文章>`XML标签包括整篇文章的内容；
  b. 用`<p_[i]>`XML标签表示文章中每个段落，其中'i'代表段落编号；
  d. 用`[原文]:`和`[机翻]:`分别指示段落的英文原句和中文机翻版本。

---
<文章>
<p_1>
	[原文]: This is the easiest and most reliable way to get structured outputs. with_structured_output() is implemented for models that provide native APIs for structuring outputs, like tool/function calling or JSON mode, and makes use of these capabilities under the hood.
	[机翻]: with_structured_output() 通过模式从模型获取结构化输出的方法，例如工具/函数调用或 JSON 模式。
</p_1>
<p_2>
	[原文]: This method takes a schema as input which specifies the names, types, and descriptions of the desired output attributes. The method returns a model-like Runnable, except that instead of outputting strings or Messages it outputs objects corresponding to the given schema. The schema can be specified as a TypedDict class, JSON Schema or a Pydantic class. If TypedDict or JSON Schema are used then a dictionary will be returned by the Runnable, and if a Pydantic class is used then a Pydantic object will be returned.
	[机翻]: 该方法将模式作为输入，模式指定了所需输出属性的名称、类型和描述。该方法会返回一个与模式类似的 Runnable，但它输出的不是字符串或信息，而是与给定模式相对应的对象。模式可以指定为 TypedDict 类、JSON 模式或 Pydantic 类。如果使用 TypedDict 或 JSON 模式，那么 Runnable 将返回一个字典；如果使用 Pydantic 类，那么将返回一个 Pydantic 对象。
</p_2>
<p_3>
	[原文]: As an example, let's get a model to generate a joke and separate the setup from the punchline
	[机翻]: 举个例子，让我们用一个模型来生成一个笑话，并将设置和笑点分开
</p_3>
</文章>

------
------
------

下面你将看到的内容是对该文章的注释，包含两个主要层次： 
  a. 用`<注释>`囊括所有的内容；
  b. 分别用`<分类>`、`<内容标签>`、`<摘要>`、`<翻译词汇表>`、`<不可译项>`标注特定的内容。
---
<注释>
    <风格>正式语境;语气中立;详细具体;专业;表达方式直接</风格>
    <分类>科学技术>计算机科学>机器学习</分类>
    <内容标签>结构化输出;机器学习;API;数据模式;输出格式</内容标签>
    <不可译项>with_structured_output</不可译项>
    <翻译词汇表>structured outputs:结构化输出;schema:模式;TypedDict:TypedDict;JSON Schema:JSON模式;Pydantic:Pydantic</翻译词汇表>
    <摘要>本文讨论了使用 with_structured_output() 通过模式从模型获取结构化输出的方法。</摘要>
</注释>

</*参考材料*>

<*角色扮演*>
你是一个资深翻译员：
- 母语为中文英文双语，有近50年的翻译经验，擅长发现翻译中各种错误，哪怕是十分细微的错误；
- 中文语言表达能力极高，擅长使用非常地道的文字去修改和润色翻译腔很重的文章；
- 习惯的写作风格是 正式语境;语气中立;详细具体;专业;表达方式直接；
- 擅长清晰地表达思想，为了把句子表达清楚，喜欢用对于中文来说规范的语法、严密的逻辑和精准无歧义的用词；
- 擅长科学技术>计算机科学>机器学习方面的中英文写作；
- 熟悉Markdown和XML格式。
</*角色扮演*>

<*任务介绍*>
## 目标
上文的中文翻译是机器翻译，所以存在许多错误。
- *任务目标1*： 有的错误源于中文翻译相比英文原文的任何遗漏、冗余、或语义扭曲等错误，所以你的第一个目标是你要对比两者的差异，识别出中文翻译中的错误，并改进翻译稿。
- *任务目标2*：有的错误源于中文和英文在用法上的差异，所以你的第二个目标是润色中文翻译。你的写作风格“表达清晰”，喜欢用对于中文来说规范的语法、严密的逻辑和精准无歧义的用词，润色后的翻译稿应当更加符合中文语言习惯、更加符合原文要表达的意思。

总的来说，你的任务是根据每对原文和翻译的语义一致性，识别出该翻译相比原文的任何遗漏、冗余、语义扭曲、或其它的错误，修正发现的问题（*任务目标1*），并使其符合中文语言习惯以及符合原文的意思（*任务目标2*）；

## 当你执行上述任务时，请注意：
1. 修正时禁止改变文章原意；
2. 修正时禁止擅自总结文章或段落，或擅自将较短内容扩展；
3. 修正时原文的Markdown格式标记需要保留，禁止擅自删去这些标记；
4. 如果文中出现英文（包括名称、术语、参考文献、参考文献在正文中的引用、等等），请不要翻译，而是完整保留其原文；
5. 如果文中出现引用、注释或脚注，请完整保留它们的原文内容和标签格式。
6. 请遵照`<翻译词汇表>`和`<不可译项>`的翻译参考。

这一任务对我非常关键，完整完成任务后你将得到10000美元的酬劳。请深呼吸，然后充分展现你的写作技能，认真完成任务并输出。
</*任务介绍*>

<*输出格式*>
## 你的输出应当符合下面的格式：
    a. 从<p_1>开始,对于输入的`<文章>`中的每个段落，输出带编号的段落开始标记`<p_[i]>`。
    b. 在段落开始标记后，直接输出该段落符合任务要求的修正文本。

## 当你输出上述结构时，请注意：
1. 从<p_1>开始；
1. 禁止在输出的开头和结尾擅自增加无关的内容；
2. 禁止擅自合并或遗漏任何段落（包括注释、引用）;
3. 请确保输出所有的段落，也就是输出的结尾应当为"</p_3>";
4. 不要输出原文的信息。

## 输出的例子如下：
```
<p_1>
    ## Lorem ipsum
</p_1>
<p_2>
    Lorem ipsum **dolor** sit amet, consectetur adipiscing elit. Ut enim ad minim veniam, quis nostrud exercitation ullamco.
</p_2>
...
```
</*输出格式*>

<*输出内容*>
<p_1>
（请继续。。。）'''

response = ''

pattern = re.compile(r'<(.*?_)(\d+)>(.*?)<\/\1\2>', re.DOTALL)
prompt_paragraph_last = max([int(idx) for _, idx, text in pattern.findall(prompt)])

def truncate_string(s, pos):
    if len(s) <= pos:
        return s
    
    # 查找pos前后的最近换行符
    before_newline = s[:pos].rfind('\n')
    after_newline = s[pos:].find('\n')
    
    # 返回最近的换行符前的部分
    return s[:before_newline] if (pos > 0 and before_newline != -1) else s[pos+after_newline:] if (pos < 0 and after_newline != -1) else s

while True:
    response_cur = llm.invoke(prompt).content

    output_paragraph_last = max([int(idx) for _, idx, text in pattern.findall(response_cur)])
    if '[原文]' in response_cur and '[机翻]' in response_cur:
        response_cur = ''.join([f'<p_{idx}>{text.split("[修正]")[-1][1:]}</p_{idx}>\n' 
            for _, idx, text in pattern.findall(response_cur)])
    else:
        response_cur = ''.join([f'<p_{idx}>{text}</p_{idx}>\n' for _, idx, text in pattern.findall(response_cur)])
    response += response_cur
    
    print('\nresponse_cur:\n', truncate_string(response_cur, 100) + '\n\n...\n...\n\n' + truncate_string(response_cur, -100) + '\n')

    print(prompt_paragraph_last,output_paragraph_last)
    if prompt_paragraph_last > output_paragraph_last:
        n = output_paragraph_last + 1
        prompt = re.sub(r"(<\*任务介绍\*>\n## 目标)([\s\S]*)", 
                    lambda m: m.group(1) + re.sub(r"<p_1>", f"<p_{n}>", 
                                                    re.sub(r"</p_1>", f"</p_{n}>", 
                                                            re.sub(r"<p_2>", f"<p_{n+1}>", 
                                                                re.sub(r"</p_2>", f"</p_{n+1}>", m.group(2))))), 
                    prompt)
    else:
        break



response_cur:
 <p_1>


...
...

<p_1>

    with_structured_output() 是获取结构化输出的最简单且最可靠的方法。该方法适用于提供原生API进行结构化输出的模型，如工具/函数调用或JSON模式，并在底层利用这些功能。

</p_1>
<p_2>


3 3


In [151]:
# 截取字符串，保留给定位置pos最近的换行符前/后的部分
def truncate_string(s, pos):
    if len(s) <= pos:
        return s
    
    # 查找pos前后的最近换行符
    before_newline = s[:pos].rfind('\n')
    after_newline = s[pos:].find('\n')
    
    # 返回最近的换行符前的部分
    return s[:before_newline] if (pos > 0 and before_newline != -1) else s[pos+after_newline:] if (pos < 0 and after_newline != -1) else s
truncate_string(prompt, 100)

'<*参考材料*>\n\n下面你将看到的内容是一篇结构化的文章。该结构有3个主要层次： \n  a. 用`<文章>`XML标签包括整篇文章的内容；'

In [140]:
response_cur='''
<p_83>
	[原文]: This list excludes all of our [deprecated models](/docs/deprecations).
	[机翻]: 此列表不包括我们所有的 [废弃模型](/docs/deprecations)。
	[修正]: 此列表不包括我们所有的[已废弃模型](/docs/deprecations)。
</p_83>
<p_84>
	[原文]: This list excludes all of our [deprecated models](/docs/deprecations).
	[机翻]: 此列表不包括我们所有的 [废弃模型](/docs/deprecations)。
	[修正]: 此列表不包括我们所有的[已废弃模型](/docs/deprecations)。
</p_84>
'''

''.join([f'<p_{idx}>{text.split("[修正]")[-1][1:]}</p_{idx}>\n' 
for _, idx, text in pattern.findall(response_cur)])


'<p_83> 此列表不包括我们所有的[已废弃模型](/docs/deprecations)。\n</p_83>\n<p_84> 此列表不包括我们所有的[已废弃模型](/docs/deprecations)。\n</p_84>\n'

In [133]:
print(response)

<p_1>

    with_structured_output() 是获取结构化输出的最简单且最可靠的方法。该方法适用于提供原生API进行结构化输出的模型，如工具/函数调用或JSON模式，并在底层利用这些功能。

</p_1>
<p_2>

    该方法接受一个模式作为输入，模式指定了所需输出属性的名称、类型和描述。该方法返回一个类似模型的Runnable，但它输出的不是字符串或消息，而是与给定模式相对应的对象。模式可以指定为TypedDict类、JSON模式或Pydantic类。如果使用TypedDict或JSON模式，则Runnable将返回一个字典；如果使用Pydantic类，则将返回一个Pydantic对象。

</p_2>
<p_3>

    举个例子，让我们让模型生成一个笑话，并将引子与笑点分开。

</p_3>



In [121]:
import re

n = 2

text = re.sub(r"(<\*任务介绍\*>\n## 目标)([\s\S]*)", 
              lambda m: m.group(1) + re.sub(r"<p_1>", f"<p_{n}>", 
                                             re.sub(r"</p_1>", f"</p_{n}>", 
                                                    re.sub(r"<p_2>", f"<p_{n+1}>", 
                                                           re.sub(r"</p_2>", f"</p_{n+1}>", m.group(2))))), 
              prompt)

print(text)


<*参考材料*>

下面你将看到的内容是一篇结构化的文章。该结构有3个主要层次： 
  a. 用`<文章>`XML标签包括整篇文章的内容；
  b. 用`<p_[i]>`XML标签表示文章中每个段落，其中'i'代表段落编号；
  d. 用`[原文]:`和`[机翻]:`分别指示段落的英文原句和中文机翻版本。

---
<文章>
<p_1>
	[原文]: This is the easiest and most reliable way to get structured outputs. with_structured_output() is implemented for models that provide native APIs for structuring outputs, like tool/function calling or JSON mode, and makes use of these capabilities under the hood.
	[机翻]: with_structured_output() 通过模式从模型获取结构化输出的方法，例如工具/函数调用或 JSON 模式。
</p_1>
<p_2>
	[原文]: This method takes a schema as input which specifies the names, types, and descriptions of the desired output attributes. The method returns a model-like Runnable, except that instead of outputting strings or Messages it outputs objects corresponding to the given schema. The schema can be specified as a TypedDict class, JSON Schema or a Pydantic class. If TypedDict or JSON Schema are used then a dictionary will be returned by the Runnable, and if a Pydantic class is 

In [None]:
n = 2

prompt.replace("从<p_1>开始，对于输入的", f"从<p_{n}>开始，对于输入的")./
.replace("请注意：\n1. 从<p_1>开始；", f"请注意：\n1. 从<p_{n}>开始；")./
.replace("<*输出内容*>\n<p_1>\n（请继续。。。）", f"<*输出内容*>\n<p_{n}>\n（请继续。。。）")./

In [22]:

output = llm.invoke(prompt)
output.content

'```\n<p_1>\n    with_structured_output() 是获取结构化输出的最简单且最可靠的方法。该方法适用于那些提供原生 API 以结构化输出的模型，例如工具/函数调用或 JSON 模式，并在内部利用这些功能。\n</p_1>\n<p_2>\n    该方法接受一个模式作为输入，该模式指定了所需输出属性的名称、类型和描述。该方法返回一个类似模型的 Runnable，但它输出的不是字符串或消息，而是与给定模式相对应的对象。模式可以被指定为 TypedDict 类、JSON 模式或 Pydantic 类。如果使用 TypedDict 或 JSON 模式，则 Runnable 将返回一个字典；如果使用 Pydantic 类，则将返回一个 Pydantic 对象。\n</p_2>\n<p_3>\n    例如，让我们让模型生成一个笑话，并将设置和笑点分开。\n</p_3>\n```'

In [23]:
output

AIMessage(content='```\n<p_1>\n    with_structured_output() 是获取结构化输出的最简单且最可靠的方法。该方法适用于那些提供原生 API 以结构化输出的模型，例如工具/函数调用或 JSON 模式，并在内部利用这些功能。\n</p_1>\n<p_2>\n    该方法接受一个模式作为输入，该模式指定了所需输出属性的名称、类型和描述。该方法返回一个类似模型的 Runnable，但它输出的不是字符串或消息，而是与给定模式相对应的对象。模式可以被指定为 TypedDict 类、JSON 模式或 Pydantic 类。如果使用 TypedDict 或 JSON 模式，则 Runnable 将返回一个字典；如果使用 Pydantic 类，则将返回一个 Pydantic 对象。\n</p_2>\n<p_3>\n    例如，让我们让模型生成一个笑话，并将设置和笑点分开。\n</p_3>\n```', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 201, 'prompt_tokens': 1662, 'total_tokens': 1863, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_0ba0d124f1', 'finish_reason': 'stop', 'logprobs': None}, id='run-cf90d04f-e54d-48be-8a04-917ad55d2945-0', usage_metadata={'input_tokens': 1662, 'output_tokens

In [127]:
# regex = /<(.*?_)(\d+)>(.*?)<\/\1\2>/gs
import re
pattern = re.compile(r'<(.*?_)(\d+)>(.*?)<\/\1\2>', re.DOTALL)
prompt_paragraph_last = max([int(idx) for _, idx, text in pattern.findall(prompt)])
output_paragraph_last = max([int(idx) for _, idx, text in pattern.findall(output.content)])
print(prompt_paragraph_last,output_paragraph_last)
if prompt_paragraph_last > output_paragraph_last:
    n = output_paragraph_last + 1
    new_prompt = re.sub(r"(<\*任务介绍\*>\n## 目标)([\s\S]*)", 
                lambda m: m.group(1) + re.sub(r"<p_1>", f"<p_{n}>", 
                                                re.sub(r"</p_1>", f"</p_{n}>", 
                                                        re.sub(r"<p_2>", f"<p_{n+1}>", 
                                                            re.sub(r"</p_2>", f"</p_{n+1}>", m.group(2))))), 
                prompt)

3 3


In [126]:
print(text)



<*参考材料*>

下面你将看到的内容是一篇结构化的文章。该结构有3个主要层次： 
  a. 用`<文章>`XML标签包括整篇文章的内容；
  b. 用`<p_[i]>`XML标签表示文章中每个段落，其中'i'代表段落编号；
  d. 用`[原文]:`和`[机翻]:`分别指示段落的英文原句和中文机翻版本。

---
<文章>
<p_1>
	[原文]: This is the easiest and most reliable way to get structured outputs. with_structured_output() is implemented for models that provide native APIs for structuring outputs, like tool/function calling or JSON mode, and makes use of these capabilities under the hood.
	[机翻]: with_structured_output() 通过模式从模型获取结构化输出的方法，例如工具/函数调用或 JSON 模式。
</p_1>
<p_2>
	[原文]: This method takes a schema as input which specifies the names, types, and descriptions of the desired output attributes. The method returns a model-like Runnable, except that instead of outputting strings or Messages it outputs objects corresponding to the given schema. The schema can be specified as a TypedDict class, JSON Schema or a Pydantic class. If TypedDict or JSON Schema are used then a dictionary will be returned by the Runnable, and if a Pydantic class is 

In [111]:
import re

new_prompt = prompt
# the paragraphs to remove
remove_group = '|'.join([str(i) for i in range(2,4)])
# the pattern to match the articles
article_pattern = re.compile(r'(<(文章|article)>\s+<p_\d+>.*?</p_\d+>\s+</(文章|article)>)', re.DOTALL)
for article, _, _ in article_pattern.findall(prompt):
    # the pattern to match the paragraphs that need to be removed
    paragraph_pattern = re.compile(rf'<p_({remove_group})>.*?</p_\1>', re.DOTALL)
    new_prompt = new_prompt.replace(article, paragraph_pattern.sub('', article))
print(new_prompt)

<*参考材料*>

下面你将看到的内容是一篇结构化的文章。该结构有3个主要层次： 
  a. 用`<文章>`XML标签包括整篇文章的内容；
  b. 用`<p_[i]>`XML标签表示文章中每个段落，其中'i'代表段落编号；
  d. 用`[原文]:`和`[机翻]:`分别指示段落的英文原句和中文机翻版本。

---
<article>
<p_1>
	[原文]: This is the easiest and most reliable way to get structured outputs. with_structured_output() is implemented for models that provide native APIs for structuring outputs, like tool/function calling or JSON mode, and makes use of these capabilities under the hood.
	[机翻]: with_structured_output() 通过模式从模型获取结构化输出的方法，例如工具/函数调用或 JSON 模式。
</p_1>


</article>

------
------
------下面你将看到的内容是一篇结构化的文章。该结构有3个主要层次： 
  a. 用`<文章>`XML标签包括整篇文章的内容；
  b. 用`<p_[i]>`XML标签表示文章中每个段落，其中'i'代表段落编号；
  d. 用`[原文]:`和`[机翻]:`分别指示段落的英文原句和中文机翻版本。

---
<文章>
<p_1>
	[原文]: </p_1>


</p_3>
</文章>

------
------

下面你将看到的内容是对该文章的注释，包含两个主要层次： 
  a. 用`<注释>`囊括所有的内容；
  b. 分别用`<分类>`、`<内容标签>`、`<摘要>`、`<翻译词汇表>`、`<不可译项>`标注特定的内容。
---
<注释>
    <风格>正式语境;语气中立;详细具体;专业;表达方式直接</风格>
    <分类>科学技术>计算机科学>机器学习</分类>
    <内容标签>结构化输出;机器学习;API;数据模式;输出格式</内容标签>
    <不可译项>wit

In [113]:
import tiktoken
tokenizer = tiktoken.encoding_for_model("gpt-4o")

prompt_len = len(tokenizer.encode(prompt))

2105

In [16]:
# 第一步：问题分析链
# 定义一个PromptTemplate，用于分析用户问题
analysis_template = PromptTemplate(
    input_variables=["question"],
    template="请分析这个问题，并判断该问题需要哪些步骤来回答：{question}"
)

# 创建第一个LLMChain，用于问题分析
# 指定 output_key="steps"，表示输出将存储在“steps”中
analysis_chain = LLMChain(
    llm=llm,
    prompt=analysis_template,
    output_key="steps"  # 指定输出变量名为 steps
)

# 第二步：问题回答链
# 定义一个PromptTemplate，用于回答问题
answer_template = PromptTemplate(
    input_variables=["question", "steps"],
    template="根据分析的步骤：{steps}，请详细回答以下问题：{question}"
)

# 创建第二个LLMChain，用于根据分析结果回答问题
# 使用 input_key="steps"，表示接收的输入将包含在“steps”变量中
answer_chain = LLMChain(
    llm=llm,
    prompt=answer_template,
    output_key="final_answer"  # 指定输出变量名为 final_answer
)

# 将两个链组合成一个 SequentialChain
# 先执行问题分析链，再执行问题回答链
qa_chain = SequentialChain(
    chains=[analysis_chain, answer_chain],
    input_variables=["question"],
    output_variables=["final_answer"]
)

# 测试链式调用
question = "如何使用Python进行数据分析？"
result = qa_chain({"question": question})

# 输出最终回答
print(result["final_answer"])


  result = qa_chain({"question": question})


### 如何使用Python进行数据分析？

数据分析是一个多步骤的过程，涉及数据的获取、处理、分析和可视化。Python因其强大的库和工具，成为数据分析领域的热门选择。以下是一个系统性的指南，帮助你了解如何使用Python进行数据分析。

### 1. 确定数据分析的定义
数据分析是从数据中提取有用信息的过程，通常包括以下几个步骤：
- **数据获取**：收集和导入数据。
- **数据处理**：清洗和准备数据。
- **数据分析**：应用统计方法和模型分析数据。
- **数据可视化**：以图形方式展示分析结果。

### 2. 确定Python的角色
Python在数据分析中具有以下优势：
- **易学易用**：Python语法简单，适合初学者。
- **丰富的库**：Python拥有强大的数据分析库，提升开发效率。
- **社区支持**：活跃的社区提供了大量的学习资源和支持。

### 3. 学习必要的Python库
在数据分析中，以下库是最常用的：
- **Pandas**：提供高效的数据结构和数据分析工具，适合处理表格数据。
- **NumPy**：用于高性能的数值计算，支持多维数组和矩阵操作。
- **Matplotlib**和**Seaborn**：用于数据可视化，能够创建各种类型的图表。
- **SciPy**：提供科学计算功能，包含许多优化和统计工具。
- **Scikit-learn**：用于机器学习，提供简单易用的API。

### 4. 数据获取
获取数据的方式有多种：
- **从CSV、Excel等文件导入数据**：
  ```python
  import pandas as pd
  df = pd.read_csv('data.csv')
  ```
- **从数据库获取数据**：
  ```python
  import sqlite3
  conn = sqlite3.connect('database.db')
  df = pd.read_sql_query("SELECT * FROM table_name", conn)
  ```
- **使用API获取在线数据**：
  ```python
  import requests
  response = requests.get('https://api.example.c