# 利用Python进行数据分析（第二版）——第二章：Python 基础 

本章内容为学习 Python 基础知识的笔记，涵盖 NumPy、列表操作、类型转换、字符串处理、自省、循环、文件操作等内容。本笔记通过代码示例和中文注释，帮助理解 Python 在数据分析中的应用。以下为代码和说明，保留书中页码标记（如 p30），以便复习和参考。


In [11]:
# 导入 NumPy 库，用于数值计算
import numpy as np
# 设置随机种子，确保随机数可重复
np.random.seed(12345)
# 设置 NumPy 数组输出格式：精度为 4 位小数，禁用科学计数法
np.set_printoptions(precision=4, suppress=True)

## 随机数生成与列表推导式

以下代码展示如何使用 NumPy 生成随机数，并通过列表推导式创建数据列表。这是数据分析中常见的操作，用于生成模拟数据。

In [2]:
# 再次导入 NumPy（重复导入，仅为示例）
import numpy as np
# 使用列表推导式生成 7 个服从标准正态分布的随机数
data = [np.random.standard_normal() for i in range(7)]
# 输出列表内容
data

## 列表引用与复制

以下代码演示 Python 中列表的引用和复制机制。理解引用与复制的区别对避免数据意外修改至关重要。

In [3]:
# 创建一个包含 1, 2, 3 的列表
a = [1, 2, 3]

In [4]:
# 将 a 赋值给 b，b 引用同一对象（浅拷贝）
b = a
# 输出 b，内容与 a 相同
b

In [5]:
# 向 a 添加元素 4
a.append(4)
# 输出 b，因为 a 和 b 引用同一对象，b 也会变化
b

## 函数与列表操作

以下代码定义了一个函数，用于向列表添加元素，展示 Python 中函数如何修改可变对象（如列表）。

In [6]:
# 定义函数，向指定列表添加一个元素
def append_element(some_list, element):
    some_list.append(element)

In [7]:
# 创建列表 [1, 2, 3]
data = [1, 2, 3]
# 调用函数，向 data 添加元素 4
append_element(data, 4)
# 输出 data，列表被修改为 [1, 2, 3, 4]
data

## 动态类型与类型检查

Python 是动态类型语言，变量的类型可以在运行时改变。以下代码展示类型转换和类型检查的方法。

In [8]:
# 定义变量 a 为整数 5
a = 5
# 输出 a 的类型：int
type(a)
# 将 a 重新赋值为字符串 "foo"
a = "foo"
# 输出 a 的新类型：str
type(a)

In [9]:
# 尝试将字符串 "5" 与整数 5 相加，会抛出 TypeError
"5" + 5

In [10]:
# 定义浮点数 a 和整数 b
a = 4.5
b = 2
# 使用 f-string 格式化输出变量类型
print(f"a is {type(a)}, b is {type(b)}")
# 执行浮点数除法，输出 2.25
a / b

In [11]:
# 检查变量 a 是否为整数类型
a = 5
isinstance(a, int)  # 返回 True

In [12]:
# 定义整数 a 和浮点数 b
a = 5; b = 4.5
# 检查 a 是否为 int 或 float 类型，返回 True
isinstance(a, (int, float))
# 检查 b 是否为 int 或 float 类型，返回 True
isinstance(b, (int, float))

## 字符串与动态属性

以下代码展示如何动态获取对象的属性或方法（如字符串的 `split` 方法）。

In [13]:
# 定义字符串变量
a = "foo"

In [14]:
# 使用 getattr 动态获取字符串的 split 方法
getattr(a, "split")  # 返回 split 方法对象

## 可迭代对象检查

以下代码定义了一个函数，用于检查对象是否可迭代（如字符串、列表等）。

In [15]:
# 定义函数，检查对象是否可迭代
def isiterable(obj):
    try:
        iter(obj)  # 尝试将对象转换为迭代器
        return True  # 成功则返回 True
    except TypeError:  # 如果不可迭代，捕获 TypeError
        return False  # 返回 False

In [16]:
# 测试字符串是否可迭代，返回 True
isiterable("a string")
# 测试列表是否可迭代，返回 True
isiterable([1, 2, 3])
# 测试整数是否可迭代，返回 False
isiterable(5)

## 基本运算与比较

以下代码展示 Python 的基本算术运算和比较操作。

In [17]:
# 基本算术运算
5 - 7  # 返回 -2
12 + 21.5  # 返回 33.5
5 <= 2  # 返回 False

## 对象引用与深拷贝

以下代码进一步探讨对象引用与深拷贝的区别，强调 `list()` 创建新对象。

In [18]:
# 创建列表 a
a = [1, 2, 3]
# b 引用 a，指向同一对象
b = a
# 使用 list() 创建 a 的副本，c 是新对象
c = list(a)
# 检查 a 和 b 是否为同一对象，返回 True
a is b
# 检查 a 和 c 是否不同对象，返回 True
a is not c

In [19]:
# 检查 a 和 c 的内容是否相等，返回 True
a == c

## None 值检查

`None` 是 Python 中的空值，常用于初始化或表示缺失值。

In [20]:
# 将 a 赋值为 None
a = None
# 检查 a 是否为 None，返回 True
a is None

## 列表与元组的区别

列表是可变的，元组是不可变的。以下代码展示两者的操作差异。

In [21]:
# 创建列表，包含字符串、整数和嵌套列表
a_list = ["foo", 2, [4, 5]]
# 修改列表的第 2 个元素为元组 (3, 4)
a_list[2] = (3, 4)
# 输出修改后的列表
a_list

In [22]:
# 创建元组，包含整数和嵌套元组
a_tuple = (3, 5, (4, 5))
# 尝试修改元组元素，会抛出 TypeError（元组不可变）
a_tuple[1] = "four"

## 数值运算

以下代码展示 Python 中的大整数运算和浮点数表示。

In [23]:
# 定义大整数
ival = 17239871
# 计算 ival 的 6 次方
ival ** 6

In [24]:
# 定义浮点数
fval = 7.243
# 使用科学计数法定义小数
fval2 = 6.78e-5

## 除法与整除

Python 中 `/` 表示浮点除法，`//` 表示整除（向下取整）。

In [25]:
# 浮点除法，返回 1.5
3 / 2

In [26]:
# 整除，返回 1
3 // 2

## 字符串操作

以下代码展示多行字符串、字符串计数和不可变性。

In [27]:
# 定义多行字符串，使用三引号
c = """
This is a longer string that
spans multiple lines
"""
# 统计换行符数量，返回 3
c.count("\n")

In [28]:
# 定义字符串
a = "this is a string"
# 尝试修改字符串的第 10 个字符，会抛出 TypeError（字符串不可变）
a[10] = "f"

In [29]:
# 使用 replace 方法替换子字符串，生成新字符串
b = a.replace("string", "longer string")
# 输出新字符串 b
b
# 原字符串 a 不变
a

## 字符串转换与切片

以下代码展示将数值转换为字符串，以及字符串的切片和列表转换。

In [30]:
# 将浮点数转换为字符串
a = 5.6
s = str(a)
# 输出字符串 "5.6"
print(s)

In [31]:
# 定义字符串
s = "python"
# 将字符串转换为字符列表，返回 ['p', 'y', 't', 'h', 'o', 'n']
list(s)
# 切片，获取前 3 个字符，返回 "pyt"
s[:3]

In [32]:
# 定义字符串，包含转义字符
s = "12\\34"
# 输出字符串，显示为 "12\34"
print(s)

## 原始字符串（p30）

原始字符串使用 `r` 前缀，禁用转义字符的特殊处理，适合处理路径或正则表达式。

| 字符串类型 | 输入内容 | 实际存储值 | 说明 |
|------------|----------|------------|------|
| 普通字符串 | `"a\nb"` | a + 换行符 + b | `\n` 被转义为换行符 |
| 原始字符串 | `r"a\nb"` | a + \ + n + b | `\n` 被当作两个字符 |

In [33]:
# 定义原始字符串，转义字符不生效
s = r"this\has\no\special\characters"
# 输出字符串，保留原始格式
s

## 字符串拼接与格式化

以下代码展示字符串拼接和格式化方法，包括 `+` 运算符和 `format` 方法。

In [34]:
# 定义两个字符串
a = "this is the first half "
b = "and this is the second half"
# 使用 + 拼接字符串
a + b

In [35]:
# 定义格式化模板，{0:.2f} 表示两位小数，{1:s} 表示字符串，{2:d} 表示整数
template = "{0:.2f} {1:s} are worth US${2:d}"
# 格式化输出：88.46 Argentine Pesos are worth US$1
template.format(88.46, "Argentine Pesos", 1)

In [36]:
# 定义变量
amount = 10
rate = 88.46
currency = "Pesos"
# 使用 f-string 格式化字符串
result = f"{amount} {currency} is worth US${amount / rate}"
# 格式化输出，保留两位小数
f"{amount} {currency} is worth US${amount / rate:.2f}"

## Unicode 与编码

以下代码展示 Unicode 字符串的编码和解码，常见于处理多语言数据。

In [37]:
# 定义 Unicode 字符串，包含非 ASCII 字符
val = "español"
# 编码为 UTF-8 字节对象
val_utf8 = val.encode("utf-8")
# 输出字节对象及其类型
val_utf8
type(val_utf8)
# 解码回字符串
val_utf8.decode("utf-8")

In [38]:
# 使用不同编码格式编码字符串
val.encode("latin1")
val.encode("utf-16")
val.encode("utf-16le")

## 布尔值与类型转换

以下代码展示布尔运算、布尔值转换以及其他类型的布尔值表示。

In [39]:
# 布尔运算
True and True  # 返回 True
False or True  # 返回 True

In [40]:
# 将布尔值转换为整数
int(False)  # 返回 0
int(True)   # 返回 1

In [41]:
# 定义布尔变量
a = True
b = False
# 布尔取反
not a  # 返回 False
not b  # 返回 True

In [42]:
# 定义字符串表示的浮点数
s = "3.14159"
# 转换为浮点数
fval = float(s)
# 输出类型：float
type(fval)
# 转换为整数，截断小数部分，返回 3
int(fval)
# 转换为布尔值，非零为 chạy True
bool(fval)
# 零转换为布尔值，返回 False
bool(0)

## None 值检查（续）

继续展示 None 的检查方法，强调与普通值的区别。

In [43]:
# 检查 None 值
a = None
a is None  # 返回 True
# 检查非 None 值
b = 5
b is not None  # 返回 True

## 日期与时间处理

以下代码使用 `datetime` 模块处理日期和时间，常见于时间序列数据分析。

In [44]:
# 导入 datetime 模块
from datetime import datetime, date, time
# 创建 datetime 对象，表示 2011-10-29 20:30:21
dt = datetime(2011, 10, 29, 20, 30, 21)
# 获取日期中的天数，返回 29
dt.day
# 获取分钟数，返回 30
dt.minute

In [45]:
# 提取日期部分，返回 date 对象
dt.date()
# 提取时间部分，返回 time 对象
dt.time()

In [46]:
# 格式化输出日期时间，格式为 YYYY-MM-DD HH:MM
dt.strftime("%Y-%m-%d %H:%M")

In [47]:
# 解析字符串为 datetime 对象，格式为 YYYYMMDD
datetime.strptime("20091031", "%Y%m%d")

In [48]:
# 替换时间部分，设置分钟和秒为 0
dt_hour = dt.replace(minute=0, second=0)
# 输出修改后的 datetime 对象
dt_hour

In [49]:
# 计算两个 datetime 对象的差值
dt2 = datetime(2011, 11, 15, 22, 30)
delta = dt2 - dt
# 输出时间差（timedelta 对象）
delta
# 输出时间差的类型
type(delta)

In [50]:
# 使用时间差进行日期运算
dt + delta  # 返回 dt2

## 条件语句

以下代码展示 Python 的条件语句，结合布尔逻辑判断。

In [51]:
# 定义变量
a = 5; b = 7
c = 8; d = 4
# 检查条件：a < b 或 c > d
if a < b or c > d:
    print("Made it")  # 条件成立，输出 "Made it"

In [52]:
# 链式比较，等价于 4 > 3 and 3 > 2 and 2 > 1
4 > 3 > 2 > 1  # 返回 True

## 循环与嵌套循环

以下代码展示嵌套循环和 `break` 语句的使用。

In [53]:
# 嵌套循环，输出 i, j 组合
for i in range(4):
    for j in range(4):
        if j > i:  # 当 j > i 时跳出内层循环
            break
        print((i, j))  # 输出 (i, j) 对

## 范围对象与列表转换

`range()` 生成整数序列，常用于循环或列表生成。

In [54]:
# 创建范围对象
range(10)
# 转换为列表，返回 [0, 1, 2, ..., 9]
list(range(10))

In [55]:
# 生成步长为 2 的序列，返回 [0, 2, 4, ..., 18]
list(range(0, 20, 2))
# 生成倒序序列，返回 [5, 4, 3, 2, 1]
list(range(5, 0, -1))

## 循环遍历列表

以下代码展示如何通过索引遍历列表。

In [56]:
# 定义列表
seq = [1, 2, 3, 4]
# 通过索引遍历列表
for i in range(len(seq)):
    print(f"element {i}: {seq[i]}")  # 输出每个元素及其索引

## 求和与条件判断

以下代码计算 0 到 99999 中能被 3 或 5 整除的数的和（Project Euler 问题 1）。

In [57]:
# 初始化总和
total = 0
# 遍历 0 到 99999
for i in range(100_000):
    # 检查是否能被 3 或 5 整除
    if i % 3 == 0 or i % 5 == 0:
        total += i  # 累加符合条件的数
# 输出结果
print(total)

## Tab 自动补全（p30）

在 Jupyter 或 IPython 中，按 Tab 键可以自动补全变量、函数或模块名，提高编码效率。以下代码展示补全的常见场景。

> **提示**：在输入部分名称后按 Tab，Jupyter 会列出匹配的选项。例如，输入 `an` 后按 Tab，可补全为 `an_apple` 或 `an_example`。

In [58]:
# 定义变量以测试 Tab 补全
an_apple = 27  # 一个苹果的数量
an_example = 42  # 一个示例值
# 在 Jupyter 中输入 `an` 后按 Tab，可看到补全选项：an_apple, an_example

In [59]:
# 查看补全后的变量值
an_apple  # 输出 27
an_example  # 输出 42

## 自省（Introspection）（p30）

Python 支持自省功能，使用 `?` 或 `??` 查看对象信息（如类型、文档字符串或源代码）。以下代码展示如何在 IPython/Jupyter 中使用自省。

> **提示**：
> - `obj?` 显示对象的概要信息（如类型、文档）。
> - `obj??` 显示更详细信息（如源代码，需对象定义可访问）。

In [60]:
# 定义一个简单的函数，用于测试自省
def add_numbers(a, b):
    """Add two numbers together

    Returns
    -------
    the_sum : type of arguments
    """  # 文档字符串，说明函数功能
    return a + b  # 返回两个参数的和

In [61]:
# 在 IPython/Jupyter 中运行以下命令（以注释形式展示）：
# add_numbers?  # 显示函数的文档字符串和基本信息
# add_numbers??  # 显示函数的源代码

## 魔术命令（Magic Commands）（p31）

IPython/Jupyter 提供魔术命令（如 `%paste`、 `%cpaste`），用于增强交互式开发。以下代码展示常见魔术命令的用法。

| 魔术命令 | 功能 |
|----------|------|
| `%paste` | 粘贴剪贴板中的代码并执行，忽略多余缩进 |
| `%cpaste` | 进入粘贴模式，允许手动粘贴多行代码，输入 `--` 结束 |

In [62]:
# 示例：在 IPython 中运行以下命令（以注释形式展示）：
# %paste  # 粘贴剪贴板代码并立即执行
# %cpaste  # 进入粘贴模式，粘贴后输入 -- 结束

## 列表推导式（List Comprehension）（p32）

列表推导式是 Python 中一种简洁的方式，用于从可迭代对象生成列表。以下代码展示其基本用法和嵌套推导式。

> **语法**：`[expr for val in collection if condition]`
> - `expr`：对每个元素应用的表达式
> - `val`：迭代变量
> - `collection`：可迭代对象
> - `condition`：可选的过滤条件

In [63]:
# 定义字符串列表
strings = ["a", "as", "bat", "car", "dove", "python"]
# 使用列表推导式，将长度 >= 2 的字符串转换为大写
[x.upper() for x in strings if len(x) >= 2]  # 返回 ['AS', 'BAT', 'CAR', 'DOVE', 'PYTHON']

## 集合推导式（Set Comprehension）（p32）

集合推导式类似于列表推导式，但生成集合（无重复元素）。以下代码展示如何提取字符串长度并去重。

In [64]:
# 使用集合推导式，提取字符串的长度并去重
unique_lengths = {len(x) for x in strings}
# 输出集合，例如 {1, 2, 3, 4, 6}
unique_lengths

## 字典推导式（Dictionary Comprehension）（p32）

字典推导式用于从可迭代对象生成字典。以下代码展示两种创建字典的方式。

In [65]:
# 使用字典推导式，创建字符串到其长度的映射
setcomp = {x: len(x) for x in strings}
# 输出字典，例如 {'a': 1, 'as': 2, 'bat': 3, 'car': 3, 'dove': 4, 'python': 6}
setcomp

In [66]:
# 使用 map 和 dict 构造函数创建相同字典
mapping = dict(zip(strings, map(len, strings)))
# 输出相同字典
mapping

## 嵌套列表推导式（p32）

嵌套列表推导式用于处理嵌套数据结构，如多层列表。以下代码展示如何展平嵌套的名字列表。

In [67]:
# 定义嵌套的名字列表
all_data = [["John", "Emily", "Michael", "Mary", "Steven"],
            ["Maria", "Juan", "Javier", "Natalia", "Pilar"]]
# 使用嵌套列表推导式，提取包含两个以上 'a' 的名字
names_of_interest = []
for names in all_data:
    enough_as = [name for name in names if name.count("a") >= 2]
    names_of_interest.extend(enough_as)
# 输出结果，例如 ['Maria', 'Natalia']
names_of_interest

In [68]:
# 使用单行嵌套列表推导式实现相同功能
result | [name for names in all_data for name in names if name.count("a") >= 2]
# 输出相同结果
result

## 展平嵌套元组（p33）

以下代码展示如何使用列表推导式展平嵌套元组结构，常用于数据清理。

In [69]:
# 定义嵌套元组
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
# 使用列表推导式展平元组
flattened = [x for tup in some_tuples for x in tup]
# 输出展平后的列表 [1, 2, 3, 4, 5, 6, 7, 8, 9]
flattened

## 嵌套推导式与多层循环（p33）

嵌套推导式等价于多层循环，但更简洁。以下代码对比两种方式。

In [70]:
# 使用多层循环展平嵌套元组
flattened = []
for tup in some_tuples:
    for x in tup:
        flattened.append(x)
# 输出相同结果
flattened

In [71]:
# 使用嵌套列表推导式生成嵌套列表
[[x for x in tup] for tup in some_tuples]
# 输出 [[1, 2, 3], [4, 5, 6], [7, 8, 9]]，保持原结构

## 函数与返回值（p33）

Python 函数可以返回多个值（以元组形式）。以下代码展示多返回值和元组解包。

In [72]:
# 定义返回多个值的函数
def f():
    a = 5
    b = 6
    c = 7
    return a, b, c  # 返回元组 (5, 6, 7)

# 调用函数并解包返回值
a, b, c = f()
# 输出 a, b, c 分别为 5, 6, 7

In [73]:
# 直接接收元组
return_value = f()
# 输出元组 (5, 6, 7)
return_value

## 字典作为返回值（p34）

函数可以返回字典，适合结构化数据。以下代码展示返回字典的函数。

In [74]:
# 定义返回字典的函数
def f():
    a = 5
    b = 6
    c = 7
    return {"a": a, "b": b, "c": c}  # 返回字典

# 调用函数
result = f()
# 输出字典 {"a": 5, "b": 6, "c": 7}
result

## 匿名函数（Lambda 函数）（p34）

Lambda 函数是单行匿名函数，适合简单操作。以下代码展示 Lambda 函数的用法。

In [75]:
# 定义 Lambda 函数，计算两数之和
f = lambda x, y: x + y
# 调用 Lambda 函数，输出 8
f(5, 3)

In [76]:
# 使用 Lambda 函数对字符串列表按字母顺序排序
strings = ["foo", "card", "bar", "aaaa", "abab"]
strings.sort(key=lambda x: len(set(x)))  # 按唯一字符数量排序
# 输出 ['aaaa', 'foo', 'abab', 'bar', 'card']
strings

## 生成器（Generators）（p34）

生成器是惰性计算的迭代器，使用 `yield` 逐个生成值，节省内存。以下代码展示生成器的创建和使用。

In [77]:
# 定义生成器函数，生成平方数
def squares(n=10):
    print(f"Generating squares from 1 to {n}")
    for i in range(1, n + 1):
        yield i ** 2  # 逐个生成平方值

# 创建生成器对象
gen = squares()
# 输出生成器对象
gen

In [78]:
# 遍历生成器，输出平方数 [1, 4, 9, ..., 100]
for x in gen:
    print(x, end=" ")

## 生成器表达式（p35）

生成器表达式类似于列表推导式，但返回生成器对象，适合处理大数据。以下代码对比两者的内存使用。

In [79]:
# 创建生成器表达式，生成 0 到 9 的平方
gen = (x ** 2 for x in range(10))
# 输出生成器对象
gen

In [80]:
# 遍历生成器，输出 [0, 1, 4, 9, ..., 81]
for x in gen:
    print(x, end=" ")

In [81]:
# 使用生成器表达式求和，节省内存
sum(x ** 2 for x in range(100))  # 生成器表达式求和
# 使用列表推导式求和，占用更多内存
sum([x ** 2 for x in range(100)])  # 列表推导式求和

## itertools 模块（p35）

`itertools` 模块提供高效的迭代工具，如组合、排列等。以下代码展示 `groupby` 的用法。

In [82]:
# 导入 itertools 模块
import itertools
# 定义按名字首字母分组的函数
def first_letter(x):
    return x[0]

# 定义名字列表
names = ["Alan", "Adam", "Wes", "Will", "Albert", "Steven"]
# 使用 groupby 按首字母分组
for letter, names_group in itertools.groupby(sorted(names), key=first_letter):
    print(letter, list(names_group))  # 输出分组结果，例如 A ['Adam', 'Alan', 'Albert']

## 错误与异常处理（p36）

Python 使用 `try-except` 处理异常，确保程序鲁棒性。以下代码展示异常处理的常见场景。

In [83]:
# 定义浮点数转换函数，处理无效输入
def attempt_float(x):
    try:
        return float(x)  # 尝试转换为浮点数
    except ValueError:  # 捕获值错误
        return x  # 无法转换时返回原值

# 测试有效输入
attempt_float("1.2345")  # 返回 1.2345
# 测试无效输入
attempt_float("something")  # 返回 "something"

In [84]:
# 定义更严格的转换函数，处理多种异常
def attempt_float(x):
    try:
        return float(x)
    except (ValueError, TypeError):  # 捕获值错误或类型错误
        return x

# 测试元组输入
attempt_float((1, 2))  # 返回 (1, 2)

## 文件操作（p37）

Python 使用 `open` 函数读写文件，`with` 语句确保文件正确关闭。以下代码展示文件操作的基本用法。

In [85]:
# 示例文件路径（需替换为实际路径）
path = "examples/segismundo.txt"
# 使用 with 语句读取文件，指定编码为 UTF-8
with open(path, encoding="utf-8") as f:
    lines = [x.rstrip() for x in f]  # 读取每行并去除末尾换行符
# 输出前几行（示例输出，实际内容取决于文件）
lines[:5]

In [86]:
# 读取文件并统计字符数（不含换行符）
f = open(path, encoding="utf-8")
chars = sum(len(line) for line in f)  # 计算总字符数
f.close()  # 手动关闭文件
# 输出字符数
chars

In [87]:
# 使用 with 语句更安全地统计字符数
with open(path, encoding="utf-8") as f:
    chars = sum(len(line) for line in f)
# 输出字符数
chars

## 文件写入（p37）

以下代码展示如何写入文件，包括覆盖和追加模式。

In [88]:
# 创建临时文件并写入内容
with open("tmp.txt", "w", encoding="utf-8") as handle:
    handle.write("a\nb\nc\n")  # 写入三行内容

# 读取并验证写入内容
with open("tmp.txt", encoding="utf-8") as handle:
    lines = handle.readlines()
# 输出 ['a\n', 'b\n', 'c\n']
lines

## 字节与 Unicode（p38）

文件操作中，需注意字节与 Unicode 的转换。以下代码展示二进制模式和编码处理。

In [89]:
# 以二进制模式读取文件
with open(path, "rb") as f:
    data = f.read(10)  # 读取前 10 个字节
# 输出字节对象
data

In [90]:
# 解码字节为字符串
data.decode("utf-8")  # 转换为 UTF-8 字符串
# 尝试用错误编码解码，会抛出 UnicodeDecodeError
data.decode("latin1")

In [91]:
# 以二进制模式写入文件
sink_path = "sink.txt"
with open(path, "rb") as source:
    with open(sink_path, "wb") as sink:
        sink.write(source.read(10))  # 复制前 10 个字节

## 文件定位与截断（p38）

`seek` 和 `tell` 用于控制文件指针，`truncate` 用于截断文件内容。

In [92]:
# 检查文件指针位置
f = open(path, encoding="utf-8")
f.tell()  # 返回当前指针位置（0）
f.seek(3)  # 移动指针到第 3 个字节
f.read(1)  # 读取 1 个字符
f.tell()  # 返回新的指针位置（4）
f.close()

## 结论

本章通过代码示例和注释，介绍了 Python 基础知识，包括数据类型、控制流、函数、生成器、异常处理和文件操作。这些内容为后续数据分析奠定了基础。建议结合实际数据集练习上述代码，以加深理解。