# 利用Python进行数据分析（第二版）——第三章 - IPython与数据结构

本笔记基于《利用Python进行数据分析（第二版）》第三章，涵盖IPython基础、Python核心数据结构（如元组、列表、字典、集合）以及函数、生成器、异常处理和文件操作等内容。以下内容通过代码示例、注释和Markdown说明，旨在帮助复习和加深理解。

## 1. 元组 (Tuple)
#### p68
元组是Python中不可变的序列类型，适合存储固定数据。元组使用括号 `()` 定义，元素之间用逗号分隔。元组支持索引、切片和解包操作，但不能修改其内容。

In [None]:
# 定义一个简单的元组
tup = (4, 5, 6)
tup  # 输出元组内容

In [None]:
# 省略括号的元组定义方式，效果相同
tup = 4, 5, 6
tup

In [None]:
# 将列表或字符串转换为元组
tuple([4, 0, 2])  # 将列表转换为元组
tup = tuple('string')  # 将字符串的每个字符转换为元组元素
tup

In [None]:
# 访问元组元素（从0开始索引）
tup[0]  # 获取第一个元素

In [None]:
# 嵌套元组（元组中包含元组）
nested_tup = (4, 5, 6), (7, 8)
nested_tup  # 输出嵌套元组
nested_tup[0]  # 访问第一个子元组
nested_tup[1]  # 访问第二个子元组

In [None]:
# 元组是不可变的，尝试修改会报错
tup = tuple(['foo', [1, 2], True])
# tup[2] = False  # 这一行会触发 TypeError，因为元组元素不可更改

In [None]:
# 元组中的可变对象（如列表）可以被修改
tup[1].append(3)  # 向元组中的列表追加元素
tup  # 输出修改后的元组

In [None]:
# 元组拼接（使用 + 运算符）
(4, None, 'foo') + (6, 0) + ('bar',)  # 注意单个元素元组需要加逗号

In [None]:
# 元组重复（使用 * 运算符）
('foo', 'bar') * 4  # 重复4次

In [None]:
# 元组解包（将元组元素赋值给变量）
tup = (4, 5, 6)
a, b, c = tup  # 解包到变量 a, b, c
b  # 输出变量 b 的值

In [None]:
# 嵌套元组的解包
tup = 4, 5, (6, 7)
a, b, (c, d) = tup  # 解包嵌套元组
d  # 输出变量 d 的值

In [None]:
# 使用解包交换变量值（无需临时变量）
a, b = 1, 2
b, a = a, b  # 交换 a 和 b 的值
a, b  # 输出交换后的值

In [None]:
# 遍历元组列表并解包
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
for a, b, c in seq:
    print(f'a={a}, b={b}, c={c}')  # 格式化输出每个元组的元素

In [None]:
# 使用 * 捕获剩余元素（rest 收集多余元素）
values = 1, 2, 3, 4, 5
a, b, *rest = values  # a=1, b=2, rest=[3, 4, 5]
rest  # 输出剩余元素

In [None]:
# 使用 * 忽略剩余元素（_ 表示忽略）
a, b, *_ = values
a, b  # 输出 a 和 b

In [None]:
# 统计元组中某个元素的出现次数
a = (1, 2, 2, 2, 3, 4, 2)
a.count(2)  # 统计元素 2 出现的次数

## 2. 列表 (List)
#### p72
列表是可变的序列类型，适合存储动态数据。列表使用方括号 `[]` 定义，支持添加、删除、修改元素，以及切片和排序等操作。

In [None]:
# 定义列表并将元组转换为列表
a_list = [2, 3, 7, None]
tup = ("foo", "bar", "baz")
b_list = list(tup)  # 将元组转换为列表
b_list[1] = "peekaboo"  # 修改列表元素
b_list  # 输出修改后的列表

In [None]:
# 将 range 对象转换为列表
gen = range(10)  # 生成 0 到 9 的范围
list(gen)  # 转换为列表

In [None]:
# 在列表末尾添加元素
b_list.append("dwarf")  # 添加新元素
b_list

In [None]:
# 在指定位置插入元素
b_list.insert(1, "red")  # 在索引 1 插入 "red"
b_list

In [None]:
# 删除指定位置的元素并返回
b_list.pop(2)  # 删除索引 2 的元素
b_list

In [None]:
# 删除第一次出现的指定元素
b_list.append("foo")  # 添加 "foo"
b_list.remove("foo")  # 删除第一个 "foo"
b_list

In [None]:
# 检查元素是否在列表中
"dwarf" in b_list  # 返回 True 或 False

In [None]:
# 检查元素是否不在列表中
"dwarf" not in b_list  # 返回 True 或 False

## 3. 列表的串联和组合
#### p75
列表支持通过 `+` 运算符拼接，或使用 `extend()` 方法合并多个元素。`append()` 将对象作为一个整体添加，而 `extend()` 将可迭代对象的元素逐个添加。

In [None]:
# 使用 + 拼接列表
[4, None, "foo"] + [7, 8, (2, 3)]

In [None]:
# 使用 extend 合并列表
x = [4, None, "foo"]
x.extend([7, 8, (2, 3)])  # 将元素逐个添加到 x
x

## 4. 列表排序
#### p75
列表的 `sort()` 方法可以对元素进行原地排序，支持自定义排序规则（如按长度排序）。

In [None]:
# 默认排序（升序）
a = [7, 2, 5, 1, 3]
a.sort()  # 原地排序
a

In [None]:
# 按字符串长度排序
b = ["saw", "small", "He", "foxes", "six"]
b.sort(key=len)  # 按 len 函数返回值排序
b

## 5. 列表切片
#### p77
切片用于提取列表的子序列，格式为 `seq[start:stop:step]`，其中 `start` 是起始索引，`stop` 是结束索引（不包含），`step` 是步长。

In [None]:
# 基本切片
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[1:5]  # 获取索引 1 到 4 的元素

In [None]:
# 使用切片替换元素
seq[3:5] = [6, 3]  # 替换索引 3 到 4 的元素
seq

In [None]:
# 省略 start 或 stop
seq[:5]  # 从开头到索引 4
seq[3:]  # 从索引 3 到结尾

In [None]:
# 使用负索引
seq[-4:]  # 最后 4 个元素
seq[-6:-2]  # 倒数第 6 到倒数第 3 个元素

In [None]:
# 使用步长
seq[::2]  # 每隔一个元素取一个

In [None]:
# 反转列表
seq[::-1]  # 步长为 -1，反向取所有元素

## 6. 字典 (Dictionary)
#### p81
字典是键值对的集合，键必须是可哈希的对象（如字符串、整数、元组），值可以是任意Python对象。字典使用花括号 `{}` 定义。

In [None]:
# 定义字典
empty_dict = {}  # 空字典
d1 = {"a": "some value", "b": [1, 2, 3, 4]}  # 键值对
d1

In [None]:
# 添加和访问字典元素
d1[7] = "an integer"  # 添加新键值对
d1["b"]  # 访问键 'b' 的值

In [None]:
# 检查键是否存在
"b" in d1  # 返回 True 或 False

In [None]:
# 删除字典元素
d1[5] = "some value"
d1["dummy"] = "another value"
del d1[5]  # 使用 del 删除键 5
ret = d1.pop("dummy")  # 使用 pop 删除并返回键 'dummy' 的值
d1

In [None]:
# 获取键和值的列表
list(d1.keys())  # 所有键
list(d1.values())  # 所有值

In [None]:
# 获取键值对
list(d1.items())  # 返回 (键, 值) 元组列表

In [None]:
# 更新字典（合并另一个字典）
d1.update({"b": "foo", "c": 12})  # 更新或添加键值对
d1

In [None]:
# 使用 zip 创建字典
tuples = zip(range(5), reversed(range(5)))  # 配对两个序列
mapping = dict(tuples)  # 转换为字典
mapping

## 7. 字典的默认值
#### p84
字典的 `get()` 和 `setdefault()` 方法可以处理缺失键的情况。`collections.defaultdict` 提供了一种更简洁的方式来处理默认值。

In [None]:
# 手动实现按首字母分组
words = ["apple", "bat", "bar", "atom", "book"]
by_letter = {}
for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]  # 初始化为空列表
    else:
        by_letter[letter].append(word)  # 添加到现有列表
by_letter

In [None]:
# 使用 get 获取默认值
by_letter.get(4, 10)  # 如果键 4 不存在，返回 10

In [None]:
# 使用 setdefault 简化代码
by_letter = {}
for word in words:
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)  # 若键不存在，设置为 []
by_letter

In [None]:
# 使用 defaultdict 进一步简化
from collections import defaultdict
by_letter = defaultdict(list)  # 默认值为空列表
for word in words:
    by_letter[word[0]].append(word)  # 直接添加，无需检查键
by_letter

In [None]:
# 检查对象的哈希性（键必须可哈希）
hash("string")  # 字符串是可哈希的
hash((1, 2, (2, 3)))  # 不可变元组是可哈希的
# hash((1, 2, [2, 3]))  # 包含列表的元组不可哈希，会报错

In [None]:
# 使用元组作为字典键
d = {}
d[tuple([1, 2, 3])] = 5  # 列表转换为元组作为键
d

## 8. 集合 (Set)
#### p86
集合是无序的、唯一元素的集合，支持集合运算（如并集、交集）。集合使用 `set()` 或 `{}` 定义。

In [None]:
# 创建集合（自动去重）
set([2, 2, 2, 1, 3, 3])  # 等价于 {1, 2, 3}
{2, 2, 2, 1, 3, 3}

In [None]:
# 定义两个集合
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

In [None]:
# 并集
a.union(b)  # 或 a | b
a | b

In [None]:
# 交集
a.intersection(b)  # 或 a & b
a & b

In [None]:
# 集合的更新操作
c = a.copy()  # 复制集合 a
c |= b  # 更新 c 为 a 和 b 的并集
c
d = a.copy()
d &= b  # 更新 d 为 a 和 b 的交集
d

In [None]:
# 将列表转换为集合（元素需可哈希）
my_data = [1, 2, 3, 4]
my_set = {tuple(my_data)}  # 整个列表转为元组作为集合元素
my_set

In [None]:
# 子集和超集检查
a_set = {1, 2, 3, 4, 5}
{1, 2, 3}.issubset(a_set)  # 检查是否为子集
a_set.issuperset({1, 2, 3})  # 检查是否为超集

In [None]:
# 集合相等性（忽略顺序）
{1, 2, 3} == {3, 2, 1}  # 集合元素相同即相等

## 9. 序列函数
#### p79
Python提供了一些内置函数（如 `sorted()`, `zip()`, `enumerate()`）来处理序列，简化数据操作。

In [None]:
# 排序（返回新列表）
sorted([7, 1, 2, 6, 0, 3, 2])  # 数字排序
sorted("horse race")  # 字符串按字符排序

In [None]:
# 使用 zip 配对多个序列
seq1 = ["foo", "bar", "baz"]
seq2 = ["one", "two", "three"]
zipped = zip(seq1, seq2)  # 创建配对迭代器
list(zipped)  # 转换为列表

In [None]:
# zip 配对不同长度的序列（以最短序列为准）
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

In [None]:
# 结合 enumerate 和 zip 遍历
for index, (a, b) in enumerate(zip(seq1, seq2)):
    print(f"{index}: {a}, {b}")  # 输出索引和配对元素

In [None]:
# 反转序列
list(reversed(range(10)))  # 从 9 到 0

## 10. 推导式
#### p89
列表、集合和字典推导式提供了一种简洁的方式来创建新数据结构，通常比循环更高效。

In [None]:
# 列表推导式（筛选并转换）
strings = ["a", "as", "bat", "car", "dove", "python"]
[x.upper() for x in strings if len(x) > 2]  # 筛选长度大于2的字符串并转为大写

In [None]:
# 集合推导式（获取唯一长度）
unique_lengths = {len(x) for x in strings}  # 提取字符串长度的唯一值
unique_lengths

In [None]:
# 使用 map 和 set 获取唯一长度
set(map(len, strings))  # 等价于集合推导式

In [None]:
# 字典推导式（创建字符串到索引的映射）
loc_mapping = {value: index for index, value in enumerate(strings)}
loc_mapping

## 11. 嵌套列表推导式
#### p91
嵌套推导式可以处理多层数据结构，逻辑上等价于嵌套循环，但更简洁。

In [None]:
# 定义嵌套数据
all_data = [["John", "Emily", "Michael", "Mary", "Steven"],
            ["Maria", "Juan", "Javier", "Natalia", "Pilar"]]

In [None]:
# 使用循环筛选包含至少两个 'a' 的名字
names_of_interest = []
for names in all_data:
    enough_as = [name for name in names if name.count("a") >= 2]
    names_of_interest.extend(enough_as)
names_of_interest

In [None]:
# 使用嵌套列表推导式实现相同功能
result = [name for names in all_data for name in names if name.count("a") >= 2]
result

In [None]:
# 展平元组列表
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
flattened = [x for tup in some_tuples for x in tup]  # 展平为单一列表
flattened

In [None]:
# 等价的循环实现
flattened = []
for tup in some_tuples:
    for x in tup:
        flattened.append(x)
flattened

In [None]:
# 嵌套推导式生成列表的列表
[[x for x in tup] for tup in some_tuples]  # 保持子列表结构

## 12. 函数
#### p94
函数是Python中组织代码的基本单元，支持参数、默认值和返回值。函数通过 `def` 关键字定义。

In [None]:
# 定义简单函数
def my_function(x, y):
    return x + y  # 返回两个参数的和

In [None]:
# 调用函数
result = my_function(1, 2)
result

In [None]:
# 没有返回值的函数（默认返回 None）
def function_without_return(x):
    print(x)

result = function_without_return("hello!")
print(result)  # 输出 None

In [None]:
# 带默认参数的函数
def my_function2(x, y, z=1.5):
    if z > 1:
        return z * (x + y)  # z 大于 1 时返回 z 乘以 (x + y)
    else:
        return z / (x + y)  # 否则返回 z 除以 (x + y)

In [None]:
# 测试不同参数调用
my_function2(5, 6, z=0.7)  # z 小于 1
my_function2(3.14, 7, 3.5)  # z 大于 1
my_function2(10, 20)  # 使用默认 z=1.5

## 13. 命名空间与作用域
#### p93
Python的变量作用域分为局部和全局。`global` 关键字可以修改全局变量，但应谨慎使用。

In [None]:
# 函数修改全局变量（不推荐）
a = []
def func():
    for i in range(5):
        a.append(i)  # 修改全局列表 a

func()
a  # 输出 [0, 1, 2, 3, 4]
func()
a  # 输出 [0, 1, 2, 3, 4, 0, 1, 2, 3, 4]

In [None]:
# 使用 global 关键字显式声明全局变量
a = None
def bind_a_variable():
    global a
    a = []  # 修改全局变量 a
bind_a_variable()
print(a)  # 输出 []

## 14. 函数作为对象
#### p95
Python的函数是一等公民，可以作为参数传递、存储在数据结构中，用于实现灵活的代码逻辑。

In [None]:
# 定义待清理的字符串列表
states = ["   Alabama ", "Georgia!", "Georgia", "georgia", "FlOrIda",
          "south   carolina##", "West virginia?"]

In [None]:
# 清理字符串的函数（去空格、标点，标题化）
import re

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()  # 去除首尾空格
        value = re.sub("[!#?]", "", value)  # 移除标点
        value = value.title()  # 转换为标题格式
        result.append(value)
    return result

clean_strings(states)

In [None]:
# 使用函数列表动态清理字符串
def remove_punctuation(value):
    return re.sub("[!#?]", "", value)

clean_ops = [str.strip, remove_punctuation, str.title]  # 操作列表

def clean_strings(strings, ops):
    result = []
    for value in strings:
        for func in ops:
            value = func(value)  # 依次应用每个函数
        result.append(value)
    return result

clean_strings(states, clean_ops)

In [None]:
# 使用 map 应用函数
for x in map(remove_punctuation, states):
    print(x)  # 逐个移除标点并打印

## 15. 匿名函数 (Lambda)
#### p98
Lambda 函数是简短的匿名函数，适合简单的操作，通常用于函数参数或推导式。

In [None]:
# 普通函数与等价的 Lambda 函数
def short_function(x):
    return x * 2

equiv_anon = lambda x: x * 2  # 等价的 Lambda 函数

In [None]:
# 将 Lambda 函数应用于列表
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
apply_to_list(ints, lambda x: x * 2)  # 每个元素乘以 2

In [None]:
# 使用 Lambda 函数排序
strings = ["foo", "card", "bar", "aaaa", "abab"]
strings.sort(key=lambda x: len(set(x)))  # 按唯一字符数量排序
strings

## 16. 生成器 (Generator)
#### p100
生成器是一种惰性计算的迭代器，使用 `yield` 关键字逐个生成值，适合处理大数据量场景。

In [None]:
# 字典迭代器
some_dict = {"a": 1, "b": 2, "c": 3}
for key in some_dict:
    print(key)  # 迭代字典的键

In [None]:
# 显式创建字典迭代器
dict_iterator = iter(some_dict)
list(dict_iterator)  # 转换为列表

In [None]:
# 定义生成器函数
def squares(n=10):
    print(f"Generating squares from 1 to {n ** 2}")
    for i in range(1, n + 1):
        yield i ** 2  # 逐个生成平方值

gen = squares()
for x in gen:
    print(x, end=" ")  # 输出 1 4 9 ... 100

## 17. 生成器表达式
#### p101
生成器表达式是生成器的简洁写法，类似于列表推导式，但使用圆括号 `()`，适合一次性迭代。

In [None]:
# 生成器表达式
gen = (x ** 2 for x in range(100))  # 生成 0 到 99 的平方
gen

In [None]:
# 使用生成器表达式计算总和
sum(x ** 2 for x in range(100))  # 求 0 到 99 平方的和

# 使用生成器表达式创建字典
dict((i, i ** 2) for i in range(5))  # {0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

## 18. itertools 模块
#### p102
`itertools` 模块提供了高效的迭代工具，如 `groupby()` 用于按键分组。

In [None]:
# 使用 groupby 按首字母分组
import itertools
def first_letter(x):
    return x[0]

names = ["Alan", "Adam", "Wes", "Will", "Albert", "Steven"]
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names))  # 分组输出

## 19. 错误和异常处理
#### p103
使用 `try-except` 块处理异常，避免程序崩溃。可以通过指定异常类型（如 `ValueError`）精确捕获。

In [None]:
# 尝试将字符串转换为浮点数
float("1.2345")  # 成功
# float("something")  # 报 ValueError

In [None]:
# 简单异常处理
def attempt_float(x):
    try:
        return float(x)
    except:
        return x  # 失败时返回原值

attempt_float("1.2345")  # 返回 1.2345
attempt_float("something")  # 返回 "something"

In [None]:
# 指定异常类型
def attempt_float(x):
    try:
        return float(x)
    except ValueError:
        return x  # 只捕获 ValueError

# attempt_float((1, 2))  # 仍会报 TypeError

In [None]:
# 捕获多种异常
def attempt_float(x):
    try:
        return float(x)
    except (TypeError, ValueError):
        return x  # 捕获 TypeError 和 ValueError

attempt_float((1, 2))  # 返回 (1, 2)

## 20. 文件操作
#### p107
Python支持通过 `open()` 函数读写文件，结合 `with` 语句可以自动管理文件资源。

In [None]:
# 读取文件
path = "segismundo.txt"
with open(path, encoding="utf-8") as f:
    lines = [x.rstrip() for x in f]  # 读取并去除每行末尾换行符
lines

In [None]:
# 读取文件的前几个字符
f1 = open(path)
f1.read(10)  # 读取前 10 个字符
f2 = open(path, mode="rb")  # 以二进制模式读取
f2.read(10)  # 读取前 10 个字节

f1.close()
f2.close()

In [None]:
# 检查文件指针位置
f1 = open(path, encoding='utf-8')
f1.read(5)  # 读取 5 个字符
f1.tell()  # 当前指针位置
f1.seek(4)  # 移动指针到第 4 个字节
f1.read(1)  # 读取 1 个字符
f1.close()

In [None]:
# 写入文件（过滤短行）
with open("tmp.txt", mode="w") as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)  # 写入长度大于 1 的行

with open("tmp.txt") as f:
    lines = f.readlines()  # 读取所有行
lines

In [None]:
# 删除临时文件
import os
os.remove("tmp.txt")

## 21. 文件的字节与编码
#### p111
文件操作需要注意编码问题，文本模式使用指定编码（如 UTF-8），二进制模式直接处理字节。

In [None]:
# 读取文本文件的字符
with open(path) as f:
    chars = f.read(10)  # 读取前 10 个字符
chars

In [None]:
# 读取二进制文件的字节
with open(path, mode="rb") as f:
    data = f.read(10)  # 读取前 10 个字节
data

In [None]:
# 解码字节为字符串
data.decode("utf-8")  # 成功解码
# data[:4].decode("utf-8")  # 可能因不完整字符报错

In [None]:
# 以不同编码写入文件
sink_path = "sink.txt"
with open(path) as source:
    with open(sink_path, "x", encoding="iso-8859-1") as sink:
        sink.write(source.read())  # 读取并写入新文件

with open(sink_path, encoding="iso-8859-1") as f:
    print(f.read(10))  # 读取前 10 个字符

os.remove(sink_path)  # 删除临时文件

## 总结

本章涵盖了Python数据分析的基础工具，包括IPython的使用、核心数据结构（元组、列表、字典、集合）、函数定义与作用域、生成器、异常处理和文件操作。这些知识点是数据分析的基石，熟练掌握可以显著提升代码效率和可读性。

- **关键点**：元组不可变，列表可变；字典和集合依赖哈希；生成器适合大数据处理；异常处理确保代码健壮。
- **建议**：多练习推导式和生成器，熟悉文件编码处理，尝试将代码模块化以提高复用性。