1.关系运算符构成的表达式的类型为布尔型：True or False

2.逻辑运算符and,or构造的表达式的类型取决于运算数和其短路特性
* and: 若左操作数为真，返回右操作数；否则返回左操作数
* or: 若左操作数为真，返回右操作数；否则返回右操作数
* 应用场景：常用于条件赋值和简化代码逻辑

In [1]:
print(0 and 1)
print("" or "abc")
print(1 and [])

0
abc
[]


3.not会先将操作数转化为布尔值，再取反
* 假值包括：False, None, 0, 空字符串, 空容器
* 其他均视为真值

In [2]:
print(not 0)  # True(0为假值)
print(not "abc")  # False(非空字符串为真值)

True
False


# 字典常用方法: items(), keys(), values()

In [11]:
llms1 = {'DeepSeek': '深度求索', 'ChatGPT 4.5': 'OpenAI'}
# items()
print(llms1.items())
print(type(llms1.items()))
print(tuple(llms1.items()))
for k, v in llms1.items():
    print(f'{k}: {v}')

# keys()
print()
print(llms1.keys())
print(type(llms1.keys()))
print(tuple(llms1.keys()))
for k in llms1.keys():
    print(f'{k}: {llms1[k]}')

# values()
print()
llms2 = {'DeepSeek': '深度求索', 'ChatGPT 4.5': 'OpenAI', 'Qwen2.0': '阿里', 'Qwen2.5': '阿里'}
print(llms2.values())


dict_items([('DeepSeek', '深度求索'), ('ChatGPT 4.5', 'OpenAI')])
<class 'dict_items'>
(('DeepSeek', '深度求索'), ('ChatGPT 4.5', 'OpenAI'))
DeepSeek: 深度求索
ChatGPT 4.5: OpenAI

dict_keys(['DeepSeek', 'ChatGPT 4.5'])
<class 'dict_keys'>
('DeepSeek', 'ChatGPT 4.5')
DeepSeek: 深度求索
ChatGPT 4.5: OpenAI

dict_values(['深度求索', 'OpenAI', '阿里', '阿里'])


字典推导式
特点：不修改元字典，创建新字典，大字典需谨慎

In [12]:
word_frequency = {
    'DeepSeek': 1,
    'of': 10,
    'China': 3, 'USA': 3, 'tariff': 3,  # 关税
    'OpenAI': 1,
    'the': 10, 'a': 20, 'an': 20
}

stop_words = {'of', 'the', 'a', 'an'}

# 使用字典推导式过滤停用词
filtered_word_frequency = {word: freq for word, freq in word_frequency.items() if word not in stop_words}

print(filtered_word_frequency)

{'DeepSeek': 1, 'China': 3, 'USA': 3, 'tariff': 3, 'OpenAI': 1}


经典字典应用示例：
* 词频率统计v0

In [13]:
def count_word_frequency(text):
    words = text.split()
    frequency = {}  # 创建空字典
    for word in words:
        # 若单词不存在，get返回0后加1；否则直接递增
        frequency[word] = frequency.get(word, 0) + 1
    return frequency


text = "apple banana orange apple banana apple"
result = count_word_frequency(text)
print(result)

{'apple': 3, 'banana': 2, 'orange': 1}


* 词频率v1:
去除常用词 给出出现频率最高的五个词和最低的五个词

In [None]:
import string
from collections import Counter


def word_frequency_analysis(text, stop_words=None):
    """统计词频，过滤停用词，返回最高和最低频率的词"""
    # 1.预处理文本：转小写，去标点，分割单词
    text = text.lower()
    text = text.translate(str.maketrans('', '', string.punctuation))
    words = text.split()

    if stop_words is None:
        stop_words = {'the', 'of', 'with', 'a', 'an', 'in', 'is', 'it', 'for', 'and'}

    # 2.过滤停用词
    filtered_words = [word for word in words if word not in stop_words]

    # 3.统计词频
    word_counts = Counter(filtered_words)

    # 4.获取最高频的5个词
    most_common = word_counts.most_common(5)

    # 5.获取最低频的5个词
    # 先按频率升序排序，再取前5个
    least_common = sorted(word_counts.items(), key=lambda x: x[1])[:5]

    return {
        'most_common': most_common,
        'least_common': least_common,
        'total_words': len(filtered_words),
        'unique_words': len(word_counts)
    }

* 词频率v2：英文词频统计，去除停用词（最高最低）

In [None]:
import string


def word_frequency_analysis(text, stop_words=None):
    """统计词频，过滤停用词，返回最高和最低频率的词"""
    # 1. 预处理文本：转小写，去标点
    text = text.lower()
    # 删除所有标点符号
    text = text.translate(str.maketrans('', '', string.punctuation))
    # print(text)
    # 分割单词
    words = text.split()

    # 2. 过滤停用词（若未提供，使用默认列表）
    if stop_words is None:
        stop_words = {'the', 'and', 'of', 'to', 'a', 'in', 'is', 'it', 'for', 'with'}
    filtered_words = [word for word in words if word not in stop_words]

    # 3. 统计词频
    frequency = {}
    for word in filtered_words:
        frequency[word] = frequency.get(word, 0) + 1

    # 4. 排序并获取最高和最低频率词
    # 按频率降序排序
    sorted_freq = sorted(frequency.items(), key=lambda x: x[1], reverse=True)
    top_5 = sorted_freq[:5]
    # 按频率升序排序
    sorted_low = sorted(frequency.items(), key=lambda x: x[1])
    bottom_5 = sorted_low[:5]

    return top_5, bottom_5


# 示例文本
text = '''Python is a powerful language.
    Python is easy to learn.
    Python is widely used in data science and web development.
    Python and data science are great together.
    '''
# 调用函数
top, bottom = word_frequency_analysis(text)
print("最高频率词:", top)
print("最低频率词:", bottom)

* 词频率v3：词云展示

In [2]:
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from collections import Counter
import os


def chinese_word_cloud(text, stop_words=None, font_path='SimHei.ttf',
                       output_file=None, max_words=200, width=800,
                       height=400, background_color='white',
                       colormap='viridis', contour_color=None,
                       contour_width=0):
    """
    生成中文词云并返回词频统计

    参数:
        text (str): 要分析的文本
        stop_words (set): 停用词集合
        font_path (str): 字体文件路径
        output_file (str): 词云图片保存路径
        max_words (int): 显示的最大词数
        width (int): 词云宽度
        height (int): 词云高度
        background_color (str): 背景颜色
        colormap (str): 颜色映射
        contour_color (str): 轮廓颜色
        contour_width (int): 轮廓宽度

    返回:
        Counter: 词频统计结果
    """
    try:
        # 中文分词
        words = jieba.lcut(text)

        # 设置默认停用词
        default_stopwords = {'的', '和', '是', '在', '了', '与', '及', '等', '就', '都', '而', '也', '又'}
        stop_words = stop_words or default_stopwords

        # 过滤停用词和单字
        filtered_words = [word for word in words
                          if word not in stop_words
                          and len(word) > 1
                          and not word.isspace()]

        # 统计词频
        frequency = Counter(filtered_words)

        # 生成词云
        wc = WordCloud(
            font_path=font_path,
            width=width,
            height=height,
            background_color=background_color,
            max_words=max_words,
            colormap=colormap,
            contour_color=contour_color,
            contour_width=contour_width
        )
        wc.generate_from_frequencies(frequency)

        # 显示词云
        plt.figure(figsize=(12, 8))
        plt.imshow(wc, interpolation='bilinear')
        plt.axis('off')

        # 保存词云图片
        if output_file:
            # 确保目录存在
            os.makedirs(os.path.dirname(output_file), exist_ok=True)
            wc.to_file(output_file)
            print(f"词云图片已保存到: {output_file}")

        plt.show()
        return frequency

    except Exception as e:
        print(f"生成词云时出错: {str(e)}")
        return None


# 文本示例，2025年4月份，最新AI资讯
text = '''中国AI市场竞争呈现新态势，
百度宣布自4月1日起全面免费开放Ernie Bot服务，
直接回应DeepSeek等新兴企业的挑战。
数据显示，DeepSeek的R1模型在多项基准测试中表现接近GPT-4，
但运营成本仅为同类产品的三分之一。
这种技术突破与成本优势的组合，正在动摇OpenAI在中国市场的先发优势。
值得关注的是，字节跳动旗下Doubao聊天机器人凭借短视频平台的流量优势，
用户增长率持续领先传统搜索引擎衍生产品。
'''

# 自定义停用词
custom_stopwords = {'的', '和', '是', '在', '了', '与', '等'}

# 调用函数获取词频统计数据
chinese_freq = chinese_word_cloud(
    text,
    stop_words=custom_stopwords,
    font_path='SimHei.ttf',
    output_file='wordcloud.png',
    max_words=100,
    width=1000,
    height=600,
    background_color='white',
    colormap='plasma',
    contour_color='steelblue',
    contour_width=3
)

# 打印词频统计
if chinese_freq:
    print("\n词频统计(前10):")
    for word, freq in chinese_freq.most_common(10):
        print(f"{word}: {freq}")

生成词云时出错: cannot open resource


# Python 的 `str.translate()` 方法和 `str.maketrans()` 函数

## **`string.punctuation`**

`string.punctuation` 是 Python 标准库 `string` 中的一个字符串常量，包含所有常见的英文标点符号：

```python
import string
print(string.punctuation)  # 输出：!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
```

---

## **`str.maketrans(x, y, z)`**

`str.maketrans()` 用于创建一个字符映射表（翻译表），它有三种调用方式：

- **`str.maketrans(x, y, z)`**
  其中：
  - `x` 和 `y` 是等长的字符串，表示将 `x` 中的字符替换为 `y` 中的对应字符。
  - `z` 是一个字符串，表示需要删除的字符。

在代码中：

```python
str.maketrans('', '', string.punctuation)
```

- 前两个参数是空字符串 `''`，表示 **不需要替换任何字符**。
- 第三个参数是 `string.punctuation`，表示 **所有标点符号都需要被删除**。

生成的映射表会告诉 `translate()` 方法：“把标点符号全部删除”。

---

## **`text.translate(translation_table)`**

`str.translate()` 方法根据映射表对字符串进行字符替换或删除：

- 传入 `str.maketrans('', '', string.punctuation)` 生成的映射表后，它会 **直接删除 `text` 中所有出现在 `string.punctuation` 中的标点符号**。

---

## **完整示例**

```python
import string

text = "Hello, World! This is an example—with some punctuation."
cleaned_text = text.translate(str.maketrans('', '', string.punctuation))

print(cleaned_text)  # 输出：Hello World This is an examplewith some punctuation
```

**输出结果**：

```tex
Hello World This is an examplewith some punctuation
```

所有标点符号（`, ! — .`）都被删除了。

---

## **注意事项**

1. **仅针对 ASCII 标点**
   `string.punctuation` 只包含英文标点，如果需要处理其他语言（如中文标点），需自定义要删除的字符集，例如：

   ```python
   chinese_punctuation = '，。！？；：“”‘’（）【】《》…—'
   text.translate(str.maketrans('', '', chinese_punctuation))
   ```

2. **性能高效**
   `translate()` 是基于 C 实现的，比用正则表达式（如 `re.sub(r'[^\w\s]', '', text)`）或循环遍历字符更快。

3. **保留空格和字母数字**
   此方法不会删除空格或字母数字字符（`a-z, A-Z, 0-9`），仅删除标点。

---

## 总结

这行代码通过 `str.maketrans()` 生成一个删除标点的映射表，再用 `translate()` 快速清理文本，是 Python 中高效处理标点符号的标准方法。

### **常见的英文停用词列表**
以下是一些常用的英文停用词（部分来自 `nltk` 和 `sklearn` 的标准停用词列表）：

```python
english_stop_words = {
    'a', 'an', 'the',  # 冠词
    'and', 'or', 'but', 'if', 'because',  # 连词
    'of', 'to', 'in', 'for', 'on', 'with', 'at', 'by', 'from', 'up', 'down', 'about', 'into', 'over', 'under',  # 介词
    'i', 'you', 'he', 'she', 'it', 'we', 'they', 'me', 'him', 'her', 'us', 'them',  # 代词
    'my', 'your', 'his', 'its', 'our', 'their',  # 物主代词
    'this', 'that', 'these', 'those',  # 指示代词
    'is', 'am', 'are', 'was', 'were', 'be', 'been', 'being',  # be动词
    'have', 'has', 'had', 'having',  # have动词
    'do', 'does', 'did', 'doing',  # do动词
    'can', 'could', 'will', 'would', 'shall', 'should', 'may', 'might', 'must',  # 情态动词
    'not', 'no', 'yes',  # 否定词
    'here', 'there', 'when', 'where', 'why', 'how',  # 疑问词/副词
    'some', 'any', 'all', 'both', 'each', 'few', 'many', 'most', 'other', 'such',  # 限定词
    'only', 'just', 'also', 'very', 'too', 'so', 'than', 'then', 'again', 'more', 'less',  # 副词
    'as', 'like', 'same', 'different',  # 比较词
    'what', 'which', 'who', 'whom', 'whose',  # 疑问代词
    'one', 'ones', 'every', 'none', 'nothing', 'something', 'anything', 'everything',  # 不定代词
    'get', 'got', 'getting', 'go', 'went', 'gone', 'going',  # 常见动词
    'say', 'said', 'saying', 'see', 'saw', 'seen', 'seeing',  # 常见动词
    'make', 'made', 'making', 'take', 'took', 'taken', 'taking',  # 常见动词
    'use', 'used', 'using', 'find', 'found', 'finding',  # 常见动词
    'want', 'wanted', 'wanting', 'need', 'needed', 'needing',  # 常见动词
    'good', 'bad', 'better', 'best', 'worse', 'worst',  # 形容词
    'big', 'small', 'large', 'little', 'long', 'short',  # 形容词
    'first', 'last', 'next', 'previous', 'early', 'late',  # 序数词/时间词
    'well', 'better', 'best', 'badly', 'worse', 'worst',  # 副词
    'now', 'then', 'today', 'yesterday', 'tomorrow', 'soon', 'later',  # 时间副词
    'always', 'never', 'often', 'sometimes', 'usually', 'rarely',  # 频率副词
    'very', 'quite', 'rather', 'too', 'enough',  # 程度副词
    'also', 'either', 'neither',  # 连接副词
    'perhaps', 'maybe', 'probably', 'certainly',  # 模态副词
                       }
