# 自然语言处理 📝

## 欢迎来到自然语言处理的世界！

想象一下，如果你能让计算机学会"读"和"写"，是不是很神奇？这就是自然语言处理的魅力！

在这个notebook中，我们将一起探索：
- 什么是自然语言处理？
- 为什么要自然语言处理？
- 如何用Python实现简单的自然语言处理？

准备好了吗？让我们开始吧！

## 1. 什么是自然语言处理？ 🤔

### 生活中的例子
想象你在：
- 用手机发短信
- 用语音助手问天气
- 用翻译软件翻译文章

这就是自然语言处理！计算机也可以学会这种技能。

### 小测验
1. 下面哪些是自然语言处理的例子？
   - [x] 机器翻译
   - [x] 语音助手
   - [ ] 计算1+1=2
   - [x] 情感分析

2. 为什么需要自然语言处理？
   - 帮助我们理解文字
   - 让计算机学会"读"和"写"
   - 提高工作效率

3. 你能想到哪些自然语言处理的例子？
   - 比如：机器翻译、语音助手、情感分析...

In [None]:
# 导入必要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, confusion_matrix
import jieba
import re

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

print("工具准备完毕！让我们开始吧！")

## 2. 文本分类：让计算机学会分类文章 📚

### 生活中的例子
- 垃圾邮件过滤
- 新闻分类
- 评论情感分析

让我们用Python实现一个简单的文本分类器！

In [None]:
# 准备一些示例文本
texts = [
    "这部电影很棒，我很喜欢！",
    "这个产品质量很差，不推荐购买。",
    "今天天气真好，心情愉快。",
    "服务态度很差，让人很生气。",
    "这个餐厅的菜很好吃，下次还来。",
    "这个产品性价比很高，值得购买。",
    "这部电影很无聊，浪费时间。",
    "这个景点风景优美，值得一游。"
]

# 准备标签（1表示正面，0表示负面）
labels = [1, 0, 1, 0, 1, 1, 0, 1]

# 使用jieba分词
def preprocess_text(text):
    # 去除标点符号
    text = re.sub(r'[^\w\s]', '', text)
    # 分词
    words = jieba.cut(text)
    return ' '.join(words)

# 预处理文本
processed_texts = [preprocess_text(text) for text in texts]

# 创建词袋模型
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(processed_texts)

# 划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

# 创建并训练朴素贝叶斯分类器
nb = MultinomialNB()
nb.fit(X_train, y_train)

# 预测
predictions = nb.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, predictions)
print(f'准确率: {accuracy:.2f}')

# 显示混淆矩阵
cm = confusion_matrix(y_test, predictions)
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title('混淆矩阵')
plt.xlabel('预测标签')
plt.ylabel('真实标签')
plt.show()

### 动手做一做
1. 添加更多文本数据，观察分类效果如何变化
2. 尝试使用不同的分类算法
3. 观察混淆矩阵，看看哪些文本容易混淆

### 思考题
1. 为什么需要分词？
2. 你能想到其他可以用文本分类解决的问题吗？

## 3. 词云：让文字变得生动有趣 ☁️

### 生活中的例子
- 文章关键词提取
- 评论热点分析
- 文本可视化

让我们学习如何生成词云！

In [None]:
# 生成词云
from wordcloud import WordCloud

# 合并所有文本
all_text = ' '.join(processed_texts)

# 创建词云
wordcloud = WordCloud(
    font_path='SimHei.ttf',  # 使用中文字体
    width=800,
    height=400,
    background_color='white'
).generate(all_text)

# 显示词云
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('文本词云')
plt.show()

### 动手做一做
1. 修改词云的参数，观察效果如何变化
2. 尝试使用不同的文本数据
3. 观察词云中的关键词

### 思考题
1. 为什么需要词云？
2. 你能想到其他文本可视化的方法吗？

## 4. 情感分析：让计算机理解情感 😊

### 生活中的例子
- 评论情感分析
- 社交媒体情绪分析
- 客户反馈分析

让我们学习如何分析文本情感！

In [None]:
# 情感分析
def analyze_sentiment(text):
    # 预处理文本
    processed_text = preprocess_text(text)
    # 转换为特征向量
    features = vectorizer.transform([processed_text])
    # 预测情感
    prediction = nb.predict(features)[0]
    return "正面" if prediction == 1 else "负面"

# 测试一些新文本
test_texts = [
    "这个产品很好用，推荐购买！",
    "服务态度很差，不推荐。",
    "这个景点风景优美，值得一游。"
]

for text in test_texts:
    sentiment = analyze_sentiment(text)
    print(f'文本: {text}')
    print(f'情感: {sentiment}\n')

### 动手做一做
1. 添加更多测试文本，观察情感分析效果
2. 尝试使用不同的情感分析算法
3. 观察情感分析的结果

### 思考题
1. 为什么需要情感分析？
2. 你能想到其他可以用情感分析解决的问题吗？

## 5. 趣味练习 🎯

### 练习1：文本分类
1. 收集一些文本数据
2. 设计一个分类器
3. 测试分类效果

### 练习2：词云生成
1. 收集一些文本数据
2. 生成词云
3. 分析关键词

### 练习3：情感分析
1. 收集一些评论数据
2. 设计一个情感分析器
3. 分析评论情感

## 6. 知识总结 📝

### 今天学到了什么？
1. 自然语言处理的基本概念
2. 不同的自然语言处理算法
3. 如何用Python实现自然语言处理

### 下节课预告
下次我们将学习如何用机器学习进行大语言模型入门，让计算机学会生成文字！

## 7. 趣味问答 🤔

1. 选择题
   - 下面哪个不是自然语言处理的例子？
     a) 机器翻译
     b) 计算1+1=2
     c) 语音助手
     d) 情感分析

2. 判断题
   - 自然语言处理就是让计算机"读"和"写"（对/错）
   - 分词对自然语言处理很重要（对/错）

3. 开放题
   - 你能想到哪些有趣的自然语言处理问题？
   - 为什么自然语言处理很重要？
   - 你觉得自然语言处理会如何改变我们的生活？