# Python基础知识与Conda环境管理

本笔记本将介绍机器学习所需的Python基础知识，包括：
- Python基本概念和语法
- 数据类型和数据结构
- 控制流和函数
- 面向对象编程基础
- 包管理和导入
- Conda环境创建和管理

这些是进行机器学习项目的必备基础知识。

## 1. Python基本语法和数据类型

Python是一种高级、解释型的编程语言，以其简洁的语法和强大的功能而闻名。

In [None]:
# 基本数据类型
print("=== 基本数据类型 ===")

# 数字类型
integer_num = 42
float_num = 3.14159
complex_num = 3 + 4j

print(f"整数: {integer_num}, 类型: {type(integer_num)}")
print(f"浮点数: {float_num}, 类型: {type(float_num)}")
print(f"复数: {complex_num}, 类型: {type(complex_num)}")

# 字符串
string_example = "Hello, Machine Learning!"
multiline_string = """这是一个
多行字符串
用于机器学习"""

print(f"字符串: {string_example}")
print(f"多行字符串:\n{multiline_string}")

# 布尔值
is_learning = True
is_difficult = False
print(f"布尔值: {is_learning}, {is_difficult}")

# 空值
none_value = None
print(f"空值: {none_value}, 类型: {type(none_value)}")

### 数据结构

Python提供了多种内置数据结构，这些在机器学习中经常使用。

In [None]:
# 列表 (List) - 可变、有序
print("=== 列表 (List) ===")
ml_algorithms = ["线性回归", "决策树", "SVM", "神经网络"]
numbers = [1, 2, 3, 4, 5]

print(f"机器学习算法: {ml_algorithms}")
print(f"列表长度: {len(ml_algorithms)}")
print(f"第一个算法: {ml_algorithms[0]}")
print(f"最后一个算法: {ml_algorithms[-1]}")

# 列表操作
ml_algorithms.append("随机森林")
print(f"添加后: {ml_algorithms}")

# 元组 (Tuple) - 不可变、有序
print("\n=== 元组 (Tuple) ===")
model_params = (0.01, 100, 'relu')  # 学习率、epochs、激活函数
print(f"模型参数: {model_params}")
learning_rate, epochs, activation = model_params  # 解包
print(f"学习率: {learning_rate}, 迭代次数: {epochs}, 激活函数: {activation}")

# 字典 (Dictionary) - 键值对
print("\n=== 字典 (Dictionary) ===")
model_config = {
    "learning_rate": 0.001,
    "batch_size": 32,
    "hidden_layers": [128, 64, 32],
    "optimizer": "Adam"
}

print(f"模型配置: {model_config}")
print(f"学习率: {model_config['learning_rate']}")
print(f"隐藏层: {model_config['hidden_layers']}")

# 集合 (Set) - 不重复元素
print("\n=== 集合 (Set) ===")
features_a = {"年龄", "身高", "体重", "收入"}
features_b = {"身高", "体重", "教育水平", "收入"}

print(f"特征集A: {features_a}")
print(f"特征集B: {features_b}")
print(f"交集: {features_a & features_b}")
print(f"并集: {features_a | features_b}")
print(f"差集: {features_a - features_b}")

## 2. 控制流

控制流语句用于控制程序的执行顺序，在机器学习中经常用于数据处理和模型训练。

In [None]:
# 条件语句
print("=== 条件语句 ===")
accuracy = 0.95

if accuracy > 0.9:
    print("模型表现优秀！")
elif accuracy > 0.8:
    print("模型表现良好")
else:
    print("模型需要改进")

# 循环语句
print("\n=== For循环 ===")
algorithms = ["线性回归", "SVM", "随机森林", "神经网络"]

for i, algorithm in enumerate(algorithms):
    print(f"{i+1}. {algorithm}")

print("\n=== While循环 ===")
epoch = 0
loss = 1.0

print("训练过程模拟:")
while loss > 0.1 and epoch < 5:
    epoch += 1
    loss = loss * 0.7  # 模拟损失减少
    print(f"Epoch {epoch}: Loss = {loss:.3f}")

print("\n=== 列表推导式 ===")
# 生成平方数列表
squares = [x**2 for x in range(1, 6)]
print(f"平方数: {squares}")

# 筛选偶数
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
even_numbers = [x for x in numbers if x % 2 == 0]
print(f"偶数: {even_numbers}")

# 数据预处理示例
raw_data = [1, -2, 3, -4, 5]
normalized_data = [abs(x) for x in raw_data]
print(f"原始数据: {raw_data}")
print(f"归一化后: {normalized_data}")

## 3. 函数

函数是可重用的代码块，在机器学习项目中用于组织代码和避免重复。

In [None]:
# 基本函数定义
def calculate_accuracy(correct_predictions, total_predictions):
    """计算准确率"""
    if total_predictions == 0:
        return 0
    return correct_predictions / total_predictions

# 使用函数
accuracy = calculate_accuracy(95, 100)
print(f"准确率: {accuracy:.2%}")

# 带默认参数的函数
def train_model(data, learning_rate=0.01, epochs=100, verbose=True):
    """模拟模型训练"""
    if verbose:
        print(f"开始训练模型...")
        print(f"学习率: {learning_rate}, 迭代次数: {epochs}")
    
    # 模拟训练过程
    final_loss = 1.0
    for epoch in range(epochs):
        final_loss *= 0.99  # 模拟损失递减
        if verbose and (epoch + 1) % 20 == 0:
            print(f"Epoch {epoch + 1}: Loss = {final_loss:.4f}")
    
    return final_loss

# 调用函数
final_loss = train_model("training_data", epochs=60)
print(f"最终损失: {final_loss:.4f}")

# Lambda函数（匿名函数）
print("\n=== Lambda函数 ===")
data = [1, 2, 3, 4, 5]

# 使用lambda进行数据变换
squared_data = list(map(lambda x: x**2, data))
filtered_data = list(filter(lambda x: x > 2, data))

print(f"原始数据: {data}")
print(f"平方后: {squared_data}")
print(f"过滤后: {filtered_data}")

# 高阶函数示例
def apply_preprocessing(data, transform_func):
    """应用预处理函数"""
    return [transform_func(x) for x in data]

# 不同的预处理方法
normalize = lambda x: x / 10.0
standardize = lambda x: (x - 3) / 2.0

raw_data = [1, 2, 3, 4, 5]
normalized = apply_preprocessing(raw_data, normalize)
standardized = apply_preprocessing(raw_data, standardize)

print(f"\n原始数据: {raw_data}")
print(f"归一化: {normalized}")
print(f"标准化: {standardized}")

## 4. 面向对象编程基础

面向对象编程(OOP)有助于组织复杂的机器学习项目代码。

In [None]:
# 定义一个简单的机器学习模型类
class SimpleModel:
    """简单的机器学习模型类"""
    
    def __init__(self, model_name, learning_rate=0.01):
        """构造函数"""
        self.model_name = model_name
        self.learning_rate = learning_rate
        self.is_trained = False
        self.accuracy = 0.0
        
    def train(self, training_data, epochs=100):
        """训练模型"""
        print(f"开始训练 {self.model_name} 模型...")
        print(f"学习率: {self.learning_rate}, 迭代次数: {epochs}")
        
        # 模拟训练过程
        for epoch in range(epochs):
            # 模拟准确率提升
            self.accuracy = min(0.95, 0.5 + epoch * 0.005)
            
            if (epoch + 1) % 20 == 0:
                print(f"Epoch {epoch + 1}: 准确率 = {self.accuracy:.3f}")
        
        self.is_trained = True
        print(f"训练完成! 最终准确率: {self.accuracy:.3f}")
    
    def predict(self, test_data):
        """预测"""
        if not self.is_trained:
            raise Exception("模型尚未训练，无法进行预测!")
        
        print(f"使用 {self.model_name} 进行预测...")
        # 模拟预测结果
        predictions = [f"预测_{i}" for i in range(len(test_data))]
        return predictions
    
    def get_info(self):
        """获取模型信息"""
        return {
            "模型名称": self.model_name,
            "学习率": self.learning_rate,
            "是否已训练": self.is_trained,
            "准确率": self.accuracy
        }

# 使用类
model = SimpleModel("神经网络", learning_rate=0.001)
print("模型信息:", model.get_info())

# 训练模型
train_data = ["data1", "data2", "data3"]
model.train(train_data, epochs=60)

# 预测
test_data = ["test1", "test2"]
predictions = model.predict(test_data)
print(f"预测结果: {predictions}")

print("\n最终模型信息:", model.get_info())

## 5. Conda环境管理

Conda是一个包管理器和环境管理器，在机器学习项目中非常重要，可以避免不同项目间的依赖冲突。

### 5.1 什么是Conda？

- **包管理器**: 安装、更新和删除Python包
- **环境管理器**: 创建独立的Python环境
- **跨平台**: 支持Windows、macOS、Linux

### 5.2 为什么使用虚拟环境？

1. **隔离依赖**: 不同项目使用不同版本的包
2. **避免冲突**: 防止包版本冲突
3. **可重现性**: 确保项目在不同机器上一致运行
4. **清洁管理**: 易于删除和重建环境

### 5.3 常用Conda命令

**注意**: 以下命令需要在终端中执行，不是在Jupyter中运行。

#### 环境管理
```bash
# 查看conda版本
conda --version

# 查看所有环境
conda env list
# 或者
conda info --envs

# 创建新环境
conda create -n ml_env python=3.9

# 激活环境
conda activate ml_env

# 退出环境  
conda deactivate

# 删除环境
conda remove -n ml_env --all
```

#### 包管理
```bash
# 在当前环境中安装包
conda install numpy pandas matplotlib

# 安装特定版本
conda install numpy=1.21.0

# 从conda-forge安装
conda install -c conda-forge scikit-learn

# 使用pip安装（在conda环境中）
pip install torch torchvision

# 查看已安装的包
conda list

# 更新包
conda update numpy

# 删除包
conda remove numpy
```

#### 环境导出和恢复
```bash
# 导出环境配置
conda env export > environment.yml

# 从配置文件创建环境
conda env create -f environment.yml

# 更新环境
conda env update -f environment.yml
```

### 5.4 实际项目环境设置示例

假设我们要为机器学习项目创建环境：

```bash
# 1. 创建专门的机器学习环境
conda create -n ml_project python=3.9

# 2. 激活环境
conda activate ml_project

# 3. 安装基础科学计算包
conda install numpy pandas matplotlib seaborn

# 4. 安装机器学习包
conda install scikit-learn

# 5. 安装深度学习包
conda install pytorch torchvision -c pytorch

# 6. 安装其他工具
pip install tensorboard jupyter

# 7. 验证安装
python -c "import numpy, pandas, sklearn, torch; print('所有包安装成功!')"
```

### 5.5 Environment.yml文件示例

创建 `environment.yml` 文件来管理项目依赖：

```yaml
name: ml_project
channels:
  - pytorch
  - conda-forge
  - defaults
dependencies:
  - python=3.9
  - numpy>=1.21.0
  - pandas>=1.3.0
  - matplotlib>=3.4.0
  - scikit-learn>=1.0.0
  - pytorch
  - torchvision
  - pip
  - pip:
    - tensorboard>=2.7.0
    - jupyter
```

## 6. 包导入和管理

Python的模块系统让我们可以使用外部库来扩展功能。

In [None]:
# 检查当前Python环境信息
import sys
import platform

print("=== Python环境信息 ===")
print(f"Python版本: {sys.version}")
print(f"Python路径: {sys.executable}")
print(f"操作系统: {platform.system()} {platform.release()}")
print(f"处理器架构: {platform.machine()}")

print("\n=== 包导入示例 ===")

# 不同的导入方式
import math                          # 导入整个模块
from datetime import datetime       # 从模块导入特定函数
import numpy as np                  # 使用别名
from collections import defaultdict # 导入特定类

# 使用导入的功能
print(f"圆周率: {math.pi:.4f}")
print(f"当前时间: {datetime.now()}")

# 检查包是否可用
def check_package(package_name):
    """检查包是否已安装"""
    try:
        __import__(package_name)
        return True
    except ImportError:
        return False

# 检查机器学习相关包
packages_to_check = [
    'numpy', 'pandas', 'matplotlib', 
    'sklearn', 'torch', 'torchvision'
]

print("\n=== 包可用性检查 ===")
for package in packages_to_check:
    status = "✓ 已安装" if check_package(package) else "✗ 未安装"
    print(f"{package:12} : {status}")

# 动态导入示例
print("\n=== 动态导入示例 ===")
try:
    # 尝试导入numpy
    np = __import__('numpy')
    print(f"NumPy版本: {np.__version__}")
    
    # 创建简单数组
    arr = np.array([1, 2, 3, 4, 5])
    print(f"NumPy数组: {arr}")
    print(f"数组平均值: {np.mean(arr)}")
    
except ImportError:
    print("NumPy未安装，请先安装: pip install numpy")

# 模块搜索路径
print("\n=== 模块搜索路径 ===")
for i, path in enumerate(sys.path[:5]):  # 只显示前5个路径
    print(f"{i+1}. {path}")

## 7. 总结和下一步

### 本节学习内容回顾

✅ **Python基础语法**: 数据类型、变量、运算符  
✅ **数据结构**: 列表、元组、字典、集合  
✅ **控制流**: 条件语句、循环、列表推导式  
✅ **函数**: 定义、参数、lambda表达式、高阶函数  
✅ **面向对象**: 类、对象、方法、属性  
✅ **Conda环境管理**: 环境创建、包安装、依赖管理  
✅ **包导入**: 模块系统、导入方式、环境检查  

### 实践建议

1. **多练习**: 尝试修改代码示例，观察结果变化
2. **建立习惯**: 为每个项目创建独立的conda环境
3. **版本管理**: 使用requirements.txt或environment.yml管理依赖
4. **代码组织**: 使用函数和类来组织代码结构

### 下一步学习

现在你已经掌握了Python基础，可以继续学习：

- **NumPy**: 数值计算和数组操作 (`02_numpy.ipynb`)
- **Pandas**: 数据处理和分析 (`03_pandas.ipynb`)  
- **Matplotlib**: 数据可视化 (`04_matplotlib.ipynb`)
- **Scikit-learn**: 机器学习算法 (`05_sklearn.ipynb`)
- **PyTorch**: 深度学习框架 (`06_pytorch.ipynb`)

### 推荐资源

- [Python官方文档](https://docs.python.org/3/)
- [Conda用户指南](https://docs.conda.io/projects/conda/en/latest/user-guide/)
- [Real Python](https://realpython.com/) - 优质Python教程
- [Automate the Boring Stuff with Python](https://automatetheboringstuff.com/) - 免费在线书籍