# Python 数据科学库

本教程将学习Python中常用的数据科学库，包括NumPy、Pandas和Matplotlib。

## 1. NumPy - 数值计算库

NumPy是Python科学计算的基础库，提供了强大的数组操作和数学函数。


In [None]:
# NumPy 基础（需要安装: pip install numpy）
try:
    import numpy as np
    
    # 创建数组
    arr1 = np.array([1, 2, 3, 4, 5])
    arr2 = np.array([[1, 2, 3], [4, 5, 6]])
    arr3 = np.zeros((3, 3))  # 全零数组
    arr4 = np.ones((2, 4))   # 全1数组
    arr5 = np.arange(0, 10, 2)  # 类似range，但返回数组
    arr6 = np.linspace(0, 10, 5)  # 线性间隔数组
    
    print("一维数组:")
    print(arr1)
    print(f"\n二维数组形状: {arr2.shape}")
    print(arr2)
    print(f"\n全零数组:\n{arr3}")
    print(f"\n全1数组:\n{arr4}")
    print(f"\narange数组: {arr5}")
    print(f"\nlinspace数组: {arr6}")
    
except ImportError:
    print("NumPy未安装，使用 'pip install numpy' 安装")


In [None]:
# NumPy 数组运算
try:
    import numpy as np
    
    arr1 = np.array([1, 2, 3, 4])
    arr2 = np.array([5, 6, 7, 8])
    
    # 基本运算（元素级）
    print("数组加法:", arr1 + arr2)
    print("数组乘法:", arr1 * arr2)
    print("数组平方:", arr1 ** 2)
    print("数组开方:", np.sqrt(arr1))
    
    # 数组统计
    arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
    print(f"\n数组: {arr}")
    print(f"平均值: {np.mean(arr)}")
    print(f"最大值: {np.max(arr)}")
    print(f"最小值: {np.min(arr)}")
    print(f"标准差: {np.std(arr)}")
    print(f"求和: {np.sum(arr)}")
    
    # 数组索引和切片
    matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
    print(f"\n矩阵:\n{matrix}")
    print(f"第二行: {matrix[1]}")
    print(f"第一列: {matrix[:, 0]}")
    print(f"子矩阵:\n{matrix[0:2, 0:2]}")
    
except ImportError:
    print("NumPy未安装")


## 2. Pandas - 数据分析库

Pandas提供了强大的数据结构和数据分析工具，是数据科学中最常用的库之一。


In [None]:
# Pandas 基础（需要安装: pip install pandas）
try:
    import pandas as pd
    import numpy as np
    
    # 创建Series（一维数据结构）
    data = pd.Series([1, 3, 5, np.nan, 6, 8])
    print("Series:")
    print(data)
    print(f"\n索引: {data.index}")
    print(f"值: {data.values}")
    
    # 创建DataFrame（二维数据结构）
    df = pd.DataFrame({
        '姓名': ['张三', '李四', '王五', '赵六'],
        '年龄': [25, 30, 28, 35],
        '城市': ['北京', '上海', '广州', '深圳'],
        '薪资': [8000, 12000, 10000, 15000]
    })
    
    print("\nDataFrame:")
    print(df)
    print(f"\nDataFrame形状: {df.shape}")
    print(f"列名: {df.columns.tolist()}")
    
except ImportError:
    print("Pandas未安装，使用 'pip install pandas' 安装")


In [None]:
# Pandas 数据操作
try:
    import pandas as pd
    
    # 创建示例DataFrame
    df = pd.DataFrame({
        '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
        '年龄': [25, 30, 28, 35, 22],
        '城市': ['北京', '上海', '广州', '深圳', '北京'],
        '薪资': [8000, 12000, 10000, 15000, 7000]
    })
    
    print("原始数据:")
    print(df)
    
    # 数据筛选
    print("\n筛选年龄大于25的员工:")
    print(df[df['年龄'] > 25])
    
    print("\n筛选北京的员工:")
    print(df[df['城市'] == '北京'])
    
    # 数据排序
    print("\n按薪资降序排序:")
    print(df.sort_values('薪资', ascending=False))
    
    # 数据统计
    print("\n数据统计:")
    print(df.describe())
    
    # 分组操作
    print("\n按城市分组统计平均薪资:")
    print(df.groupby('城市')['薪资'].mean())
    
except ImportError:
    print("Pandas未安装")


In [None]:
# Pandas 读取和写入文件
try:
    import pandas as pd
    
    # 创建示例数据
    df = pd.DataFrame({
        '姓名': ['张三', '李四', '王五'],
        '年龄': [25, 30, 28],
        '城市': ['北京', '上海', '广州']
    })
    
    # 写入CSV文件
    df.to_csv('sample_data.csv', index=False, encoding='utf-8-sig')
    print("数据已写入 sample_data.csv")
    
    # 读取CSV文件
    df_read = pd.read_csv('sample_data.csv', encoding='utf-8-sig')
    print("\n从CSV文件读取的数据:")
    print(df_read)
    
    # 也可以读取Excel文件（需要安装openpyxl: pip install openpyxl）
    # df.to_excel('sample_data.xlsx', index=False)
    # df_read = pd.read_excel('sample_data.xlsx')
    
    print("\nPandas支持多种文件格式:")
    print("- CSV: pd.read_csv() / df.to_csv()")
    print("- Excel: pd.read_excel() / df.to_excel()")
    print("- JSON: pd.read_json() / df.to_json()")
    print("- SQL: pd.read_sql() / df.to_sql()")
    
except ImportError:
    print("Pandas未安装")
except Exception as e:
    print(f"文件操作示例: {e}")
    print("\n实际使用时可以读取和写入各种格式的数据文件")


## 3. Matplotlib - 数据可视化库

Matplotlib是Python中最常用的绘图库，可以创建各种类型的图表。


In [None]:
# Matplotlib 基础（需要安装: pip install matplotlib）
try:
    import matplotlib.pyplot as plt
    import numpy as np
    
    # 设置中文字体（解决中文显示问题）
    plt.rcParams['font.sans-serif'] = ['SimHei', 'Microsoft YaHei']  # 用来正常显示中文标签
    plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
    
    # 简单的折线图
    x = np.linspace(0, 10, 100)
    y = np.sin(x)
    
    plt.figure(figsize=(8, 4))
    plt.plot(x, y, label='sin(x)')
    plt.xlabel('X轴')
    plt.ylabel('Y轴')
    plt.title('正弦函数图像')
    plt.legend()
    plt.grid(True)
    plt.show()
    
    print("折线图已绘制")
    
except ImportError:
    print("Matplotlib未安装，使用 'pip install matplotlib' 安装")
    print("\n在Notebook中需要添加: %matplotlib inline")
except Exception as e:
    print(f"绘图示例（可能需要配置显示后端）: {e}")


In [None]:
# Matplotlib 多种图表类型
try:
    import matplotlib.pyplot as plt
    import numpy as np
    
    plt.rcParams['font.sans-serif'] = ['SimHei', 'Microsoft YaHei']
    plt.rcParams['axes.unicode_minus'] = False
    
    # 创建子图
    fig, axes = plt.subplots(2, 2, figsize=(12, 10))
    
    # 1. 柱状图
    categories = ['A', 'B', 'C', 'D']
    values = [23, 45, 56, 78]
    axes[0, 0].bar(categories, values)
    axes[0, 0].set_title('柱状图')
    axes[0, 0].set_xlabel('类别')
    axes[0, 0].set_ylabel('数值')
    
    # 2. 散点图
    x = np.random.randn(100)
    y = np.random.randn(100)
    axes[0, 1].scatter(x, y, alpha=0.5)
    axes[0, 1].set_title('散点图')
    axes[0, 1].set_xlabel('X')
    axes[0, 1].set_ylabel('Y')
    
    # 3. 饼图
    sizes = [15, 30, 45, 10]
    labels = ['A', 'B', 'C', 'D']
    axes[1, 0].pie(sizes, labels=labels, autopct='%1.1f%%')
    axes[1, 0].set_title('饼图')
    
    # 4. 直方图
    data = np.random.normal(100, 15, 1000)
    axes[1, 1].hist(data, bins=30)
    axes[1, 1].set_title('直方图')
    axes[1, 1].set_xlabel('数值')
    axes[1, 1].set_ylabel('频数')
    
    plt.tight_layout()
    plt.show()
    
    print("多种图表类型已绘制")
    
except ImportError:
    print("Matplotlib未安装")
except Exception as e:
    print(f"绘图示例: {e}")
