# 📦 Python包测试 - 验证预装环境

这个notebook用来测试JupyterLite环境中预装的Python包是否正常工作。

## 1. 导入基础数据处理包

In [None]:
# 测试基础包导入
import sys
print(f"Python版本: {sys.version}")
print("=" * 50)

# 测试numpy
try:
    import numpy as np
    print(f"✅ NumPy {np.__version__} - 数值计算库")
except ImportError as e:
    print(f"❌ NumPy 导入失败: {e}")

# 测试pandas
try:
    import pandas as pd
    print(f"✅ Pandas {pd.__version__} - 数据分析库")
except ImportError as e:
    print(f"❌ Pandas 导入失败: {e}")

# 测试matplotlib
try:
    import matplotlib.pyplot as plt
    import matplotlib
    print(f"✅ Matplotlib {matplotlib.__version__} - 绘图库")
except ImportError as e:
    print(f"❌ Matplotlib 导入失败: {e}")

## 2. 测试Python内置模块

In [None]:
# 测试常用内置模块
modules_to_test = [
    ('re', '正则表达式'),
    ('json', 'JSON处理'),
    ('datetime', '日期时间'),
    ('math', '数学函数'),
    ('random', '随机数'),
    ('os', '操作系统接口'),
    ('collections', '特殊容器')
]

print("Python内置模块测试:")
print("=" * 50)

for module_name, description in modules_to_test:
    try:
        __import__(module_name)
        print(f"✅ {module_name} - {description}")
    except ImportError as e:
        print(f"❌ {module_name} 导入失败: {e}")

## 3. 数据处理演示

In [None]:
# 创建示例数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 生成示例数据
np.random.seed(42)
dates = pd.date_range('2024-01-01', periods=100, freq='D')
values = np.random.randn(100).cumsum() + 100

# 创建DataFrame
df = pd.DataFrame({
    '日期': dates,
    '数值': values,
    '分类': np.random.choice(['A', 'B', 'C'], 100)
})

print("📊 示例数据预览:")
print(df.head())
print(f"\n数据形状: {df.shape}")
print(f"\n数据统计:")
print(df.describe())

## 4. 数据可视化演示

In [None]:
# 创建图表
plt.figure(figsize=(12, 8))

# 第一个子图：时间序列
plt.subplot(2, 2, 1)
plt.plot(df['日期'], df['数值'], linewidth=2, color='blue')
plt.title('📈 时间序列图')
plt.xlabel('日期')
plt.ylabel('数值')
plt.xticks(rotation=45)

# 第二个子图：直方图
plt.subplot(2, 2, 2)
plt.hist(df['数值'], bins=20, alpha=0.7, color='green')
plt.title('📊 数值分布直方图')
plt.xlabel('数值')
plt.ylabel('频次')

# 第三个子图：散点图
plt.subplot(2, 2, 3)
colors = {'A': 'red', 'B': 'blue', 'C': 'green'}
for category in df['分类'].unique():
    mask = df['分类'] == category
    plt.scatter(df[mask].index, df[mask]['数值'], 
               label=f'类别 {category}', alpha=0.6, color=colors[category])
plt.title('🎯 分类散点图')
plt.xlabel('索引')
plt.ylabel('数值')
plt.legend()

# 第四个子图：箱线图
plt.subplot(2, 2, 4)
df.boxplot(column='数值', by='分类', ax=plt.gca())
plt.title('📦 分类箱线图')
plt.suptitle('')  # 移除自动标题

plt.tight_layout()
plt.show()

print("🎉 数据可视化完成！")

## 5. 正则表达式测试

In [None]:
import re

# 测试文本
text = """
联系方式：
邮箱：zhang_san@example.com, li.si@company.cn
电话：138-0000-1234, 021-12345678
网址：https://www.python.org, http://jupyter.org
"""

print("🔍 正则表达式测试:")
print("=" * 50)

# 提取邮箱
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text)
print(f"📧 找到的邮箱: {emails}")

# 提取电话号码
phones = re.findall(r'\b(?:\d{3}-\d{4}-\d{4}|\d{3,4}-\d{7,8})\b', text)
print(f"📱 找到的电话: {phones}")

# 提取网址
urls = re.findall(r'https?://[^\s]+', text)
print(f"🔗 找到的网址: {urls}")

print("\n✅ 正则表达式功能正常！")

## 📋 测试结果总结

如果所有测试都通过，说明JupyterLite环境已经正确配置了以下功能：

- ✅ **NumPy** - 高性能数值计算
- ✅ **Pandas** - 数据分析和处理
- ✅ **Matplotlib** - 数据可视化
- ✅ **正则表达式** - 文本处理
- ✅ **Python内置模块** - 完整的标准库支持

你现在可以在这个环境中进行完整的Python数据科学工作！