In [None]:

# 导入必要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os
from datetime import datetime

print("import done.")

In [None]:
# %% [markdown]
# # 2.1 Python的编程基础

# %% [markdown]
# ## 2.1.1 Python的数据类型

# %%
# 1. Python基本类型
print("1. Python基本类型:")
basic_int = 10
basic_float = 3.14
basic_str = "Hello, Python!"
basic_bool = True
basic_none = None

print(f"整数: {basic_int}, 类型: {type(basic_int)}")
print(f"浮点数: {basic_float}, 类型: {type(basic_float)}")
print(f"字符串: {basic_str}, 类型: {type(basic_str)}")
print(f"布尔值: {basic_bool}, 类型: {type(basic_bool)}")
print(f"空值: {basic_none}, 类型: {type(basic_none)}")

# %%
# 2. Python扩展类型
print("2. Python扩展类型:")
list_example = [1, 2, 3, 4, 5]
tuple_example = (1, 2, 3, 4, 5)
dict_example = {"name": "Python", "version": 3.10}
set_example = {1, 2, 3, 4, 5}

print(f"列表: {list_example}, 类型: {type(list_example)}")
print(f"元组: {tuple_example}, 类型: {type(tuple_example)}")
print(f"字典: {dict_example}, 类型: {type(dict_example)}")
print(f"集合: {set_example}, 类型: {type(set_example)}")

# %% [markdown]
# ## 2.1.2 运算符及控制语句

# %%
# 1. 条件语句
print("1. 条件语句:")
x = 10
if x > 0:
    print("x是正数")
elif x < 0:
    print("x是负数")
else:
    print("x是零")

# %%
# 2. 循环语句
print("2. 循环语句:")
print("for循环示例:")
for i in range(5):
    print(f"循环计数: {i}")

print("\nwhile循环示例:")
count = 0
while count < 3:
    print(f"while计数: {count}")
    count += 1

# %% [markdown]
# ## 2.1.3 Python函数的使用

# %%
# 1. 内置函数
print("1. 内置函数:")
numbers = [1, 2, 3, 4, 5]
print(f"最大值: {max(numbers)}")
print(f"最小值: {min(numbers)}")
print(f"总和: {sum(numbers)}")
print(f"长度: {len(numbers)}")
print(f"排序: {sorted(numbers, reverse=True)}")

# %%
# 2. 包及安装
print("2. 包及安装:")
print("本示例使用了numpy, pandas和matplotlib包")
print(f"numpy版本: {np.__version__}")
print(f"pandas版本: {pd.__version__}")

# %%
# 3. 包函数使用
print("3. 包函数使用:")
# 设置随机种子以确保结果可重现
np.random.seed(42)
random_array = np.random.rand(5)
print(f"随机数组: {random_array}")
print(f"均值: {np.mean(random_array)}")
print(f"标准差: {np.std(random_array)}")

# %%
# 4. 自定义函数
print("4. 自定义函数:")
def calculate_stats(numbers):
    """计算一组数字的统计信息"""
    stats = {
        "count": len(numbers),
        "sum": sum(numbers),
        "mean": sum(numbers) / len(numbers),
        "max": max(numbers),
        "min": min(numbers)
    }
    return stats

example_numbers = [10, 20, 30, 40, 50]
stats_result = calculate_stats(example_numbers)
for key, value in stats_result.items():
    print(f"{key}: {value}")

# %% [markdown]
# # 2.2 Python数值分析

# %% [markdown]
# ## 2.2.1 一维数组（向量）运算

# %%
# 创建向量
vector1 = np.array([1, 2, 3, 4, 5])
vector2 = np.array([5, 4, 3, 2, 1])

print(f"向量1: {vector1}")
print(f"向量2: {vector2}")
print(f"向量加法: {vector1 + vector2}")
print(f"向量减法: {vector1 - vector2}")
print(f"向量乘法(元素级): {vector1 * vector2}")
print(f"向量除法(元素级): {vector1 / vector2}")
print(f"向量点积: {np.dot(vector1, vector2)}")
print(f"向量1的范数: {np.linalg.norm(vector1)}")

# %% [markdown]
# ## 2.2.2 二维数组（矩阵）运算

# %%
# 创建矩阵
matrix1 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
matrix2 = np.array([[9, 8, 7], [6, 5, 4], [3, 2, 1]])

print("矩阵1:")
print(matrix1)
print("\n矩阵2:")
print(matrix2)

# %%
# 矩阵运算
print("矩阵加法:")
print(matrix1 + matrix2)

print("\n矩阵乘法(元素级):")
print(matrix1 * matrix2)

# %%
# 更多矩阵运算
print("矩阵乘法(矩阵乘法):")
print(np.matmul(matrix1, matrix2))

print("\n矩阵1的转置:")
print(matrix1.T)

print("\n矩阵1的行列式:")
print(np.linalg.det(matrix1))

# %% [markdown]
# # 2.3 多元数据的收集和整理

# %% [markdown]
# ## 2.3.1 数据格式

# %%
# 创建结构化数据
student_data = [
    {"id": 1, "name": "Alice", "age": 20, "score": 85},
    {"id": 2, "name": "Bob", "age": 22, "score": 92},
    {"id": 3, "name": "Charlie", "age": 21, "score": 78},
    {"id": 4, "name": "Diana", "age": 23, "score": 95},
    {"id": 5, "name": "Eve", "age": 19, "score": 88}
]

print("学生数据示例:")
for student in student_data:
    print(student)

# %% [markdown]
# ## 2.3.2 变量的分类

# %%
print("变量类型示例:")
print("1. 数值型变量: 年龄(age), 分数(score)")
print("2. 分类变量: 学生ID(id)")
print("3. 文本变量: 姓名(name)")

# 将数据转换为DataFrame
df_students = pd.DataFrame(student_data)
print("\n使用Pandas DataFrame:")
print(df_students)
print("\n数据类型:")
print(df_students.dtypes)

# %% [markdown]
# # 2.4 Python的数据框

# %% [markdown]
# ## 2.4.1 数据框的构成

# %%
# 1. 从数据读取
print("1. 从数组构建DataFrame:")
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'age': [25, 30, 35, 40, 45],
    'city': ['New York', 'London', 'Paris', 'Tokyo', 'Sydney'],
    'salary': [50000, 60000, 70000, 80000, 90000]
}
df = pd.DataFrame(data)
print(df)

# %%
# 2. 从CSV读取
# 创建一个临时CSV文件
temp_csv_path = "temp_data.csv"
df.to_csv(temp_csv_path, index=False)
df_from_csv = pd.read_csv(temp_csv_path)
print("从CSV读取的数据:")
print(df_from_csv)

# %%
# 3. 数据存储
# 确保在非交互环境中也能执行
try:
    df.to_csv("output_data.csv", index=False)
    print("数据已保存到 output_data.csv")
    
    # Excel 保存可能需要额外的库
    try:
        df.to_excel("output_data.xlsx", index=False)
        print("数据已保存到 output_data.xlsx")
    except Exception as e:
        print(f"保存Excel文件时出错: {e}")
        print("提示: 可能需要安装 openpyxl 库: pip install openpyxl")
except Exception as e:
    print(f"保存CSV文件时出错: {e}")

# %% [markdown]
# ## 2.4.2 数据框的应用

# %%
# 创建更复杂的示例数据
# 设置随机种子以确保结果可重现
np.random.seed(42)
dates = pd.date_range(start='2023-01-01', periods=10, freq='D')
df_sales = pd.DataFrame({
    'date': dates,
    'product': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C', 'A'],
    'sales': np.random.randint(50, 200, size=10),
    'price': np.random.uniform(10.0, 50.0, size=10).round(2),
    'region': np.random.choice(['East', 'West', 'North', 'South'], size=10)
})

print("销售数据示例:")
print(df_sales)

# %% [markdown]
# ## 2.4.3 数据框的基本操作

# %%
# 1. 数据框信息
print("数据框信息:")
print(df_sales.info())

print("\n数据统计摘要:")
print(df_sales.describe())

# %%
# 2. 数据框显示
print("前5行:")
print(df_sales.head())

print("\n后5行:")
print(df_sales.tail())

# %%
# 3. 数据框取值
print("选择'sales'列:")
print(df_sales['sales'])

print("\n选择前3行:")
print(df_sales.iloc[:3])

# %%
# 数据筛选和分组
print("选择sales>100的行:")
print(df_sales[df_sales['sales'] > 100])

print("\n按region和product分组统计销售总额:")
print(df_sales.groupby(['region', 'product'])['sales'].sum())

# %% [markdown]
# ## 数据可视化

# %%
# 设置图表样式
plt.style.use('seaborn-v0_8')
plt.figure(figsize=(12, 10))

# 产品销售量比较
plt.subplot(2, 2, 1)
product_sales = df_sales.groupby('product')['sales'].sum()
product_sales.plot(kind='bar', title='产品销售量')
plt.tight_layout()

# %%
# 区域销售量比较
plt.figure(figsize=(8, 8))
region_sales = df_sales.groupby('region')['sales'].sum()
region_sales.plot(kind='pie', autopct='%1.1f%%', title='区域销售占比')
plt.tight_layout()

# %%
# 日期销售趋势
plt.figure(figsize=(10, 6))
df_sales.set_index('date')['sales'].plot(title='销售趋势')
plt.tight_layout()

# %%
# 价格与销售量的关系
plt.figure(figsize=(8, 6))
plt.scatter(df_sales['price'], df_sales['sales'])
plt.title('价格与销售量关系')
plt.xlabel('价格')
plt.ylabel('销售量')
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()

# %%
# 清理临时文件
try:
    if os.path.exists(temp_csv_path):
        os.remove(temp_csv_path)
        print(f"已删除临时文件 {temp_csv_path}")
except Exception as e:
    print(f"清理临时文件时出错: {e}")

print("示例完成!")

# %% [markdown]
# # 补充练习: 综合应用

# %%
# 创建一个更完整的数据分析案例
# 生成模拟销售数据
np.random.seed(123)
n_records = 100

# 日期范围
date_range = pd.date_range(start='2023-01-01', periods=n_records)

# 生成销售数据
sales_data = pd.DataFrame({
    'date': date_range,
    'product_id': np.random.choice(['P001', 'P002', 'P003', 'P004', 'P005'], size=n_records),
    'category': np.random.choice(['Electronics', 'Clothing', 'Food', 'Books', 'Home'], size=n_records),
    'quantity': np.random.randint(1, 10, size=n_records),
    'unit_price': np.random.uniform(10.0, 100.0, size=n_records).round(2),
    'customer_id': np.random.choice(['C' + str(i).zfill(3) for i in range(1, 21)], size=n_records),
    'store_id': np.random.choice(['S001', 'S002', 'S003'], size=n_records)
})

# 计算总销售额
sales_data['total_amount'] = sales_data['quantity'] * sales_data['unit_price']

# 显示数据集
print("综合销售数据集:")
print(sales_data.head())

# %%
# 数据分析
print("数据基本统计:")
print(sales_data.describe())

# 按产品分类统计
product_summary = sales_data.groupby('product_id').agg({
    'quantity': 'sum',
    'total_amount': 'sum'
}).sort_values('total_amount', ascending=False)

print("\n产品销售汇总:")
print(product_summary)

# 按类别分析
category_summary = sales_data.groupby('category').agg({
    'quantity': 'sum',
    'total_amount': 'sum'
}).sort_values('total_amount', ascending=False)

print("\n类别销售汇总:")
print(category_summary)

# %%
# 时间序列分析
# 按月份分组
sales_data['month'] = sales_data['date'].dt.strftime('%Y-%m')
monthly_sales = sales_data.groupby('month')['total_amount'].sum().reset_index()

plt.figure(figsize=(12, 6))
plt.plot(monthly_sales['month'], monthly_sales['total_amount'], marker='o', linestyle='-')
plt.title('每月销售额趋势')
plt.xlabel('月份')
plt.ylabel('销售额')
plt.xticks(rotation=45)
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()

# %%
# 热门产品分析
plt.figure(figsize=(10, 6))
product_summary['total_amount'].plot(kind='bar', color='skyblue')
plt.title('产品销售额排名')
plt.xlabel('产品ID')
plt.ylabel('销售额')
plt.xticks(rotation=45)
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()

# %%
# 类别分析饼图
plt.figure(figsize=(8, 8))
plt.pie(
    category_summary['total_amount'], 
    labels=category_summary.index, 
    autopct='%1.1f%%',
    shadow=True, 
    startangle=90
)
plt.title('各类别销售额占比')
plt.axis('equal')  # 确保饼图是圆的
plt.tight_layout()

# %%
# 商店销售对比
store_summary = sales_data.groupby('store_id').agg({
    'quantity': 'sum',
    'total_amount': 'sum'
})

fig, ax = plt.subplots(1, 2, figsize=(14, 6))

# 数量对比
ax[0].bar(store_summary.index, store_summary['quantity'], color='lightgreen')
ax[0].set_title('各店铺销售数量')
ax[0].set_xlabel('店铺ID')
ax[0].set_ylabel('销售数量')
ax[0].grid(True, linestyle='--', alpha=0.7)

# 销售额对比
ax[1].bar(store_summary.index, store_summary['total_amount'], color='salmon')
ax[1].set_title('各店铺销售额')
ax[1].set_xlabel('店铺ID')
ax[1].set_ylabel('销售额')
ax[1].grid(True, linestyle='--', alpha=0.7)

plt.tight_layout()

# %%
# 顾客购买分析
customer_summary = sales_data.groupby('customer_id').agg({
    'product_id': 'count',  # 购买次数
    'total_amount': 'sum'   # 总消费
}).rename(columns={'product_id': 'purchase_count'}).sort_values('total_amount', ascending=False)

top_customers = customer_summary.head(10)
print("消费最高的10位顾客:")
print(top_customers)

# %%
# 可视化顶级客户
plt.figure(figsize=(12, 6))
plt.bar(top_customers.index, top_customers['total_amount'], color='purple')
plt.title('消费最高的10位顾客')
plt.xlabel('顾客ID')
plt.ylabel('总消费金额')
plt.xticks(rotation=45)
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()

# %%
# 数据保存与导出
try:
    # 保存完整分析结果
    with pd.ExcelWriter('sales_analysis_results.xlsx') as writer:
        sales_data.to_excel(writer, sheet_name='原始数据', index=False)
        product_summary.to_excel(writer, sheet_name='产品分析')
        category_summary.to_excel(writer, sheet_name='类别分析')
        monthly_sales.to_excel(writer, sheet_name='月度分析', index=False)
        customer_summary.to_excel(writer, sheet_name='顾客分析')
    
    print("分析结果已保存到 'sales_analysis_results.xlsx'")
except Exception as e:
    print(f"保存分析结果时出错: {e}")
    print("提示: 可能需要安装 openpyxl 库: pip install openpyxl")

print("综合案例分析完成!")

