# Python数据分析学习笔记

本Notebook涵盖数据分析常用库的基础知识与实践，包括NumPy、Pandas、Matplotlib、Seaborn等，适合自学和复习。

## 1. 导入必要的库

首先导入数据分析和可视化常用库。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 设置中文显示和风格
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei']
sns.set(style="whitegrid")

## 2. NumPy基础

NumPy是Python中用于科学计算的基础库，主要用于高效的多维数组运算。

In [None]:
# 创建一维和二维数组
arr1 = np.array([1, 2, 3, 4])
arr2 = np.array([[1, 2, 3], [4, 5, 6]])

print('一维数组:', arr1)
print('二维数组:\n', arr2)

# 数组索引与切片
print('索引:', arr1[1])
print('切片:', arr2[:, 1])

# 常用数学运算
print('数组求和:', arr1.sum())
print('数组均值:', arr2.mean())

## 3. Pandas数据处理

Pandas用于数据加载、清洗、处理和分析，是数据科学中最常用的库之一。

In [None]:
# 创建DataFrame
raw_data = {'姓名': ['张三', '李四', '王五'], '成绩': [88, 92, 79]}
df = pd.DataFrame(raw_data)
print(df)

# 数据选择与描述
print('成绩均值:', df['成绩'].mean())
print('描述统计:\n', df.describe())

## 4. Matplotlib/Seaborn数据可视化

Matplotlib和Seaborn是Python中最常用的数据可视化库。

In [None]:
# Matplotlib折线图
plt.figure(figsize=(6, 4))
plt.plot([1, 2, 3, 4], [10, 20, 15, 25], marker='o')
plt.title('折线图示例')
plt.xlabel('X轴')
plt.ylabel('Y轴')
plt.show()

# Seaborn柱状图
sns.barplot(x='姓名', y='成绩', data=df)
plt.title('成绩柱状图')
plt.show()

## 5. 数据清洗与预处理

数据清洗是数据分析的重要步骤，包括处理缺失值、重复值和异常值。

In [None]:
# 构造带缺失值的DataFrame
data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, np.nan, 8]}
df2 = pd.DataFrame(data)
print('原始数据:\n', df2)

# 缺失值处理
print('填充缺失值:\n', df2.fillna(0))
print('删除含缺失值的行:\n', df2.dropna())

## 6. 统计分析基础

掌握均值、中位数、标准差、相关性等基本统计分析方法。

In [None]:
# 统计分析示例
data = [10, 20, 30, 40, 50]
print('均值:', np.mean(data))
print('中位数:', np.median(data))
print('标准差:', np.std(data))

# 相关性分析
df3 = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [4, 3, 2, 1]})
print('相关系数:\n', df3.corr())

## 7. 项目实践：金融数据分析报告

以金融数据为例，完成数据加载、清洗、可视化和统计分析，撰写分析报告。

In [None]:
# 示例：加载金融数据（以CSV为例）
# df_finance = pd.read_csv('finance_data.csv')
# print(df_finance.head())

# 数据清洗、可视化与分析代码可在此补充
# ...