# 05.Python与数据处理库：NumPy、Pandas、Matplotlib

## 1. NumPy基础
### NumPy简介

NumPy（Numerical Python）是一个用于科学计算的Python库，它提供了一个强大的多维数组对象 ndarray，以及用于处理这些数组的各种函数。NumPy是Python数据分析和科学计算的基础库之一，许多高级数据分析库（如Pandas、Scikit-learn）都依赖于NumPy来处理数值数据。其主要功能包括：

- 多维数组：提供高效的多维数组对象（ndarray），支持数组的切片、索引和广播等操作。
- 数学函数：包含大量的数学函数用于数组运算，如线性代数、统计、傅里叶变换等。
- 数组操作：支持数组的重塑、合并、拆分等操作。
- 性能优化：NumPy底层使用C语言编写，运算效率高，特别适合大规模数据处理。



In [None]:
#安装命令
!pip install numpy

### NumPy数组（ndarray）
- 创建NumPy数组：使用`array()`函数
- 示例代码：

In [None]:
import numpy as np
arr = np.array([1, 2, 3, 4, 5])
print(arr)

### NumPy数组的索引与切片
- 一维与多维数组的索引
- 示例代码：

In [None]:
arr = np.array([1, 2, 3, 4, 5])
print(arr[2])  # 输出3
print(arr[1:4])  # 输出[2 3 4]

### NumPy数组的常见操作
- 数组的加法、乘法等基本操作
- 示例代码：

In [None]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
print(arr1 + arr2)  # 输出[5 7 9]

## 2. Pandas基础
### Pandas简介
Pandas是一个提供高效数据结构和数据分析工具的Python库。它主要基于两个数据结构：Series 和 DataFrame，分别用于处理一维和二维数据。Pandas在数据清洗、预处理、分析和可视化方面广泛应用。其主要功能包括：

- DataFrame：类似于Excel表格的数据结构，支持列名、行索引和丰富的数据操作功能。
- Series：一维标签化数组，类似于Python的列表或字典。
- 数据操作：包括数据选择、过滤、分组、合并、连接、聚合、缺失值处理等。
- 文件处理：支持读取和写入CSV、Excel、SQL、JSON等多种格式的数据文件。


In [None]:
# 安装命令
!pip install pandas

### Pandas数据结构：Series与DataFrame
- 创建Series和DataFrame对象
- 示例代码：

In [None]:
import pandas as pd
series = pd.Series([1, 2, 3, 4])
print(series)

print('-------------')
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [24, 27, 22]}
df = pd.DataFrame(data)
print(df)

### 数据读取与写入
- 读取CSV文件和保存DataFrame
- 示例代码：
```python
df = pd.read_csv('data.csv')
df.to_csv('output.csv')
```

### 数据选择与过滤
- 使用条件进行数据选择
- 示例代码：

In [None]:
df = pd.DataFrame({'Age': [24, 27, 22], 'Name': ['Alice', 'Bob', 'Charlie']})
print(df)
print("--------------")
filtered_df = df[df['Age'] >= 24]
print(filtered_df)

### 缺失值处理
- 处理缺失数据：删除或填充
- 示例代码：

In [None]:
df = pd.DataFrame({'Age': [24, None, 22], 'Name': ['Alice', 'Bob', 'Charlie']})
df.fillna(25, inplace=True)
print(df)

## 3. Matplotlib基础
### Matplotlib简介

Matplotlib是一个用于绘制静态、动态和交互式图表的Python库。它是Python数据可视化的最常用库之一，支持各种类型的图表，如折线图、散点图、柱状图、饼图等。Matplotlib的核心组件是 pyplot 模块，它提供了一组简单的函数接口，用于创建各种常见的图表。其主要功能包括：

- 基本图表：支持折线图、柱状图、散点图、饼图等基础图表的绘制。
- 自定义图表：可以调整图表的样式、标签、标题、坐标轴、颜色等属性。
- 多图布局：支持在同一图形中绘制多个子图，适用于复杂的可视化需求。
- 交互式可视化：支持与Jupyter Notebook结合使用，允许用户在交互模式下探索数据。
- 图形导出：支持将图形保存为多种格式（如PNG、PDF、SVG等）以供展示或发布。

In [None]:
#安装命令
!pip install matplotlib

### 创建基本的图表
- 绘制折线图、散点图和柱状图
- 示例代码：

In [None]:
import matplotlib.pyplot as plt
x = [1, 2, 3, 4]
y = [10, 20, 25, 30]

plt.plot(x, y)
plt.title('Line Chart')
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.show()

### 定制图表
- 修改图表的样式、颜色、标签
- 示例代码：

In [None]:
plt.bar(x, y, color='green')
plt.title('Bar Chart')
plt.show()

### 子图与布局
- 使用`subplot()`绘制多个图表
- 示例代码：

In [None]:
plt.subplot(1, 2, 1)
plt.plot(x, y)
plt.title('Left Plot')

plt.subplot(1, 2, 2)
plt.scatter(x, y)
plt.title('Right Plot')

plt.show()

## 4. 综合案例：数据可视化与分析
### 结合NumPy、Pandas与Matplotlib进行实际数据分析
- 数据加载与预处理
- 使用Matplotlib进行数据可视化
- 示例代码：

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

data = {'Year': [2015, 2016, 2017, 2018, 2019],
        'Sales': [150, 250, 550, 800, 1350],
        'Profit': [30, 45, 50, 60, 430]}

df = pd.DataFrame(data)

# 绘制第一条折线（销售额）
plt.plot(df['Year'], df['Sales'], marker='o', label='Sales')

# 绘制第二条折线（利润）
plt.plot(df['Year'], df['Profit'], marker='x', label='Profit')

plt.title('Sales Over Years')
plt.xlabel('Year')
plt.ylabel('Sales')
plt.show()

- 实践题：
  - 使用NumPy生成一个包含100个随机数的数组，并计算其平均值和标准差。
  - 使用Pandas加载CSV文件并进行数据清洗，绘制一个柱状图来展示某列的分布。
  - 使用Matplotlib绘制多张不同类型的图表。