# Pandas
https://www.runoob.com/pandas/pandas-tutorial.html

## Introduction
Pandas 是 Python 语言的一个扩展程序库，用于数据分析。

Pandas 名字衍生自术语 "panel data"（面板数据）和 "Python data analysis"（Python 数据分析）。

Pandas 是一个开放源码、BSD 许可的库，提供高性能、易于使用的数据结构和数据分析工具。

Pandas 一个强大的分析结构化数据的工具集，基础是 Numpy（提供高性能的矩阵运算）。 

## 应用
- Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。
- Pandas 可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征。
- Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

## 功能
Pandas 是数据分析的利器，它不仅提供了高效、灵活的数据结构，还能帮助你以极低的成本完成复杂的数据操作和分析任务。
Pandas 提供了丰富的功能，包括：
- 数据清洗：处理缺失数据、重复数据等。
- 数据转换：改变数据的形状、结构或格式。
- 数据分析：进行统计分析、聚合、分组等。
- 数据可视化：通过整合 Matplotlib 和 Seaborn 等库，可以进行数据可视化。

## 数据结构
Pandas 的主要数据结构是**Series （一维数据）** 与 **DataFrame（二维数据）**。
- Series 是一种类似于一维数组的对象，它由一组数据（各种 Numpy 数据类型）以及一组与之相关的数据标签（即索引）组成。
- DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

Pandas 是 Python 数据科学领域中不可或缺的工具之一，它的灵活性和强大的功能使得数据处理和分析变得更加简单和高效。

In [2]:
import pandas as pd

# 创建一个简单的 DataFrame
data = {
    'Name':['Google', 'Runoob', 'Taobao'],
    'Age':[25, 30, 35]
}
df = pd.DataFrame(data)
# 查看 DataFrame
print(df)

     Name  Age
0  Google   25
1  Runoob   30
2  Taobao   35


- Series： 类似于一维数组或列表，是由一组数据以及与之相关的数据标签（索引）构成。Series 可以看作是 DataFrame 中的一列，也可以是单独存在的一维数据结构。
![image.png](https://www.runoob.com/wp-content/uploads/2023/12/628084-20201205212241597-1156923446.png)
- DataFrame： 类似于一个二维表格，它是 Pandas 中最重要的数据结构。DataFrame 可以看作是由多个 Series 按列排列构成的表格，它既有行索引也有列索引，因此可以方便地进行行列选择、过滤、合并等操作。
![image.png](https://www.runoob.com/wp-content/uploads/2023/12/01_table_dataframe.svg)

DataFrame 可视为由多个 Series 组成的数据结构：
![image.png](attachment:417696b1-e062-4986-88a0-258b41f85407.png)

下面这张图展示了两个 Series 对象相加得到一个 DataFrame 对象：
![image.png](attachment:2db3e441-fc54-4285-8b4f-60dee5bbfef4.png)

DataFrame 由 Index、Key、Value 组成：
![image.png](attachment:0d28cb44-247f-442b-91c8-efc055c2d1eb.png)

In [7]:
# 创建两个 Series 对象
series_apples = pd.Series([1, 3, 7, 4])
series_bananas = pd.Series([2, 6, 3, 5])

# 将两个Series对象相加，得到DataFrame，并指定列名
df = pd.DataFrame({
    'Apples': series_apples, 
    'Bananas': series_bananas
})
print(df)
df

   Apples  Bananas
0       1        2
1       3        6
2       7        3
3       4        5


Unnamed: 0,Apples,Bananas
0,1,2
1,3,6
2,7,3
3,4,5


## Pandas 特点

高效的数据结构：
- Series：一维数据结构，类似于列表（List），但拥有更强的功能，支持索引。
- DataFrame：二维数据结构，类似于表格或数据库中的数据表，行和列都具有标签（索引）。

数据清洗与预处理：
- Pandas 提供了丰富的函数来处理缺失值、重复数据、数据类型转换、字符串操作等，帮助用户轻松清理和转换数据。

数据操作与分析：
- 支持高效的数据选择、筛选、切片，按条件提取数据、合并、连接多个数据集、数据分组、汇总统计等操作。
- 可以进行复杂的数据变换，如数据透视表、交叉表、时间序列分析等。

数据读取与导出：
- 支持从各种格式的数据源读取数据，如 CSV、Excel、JSON、SQL 数据库等。
- 也可以将处理后的数据导出为不同格式，如 CSV、Excel 等。
数据可视化：
- 通过与 Matplotlib 和其他可视化工具的集成，Pandas 可以快速生成折线图、柱状图、散点图等常见图表。

时间序列分析：
- 支持强大的时间序列处理功能，包括日期的解析、重采样、时区转换等。

性能与优化：
- Pandas 优化了大规模数据处理，提供高效的向量化操作，避免了使用 Python 循环处理数据的低效。
- 还支持一些内存优化技术，比如使用 category 类型处理重复的数据。

# 1. 数据结构-Series

 Series 是 Pandas 中的一个核心数据结构，类似于一个一维的数组，具有数据和索引。

Series 可以存储任何数据类型（整数、浮点数、字符串等），并通过标签（索引）来访问元素。

Series 的数据结构是非常有用的，因为它可以处理各种数据类型，同时保持了高效的数据操作能力，比如可以通过标签来快速访问和操作数据。


Series 特点：
- 一维数组：Series 中的每个元素都有一个对应的索引值。
- 索引： 每个数据元素都可以通过标签（索引）来访问，默认情况下索引是从 0 开始的整数，但你也可以自定义索引。
- 数据类型： Series 可以容纳不同数据类型的元素，包括整数、浮点数、字符串、Python 对象等。
- 大小不变性：Series 的大小在创建后是不变的，但可以通过某些操作（如 append 或 delete）来改变。
- 操作：Series 支持各种操作，如数学运算、统计分析、字符串处理等。
- 缺失数据：Series 可以包含缺失数据，Pandas 使用NaN（Not a Number）来表示缺失或无值。
- 自动对齐：当对多个 Series 进行运算时，Pandas 会自动根据索引对齐数据，这使得数据处理更加高效。

我们可以使用 Pandas 库来创建一个 Series 对象，并且可以为其指定索引（Index）、名称（Name）以及值（Values）
![image.png](attachment:6422f385-ddf8-4129-b194-8d2c95471e26.png)

In [9]:
# 创建一个Series对象，指定名称为'A'，值分别为1, 2, 3, 4
# 默认索引为0, 1, 2, 3
series = pd.Series([1, 2, 3, 4], name='A')

# 显示Series对象
print(series)

# 如果你想要显式地设置索引，可以这样做：
custom_index = [1, 2, 3, 4]  # 自定义索引
series_with_index = pd.Series([1, 2, 3, 4], index=custom_index, name='A')

# 显示带有自定义索引的Series对象
print(series_with_index)

0    1
1    2
2    3
3    4
Name: A, dtype: int64
1    1
2    2
3    3
4    4
Name: A, dtype: int64


 Series 是 Pandas 中的一种基本数据结构，类似于一维数组或列表，但具有标签（索引），使得数据在处理和分析时更具灵活性。

以下是关于 Pandas 中的 Series 的详细介绍。

## 创建 Series

可以使用 `pd.Series()` 构造函数创建一个 Series 对象，传递一个数据数组（可以是列表、NumPy 数组等）和一个可选的索引数组。
- `pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)`
  - data：Series 的数据部分，可以是列表、数组、字典、标量值等。如果不提供此参数，则创建一个空的 Series。
  - index：Series 的索引部分，用于对数据进行标记。可以是列表、数组、索引对象等。如果不提供此参数，则创建一个默认的整数索引。
  - dtype：指定 Series 的数据类型。可以是 NumPy 的数据类型，例如 np.int64、np.float64 等。如果不提供此参数，则根据数据自动推断数据类型。
  - name：Series 的名称，用于标识 Series 对象。如果提供了此参数，则创建的 Series 对象将具有指定的名称。
  - copy：是否复制数据。默认为 False，表示不复制数据。如果设置为 True，则复制输入的数据。
  - fastpath：是否启用快速路径。默认为 False。启用快速路径可能会在某些情况下提高性能。

In [10]:
a = [1, 2, 3]

myvar = pd.Series(a)
print(myvar)

0    1
1    2
2    3
dtype: int64


从上图可知，如果没有指定索引，索引值就从 0 开始，我们可以根据索引值读取数据：

In [13]:
print(myvar[1])

2


我们可以指定索引值，如下实例：

In [15]:
a = ["Google", "Runoob", "Wiki"]

myvar = pd.Series(a, index = ["x", "y", "z"])

myvar

x    Google
y    Runoob
z      Wiki
dtype: object

我们也可以使用 key/value 对象，类似字典来创建 Series：

In [17]:
sites = {1: "Google", 2: "Runoob", 3: "Wiki"}

myvar = pd.Series(sites)

myvar

1    Google
2    Runoob
3      Wiki
dtype: object

从上图可知，字典的 key 变成了索引值。

如果我们只需要字典中的一部分数据，只需要指定需要数据的索引即可，如下实例：

In [18]:
sites = {1: "Google", 2: "Runoob", 3: "Wiki"}

myvar = pd.Series(sites, index = [1, 2])

print(myvar)

1    Google
2    Runoob
dtype: object


 设置 Series 名称参数：

In [19]:
sites = {1: "Google", 2: "Runoob", 3: "Wiki"}

myvar = pd.Series(sites, index = [1, 2], name="RUNOOB-Series-TEST" )

print(myvar)

1    Google
2    Runoob
Name: RUNOOB-Series-TEST, dtype: object


## Series方法

### 数学统计方法
| 方法 | 描述 |
| :--- | :--- |
| `cumsum()` | 返回 Series 的累计求和 |
| `cumprod()` | 返回 Series 的累计乘积 |
| `shift(periods)` | 将 Series 中的元素按指定的步数进行位移 |
| `rank()` | 返回 Series 中元素的排名 |
| `corr(other)` | 计算 Series 与另一个 Series 的相关性（皮尔逊相关系数） |
| `cov(other)` | 计算 Series 与另一个 Series 的协方差 |
| `describe()` | 返回 Series 的统计描述（如均值、标准差、最小值等） |
| `value_counts()` | 返回 Series 中每个唯一值的出现次数 |

### 数据转换方法
| 方法 | 描述 |
| :--- | :--- |
| `to_list()` | 将 Series 转换为 Python 列表 |
| `to_frame()` | 将 Series 转换为 DataFrame |
| `astype(dtype)` | 将 Series 转换为指定的类型 |
| `unique()` | 返回 Series 中的唯一值（去重） |
| `map(func)` | 将指定函数应用于 Series 中的每个元素 |
| `apply(func)` | 将指定函数应用于 Series 中的每个元素，常用于自定义操作 |

### 数据操作与索引
| 方法 | 描述 |
| :--- | :--- |
| `sort_values()` | 对 Series 中的元素进行排序（按值排序） |
| `sort_index()` | 对 Series 的索引进行排序 |
| `iloc[]` | 通过位置索引来选择数据 |
| `loc[]` | 通过标签索引来选择数据 |
| `replace(to_replace, value)` | 替换 Series 中指定的值 |

### 缺失值处理
| 方法 | 描述 |
| :--- | :--- |
| `dropna()` | 删除 Series 中的缺失值（NaN） |
| `fillna(value)` | 填充 Series 中的缺失值（NaN） |
| `isnull()` | 返回一个布尔 Series，表示每个元素是否为 NaN |
| `notnull()` | 返回一个布尔 Series，表示每个元素是否不是 NaN |

In [21]:
# 创建Series
data = [1, 2, 3, 4, 5, 6]
index = ['a', 'b', 'c', 'd', 'e', 'f']
s = pd.Series(data, index=index)
print(s)

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64


In [22]:
# 查看基本信息
print("索引：", s.index)
print("数据：", s.values)
print("数据类型：", s.dtype)
print("前两行数据：", s.head(2))

索引： Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')
数据： [1 2 3 4 5 6]
数据类型： int64
前两行数据： a    1
b    2
dtype: int64


In [24]:
# 使用 map 函数将每个元素加倍
s_doubled = s.map(lambda x: x * 2)
print("元素加倍后：\n", s_doubled)

元素加倍后：
 a     2
b     4
c     6
d     8
e    10
f    12
dtype: int64


In [25]:
# 计算累计和
cumsum_s = s.cumsum()
print("累计求和：", cumsum_s)

# 查找缺失值（这里没有缺失值，所以返回的全是 False）
print("缺失值判断：", s.isnull())

# 排序
sorted_s = s.sort_values()
print("排序后的 Series：", sorted_s)

累计求和： a     1
b     3
c     6
d    10
e    15
f    21
dtype: int64
缺失值判断： a    False
b    False
c    False
d    False
e    False
f    False
dtype: bool
排序后的 Series： a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64


## 更多Series说明

使用列表、字典或数组创建一个默认索引的Series

In [29]:
import numpy as np
# 使用列表创建 Series
s = pd.Series([1, 2, 3, 4])
print(s)
# 使用 Numpy 数组创建 Series
s = pd.Series(np.array([1, 2, 3, 4]))
print(s)
# 使用字典创建 Series
s = pd.Series({'a': 1, 'b':2, 'c':3, 'd':4})
print(s)

0    1
1    2
2    3
3    4
dtype: int64
0    1
1    2
2    3
3    4
dtype: int64
a    1
b    2
c    3
d    4
dtype: int64


### 基本操作

In [30]:
# 指定索引创建 Series
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

# 获取值
value = s[2]  # 获取索引为2的值
print(s['a'])  # 返回索引标签 'a' 对应的元素

# 获取多个值
subset = s[1:4]  # 获取索引为1到3的值

# 使用自定义索引
value = s['b']  # 获取索引为'b'的值

# 索引和值的对应关系
for index, value in s.items():
    print(f"Index: {index}, Value: {value}")


# 使用切片语法来访问 Series 的一部分
print(s['a':'c'])  # 返回索引标签 'a' 到 'c' 之间的元素
print(s[:3])  # 返回前三个元素

# 为特定的索引标签赋值
s['a'] = 10  # 将索引标签 'a' 对应的元素修改为 10

# 通过赋值给新的索引标签来添加元素
s['e'] = 5  # 在 Series 中添加一个新的元素，索引标签为 'e'

# 使用 del 删除指定索引标签的元素。
del s['a']  # 删除索引标签 'a' 对应的元素

# 使用 drop 方法删除一个或多个索引标签，并返回一个新的 Series。
s_dropped = s.drop(['b'])  # 返回一个删除了索引标签 'b' 的新 Series

1
Index: a, Value: 1
Index: b, Value: 2
Index: c, Value: 3
Index: d, Value: 4
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
dtype: int64


### 基本运算

In [31]:
# 算术运算
result = series * 2  # 所有元素乘以2

# 过滤
# 选择大于2的元素
filtered_series = series[series > 2]  

# 数学函数
import numpy as np
result = np.sqrt(series)  # 对每个元素取平方根

### 计算统计数据：使用 Series 的方法来计算描述性统计

In [32]:
print(s.sum())  # 输出 Series 的总和
print(s.mean())  # 输出 Series 的平均值
print(s.max())  # 输出 Series 的最大值
print(s.min())  # 输出 Series 的最小值
print(s.std())  # 输出 Series 的标准差

14
3.5
5
2
1.2909944487358056


### 属性和方法：

In [33]:
# 获取索引
index = s.index

# 获取值数组
values = s.values

# 获取描述统计信息
stats = s.describe()

# 获取最大值和最小值的索引
max_index = s.idxmax()
min_index = s.idxmin()

# 其他属性和方法
print(s.dtype)   # 数据类型
print(s.shape)   # 形状
print(s.size)    # 元素个数
print(s.head())  # 前几个元素，默认是前 5 个
print(s.tail())  # 后几个元素，默认是后 5 个
print(s.sum())   # 求和
print(s.mean())  # 平均值
print(s.std())   # 标准差
print(s.min())   # 最小值
print(s.max())   # 最大值

int64
(4,)
4
b    2
c    3
d    4
e    5
dtype: int64
b    2
c    3
d    4
e    5
dtype: int64
14
3.5
1.2909944487358056
2
5


使用布尔表达式：根据条件过滤 Series。

In [34]:
print(s > 2)  # 返回一个布尔 Series，其中的元素值大于 2

b    False
c     True
d     True
e     True
dtype: bool


转换数据类型：使用 astype 方法将 Series 转换为另一种数据类型。

In [35]:
s = s.astype('float64')  # 将 Series 中的所有元素转换为 float64 类型

### 注意事项

- Series 中的数据是有序的。
- 可以将 Series 视为带有索引的一维数组。
- 索引可以是唯一的，但不是必须的。
- 数据可以是标量、列表、NumPy 数组等。

# 2.数据结构-DataFrame

DataFrame 是 Pandas 中的另一个核心数据结构，类似于一个二维的表格或数据库中的数据表。

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。

DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

DataFrame 提供了各种功能来进行数据访问、筛选、分割、合并、重塑、聚合以及转换等操作。

DataFrame 是一个非常灵活且强大的数据结构，广泛用于数据分析、清洗、转换、可视化等任务。

![image.png](attachment:079b0d84-21ab-4798-9562-746f1d73a0d7.png)

`pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)`
-     data：DataFrame 的数据部分，可以是字典、二维数组、Series、DataFrame 或其他可转换为 DataFrame 的对象。如果不提供此参数，则创建一个空的 DataFrame。
- index：DataFrame 的行索引，用于标识每行数据。可以是列表、数组、索引对象等。如果不提供此参数，则创建一个默认的整数索引。
- columns：DataFrame 的列索引，用于标识每列数据。可以是列表、数组、索引对象等。如果不提供此参数，则创建一个默认的整数索引。
- dtype：指定 DataFrame 的数据类型。可以是 NumPy 的数据类型，例如 np.int64、np.float64 等。如果不提供此参数，则根据数据自动推断数据类型。
- copy：是否复制数据。默认为 False，表示不复制数据。如果设置为 True，则复制输入的数据。

In [36]:
data = [
    ['Google', 10], ['Runoob', 12], ['Wiki', 13]
]

# 创建DataFrame
df = pd.DataFrame(data, columns=['Site', 'Age'])

# 使用astype方法设置每列的数据类型
df['Site'] = df['Site'].astype(str)
df['Age'] = df['Age'].astype(float)
df

Unnamed: 0,Site,Age
0,Google,10.0
1,Runoob,12.0
2,Wiki,13.0


In [37]:
data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}

df = pd.DataFrame(data)

print (df)

     Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13


以下实例使用 ndarrays 创建，ndarray 的长度必须相同， 如果传递了 index，则索引的长度应等于数组的长度。如果没有传递索引，则默认情况下，索引将是range(n)，其中n是数组长度。

In [38]:
# 创建一个包含网站和年龄的二维ndarray
ndarray_data = np.array([
    ['Google', 10],
    ['Runoob', 12],
    ['Wiki', 13]
])

# 使用DataFrame构造函数创建数据帧
df = pd.DataFrame(ndarray_data, columns=['Site', 'Age'])

# 打印数据帧
print(df)


     Site Age
0  Google  10
1  Runoob  12
2    Wiki  13


 还可以使用字典（key/value），其中字典的 key 为列名:

In [39]:

data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]

df = pd.DataFrame(data)

print (df)

   a   b     c
0  1   2   NaN
1  5  10  20.0


 没有对应的部分数据为 NaN。
- Pandas 可以使用 `loc` 属性返回指定行的数据，如果没有设置索引，第一行索引为 0，第二行索引为 1，以此类推：

In [42]:
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)
df 

Unnamed: 0,calories,duration
0,420,50
1,380,40
2,390,45


In [43]:
# 返回第一行
print(df.loc[0])
# 返回第二行
print(df.loc[1])

calories    420
duration     50
Name: 0, dtype: int64
calories    380
duration     40
Name: 1, dtype: int64


> 注意：返回结果其实就是一个 Pandas Series 数据。
> 也可以返回多行数据，使用 [[ ... ]] 格式，... 为各行的索引，以逗号隔开：

In [44]:
# 返回第一行和第二行
print(df.loc[[0, 1]])

   calories  duration
0       420        50
1       380        40


> 注意：返回结果其实就是一个 Pandas DataFrame 数据。

In [45]:
df = pd.DataFrame(data, index = ['day1', 'day2', 'day3'])
print(df)

      calories  duration
day1       420        50
day2       380        40
day3       390        45


我们可以指定索引值，如下实例：

In [46]:
df = pd.DataFrame(data, index = ["day1", "day2", "day3"])
df

Unnamed: 0,calories,duration
day1,420,50
day2,380,40
day3,390,45


### 基础信息与数据查看
| 方法 | 描述 |
| :--- | :--- |
| `head(n)` | 返回 DataFrame 的前 n 行数据（默认前 5 行） |
| `tail(n)` | 返回 DataFrame 的后 n 行数据（默认后 5 行） |
| `info()` | 显示 DataFrame 的简要信息，包括列名、数据类型、非空值数量等 |
| `describe()` | 返回 DataFrame 数值列的统计信息，如均值、标准差、最小值等 |
| `shape` | 返回 DataFrame 的行数和列数（行数, 列数） |
| `columns` | 返回 DataFrame 的所有列名 |
| `index` | 返回 DataFrame 的行索引 |
| `dtypes` | 返回每一列的数据类型 |
| `sort_values(by)` | 按照指定列排序 |
| `sort_index()` | 按行索引排序 |
| `dropna()` | 删除含有缺失值（NaN）的行或列 |
| `fillna(value)` | 用指定的值填充缺失值 |

### 数据操作与选择
| 方法 | 描述 |
| :--- | :--- |
| `isnull()` | 判断缺失值，返回一个布尔值 DataFrame |
| `notnull()` | 判断非缺失值，返回一个布尔值 DataFrame |
| `loc[]` | 按标签索引选择数据 |
| `iloc[]` | 按位置索引选择数据 |
| `at[]` | 访问 DataFrame 中单个元素（比 loc[] 更高效） |
| `iat[]` | 访问 DataFrame 中单个元素（比 iloc[] 更高效） |
| `apply(func)` | 对 DataFrame 或 Series 应用一个函数 |
| `applymap(func)` | 对 DataFrame 的每个元素应用函数（仅对 DataFrame） |
| `groupby(by)` | 分组操作，用于按某一列分组进行汇总统计 |
| `pivot_table()` | 创建透视表 |
| `merge()` | 合并多个 DataFrame（类似 SQL 的 JOIN 操作） |
| `concat()` | 按行或按列连接多个 DataFrame |

### 数据导出与高级操作
| 方法 | 描述 |
| :--- | :--- |
| `to_csv()` | 将 DataFrame 导出为 CSV 文件 |
| `to_excel()` | 将 DataFrame 导出为 Excel 文件 |
| `to_json()` | 将 DataFrame 导出为 JSON 格式 |
| `to_sql()` | 将 DataFrame 导出为 SQL 数据库 |
| `query()` | 使用 SQL 风格的语法查询 DataFrame |
| `duplicated()` | 返回布尔值 DataFrame，指示每行是否是重复的 |
| `drop_duplicates()` | 删除重复的行 |
| `set_index()` | 设置 DataFrame 的索引 |
| `reset_index()` | 重置 DataFrame 的索引 |
| `transpose()` | 转置 DataFrame（行列交换） |

In [49]:
import pandas as pd

# 创建 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}
df = pd.DataFrame(data)

# 查看前两行数据
print(df)
print(df.head(2))

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3    David   40      Houston
    Name  Age         City
0  Alice   25     New York
1    Bob   30  Los Angeles


In [52]:
# 查看 DataFrame 的基本信息
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    4 non-null      object
 1   Age     4 non-null      int64 
 2   City    4 non-null      object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes
None


In [53]:
# 获取描述统计信息
print(df.describe())

             Age
count   4.000000
mean   32.500000
std     6.454972
min    25.000000
25%    28.750000
50%    32.500000
75%    36.250000
max    40.000000


In [54]:
# 按年龄排序
df_sorted = df.sort_values(by='Age', ascending=False)
print(df_sorted)
# 选择指定列
print(df[['Name', 'Age']])

      Name  Age         City
3    David   40      Houston
2  Charlie   35      Chicago
1      Bob   30  Los Angeles
0    Alice   25     New York
      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35
3    David   40


In [55]:
# 按索引选择行
print(df.iloc[1:3])  # 选择第二到第三行（按位置）
# 按标签选择行
print(df.loc[1:2])  # 选择第二到第三行（按标签）
# 计算分组统计（按城市分组，计算平均年龄）
print(df.groupby('City')['Age'].mean())
# 处理缺失值（填充缺失值）
df['Age'] = df['Age'].fillna(30)
# 导出为 CSV 文件
df.to_csv('output.csv', index=False)

      Name  Age         City
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
      Name  Age         City
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
City
Chicago        35.0
Houston        40.0
Los Angeles    30.0
New York       25.0
Name: Age, dtype: float64


### 更多DataFrame说明

#### 创建 DataFrame

从字典创建：字典的键成为列明，值成为列数据

- 通过字典创建DataFrame

In [57]:
df = pd.DataFrame({
    'Col1' : [1, 2, 3],
    'Col2' : [4, 5, 6]
})
df

Unnamed: 0,Col1,Col2
0,1,4
1,2,5
2,3,6


从列表的列表创建：外层列表代表行，内层列表代表列。
- 通过列表的列表创建 DataFrame 

In [59]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]],
                  columns=['Column1', 'Column2', 'Column3'])
df

Unnamed: 0,Column1,Column2,Column3
0,1,2,3
1,4,5,6
2,7,8,9


- 从 NumPy 数组创建：提供一个二维 NumPy 数组。

In [60]:
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]))
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


- 从 Series 创建 DataFrame：通过 pd.Series() 创建。

In [62]:
# 从 Series 创建 DataFrame
s1 = pd.Series(['Alice', 'Bob', 'Charlie'])
s2 = pd.Series([25, 30, 35])
s3 = pd.Series(['New York', 'Los Angeles', 'Chicago'])
df = pd.DataFrame({'Name': s1, 'Age': s2, 'City': s3})
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


#### DataFrame的属性和方法

DataFrame 对象有许多属性和方法，用于数据操作、索引和处理，例如：shape、columns、index、head()、tail()、info()、describe()、mean()、sum() 等。

In [64]:
# DataFrame 的属性和方法
print(df.shape)     # 形状
print(df.columns)   # 列名
print(df.index)     # 索引
print(df.head())    # 前几行数据，默认是前 5 行
print(df.tail())    # 后几行数据，默认是后 5 行
print(df.info())    # 数据信息
print(df.describe())# 描述统计信息
print(df.mean())    # 求平均值
print(df.sum())     # 求和

(3, 3)


#### 访问 DataFrame 元素

访问列：使用列名作为属性或通过 .loc[]、.iloc[] 访问，也可以使用标签或位置索引。。

In [66]:
# 通过列名访问
print(df['Column1'])

# 通过属性访问
print(df.Name)     
   
# 通过 .loc[] 访问
print(df.loc[:, 'Column1'])

# 通过 .iloc[] 访问
print(df.iloc[:, 0])  # 假设 'Column1' 是第一列

# 访问单个元素
print(df['Name'][0])

0      Alice
1        Bob
2    Charlie
Name: Name, dtype: object


- 添加新行：使用 loc、append 或 concat 方法。

>  注意：append() 方法在 pandas 版本 1.4.0 中已经被标记为弃用，并将在未来的版本中被移除，官方推荐使用 concat() 作为替代方法来进行数据的合并操作。
> 
> concat() 方法用于合并两个或多个 DataFrame，当你想要添加一行到另一个 DataFrame 时，可以将新行作为一个新的 DataFrame，然后使用 concat()：

In [68]:
# 使用concat添加新行
# 创建一个只包含新行的DataFrame
new_row = pd.DataFrame([[4, 7]], columns=['A', 'B'])  
# 将新行添加到原始DataFrame
df = pd.concat([df, new_row], ignore_index=True)  
print(df)

      Name   Age         City    A    B
0    Alice  25.0     New York  NaN  NaN
1      Bob  30.0  Los Angeles  NaN  NaN
2  Charlie  35.0      Chicago  NaN  NaN
3      NaN   NaN          NaN  4.0  7.0
4      NaN   NaN          NaN  4.0  7.0


#### 删除DataFrame元素

- 删除列

In [71]:
df_dropped = df.drop('A', axis=1)
df_dropped

Unnamed: 0,Name,Age,City,B
0,Alice,25.0,New York,
1,Bob,30.0,Los Angeles,
2,Charlie,35.0,Chicago,
3,,,,7.0
4,,,,7.0


- 删除行：同样使用drop方法

In [72]:
df_dropped = df.drop(0)  # 删除索引为 0 的行
df_dropped

Unnamed: 0,Name,Age,City,A,B
1,Bob,30.0,Los Angeles,,
2,Charlie,35.0,Chicago,,
3,,,,4.0,7.0
4,,,,4.0,7.0


#### DataFrame 的合并与分割

In [73]:
# 纵向合并
pd.concat([df1, df2], ignore_index=True)

# 横向合并
pd.merge(df1, df2, on='Column1')

NameError: name 'df1' is not defined

分割：使用 pivot、melt 或自定义函数

In [None]:
# 长格式转宽格式
df_pivot = df.pivot(index='Column1', columns='Column2', values='Column3')

# 宽格式转长格式
df_melt = df.melt(id_vars='Column1', value_vars=['Column2', 'Column3'])

# 3. Pandas CSV文件

- CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。
- CSV 是一种通用的、相对简单的文件格式，被用户、商业和科学广泛应用。
- Pandas 可以很方便的处理 CSV 文件，常用方法有：

| 方法名称 | 功能描述 | 常用参数 |
| :--- | :--- | :--- |
| `pd.read_csv()` | 从CSV文件读取数据并加载为DataFrame | `filepath_or_buffer` (路径或文件对象)<br>`sep` (分隔符)<br>`header` (行标题)<br>`names` (自定义列名)<br>`dtype` (数据类型)<br>`index_col` (索引列) |
| `DataFrame.to_csv()` | 将DataFrame写入到CSV文件 | `path_or_buffer` (目标路径或文件对象)<br>`sep` (分隔符)<br>`index` (是否写入索引)<br>`columns` (指定列)<br>`header` (是否写入列名)<br>`mode` (写入模式) |

## pd.read_csv()-读取CSV文件

- `read_csv()` 是从 CSV 文件中读取数据的主要方法，将数据加载为一个 DataFrame。

- CSV文件读取参数详解
| 参数 | 含义说明 | 默认值/示例 |
| :--- | :--- | :--- |
| **filepath_or_buffer** | CSV文件的路径或文件对象（支持URL、文件路径、文件对象等） | 必需参数 |
| **sep** | 定义字段分隔符 | 默认逗号（,），可改为制表符（\t）等 |
| **header** | 指定行号作为列标题 | 默认为0（第一行），None表示无标题 |
| **names** | 自定义列名列表 | 传入列名列表覆盖原列名 |
| **index_col** | 用作行索引的列号或列名 | 可指定列作为索引 |
| **usecols** | 读取指定的列 | 列名称或列索引的列表 |
| **dtype** | 强制将列转换为指定的数据类型 | 指定列的数据类型 |
| **skiprows** | 跳过文件开头的指定行数 | 行数或行号列表 |
| **nrows** | 只读取前N行数据 | 整数，限制读取行数 |
| **na_values** | 指定哪些值应视为缺失值（NaN） | 指定值的列表 |
| **skipfooter** | 跳过文件结尾的指定行数 | 整数，跳过末尾行数 |
| **encoding** | 文件的编码格式 | utf-8、latin1、gbk等 |

In [76]:
# 读取 CSV 文件，并自定义列明和分隔符
df = pd.read_csv('nba.csv', sep=',', header=0, names=['A', 'B', 'C'])
dtype = {'A' : int, 'B': float}
print(df)

                                                     A                  B  \
Avery Bradley Boston Celtics 0.0  PG  25.0 6-2   180.0              Texas   
Jae Crowder   Boston Celtics 99.0 SF  25.0 6-6   235.0          Marquette   
John Holland  Boston Celtics 30.0 SG  27.0 6-5   205.0  Boston University   
R.J. Hunter   Boston Celtics 28.0 SG  22.0 6-5   185.0      Georgia State   
Jonas Jerebko Boston Celtics 8.0  PF  29.0 6-10  231.0                NaN   
...                                                ...                ...   
Shelvin Mack  Utah Jazz      8.0  PG  26.0 6-3   203.0             Butler   
Raul Neto     Utah Jazz      25.0 PG  24.0 6-1   179.0                NaN   
Tibor Pleiss  Utah Jazz      21.0 C   26.0 7-3   256.0                NaN   
Jeff Withey   Utah Jazz      24.0 C   26.0 7-0   231.0             Kansas   
NaN           NaN            NaN  NaN NaN  NaN     NaN                NaN   

                                                         C  
Avery Bradley 

- `to_string()`:用于返回 DataFrame 类型的数据，如果不使用该函数，则输出结果为数据的前面 5 行和末尾 5 行，中间部分以 ... 代替。

In [78]:
df = pd.read_csv('nba.csv')

# print(df.to_string())
df

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
...,...,...,...,...,...,...,...,...,...
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,,900000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0
456,Jeff Withey,Utah Jazz,24.0,C,26.0,7-0,231.0,Kansas,947276.0


## df.to_csv()-将DataFrame写入CSV文件

- `to_csv()` 是将 DataFrame 写入 CSV 文件的方法，支持自定义分隔符、列名、是否包含索引等设置。

- DataFrame.to_csv() 参数详解

| 参数 | 说明 | 默认值 |
| :--- | :--- | :--- |
| `path_or_buffer` | CSV 文件的路径或文件对象（支持文件路径、文件对象） | 必需参数 |
| `sep` | 定义字段分隔符，默认是逗号（,），可以改为其他字符，如制表符（\t） | `','` |
| `index` | 是否写入行索引，默认 True 表示写入索引 | `True` |
| `columns` | 指定写入的列，可以是列的名称列表 | `None` |
| `header` | 是否写入列名，默认 True 表示写入列名，设置为 False 表示不写列名 | `True` |
| `mode` | 写入文件的模式，默认是 w（写模式），可以设置为 a（追加模式） | `'w'` |
| `encoding` | 文件的编码格式，如 utf-8, latin1 等 | `None` |
| `line_terminator` | 定义行结束符，默认为 \n | `None` |
| `quoting` | 设置如何对文件中的数据进行引号处理（0-3，具体引用方式可查文档） | `None` |
| `quotechar` | 设置用于引用的字符，默认为双引号 " | `'"'` |
| `date_format` | 自定义日期格式，如果列包含日期数据，则可以使用此参数指定日期格式 | `None` |
| `doublequote` | 如果为 True，则在写入时会将包含引号的文本使用双引号括起来 | `True` |

In [81]:
import pandas as pd

# 假设 df 是一个已有的 DataFrame
df.to_csv('output.csv', index=False, header=True)
df

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
...,...,...,...,...,...,...,...,...,...
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,,900000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0
456,Jeff Withey,Utah Jazz,24.0,C,26.0,7-0,231.0,Kansas,947276.0


In [82]:
# 三个字段 name, site, age
nme = ["Google", "Runoob", "Taobao", "Wiki"]
st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]
ag = [90, 40, 80, 98]
   
# 字典
dict = {'name': nme, 'site': st, 'age': ag}
     
df = pd.DataFrame(dict)
 
# 保存 dataframe
df.to_csv('site.csv')

In [83]:
df

Unnamed: 0,name,site,age
0,Google,www.google.com,90
1,Runoob,www.runoob.com,40
2,Taobao,www.taobao.com,80
3,Wiki,www.wikipedia.org,98


## 数据处理

# 4. Pandas Excel文件操作

- Pandas 提供了丰富的 Excel 文件操作功能，帮助我们方便地读取和写入 .xls 和 .xlsx 文件，支持多表单、索引、列选择等复杂操作，是数据分析中必备的工具。

- Pandas Excel 文件操作

| 操作 | 方法 | 说明 |
| :--- | :--- | :--- |
| 读取 Excel 文件 | `pd.read_excel()` | 读取 Excel 文件，返回 DataFrame |
| 将 DataFrame 写入 Excel | `DataFrame.to_excel()` | 将 DataFrame 写入 Excel 文件 |
| 加载 Excel 文件 | `pd.ExcelFile()` | 加载 Excel 文件并访问多个表单 |
| 使用 ExcelWriter 写多个表单 | `pd.ExcelWriter()` | 写入多个 DataFrame 到同一 Excel 文件的不同表单 |

- `pd.read_excel()` - 读取 Excel 文件
  - 用于从 Excel 文件中读取数据并加载为 DataFrame。它支持读取 .xls 和 .xlsx 格式的文件。

- `pandas.read_excel(io, sheet_name=0, *, header=0, names=None, index_col=None, usecols=None, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, date_parser=<no_default>, date_format=None, thousands=None, decimal='.', comment=None, skipfooter=0, storage_options=None, dtype_backend=<no_default>, engine_kwargs=None)`
    - io：这是必需的参数，指定了要读取的 Excel 文件的路径或文件对象。
    - sheet_name=0：指定要读取的工作表名称或索引。默认为0，即第一个工作表。
    - header=0：指定用作列名的行。默认为0，即第一行。
    - names=None：用于指定列名的列表。如果提供，将覆盖文件中的列名。
    - index_col=None：指定用作行索引的列。可以是列的名称或数字。
    - usecols=None：指定要读取的列。可以是列名的列表或列索引的列表。
    - dtype=None：指定列的数据类型。可以是字典格式，键为列名，值为数据类型。
    - engine=None：指定解析引擎。默认为None，pandas 会自动选择。
    - converters=None：用于转换数据的函数字典。
    - true_values=None：指定应该被视为布尔值True的值。
    - false_values=None：指定应该被视为布尔值False的值。
    - skiprows=None：指定要跳过的行数或要跳过的行的列表。
    - nrows=None：指定要读取的行数。
    - na_values=None：指定应该被视为缺失值的值。
    - keep_default_na=True：指定是否要将默认的缺失值（例如NaN）解析为NA。
    - na_filter=True：指定是否要将数据转换为NA。
    - verbose=False：指定是否要输出详细的进度信息。
    - parse_dates=False：指定是否要解析日期。
    - date_parser=<no_default>：用于解析日期的函数。
    - date_format=None：指定日期的格式。
    - thousands=None：指定千位分隔符。
    - decimal='.'：指定小数点字符。
    - comment=None：指定注释字符。
    - skipfooter=0：指定要跳过的文件末尾的行数。
    - storage_options=None：用于云存储的参数字典。
    - dtype_backend=<no_default>：指定数据类型后端。
    - engine_kwargs=None：传递给引擎的额外参数字典。

In [85]:
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5


In [86]:
# 读取 data.xlsx 文件
df = pd.read_excel('runoob_pandas_data.xlsx')

# 打印读取的 DataFrame
df

Unnamed: 0,表格 1,Unnamed: 1,Unnamed: 2
0,Name,Age,City
1,Alice,25,New York
2,Bob,30,Los Angeles
3,Charlie,35,Chicago


如果 data.xlsx 文件中有多个表单，可以通过指定 sheet_name 来读取特定表单的数据，例如 pd.read_excel('data.xlsx', sheet_name='Sheet1')

In [None]:
import pandas as pd

# 读取默认的第一个表单
df = pd.read_excel('data.xlsx')
print(df)

# 读取指定表单的内容（表单名称）
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
print(df)

# 读取多个表单，返回一个字典
dfs = pd.read_excel('data.xlsx', sheet_name=['Sheet1', 'Sheet2'])
print(dfs)

# 自定义列名并跳过前两行
df = pd.read_excel('data.xlsx', header=None, names=['A', 'B', 'C'], skiprows=2)
print(df)

- `DataFrame.to_excel()` - 将 DataFrame 写入 Excel 文件
    - `to_excel()` 方法用于将 DataFrame 写入 Excel 文件，支持 .xls 和 .xlsx 格式。
    - excel_writer：这是必需的参数，指定了要写入的 Excel 文件路径或文件对象。
    - sheet_name='Sheet1'：指定写入的工作表名称，默认为 'Sheet1'。
    - na_rep=''：指定在 Excel 文件中表示缺失值（NaN）的字符串，默认为空字符串。
    - float_format=None：指定浮点数的格式。如果为 None，则使用 Excel 的默认格式。
    - columns=None：指定要写入的列。如果为 None，则写入所有列。
    - header=True：指定是否写入列名作为第一行。如果为 False，则不写入列名。
    - index=True：指定是否写入索引作为第一列。如果为 False，则不写入索引。
    - index_label=None：指定索引列的标签。如果为 None，则不写入索引标签。
    - startrow=0：指定开始写入的行号，默认从第0行开始。
    - startcol=0：指定开始写入的列号，默认从第0列开始。
    - engine=None：指定写入 Excel 文件时使用的引擎，默认为 None，pandas 会自动选择。
    - merge_cells=True：指定是否合并单元格。如果为 True，则合并具有相同值的单元格。
    - inf_rep='inf'：指定在 Excel 文件中表示无穷大值的字符串，默认为 'inf'。
    - freeze_panes=None：指定冻结窗格的位置。如果为 None，则不冻结窗格。
    - storage_options=None：用于云存储的参数字典。
    - engine_kwargs=None：传递给引擎的额外参数字典。

In [87]:
# 创建一个简单的 DataFrame
df = pd.DataFrame({
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
})

# 将 DataFrame 写入 Excel 文件，写入 'Sheet1' 表单
df.to_excel('output.xlsx', sheet_name='Sheet1', index=False)

# 写入多个表单，使用 ExcelWriter
with pd.ExcelWriter('output.xlsx') as writer:
    df.to_excel(writer, sheet_name='Sheet1', index=False)
    df.to_excel(writer, sheet_name='Sheet2', index=False)

In [88]:
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


- `ExcelFile` - 加载 Excel 文件
  - 用于读取 Excel 文件的类，它可以处理多个表单，并在不重新打开文件的情况下访问其中的数据。
  - `excel_file = pd.ExcelFile('data.xlsx')`

- ExcelFile 类方法说明

| 方法 | 功能描述 |
| :--- | :--- |
| `sheet_names` | 返回文件中所有表单的名称列表 |
| `parse(sheet_name)` | 解析指定表单并返回一个 DataFrame |
| `close()` | 关闭文件，以释放资源 |

In [91]:
# 使用 ExcelFile 加载 Excel 文件
excel_file = pd.ExcelFile('output.xlsx')

# 查看所有表单的名称
print(excel_file.sheet_names)

# 读取指定的表单
df = excel_file.parse('Sheet1')
print(df)

# 关闭文件
excel_file.close()

['Sheet1', 'Sheet2']
      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago


- `ExcelWriter` 是 pandas 提供的一个类，用于将 DataFrame 或 Series 对象写入 Excel 文件。使用 ExcelWriter，你可以在一个 Excel 文件中写入多个工作表，并且可以更灵活地控制写入过程。

语法格式如下：
- `pandas.ExcelWriter(path, engine=None, date_format=None, datetime_format=None, mode='w', storage_options=None, if_sheet_exists=None, engine_kwargs=None)`

In [92]:
with ExcelWriter('output.xlsx') as writer:
    df.to_excel(writer, sheet_name='Sheet1')

NameError: name 'ExcelWriter' is not defined

In [93]:
df1 = pd.DataFrame([["AAA", "BBB"]], columns=["Spam", "Egg"])  
df2 = pd.DataFrame([["ABC", "XYZ"]], columns=["Foo", "Bar"])  
with pd.ExcelWriter("path_to_file.xlsx") as writer:
    df1.to_excel(writer, sheet_name="Sheet1")  
    df2.to_excel(writer, sheet_name="Sheet2")

In [94]:
from datetime import date, datetime  
df = pd.DataFrame(
    [
        [date(2014, 1, 31), date(1999, 9, 24)],
        [datetime(1998, 5, 26, 23, 33, 4), datetime(2014, 2, 28, 13, 5, 13)],
    ],
    index=["Date", "Datetime"],
    columns=["X", "Y"],
)  
with pd.ExcelWriter(
    "path_to_file.xlsx",
    date_format="YYYY-MM-DD",
    datetime_format="YYYY-MM-DD HH:MM:SS"
) as writer:
    df.to_excel(writer)

In [95]:
df

Unnamed: 0,X,Y
Date,2014-01-31,1999-09-24
Datetime,1998-05-26 23:33:04,2014-02-28 13:05:13


In [96]:
with pd.ExcelWriter("path_to_file.xlsx", mode="a", engine="openpyxl") as writer:
    df.to_excel(writer, sheet_name="Sheet3")

In [97]:
df

Unnamed: 0,X,Y
Date,2014-01-31,1999-09-24
Datetime,1998-05-26 23:33:04,2014-02-28 13:05:13


 向同一个工作表写入多个 DataFrame，注意 if_sheet_exists 参数需要设置为 overlay：

In [99]:
with pd.ExcelWriter("path_to_file.xlsx",
    mode="a",
    engine="openpyxl",
    if_sheet_exists="overlay",
) as writer:
    df1.to_excel(writer, sheet_name="Sheet1")
    df2.to_excel(writer, sheet_name="Sheet1", startcol=3)

In [100]:
df

Unnamed: 0,X,Y
Date,2014-01-31,1999-09-24
Datetime,1998-05-26 23:33:04,2014-02-28 13:05:13


# Pandas Json

# 6. 数据清理

- 数据清洗是对一些**没有用的数据进行处理**的过程。
- 很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况，如果要使数据分析更加准确，就需要对这些没有用的数据进行处理。

数据清洗与预处理的常见步骤：
1. 缺失值处理：识别并填补缺失值，或删除含缺失值的行/列。
2. 重复数据处理：检查并删除重复数据，确保每条数据唯一。
3. 异常值处理：识别并处理异常值，如极端值、错误值。
4. 数据格式转换：转换数据类型或进行单位转换，如日期格式转换。
5. 标准化与归一化：对数值型数据进行标准化（如 Z-score）或归一化（如 Min-Max）。
6. 类别数据编码：将类别变量转换为数值形式，常见方法包括 One-Hot 编码和标签编码。
7. 文本处理：对文本数据进行清洗，如去除停用词、词干化、分词等。
8. 数据抽样：从数据集中抽取样本，或通过过采样/欠采样处理类别不平衡。
9. 特征工程：创建新特征、删除不相关特征、选择重要特征等。

![image.png](attachment:1b293408-6cfb-4bf7-9675-71509a804c86.png)

## 清洗空值

- 要删除包含空字段的行，可以使用 dropna() 方法，语法格式如下：
`DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)`
- axis：默认为 0，表示逢空值剔除整行，如果设置参数 axis＝1 表示逢空值去掉整列。
- how：默认为 'any' 如果一行（或一列）里任何一个数据有出现 NA 就去掉整行，如果设置 how='all' 一行（或列）都是 NA 才去掉这整行。
- thresh：设置需要多少非空值的数据才可以保留下来的。
- subset：设置想要检查的列。如果是多个列，可以使用列名的 list 作为参数。
- inplace：如果设置 True，将计算得到的值直接覆盖之前的值并返回 None，修改的是源数据。

- 可以通过 `isnull()` 判断各个单元格是否为空。

In [102]:
import pandas as pd

df = pd.read_csv('property-data.csv')

print (df['NUM_BEDROOMS'])
print (df['NUM_BEDROOMS'].isnull())

0      3
1      3
2    NaN
3      1
4      3
5    NaN
6      2
7      1
8     na
Name: NUM_BEDROOMS, dtype: object
0    False
1    False
2     True
3    False
4    False
5     True
6    False
7    False
8    False
Name: NUM_BEDROOMS, dtype: bool


In [103]:
df

Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3,1,1000
1,100002000.0,197.0,LEXINGTON,N,3,1.5,--
2,100003000.0,,LEXINGTON,N,,1,850
3,100004000.0,201.0,BERKELEY,12,1,,700
4,,203.0,BERKELEY,Y,3,2,1600
5,100006000.0,207.0,BERKELEY,Y,,1,800
6,100007000.0,,WASHINGTON,,2,HURLEY,950
7,100008000.0,213.0,TREMONT,Y,1,1,
8,100009000.0,215.0,TREMONT,Y,na,2,1800


 以上例子中我们看到 Pandas 把 n/a 和 NA 当作空数据，na 不是空数据，不符合我们要求，我们可以指定空数据类型：

In [104]:
missing_values = ["n/a", "na", "--"]
df = pd.read_csv('property-data.csv', na_values = missing_values)

print (df['NUM_BEDROOMS'])
print (df['NUM_BEDROOMS'].isnull())

0    3.0
1    3.0
2    NaN
3    1.0
4    3.0
5    NaN
6    2.0
7    1.0
8    NaN
Name: NUM_BEDROOMS, dtype: float64
0    False
1    False
2     True
3    False
4    False
5     True
6    False
7    False
8     True
Name: NUM_BEDROOMS, dtype: bool


In [105]:
df

Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3.0,1,1000.0
1,100002000.0,197.0,LEXINGTON,N,3.0,1.5,
2,100003000.0,,LEXINGTON,N,,1,850.0
3,100004000.0,201.0,BERKELEY,12,1.0,,700.0
4,,203.0,BERKELEY,Y,3.0,2,1600.0
5,100006000.0,207.0,BERKELEY,Y,,1,800.0
6,100007000.0,,WASHINGTON,,2.0,HURLEY,950.0
7,100008000.0,213.0,TREMONT,Y,1.0,1,
8,100009000.0,215.0,TREMONT,Y,,2,1800.0


删除包含空数据的行

In [107]:
f = pd.read_csv('property-data.csv')

new_df = df.dropna()

print(new_df.to_string())
new_df

           PID  ST_NUM ST_NAME OWN_OCCUPIED  NUM_BEDROOMS NUM_BATH   SQ_FT
0  100001000.0   104.0  PUTNAM            Y           3.0        1  1000.0


Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3.0,1,1000.0


> 注意：默认情况下，dropna() 方法返回一个新的 DataFrame，不会修改源数据。

> 如果你要修改源数据 DataFrame, 可以使用 inplace = True 参数:

In [109]:

df = pd.read_csv('property-data.csv')

df.dropna(inplace = True)

print(df.to_string())
df

           PID  ST_NUM    ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0     PUTNAM            Y            3        1  1000
1  100002000.0   197.0  LEXINGTON            N            3      1.5    --
8  100009000.0   215.0    TREMONT            Y           na        2  1800


Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3,1.0,1000
1,100002000.0,197.0,LEXINGTON,N,3,1.5,--
8,100009000.0,215.0,TREMONT,Y,na,2.0,1800


移除 ST_NUM 列中字段值为空的行：

In [110]:
import pandas as pd

df = pd.read_csv('property-data.csv')

df.dropna(subset=['ST_NUM'], inplace = True)

print(df.to_string())

           PID  ST_NUM    ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0     PUTNAM            Y            3        1  1000
1  100002000.0   197.0  LEXINGTON            N            3      1.5    --
3  100004000.0   201.0   BERKELEY           12            1      NaN   700
4          NaN   203.0   BERKELEY            Y            3        2  1600
5  100006000.0   207.0   BERKELEY            Y          NaN        1   800
7  100008000.0   213.0    TREMONT            Y            1        1   NaN
8  100009000.0   215.0    TREMONT            Y           na        2  1800


In [111]:
import pandas as pd

df = pd.read_csv('property-data.csv')

df.fillna(12345, inplace = True)

print(df.to_string())

           PID   ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH  SQ_FT
0  100001000.0    104.0      PUTNAM            Y            3        1   1000
1  100002000.0    197.0   LEXINGTON            N            3      1.5     --
2  100003000.0  12345.0   LEXINGTON            N        12345        1    850
3  100004000.0    201.0    BERKELEY           12            1    12345    700
4      12345.0    203.0    BERKELEY            Y            3        2   1600
5  100006000.0    207.0    BERKELEY            Y        12345        1    800
6  100007000.0  12345.0  WASHINGTON        12345            2   HURLEY    950
7  100008000.0    213.0     TREMONT            Y            1        1  12345
8  100009000.0    215.0     TREMONT            Y           na        2   1800


In [112]:
df

Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3,1,1000
1,100002000.0,197.0,LEXINGTON,N,3,1.5,--
2,100003000.0,12345.0,LEXINGTON,N,12345,1,850
3,100004000.0,201.0,BERKELEY,12,1,12345,700
4,12345.0,203.0,BERKELEY,Y,3,2,1600
5,100006000.0,207.0,BERKELEY,Y,12345,1,800
6,100007000.0,12345.0,WASHINGTON,12345,2,HURLEY,950
7,100008000.0,213.0,TREMONT,Y,1,1,12345
8,100009000.0,215.0,TREMONT,Y,na,2,1800


## 清洗格式错误数据

In [113]:
# 第三个日期格式错误
data = {
  "Date": ['2020/12/01', '2020/12/02' , '20201226'],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

df['Date'] = pd.to_datetime(df['Date'], format='mixed')

print(df.to_string())

           Date  duration
day1 2020-12-01        50
day2 2020-12-02        40
day3 2020-12-26        45


In [114]:

person = {
  "name": ['Google', 'Runoob' , 'Taobao'],
  "age": [50, 40, 12345]    # 12345 年龄数据是错误的
}

df = pd.DataFrame(person)

df.loc[2, 'age'] = 30 # 修改数据

print(df.to_string())

     name  age
0  Google   50
1  Runoob   40
2  Taobao   30


In [115]:
person = {
  "name": ['Google', 'Runoob' , 'Taobao'],
  "age": [50, 200, 12345]    
}

df = pd.DataFrame(person)

for x in df.index:
  if df.loc[x, "age"] > 120:
    df.loc[x, "age"] = 120

print(df.to_string())

     name  age
0  Google   50
1  Runoob  120
2  Taobao  120


## 清洗重复数据

- 如果我们要清洗重复数据，可以使用 `duplicated()` 和 `drop_duplicates()` 方法。
- 如果对应的数据是重复的，duplicated() 会返回 True，否则返回 False。

In [116]:
import pandas as pd

person = {
  "name": ['Google', 'Runoob', 'Runoob', 'Taobao'],
  "age": [50, 40, 40, 23]  
}
df = pd.DataFrame(person)

print(df.duplicated())

0    False
1    False
2     True
3    False
dtype: bool


- 删除重复数据

In [118]:
persons = {
  "name": ['Google', 'Runoob', 'Runoob', 'Taobao'],
  "age": [50, 40, 40, 23]  
}

df = pd.DataFrame(persons)
df

Unnamed: 0,name,age
0,Google,50
1,Runoob,40
2,Runoob,40
3,Taobao,23


In [119]:
df.drop_duplicates(inplace = True)
df

Unnamed: 0,name,age
0,Google,50
1,Runoob,40
3,Taobao,23


##  常用方法及说明

数据处理操作参考表

| 操作 | 方法/步骤 | 说明 | 常用函数/方法 |
| :--- | :--- | :--- | :--- |
| **缺失值处理** | 填充缺失值 | 使用指定的值（如均值、中位数、众数等）填充缺失值 | `df.fillna(value)` |
|  | 删除缺失值 | 删除包含缺失值的行或列 | `df.dropna()` |
| **重复数据处理** | 删除重复数据 | 删除DataFrame中的重复行 | `df.drop_duplicates()` |
| **异常值处理** | 异常值检测（基于统计方法） | 通过Z-score或IQR方法识别并处理异常值 | 自定义函数（如基于Z-score或IQR） |
|  | 替换异常值 | 使用合适的值（如均值或中位数）替换异常值 | 自定义函数（如替换异常值） |
| **数据格式转换** | 转换数据类型 | 将数据类型从一个类型转换为另一个类型，如将字符串转换为日期 | `df.astype()` |
|  | 日期时间格式转换 | 转换字符串或数字为日期时间类型 | `pd.to_datetime()` |
| **标准化与归一化** | 标准化 | 将数据转换为均值为0，标准差为1的分布 | `StandardScaler()` |
|  | 归一化 | 将数据缩放到指定的范围（如[0,1]） | `MinMaxScaler()` |
| **类别数据编码** | 标签编码 | 将类别变量转换为整数形式 | `LabelEncoder()` |
|  | 独热编码（One-Hot Encoding） | 将每个类别转换为一个新的二进制特征 | `pd.get_dummies()` |
| **文本数据处理** | 去除停用词 | 从文本中去除无关紧要的词，如"the"、"is"等 | 自定义函数（基于nltk或spaCy） |
|  | 词干化与词形还原 | 提取词干或恢复单词的基本形式 | `nltk.stem.PorterStemmer()` |
|  | 分词 | 将文本分割成单词或子词 | `nltk.word_tokenize()` |
| **数据抽样** | 随机抽样 | 从数据中随机抽取一定比例的样本 | `df.sample()` |
|  | 上采样与下采样 | 通过过采样（复制少数类样本）或欠采样（减少多数类样本）来平衡数据集中的类别分布 | `SMOTE()`（上采样）；`RandomUnderSampler()`（下采样） |
| **特征工程** | 特征选择 | 选择对目标变量有影响的特征，去除冗余或无关特征 | `SelectKBest()` |
|  | 特征提取 | 从原始数据中创建新的特征，提升模型的预测能力 | `PolynomialFeatures()` |
|  | 特征缩放 | 对数值特征进行缩放，使其具有相同的量级 | `MinMaxScaler()`、`StandardScaler()` |
| **类别特征映射** | 特征映射 | 将类别变量映射为对应的数字编码 | 自定义映射函数 |
| **数据合并与连接** | 合并数据 | 将多个DataFrame按照某些列合并在一起，支持内连接、外连接、左连接、右连接等 | `pd.merge()` |
|  | 连接数据 | 将多个DataFrame进行行或列拼接 | `pd.concat()` |
| **数据重塑** | 数据透视表 | 将数据根据某些维度进行分组并计算聚合结果 | `pd.pivot_table()` |
|  | 数据变形 | 改变数据的形状，如从长格式转为宽格式或从宽格式转为长格式 | `df.melt()`、`df.pivot()` |
| **数据类型转换与处理** | 字符串处理 | 对字符串数据进行处理，如去除空格、转换大小写等 | `str.replace()`、`str.upper()`等 |
|  | 分组计算 | 按照某个特征分组后进行聚合计算 | `df.groupby()` |
| **缺失值预测填充** | 使用模型预测填充缺失值 | 使用机器学习模型（如回归模型）预测缺失值，并填充缺失数据 | 自定义模型（如`sklearn.linear_model.LinearRegression`） |
| **时间序列处理** | 时间序列缺失值填充 | 使用时间序列的方法（如前向填充、后向填充）填充缺失值 | `df.fillna(method='ffill')` |
|  | 滚动窗口计算 | 使用滑动窗口进行时间序列数据的统计计算（如均值、标准差等） | `df.rolling(window=5).mean()` |
| **数据转换与映射** | 数据映射与替换 | 将数据中的某些值替换为其他值 | `df.replace()` |

**说明：**
- 此表格完整呈现了原图片中的所有数据处理操作及其对应的方法、说明和常用函数
- 使用标准的Markdown表格语法，包含四列完整信息
- 操作类别使用粗体突出显示，便于快速查找
- 函数/方法名称使用反引号`` ` ``包裹，突出显示代码元素
- 表格采用左对齐格式，便于阅读和查找

这个表格涵盖了从基础数据清洗到高级特征工程的完整数据处理流程，是数据分析和机器学习项目中的重要参考工具。

### 一、基于 Z-score 或 IQR 是什么？

这是两种常用的**异常值（离群值）检测方法**，用于识别数据集中明显偏离正常范围的数据点。

#### 1. **Z-score 方法**
- **定义**：Z-score（标准分数）衡量一个数据点距离均值有多少个标准差。
- **公式**：
  $$[
  Z = \frac{x - \mu}{\sigma}
  ]$$
  其中：
  - \(x\) 是数据点
  - \(\mu\) 是样本均值
  - \(\sigma\) 是样本标准差

- **判断异常值**：
  - 通常认为 |Z| > 3 的数据点为异常值（即偏离均值超过3个标准差）。
  - 适用于**近似正态分布**的数据。

- **优点**：直观、计算简单。  
- **缺点**：对异常值敏感（因为均值和标准差本身会被异常值影响）；不适用于偏态分布。

#### 2. **IQR 方法（四分位距法）**
- **定义**：IQR（Interquartile Range，四分位距）是第75百分位数（Q3）与第25百分位数（Q1）之差。
- **公式**：
  \[
  IQR = Q3 - Q1
  \]
- **异常值判定范围**：
  - 下界：\( Q1 - 1.5 \times IQR \)
  - 上界：\( Q3 + 1.5 \times IQR \)
  - 超出此范围的数据点被视为异常值。

- **优点**：对异常值鲁棒（因为基于中位数和分位数，不受极端值影响）；适用于**任意分布**，尤其是偏态数据。
- **缺点**：可能将尾部正常但稀疏的数据误判为异常。

> ✅ **总结**：
> - Z-score：适合正态分布，基于均值和标准差。
> - IQR：适合任意分布，基于中位数和四分位数，更稳健。

---

### 二、独热编码（One-Hot Encoding）是什么？

#### 1. **定义**
独热编码是一种将**分类变量（尤其是无序类别）转换为数值形式**的方法，以便机器学习模型能够处理。

#### 2. **原理**
- 对于一个有 \(k\) 个不同类别的分类特征，独热编码会创建 \(k\) 个新的二进制（0/1）列。
- 每个原始类别对应一个新列，当样本属于该类别时，对应列为1，其余为0。

#### 3. **示例**
假设有一个“颜色”特征，取值为：红、绿、蓝。

| 原始数据 | 红 | 绿 | 蓝 |
|----------|----|----|----|
| 红       | 1  | 0  | 0  |
| 绿       | 0  | 1  | 0  |
| 蓝       | 0  | 0  | 1  |
| 红       | 1  | 0  | 0  |

#### 4. **为什么需要它？**
- 大多数机器学习算法（如线性回归、神经网络）只能处理数值输入。
- 如果直接用数字编码（如红=1, 绿=2, 蓝=3），模型会误认为类别之间有大小或顺序关系（即“蓝 > 绿 > 红”），这在**无序类别**中是错误的。
- 独热编码避免了这种虚假的序数关系。

#### 5. **注意事项**
- **维度爆炸**：类别很多时（如邮政编码），会导致特征数量剧增 → 可考虑使用**嵌入（Embedding）**或**目标编码（Target Encoding）**。
- **多重共线性**：k 个独热列之和恒为1，存在完全共线性。通常会**去掉一列**（称为“哑变量陷阱”处理），尤其在使用线性模型时。

> ✅ **总结**：
> 独热编码是将无序分类变量转换为多个二元特征的标准方法，使模型能正确理解类别之间“无大小关系”的特性。

---

填充缺失值

In [120]:
# 示例数据
data = {'Name': ['Alice', 'Bob', 'Charlie', None],
        'Age': [25, 30, None, 35],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}

df = pd.DataFrame(data)

# 填充缺失的 "Age" 为均值
df['Age'].fillna(df['Age'].mean(), inplace=True)

df

Unnamed: 0,Name,Age,City
0,Alice,25.0,New York
1,Bob,30.0,Los Angeles
2,Charlie,30.0,Chicago
3,,35.0,Houston


独热编码

In [122]:
# 示例数据
data = {'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
# 对 "City" 列进行 One-Hot 编码
df_encoded = pd.get_dummies(df, columns=['City'])
print(df_encoded)

   City_Chicago  City_Houston  City_Los Angeles  City_New York
0         False         False             False           True
1         False         False              True          False
2          True         False             False          False
3         False          True             False          False


- 标注化数据：将数据转换为均值为0，标准差为1的分布

In [126]:
!pip install scikit-learn

Collecting scikit-learn
  Using cached scikit_learn-1.3.2-cp38-cp38-macosx_12_0_arm64.whl.metadata (11 kB)
Collecting scipy>=1.5.0 (from scikit-learn)
  Using cached scipy-1.10.1-cp38-cp38-macosx_12_0_arm64.whl.metadata (53 kB)
Collecting joblib>=1.1.1 (from scikit-learn)
  Using cached joblib-1.4.2-py3-none-any.whl.metadata (5.4 kB)
Collecting threadpoolctl>=2.0.0 (from scikit-learn)
  Using cached threadpoolctl-3.5.0-py3-none-any.whl.metadata (13 kB)
Using cached scikit_learn-1.3.2-cp38-cp38-macosx_12_0_arm64.whl (9.4 MB)
Using cached joblib-1.4.2-py3-none-any.whl (301 kB)
Using cached scipy-1.10.1-cp38-cp38-macosx_12_0_arm64.whl (28.8 MB)
Using cached threadpoolctl-3.5.0-py3-none-any.whl (18 kB)
Installing collected packages: threadpoolctl, scipy, joblib, scikit-learn
Successfully installed joblib-1.4.2 scikit-learn-1.3.2 scipy-1.10.1 threadpoolctl-3.5.0


In [127]:
from sklearn.preprocessing import StandardScaler
import pandas as pd

# 示例数据
data = {'Age': [25, 30, 35, 40, 45],
        'Salary': [50000, 60000, 70000, 80000, 90000]}

df = pd.DataFrame(data)

# 标准化数据
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)
df_scaled

array([[-1.41421356, -1.41421356],
       [-0.70710678, -0.70710678],
       [ 0.        ,  0.        ],
       [ 0.70710678,  0.70710678],
       [ 1.41421356,  1.41421356]])

# 7. Pandas 常用函数

## 数据读取函数

| 函数 | 说明 |
| :--- | :--- |
| `pd.read_csv(filename)` | 读取 CSV 文件 |
| `pd.read_excel(filename)` | 读取 Excel 文件 |
| `pd.read_sql(query, connection_object)` | 从 SQL 数据库读取数据 |
| `pd.read_json(json_string)` | 从 JSON 字符串中读取数据 |
| `pd.read_html(url)` | 从 HTML 页面中读取数据 |

In [133]:
!pip install sqlite3py

Collecting sqlite3py
  Downloading sqlite3py-2.0.5.tar.gz (4.1 kB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hBuilding wheels for collected packages: sqlite3py
  Building wheel for sqlite3py (setup.py) ... [?25ldone
[?25h  Created wheel for sqlite3py: filename=sqlite3py-2.0.5-py3-none-any.whl size=4687 sha256=5f1a76598df73e0b019464d4878f7f2628cff10d1a86adc264e87573fafe3a91
  Stored in directory: /Users/luxiaogen/Library/Caches/pip/wheels/96/65/04/0e15d640c29fce865b3fad0b9c1990ac6d0062844f3d2717d6
Successfully built sqlite3py
Installing collected packages: sqlite3py
Successfully installed sqlite3py-2.0.5


In [135]:
# 从 CSV 文件中读取数据
df = pd.read_csv('output.csv')
# 从 Excel 文件中读取数据
df = pd.read_excel('output.xlsx')

# 从 SQL 数据库中读取数据
import sqlite3
# conn = sqlite3.connect('database.db')
# df = pd.read_sql('SELECT * FROM table_name', conn)

# # 从 JSON 字符串中读取数据
# json_string = '{"name": "John", "age": 30, "city": "New York"}'
# df = pd.read_json(json_string)

# # 从 HTML 页面中读取数据
# url = 'https://www.runoob.com'
# dfs = pd.read_html(url)
# df = dfs[0] # 选择第一个数据框

## 数据清洗函数

| 函数 | 说明 |
| :--- | :--- |
| `df.dropna()` | 删除包含缺失值的行或列 |
| `df.fillna(value)` | 将缺失值替换为指定的值 |
| `df.replace(old_value, new_value)` | 将指定值替换为新值 |
| `df.duplicated()` | 检查是否有重复的数据 |
| `df.drop_duplicates()` | 删除重复的数据 |

In [136]:
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


In [137]:
# 删除包含缺失值的行或列
df.dropna()

# 将缺失值替换为指定的值
df.fillna(0)

# 将指定值替换为新值
df.replace('old_value', 'new_value')

# 检查是否有重复的数据
df.duplicated()

# 删除重复的数据
df.drop_duplicates()

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


In [None]:
# 选择指定的列
df['column_name']

# 通过标签选择数据
df.loc[row_index, column_name]

# 通过位置选择数据
df.iloc[row_index, column_index]

# 通过标签或位置选择数据
df.ix[row_index, column_name]

# 选择指定的列
df.filter(items=['column_name1', 'column_name2'])

# 选择列名匹配正则表达式的列
df.filter(regex='regex')

# 随机选择 n 行数据
df.sample(n=5)

## 数据排序函数

| 函数 | 说明 |
| :--- | :--- |
| `df.sort_values(column_name)` | 按照指定列的值排序 |
| `df.sort_values([column_name1, column_name2], ascending=[True, False])` | 按照多个列的值排序 |
| `df.sort_index()` | 按照索引排序 |

In [None]:
# 按照指定列的值排序
df.sort_values('column_name')

# 按照多个列的值排序
df.sort_values(['column_name1', 'column_name2'], ascending=[True, False])

# 按照索引排序
df.sort_index()

## 数据选择和过滤函数

| 函数 | 说明 |
| :--- | :--- |
| `df.loc[row_indexer, column_indexer]` | 按标签选择行和列 |
| `df.iloc[row_indexer, column_indexer]` | 按位置选择行和列 |
| `df[df['column_name'] > value]` | 选择列中满足条件的行 |
| `df.query('column_name > value')` | 使用字符串表达式选择列中满足条件的行 |

## 数据统计和描述函数

| 函数 | 说明 |
| :--- | :--- |
| `df.describe()` | 计算基本统计信息，如均值、标准差、最小值、最大值等 |
| `df.mean()` | 计算每列的平均值 |
| `df.median()` | 计算每列的中位数 |
| `df.mode()` | 计算每列的众数 |
| `df.count()` | 计算每列非缺失值的数量 |

In [138]:
import pandas as pd
# 读取 JSON 数据
df = pd.read_json('data.json')
# 删除缺失值
df = df.dropna()
# 用指定的值填充缺失值
df = df.fillna({'age': 0, 'score': 0})
# 重命名列名
df = df.rename(columns={'name': '姓名', 'age': '年龄', 'gender': '性别', 'score': '成绩'})
# 按成绩排序
df = df.sort_values(by='成绩', ascending=False)
# 按性别分组并计算平均年龄和成绩
grouped = df.groupby('性别').agg({'年龄': 'mean', '成绩': 'mean'})
# 选择成绩大于等于90的行，并只保留姓名和成绩两列
df = df.loc[df['成绩'] >= 90, ['姓名', '成绩']]
# 计算每列的基本统计信息
stats = df.describe()
# 计算每列的平均值
mean = df.mean()
# 计算每列的中位数
median = df.median()
# 计算每列的众数
mode = df.mode()
# 计算每列非缺失值的数量
count = df.count()

# 8. Pandas高级功能

## 数据合并与连接
Pandas 提供了多个方法来合并和连接不同的 DataFrame，例如 merge()、concat() 和 join()。这些方法常用于处理多个数据集和复杂的合并任务。

### merge()---数据库风格的连接

- `merge()` 方法允许根据某些列对两个 DataFrame 进行合并，类似 SQL 中的 JOIN 操作。支持内连接、外连接、左连接和右连接。

- Pandas merge() 函数参数说明
| 参数 | 说明 |
| :--- | :--- |
| `left` | 左侧 DataFrame |
| `right` | 右侧 DataFrame |
| `how` | 合并方式，支持 `'inner'`、`'outer'`、`'left'`、`'right'` |
| `on` | 连接的列名（如果两侧列名不同，可使用 `left_on` 和 `right_on`） |
| `left_on` | 左侧 DataFrame 的连接列 |
| `right_on` | 右侧 DataFrame 的连接列 |
| `suffixes` | 添加后缀，以区分重复的列名 |

In [139]:
# 示例数据
left = pd.DataFrame({'ID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Charlie']})
right = pd.DataFrame({'ID': [1, 2, 4], 'Age': [24, 27, 22]})

# 使用 merge 进行内连接
result = pd.merge(left, right, on='ID', how='inner')
print(result)

   ID   Name  Age
0   1  Alice   24
1   2    Bob   27


### concat()--沿轴连接

- `concat()` 用于将多个 DataFrame 沿指定轴（行或列）进行连接，常用于行合并（垂直连接）或列合并（水平连接）。

| 参数 | 说明 |
| :--- | :--- |
| `objs` | 需要合并的 DataFrame 列表 |
| `axis` | 合并的轴，0 表示按行合并，1 表示按列合并 |
| `ignore_index` | 是否忽略索引，重新生成索引（默认为 False） |
| `keys` | 为合并的对象提供层次化索引 |

In [141]:
# 示例数据
df1 = pd.DataFrame({'A' : [1, 2, 3]})
df2 = pd.DataFrame({'A' : [4, 5, 6]})

# 行合并
result = pd.concat([df1, df2], axis=0, ignore_index=True)
result

Unnamed: 0,A
0,1
1,2
2,3
3,4
4,5
5,6


### join()——基于索引连接

- `join()` 方法是 Pandas 中的简化连接操作，通常用于基于索引将多个 DataFrame 连接。

| 参数 | 说明 |
| :--- | :--- |
| `other` | 需要连接的另一个 DataFrame |
| `how` | 合并方式，支持 'left', 'right', 'outer', 'inner' |
| `on` | 使用的连接列，默认基于索引 |

In [148]:
left = pd.DataFrame({'A':[1, 2, 3]}, index=[1, 2, 3])
right = pd.DataFrame({'B': [4, 5, 6]}, index=[1, 2, 4])

# 使用 join 进行连接
result = left.join(right, how='inner')
print(left,'\n' , right,'\n' , result)

   A
1  1
2  2
3  3 
    B
1  4
2  5
4  6 
    A  B
1  1  4
2  2  5


## 透视表与交叉表

Pandas 提供了 pivot_table() 方法来创建透视表，和 crosstab() 方法来计算交叉表。透视表和交叉表都非常适合数据的汇总和重新排列。

### pivot_table()——创建透视表

| 参数 | 说明 |
| :--- | :--- |
| data | 输入的数据 |
| values | 要汇总的列 |
| index | 用作行索引的列 |
| columns | 用作列索引的列 |
| aggfunc | 聚合函数，默认为mean，可以是sum,count等 |
| fill_value | 填充缺失值 |

- 数据透视表（Pivot Table）是一种交互式的表，可以进行某些计算，如求和与计数等。所进行的计算与数据跟数据透视表中的排列有关。

> 之所以称为数据透视表，是因为可以动态地改变它们的版面布置，以便按照不同方式分析数据，也可以重新安排行号、列标和页字段。每一次改变版面布置时，数据透视表会立即按照新的布置重新计算数据。另外，如果原始数据发生更改，则可以更新数据透视表。

In [151]:
# 示例数据
data = {'Date': ['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04'],
        'Category': ['A', 'B', 'A', 'B'],
        'Sales': [100, 150, 200, 250]}
df = pd.DataFrame(data)

# 创建透视表
pivot_table = pd.pivot_table(df, values='Sales', index='Date', 
                             columns='Category', aggfunc='sum', fill_value=0)
pivot_table

Category,A,B
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01-01,100,0
2024-01-02,0,150
2024-01-03,200,0
2024-01-04,0,250


### crosstab()——创建交叉表

| 参数 | 说明 |
| :--- | :--- |
| index | 行标签 |
| columns | 列标签 |
| values | 用于计算的数据（可选） |
| aggfunc | 聚合函数，默认count |

- `交叉表（Cross Tabulations）`是一种常用的分类汇总表格。利用交叉表查询数据非常直观明了，被广泛应用。交叉表查询也是数据库的一个特点。

In [152]:
# 示例数据
data = {'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
        'Region': ['North', 'South', 'North', 'South', 'West', 'East']}
df = pd.DataFrame(data)

# 创建交叉表
cross_table = pd.crosstab(df['Category'], df['Region'])
cross_table

Region,East,North,South,West
Category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,0,2,0,1
B,1,0,2,0


## 自定义函数应用

Pandas 提供了多种方法应用自定义函数，用于数据清洗和转换。

### apply()——应用函数导DataFrame或Series上

- `apply()`允许在DataFrame或Series上自定义函数，支持对行或列进行操作

In [154]:
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [10, 20, 30, 40]})

# 定义自定义函数
def F(x):
    return x * 2

df

Unnamed: 0,A,B
0,1,10
1,2,20
2,3,30
3,4,40


In [155]:
# 在列上应用函数
df['A'] = df['A'].apply(F)
df

Unnamed: 0,A,B
0,2,10
1,4,20
2,6,30
3,8,40


### applymap() — 在整个 DataFrame 上应用函数

- `applymap()` 只能应用于 DataFrame，作用于 DataFrame 中的每个元素。

In [156]:
df

Unnamed: 0,A,B
0,2,10
1,4,20
2,6,30
3,8,40


In [157]:
# 在DataFrame上应用自定函数
df = df.applymap(lambda x: x**2)
df

Unnamed: 0,A,B
0,4,100
1,16,400
2,36,900
3,64,1600


### map()——应用函数到Series上

`map()`可以对Series中的每个元素应用一个函数或者一个映射关系

In [158]:
df = pd.DataFrame({'A' : ['cat', 'dog', 'rabbit']})
df

Unnamed: 0,A
0,cat
1,dog
2,rabbit


In [159]:
# 使用字典进行映射
df['A'] = df['A'].map({'cat': 'kitten', 'dog':'puppy'})
df

Unnamed: 0,A
0,kitten
1,puppy
2,


## 分组操作与聚合

### groupby()——数据分组

| 参数 | 说明 |
| :--- | :--- |
| `by` | 按照哪个列或索引分组 |
| `axis` | 分组的轴，默认为0，即按行进行分组 |
| `level` | 按照索引的级别进行分组（适用于MultiIndex） |

In [161]:
# 示例数据
df = pd.DataFrame({
    'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Value': [10, 20, 30, 40, 50, 60]
})

df

Unnamed: 0,Category,Value
0,A,10
1,B,20
2,A,30
3,B,40
4,A,50
5,B,60


In [166]:
# 按照 Category 列进行分组并计算每组的总和
grouped = df.groupby('Category')['Value'].sum()
print(grouped)

Category
A     90
B    120
Name: Value, dtype: int64


### 聚合操作(agg())

- agg() 用于执行复杂的聚合操作，可以传入多个函数来同时计算多个聚合值

In [167]:
df = pd.DataFrame({
    'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Value': [10, 20, 30, 40, 50, 60]
})
df

Unnamed: 0,Category,Value
0,A,10
1,B,20
2,A,30
3,B,40
4,A,50
5,B,60


In [169]:
# 使用agg()来进行多个聚合操作
grouped = df.groupby('Category')['Value'].agg([sum, min, max])
grouped

Unnamed: 0_level_0,sum,min,max
Category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,90,10,50
B,120,20,60


## 时间序列的处理

Pandas 提供了强大的时间序列处理功能，包括日期解析、频率转换、日期范围生成、时间窗口操作等。

### date_range() — 生成时间序列

| 参数 | 说明 |
| :--- | :--- |
| start | 起始日期 |
| end | 结束日期 |
| periods | 生成的时间点数 |
| freq | 频率（如 D 表示天，H 表示小时等） |

In [172]:
# 生成时间序列
data_range = pd.date_range(start='2025-10-10', periods=5, freq='D')
data_range

DatetimeIndex(['2025-10-10', '2025-10-11', '2025-10-12', '2025-10-13',
               '2025-10-14'],
              dtype='datetime64[ns]', freq='D')

### 日期和时间的偏移

使用pd.Timedelta() 可以进行时间的加减操作

In [174]:
# 日期偏移
date = pd.to_datetime('2025-10-15')
new_date = date + pd.Timedelta(days=25)
new_date

Timestamp('2025-11-09 00:00:00')

### 时间窗口操作(Rolling, Expanding)

- 使用 rolling() 和 expanding() 方法进行滚动和扩展窗口操作，常用于时间序列中的移动平均等计算。
  - `rolling()`:计算滚动窗口操作，常用于移动平均等
  - `expanding()`:计算扩展窗口操作，累计值

In [175]:
# 示例数据
df = pd.DataFrame({'Value': [10, 20, 30, 40, 50]})

# 计算 3 天滚动平均
df['Rolling_Mean'] = df['Value'].rolling(window=3).mean()
df

Unnamed: 0,Value,Rolling_Mean
0,10,
1,20,
2,30,20.0
3,40,30.0
4,50,40.0


## 缺失值处理

Pandas 提供了多种方法来处理缺失值（如 NaN）。常见的操作包括填充缺失值、删除缺失值等。

- isna() 	检查缺失值，返回布尔值
- fillna() 	填充缺失值
- dropna() 	删除包含缺失值的行或列

In [177]:
# 示例数据
df = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, 7, 8]
})

# 填充缺失值
df_filled = df.fillna(0)
print(df_filled)

     A    B
0  1.0  5.0
1  2.0  0.0
2  0.0  7.0
3  4.0  8.0
