# Pandas的数据结构

Pandas(Python Data Analysis Library)是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它是使Python成为强大而高效的数据分析环境的重要因素之一。

Pandas专用于数据预处理和数据分析的Python第三方库，最适合处理大型结构化表格数据.

Pandas有三大数据结构，Series、DataFrame以及Panel。

- Series(一维数据)
- DataFrame(二维数据)
- Panel(三维结构数据/面板数据)

注释：对于Panel，会很少使用，通常会使用MultiIndex这种结构解决三维数据表示问题

## 1、Series

Series 是 Pandas 中最基础的一维数据结构，类似于带标签的数组或字典。它是构建 DataFrame 的基础（DataFrame 可以看作是由多个 Series 组成的）。

Series 由两部分组成：
- 索引（index）：标签，用于标识数据.
- 数据值（values）：可以是任何 NumPy 支持的数据类型


Series 的基本特性：

1. **一维数据结构**：类似于 Python 列表或 NumPy 数组，但功能更强大
2. **带索引的数组**：每个元素都有对应的标签（索引）
3. **可以存储任何数据类型**：整数、字符串、浮点数、Python对象等
4. **大小不可变**：创建后不能改变大小（但可以修改内容）

### 1.1、Series的结构

In [43]:
import pandas as pd

In [44]:
#1.1从列表创建,仅有数据列表即可产生最简单的Series
s = pd.Series([1, 3, 5, 7, 9])
s

0    1
1    3
2    5
3    7
4    9
dtype: int64

- 仅有数据列表即可产生最简单的Series
- 左侧为索引，右侧是数据

In [45]:
#获取索引
s.index

RangeIndex(start=0, stop=5, step=1)

In [46]:
#获取数据
s.values

array([1, 3, 5, 7, 9])

### 1.2、Series的创建

#### 仅有数据列表即可产生最简单的Series

In [47]:
s = pd.Series([1, 3, 5, 7, 9])
s

0    1
1    3
2    5
3    7
4    9
dtype: int64

#### 从字典创建Series（字典的键会成为索引）

In [48]:
data = {'a': 1, 'b': 2, 'c': 3}
s = pd.Series(data)
s

a    1
b    2
c    3
dtype: int64

#### 指定索引创建Series

In [49]:
s = pd.Series([1, 2, 3], index=['x', 'y', 'z'])
s

x    1
y    2
z    3
dtype: int64

#### 使用标量值创建Series（所有值相同）

In [50]:
s = pd.Series(5, index=['a', 'b', 'c'])
s

a    5
b    5
c    5
dtype: int64

### 1.3、根据标签索引查询数据

In [51]:
s2 = pd.Series([1,'a',5.2,7],index=['d','b','c','a'])
s2

d      1
b      a
c    5.2
a      7
dtype: object

In [52]:
s2['a']

7

In [53]:
type(s2['a'])

int

In [54]:
s2[['b','a']]

b    a
a    7
dtype: object

In [55]:
type(s2[['b','a']])

pandas.core.series.Series

## 2、DataFrame

DataFrame是pandas库中最重要、最常用的数据结构，它是一个二维的、大小可变的、可以包含异构类型数据的表格型数据结构，类似于Excel表格或SQL数据库中的表。
- DataFrame的基本特性
- 二维表格结构：由行和列组成，既有行索引也有列索引
- 列可以包含不同类型的数据：数值、字符串、布尔值等
- 大小可变：可以动态添加/删除行或列
- 强大的数据操作功能：排序、筛选、分组、聚合等

In [56]:
data = {
    '名称': ['张三', '李四', '王麻子', '刘二'],
    '年龄': [25, 32, 18, 47],
    '城市': ['苏州', '杭州', '深圳', '重庆'],
    '分数': [85, 90, 78, 92]
}

df = pd.DataFrame(data)
df

Unnamed: 0,名称,年龄,城市,分数
0,张三,25,苏州,85
1,李四,32,杭州,90
2,王麻子,18,深圳,78
3,刘二,47,重庆,92


In [57]:
df.dtypes

名称    object
年龄     int64
城市    object
分数     int64
dtype: object

In [58]:
df.columns

Index(['名称', '年龄', '城市', '分数'], dtype='object')

In [59]:
df.index

RangeIndex(start=0, stop=4, step=1)

### 从DataFrame中查询出Series

- 如果只查询一行、一列，返回的是pd.Series
- 如果查询多行、多列，返回的是pd.DataFrame

In [60]:
data = {
    '名称': ['张三', '李四', '王麻子', '刘二'],
    '年龄': [25, 32, 18, 47],
    '城市': ['苏州', '杭州', '深圳', '重庆'],
    '分数': [85, 90, 78, 92]
}

df = pd.DataFrame(data)
df

Unnamed: 0,名称,年龄,城市,分数
0,张三,25,苏州,85
1,李四,32,杭州,90
2,王麻子,18,深圳,78
3,刘二,47,重庆,92


#### 查询一列结果是一个pd.Series

In [61]:
df["名称"]

0     张三
1     李四
2    王麻子
3     刘二
Name: 名称, dtype: object

In [62]:
type(df['名称'])

pandas.core.series.Series

#### 通过多列结果是一个DataFrame

In [63]:
df[["名称","年龄"]]

Unnamed: 0,名称,年龄
0,张三,25
1,李四,32
2,王麻子,18
3,刘二,47


In [64]:
type(df[["名称","年龄"]])

pandas.core.frame.DataFrame

#### 查询一行，结果是一个pd.Series

In [37]:
df.loc[1]

名称    李四
年龄    32
城市    杭州
分数    90
Name: 1, dtype: object

In [42]:
type(df.loc[1])

pandas.core.series.Series

In [None]:
#### 查询多行，结果是一个pd.DataFrame

In [40]:
df.loc[1:3]

Unnamed: 0,名称,年龄,城市,分数
1,李四,32,杭州,90
2,王麻子,18,深圳,78
3,刘二,47,重庆,92


In [41]:
type(df.loc[1:3])

pandas.core.frame.DataFrame