# pandas 数据结构
Pandas 主要处理以下三种数据结构：

- Series
- DataFrame
- Panel(不常用)

可以这么理解这些数据结构：较高维度的数据结构是其较低维度数据结构的容器。例如，DataFrame是Series的容器，Panel是DataFrame的容器。

## 1.Series
Series是一种类似于**一维**数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。

关键特征：

1. 数据类型一致
2. 大小不可变
3. 数据值可变

*与其他python数据类型的对比:*

           Series:有序，有索引
           
           list:有序，无索引
           
           dict: 无序，有索引
           
 ### 1.1 基本属性

In [11]:
import numpy as np
import pandas as pd

In [5]:
data = [1, 2, 3]
index = ['a', 'b', 'c']
series1 = pd.Series(data=data, index=index, name = 'series1')
series1

a    1
b    2
c    3
Name: series1, dtype: int64

Series的字符串表现形式为：索引在左边，值在右边。

In [6]:
series1.index #属性之一：索引

Index(['a', 'b', 'c'], dtype='object')

In [7]:
series1.name #属性之一：名字

'series1'

In [8]:
series1.values #数据值 

array([1, 2, 3], dtype=int64)

In [9]:
series1.dtype #数据类型

dtype('int64')

### 1.2 创建Series
class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

目前要知道的是前四个基本属性。
#### 1.2.1 data中无索引
如果 data 为 ndarray(1D) 或 list(1D)，那么其缺少 Series 需要的索引信息；
- 如果提供 index，则必须和data长度相同；
- 如果不提供 index，那么其将生成默认数值索引 range(0, data.shape[0])。

In [13]:
#提供index
data1 = np.array([5, 6, 7])
index1 = ['a', 'b', 'c']
series1 = pd.Series(data=data1,index = index1)
series1

a    5
b    6
c    7
dtype: int32

In [15]:
#不提供index
series2 = pd.Series(data1)
series2

0    5
1    6
2    7
dtype: int32

#### 1.2.2 data有索引
- 如果 data 为 Series 或 dict ，那么其已经提供了 Series 需要的索引信息，所以 index 项不需要；
- 如果额外提供了 index 项，那么其将对当前构建的Series进行__重索引__（增删）（等同于reindex操作）

In [17]:
data2 = { 'a':1, 'b':2,'c':3 }
index2 = ['a','b','d']
series3 = pd.Series(data = data2, index = index2)
series3

a    1.0
b    2.0
d    NaN
dtype: float64

**如果当前索引缺失给定的索引，则填充NaN（NaN：not a number为pandas缺失值标记）。**