# Series基本介绍

**Series**是python中特有的数据结构，类似于一个一维的数组，具有数据和索引

- Series是一个带有索引的一维数组，可以存储任何数据类型（整数、浮点数、字符串等）
- Series是DataFrame的基本组成部分，DataFrame的每一列都是Series。
- Series仅由索引与数据值组成：
    - **索引（index）**：每一行的标签，用于标识行
    - **数据值（values）**：存储在 Series 中的实际值

# Series的创建

## 从列表创建

In [2]:
import pandas as pd

# 从列表创建Series，使用默认索引
data = [1, 2, 3, 4, 5]
series = pd.Series(data)
series

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
# 通过index自定义索引
data = [10, 20, 30, 40]
s = pd.Series(data, index=['A', 'B', 'C', 'D'])
s

A    10
B    20
C    30
D    40
dtype: int64

## 从字典创建
字典的键会成为 Series 的列名，值会成为列数据。

In [4]:
# 从字典创建Series
data = {'a': 1, 'b': 2, 'c': 3}
series = pd.Series(data)
series

a    1
b    2
c    3
dtype: int64

# Series的主要方法

## 访问Series中元素

In [5]:
data = {'a': 1, 'b': 2, 'c': 3, 'd':4, 'e':5, 'f':6}
series = pd.Series(data)
series

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64

### 按整数位置访问

In [8]:
# 按照整数位置（从0开始）进行访问
series[3:]

d    4
e    5
f    6
dtype: int64

### 按标签（自定义索引）访问

In [11]:
# 按照自定义索引进行访问
series['f']

6

### 通过.iloc[]访问

**.iloc[position]**：
  - position：整数位置

In [12]:
# 按照整数位置（从0开始）进行访问
series.iloc[3]

4

### 通过.loc[]访问

**.loc[label]**：
  - label：标签（自定义索引）

In [13]:
# 按照自定义索引进行访问
series.loc['d']

4

## 索引与值

Series由索引与值组成

### index：获取Series的索引

In [14]:
series

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64

In [15]:
series.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [16]:
# 修改Series的索引
series.index = ['a1', 'b1', 'c1', 'd1', 'e1', 'f1']
series

a1    1
b1    2
c1    3
d1    4
e1    5
f1    6
dtype: int64

### values：获取Series的值

In [17]:
series.values

array([1, 2, 3, 4, 5, 6])

# DataFrame与Series的关系

## DataFrame中的每一列都是Series

In [18]:
data_list = [
    ['John', 28, 'New York'],
    ['Anna', 23, 'Paris'],
    ['Peter', 34, 'Berlin'],
    ['Linda', 29, 'London']
]
df_list = pd.DataFrame(data_list, columns=['Name', 'Age', 'City'])
df_list

Unnamed: 0,Name,Age,City
0,John,28,New York
1,Anna,23,Paris
2,Peter,34,Berlin
3,Linda,29,London


In [23]:
# DataFrame中的每一列索引出来都是Seires
df_series = df_list['Age']
df_series

0    28
1    23
2    34
3    29
Name: Age, dtype: int64

因此DataFrame中的属性和方法都适用于Series，比如head()、tail()、dtypes、shape、describe()、value_counts()等

In [24]:
df_series.head(2)

0    28
1    23
Name: Age, dtype: int64

In [25]:
df_series.tail(2)

2    34
3    29
Name: Age, dtype: int64

In [26]:
df_series.dtypes

dtype('int64')

In [27]:
df_series.shape

(4,)

In [28]:
df_series.describe()

count     4.00000
mean     28.50000
std       4.50925
min      23.00000
25%      26.75000
50%      28.50000
75%      30.25000
max      34.00000
Name: Age, dtype: float64

In [29]:
df_series.value_counts()

Age
28    1
23    1
34    1
29    1
Name: count, dtype: int64