# DAY2（系列Series）

## 系列 `pd.Series`

`pd.Series( data, index, dtype, name, copy)`

Series 与 NumPy 数组非常相似（实际上构建在 NumPy 数组对象之上）。
NumPy 数组与 Series 的区别在于，Series 可以具有轴标签，这意味着它可以由标签索引，而不仅仅是数字位置。
它也不需要保存数字数据，它可以保存任意 Python 对象。

系列(Series)是能够保存任何类型的数据(整数，字符串，浮点数，Python对象等)的一维标记数组。轴标签统称为索引。

| 编号 | 参数    | 描述                                                         |
| ---- | ------- | ------------------------------------------------------------ |
| 1    | `data`  | 可用形式，如：`ndarray`，`list`，`constants`         |
| 2    | `index` | 索引值必须是唯一的和离散的，必须与数据的长度相同。 默认`np.arange(n)` |
| 3    | `dtype` | `dtype`用于数据类型。如果没有，将推断数据类型                |
| 4    | `copy`  | 复制数据，默认为`false`。                                    |

In [1]:
import pandas as pd
import numpy as np

## 创建系列

In [2]:

# 将list、numpy array 或 dict 转换为 Series


labels = ['a','b','c']        
my_list = [10,20,30]         # 列表
arr = np.array([10,20,30])   # 数组
d = {'a':10,'b':20,'c':30}   # 字典    Dictionary keys are used to construct index. 
n = 100                      # 常数

In [3]:
pd.Series(data=my_list,index=labels)  

a    10
b    20
c    30
dtype: int64

In [4]:
pd.Series(arr,labels)

a    10
b    20
c    30
dtype: int32

In [5]:
pd.Series([sum,print,len])  # 里面甚至可以用函数

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

In [6]:
# 自己试试吧
s = pd.Series([1,2,3],index = ['A','B','C'],name = 'First_Series')
dates = pd.date_range("20220101", periods=6)

In [7]:
s

A    1
B    2
C    3
Name: First_Series, dtype: int64

In [8]:
dates

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06'],
              dtype='datetime64[ns]', freq='D')

In [9]:
pd.Series(d)

a    10
b    20
c    30
dtype: int64

In [10]:
pd.Series(d,index = ['d','c','b','a','A'])
# 索引顺序保持一致，缺失的元素用 NaN（非数字）填充。

d     NaN
c    30.0
b    20.0
a    10.0
A     NaN
dtype: float64

In [11]:
pd.Series(n,index = [x for x in range(1,100+1)])

1      100
2      100
3      100
4      100
5      100
      ... 
96     100
97     100
98     100
99     100
100    100
Length: 100, dtype: int64

## 性质

In [12]:
s = pd.Series([1,2,3],index = ['A','B','C'],name = 'First_Series')

# 如何查看对象的性质呢？

# 1. 查看系列的值
print(s.values)
# array([1, 2, 3], dtype=int64)
# 返回数组

# 2. 查看系列的名称
print(s.name)
# 'First_Series'

# 3. 查看系列的索引
print(s.index)
# Index(['A', 'B', 'C'], dtype='object')

[1 2 3]
First_Series
Index(['A', 'B', 'C'], dtype='object')


In [13]:
s = pd.Series([1,2,3],index = ['A','B','C'],name = 'First_Series')
s

A    1
B    2
C    3
Name: First_Series, dtype: int64

In [14]:
s.name = '哈哈哈'

In [15]:
s

A    1
B    2
C    3
Name: 哈哈哈, dtype: int64

## 计算

In [16]:
ser1 = pd.Series([1,2,3,4],index = ['北京', '上海','深圳', '广东'])  
ser2 = pd.Series([1,2,5,4],index = ['北京', '西藏','深圳', '新疆'])  

# 他们加起来会发生什么呢？
ser1 + ser2

上海    NaN
北京    2.0
广东    NaN
新疆    NaN
深圳    8.0
西藏    NaN
dtype: float64

## 索引

In [17]:
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])

In [18]:
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [19]:
s[0]

1

In [20]:
s[1]

2

In [21]:
s[:2]

a    1
b    2
dtype: int64

In [22]:
s[1:4]

b    2
c    3
d    4
dtype: int64

In [23]:
s[-2:]

d    4
e    5
dtype: int64

In [24]:
s[::-1]

e    5
d    4
c    3
b    2
a    1
dtype: int64

In [25]:
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [26]:
s['a']

1

In [27]:
s['a':'d']

a    1
b    2
c    3
d    4
dtype: int64

In [28]:
s[['a','c','e']]

a    1
c    3
e    5
dtype: int64

In [29]:
s['f']

KeyError: 'f'