In [2]:
import numpy as np
import pandas as pd

# 三、Pandas数据结构-Series
## Series

Series是一种类似于一维数组的对象，由下面两个部分组成：

- values：一组数据（ndarray类型）
- index：相关的数据索引标签
- 

### 1）Series的创建

两种创建方式：

#### (1) 由列表或NumPy数组创建

In [7]:
list1 = [11, 22, 33, 44]
# 列表创建Series
s = pd.Series(list1)
display(list1, s, type(s))  

[11, 22, 33, 44]

0    11
1    22
2    33
3    44
dtype: int64

pandas.core.series.Series

In [8]:
n = np.array(list1)
# type(n)  # numpy.ndarray
# Numpy 创建 Series
s = pd.Series(n)
display(n, s, type(s))  

array([11, 22, 33, 44])

0    11
1    22
2    33
3    44
dtype: int64

pandas.core.series.Series

- Series属性: index和values

In [12]:
# Series 的 values 是 ndarray 的一维数组
display(s.values, type(s.values))

array([11, 22, 33, 44])

numpy.ndarray

In [14]:
# 索引为：RangeIndex(start=0, stop=4, step=1)
s.index

RangeIndex(start=0, stop=4, step=1)

In [15]:
# 修改索引index
s.index = ['A','B','C','D']
s

A    11
B    22
C    33
D    44
dtype: int64

In [17]:
s.index=list('BCDE')
s

B    11
C    22
D    33
E    44
dtype: int64

In [23]:
# 创建Series时指定索引
s2 = pd.Series(list1, index=['a', 'b', 'c','d'])
s2

a    11
b    22
c    33
d    44
dtype: int64

In [26]:
# 根据索引获取数据，数字索引只能使用[]
s2.b,s2['d']

(np.int64(22), np.int64(44))

In [27]:
# 根据index获取值
s2.c=55
s2['d']=100
s2

a     11
b     22
c     55
d    100
dtype: int64

#### (2)通过字段数据创建

In [28]:
d = {'red':100, 'blue':200, 'green': 500, 'yellow':1000}
s3 = pd.Series(d)
s3

red        100
blue       200
green      500
yellow    1000
dtype: int64

In [30]:
d2 = {
    'aa':np.random.randint(0,10,size=(2,3)),
    'bb':np.random.randint(0,10,size=(2,3)),
    'cc':np.random.randint(0,10,size=(2,3)),
    'dd':np.random.randint(0,10,size=(2,3)),
     }
s4 = pd.Series(d2)
s4

aa    [[3, 2, 0], [6, 4, 7]]
bb    [[5, 9, 6], [9, 6, 9]]
cc    [[1, 6, 3], [6, 4, 6]]
dd    [[0, 7, 7], [6, 4, 0]]
dtype: object

In [34]:
# Series 的属性
pd.Series(data=['李白','王昭君','关羽','张飞','公孙离'],index=['打野','中路','对抗','辅助','射手'],name='王者阵容')

打野     李白
中路    王昭君
对抗     关羽
辅助     张飞
射手    公孙离
Name: 王者阵容, dtype: object

### 2）Series的索引
可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的仍然是一个Series类型）。分为显示索引和隐式索引：

#### (1) 显式索引：

 - 使用index中的元素作为索引值
 - 使用.loc[]

注意，此时是闭区间

In [37]:
s = pd.Series({'Python':150,'Numpy':100,'Pandas':130})
s

Python    150
Numpy     100
Pandas    130
dtype: int64

In [47]:
# 显示索引：使用索引名称
# 获得的是index对应的值，数据类型也是值的数据类型
v = s['Python']
# 使用两个中括号得到的多个数据，类型还是Series
sub_s = s[['Pandas']]
sub_s2 = s[['Python','Numpy']]
v,sub_s,type(sub_s),sub_s2,type(sub_s2)

(np.int64(150),
 Pandas    130
 dtype: int64,
 pandas.core.series.Series,
 Python    150
 Numpy     100
 dtype: int64,
 pandas.core.series.Series)

In [49]:
# 使用.loc[]
s.loc['Python'], s.loc[['Python','Numpy']]

(np.int64(150),
 Python    150
 Numpy     100
 dtype: int64)

#### (2) 隐式索引：

- 使用整数作为索引值
- 使用.iloc[]（推荐）

注意，此时是半开区间

In [53]:
# 使用隐式索引：使用数字下标，不推荐使用，已经废弃
s[0] # 已经废弃
s[[0,1]] # 已经废弃

  s[0] # 已经废弃
  s[[0,1]] # 已经废弃


Python    150
Numpy     100
dtype: int64

In [57]:
# 隐式索引，使用数字下标：使用.iloc[]，推荐使用，与DataFrame行为保持一致
s.iloc[0]
s.iloc[[0,1]]

Python    150
Numpy     100
dtype: int64

### 3）Series的切片

- Series一维数组切片

In [59]:
s = pd.Series({
    '语文': 100, 
    "数学": 150, 
    "英语": 110, 
    "Python": 130, 
    "Pandas": 150,
    "Numpy": 150 
})
s

语文        100
数学        150
英语        110
Python    130
Pandas    150
Numpy     150
dtype: int64

In [61]:
# 切片
# 隐式切片，使用数字下标（左闭右开，与列表切片一致）
s[1:4],s.iloc[2:5]

(数学        150
 英语        110
 Python    130
 dtype: int64,
 英语        110
 Python    130
 Pandas    150
 dtype: int64)

In [63]:
# 显示索引，使用索引名称，（左闭右闭）
s['数学':'Python'],s.loc['英语':'Numpy']

(数学        150
 英语        110
 Python    130
 dtype: int64,
 英语        110
 Python    130
 Pandas    150
 Numpy     150
 dtype: int64)

### 4）Series的属性和方法
#### 属性
- shape 形状
- size 大小
- index 索引
- values 值
- dtype 元素类型
- name  Series名字

#### 方法
- 查看首尾数据
  - head()  查看前几条数据，默认5条
  - tail()  查看后几条数据，默认5
- 检测缺失数据
  - pd.isnull()
  - pd.notnull()
  - isnull()
  - notnull()


#### 属性

In [72]:
s = pd.Series({
    '语文': 100, 
    "数学": 150, 
    "英语": 110, 
    "Python": 130, 
    "Pandas": 150,
    "Numpy": 150 
}, name='学科分数')
s

语文        100
数学        150
英语        110
Python    130
Pandas    150
Numpy     150
Name: 学科分数, dtype: int64

In [65]:
# shape 形状
s.shape

(6,)

In [66]:
# size 大小，元素个数
s.size

6

In [68]:
# index 索引
s.index

Index(['语文', '数学', '英语', 'Python', 'Pandas', 'Numpy'], dtype='object')

In [69]:
# values 值
s.values

array([100, 150, 110, 130, 150, 150])

In [70]:
# dtype 元素类型
s.dtype

dtype('int64')

In [74]:
# name: Series名字，如果创建Series时没有指定名称，那么s.name默认是空的
s.name

'学科分数'

#### 方法
- 查看首尾数据
  - head()  查看前几条数据，默认5条
  - tail()  查看后几条数据，默认5
- 检测缺失数据
  - pd.isnull()
  - pd.notnull()
  - isnull()
  - notnull()

##### 查看首尾数据
- head() 查看前几条数据，默认5条
- tail() 查看后几条数据，默认5

In [75]:
s = pd.Series({
    '语文': 100, 
    "数学": 150, 
    "英语": 110, 
    "Python": 130, 
    "Pandas": 150,
    "Numpy": 150 
}, name='学科分数')
s

语文        100
数学        150
英语        110
Python    130
Pandas    150
Numpy     150
Name: 学科分数, dtype: int64

In [78]:
# 查看前几条数据，默认是前5条数据
s.head(3)

语文    100
数学    150
英语    110
Name: 学科分数, dtype: int64

In [79]:
# 查看后几条数据，默认5
s.tail(3)

Python    130
Pandas    150
Numpy     150
Name: 学科分数, dtype: int64

##### 检测缺失数据
  - pd.isnull()
  - pd.notnull()
  - isnull()
  - notnull()

In [82]:
s = pd.Series(['张三','李四','王五',np.nan], index=['人物1','人物2','人物3','人物4'])
s

人物1     张三
人物2     李四
人物3     王五
人物4    NaN
dtype: object

In [89]:
# pd.isnull()/isnull()：输出索引对应的值是否为空，不为空输出False，为空输出为True，两种调用方式
s.isnull(),pd.isnull(s)

(人物1    False
 人物2    False
 人物3    False
 人物4     True
 dtype: bool,
 人物1    False
 人物2    False
 人物3    False
 人物4     True
 dtype: bool)

In [90]:
# pd.notnull()/notnull()：输出索引对应的值是否为空，不为空输出True，为空输出为False，两种调用方式
s.notnull(),pd.notnull(s)

(人物1     True
 人物2     True
 人物3     True
 人物4    False
 dtype: bool,
 人物1     True
 人物2     True
 人物3     True
 人物4    False
 dtype: bool)

使用bool值索引过滤数据

In [95]:
# isnull过滤空置
cond1 = s.isnull()
cond1
# bool值索引，输出True所对应的数据
bool_i = s[[True,False,False,True]]
display(cond1, bool_i)

人物1    False
人物2    False
人物3    False
人物4     True
dtype: bool

人物1     张三
人物4    NaN
dtype: object

In [98]:
# 根据bool值索引获取非空数据（~：表示取反符号）
s[~cond1]

人物1    张三
人物2    李四
人物3    王五
dtype: object

In [97]:
# notnull过滤空置
cond2 = s.notnull()
cond2
display(cond1, s[cond2])

人物1    False
人物2    False
人物3    False
人物4     True
dtype: bool

人物1    张三
人物2    李四
人物3    王五
dtype: object

### 5）Series的运算

#### (1) 适用于NumPy的数组运算也适用于Series
#### (2) Series之间的运算

- 在运算中自动对齐索引的数据
- 如果索引不对应，则补NaN
- Series没有广播机制
- 注意：要想保留所有的index，则需要使用.add()函数

#### 适用于NumPy的数组运算也适用于Series

In [100]:
s = pd.Series(np.random.randint(10,100,size=10))
s

0    26
1    77
2    37
3    56
4    46
5    90
6    78
7    85
8    69
9    17
dtype: int32

In [105]:
# 基本算数运算
s + 100,s - 100,s * 100, s / 10, s // 10

(0    126
 1    177
 2    137
 3    156
 4    146
 5    190
 6    178
 7    185
 8    169
 9    117
 dtype: int32,
 0   -74
 1   -23
 2   -63
 3   -44
 4   -54
 5   -10
 6   -22
 7   -15
 8   -31
 9   -83
 dtype: int32,
 0    2600
 1    7700
 2    3700
 3    5600
 4    4600
 5    9000
 6    7800
 7    8500
 8    6900
 9    1700
 dtype: int32,
 0    2.6
 1    7.7
 2    3.7
 3    5.6
 4    4.6
 5    9.0
 6    7.8
 7    8.5
 8    6.9
 9    1.7
 dtype: float64,
 0    2
 1    7
 2    3
 3    5
 4    4
 5    9
 6    7
 7    8
 8    6
 9    1
 dtype: int32)

#### (2) Series之间的运算

- 在运算中自动对齐索引的数据
- 如果索引不对应，则补NaN
- Series没有广播机制
- 注意：要想保留所有的index，则需要使用.add()函数

In [109]:
s1 = pd.Series(np.random.randint(10,100,size=3))
s2 = pd.Series(np.random.randint(10,100,size=5))
s1,s2

(0    99
 1    87
 2    12
 dtype: int32,
 0    74
 1    53
 2    61
 3    67
 4    44
 dtype: int32)

In [111]:
# 对应元素相加(相乘，等等)，如果没有对应索引，那么输出Nan
s1 + s2,s1*s2

(0    173.0
 1    140.0
 2     73.0
 3      NaN
 4      NaN
 dtype: float64,
 0    7326.0
 1    4611.0
 2     732.0
 3       NaN
 4       NaN
 dtype: float64)

In [114]:
# 要想保留所有的index，则需要使用.add()函数，fill_value=0属性，如果某个Series没有该索引或者该索引zh
s1.add(s2, fill_value=0)

0    173.0
1    140.0
2     73.0
3     67.0
4     44.0
dtype: float64