# 一、Series结构
**类似于一维数组对象，它由一组数据(各种numpy数据类型)以及一组与之相关的数据标签(即索引)组成**

In [86]:
import pandas as pd
import numpy as np

## 1、创建

In [4]:
# 简单series 由列表进行创建
s1 = pd.Series(['a',1,'b',2])
print(s1)

# 单独打印值
print(s1.values)

# 单独打印索引
print(s1.index)

0    a
1    1
2    b
3    2
dtype: object
['a' 1 'b' 2]
RangeIndex(start=0, stop=4, step=1)


In [8]:
# 指定索引
s2 = pd.Series(['小明','小红','小华','小贝'],index=['a','b','c','d'])
print(s2)

# 判断索引是否存在
print('a' in s2)

a    小明
b    小红
c    小华
d    小贝
dtype: object
True


In [13]:
# 字典创建
s3 = pd.Series({'name':'xiaobei','sex':'man'})
print(s3)

s4 = pd.Series({'name':['a','b'],'sex':['w','m']})
print(s4)

s5 = pd.Series({'name':'xiaobei','sex':'man'},index=['name','sex','extra'])
print(s5)

name    xiaobei
sex         man
dtype: object
name    [a, b]
sex     [w, m]
dtype: object
name     xiaobei
sex          man
extra        NaN
dtype: object


## 2、索引操作

In [57]:
s1 = pd.Series(['a',1,'b',2])
# print(s1)

# 索引值
# print(s1[0])

# 切片操作
# print(s1[0:3])

# 修改索引值
s1.index = ['a','b','c','d']
# print(s1)

# 重新索引 => 创建一个适应新索引的新对象
s2 = s1.reindex(['a','b','c'])
# print(s2)

# 删除某索引
# print(s1.drop('c'))

# 打印索引a和d的值
# print(s1[['a','d']])

# 赋值
s1['a'] = 'xiaobei'
print(s1)

# 布尔索引
s3 = pd.Series([1,2,3,4])
print(s3[s3>2])

a    xiaobei
b          1
c          b
d          2
dtype: object
2    3
3    4
dtype: int64


## 3、数学运算

In [66]:
s1 = pd.Series([1,2,3,4],index=['a','b','c','d'])
s2 = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])

# 相加 => 相同索引值的元素相加，多余地设置为NaN
print(s1+s2)

# 相加 => 相同索引值的元素相加，多余的默认值设置为0
tmp = s1.add(s2,fill_value=0)
print(tmp)

# 相减
tmp = s1.sub(s2,fill_value=0)
print(tmp)

# 相乘
tmp = s1.mul(s2,fill_value=0)
print(tmp)

# 相除
tmp = s1.div(s2,fill_value=0)
print(tmp)

a    2.0
b    4.0
c    6.0
d    8.0
e    NaN
dtype: float64
a    2.0
b    4.0
c    6.0
d    8.0
e    5.0
dtype: float64
a    0.0
b    0.0
c    0.0
d    0.0
e   -5.0
dtype: float64
a     1.0
b     4.0
c     9.0
d    16.0
e     0.0
dtype: float64
a    1.0
b    1.0
c    1.0
d    1.0
e    0.0
dtype: float64


## 4、排序

In [73]:
s1 = pd.Series([1,3,2,4],index=['d','a','b','c'])
print(s1)

# 值排序
tmp = s1.sort_values()
print(tmp)

# 索引排序
tmp = s1.sort_index()
print(tmp)

d    1
a    3
b    2
c    4
dtype: int64
d    1
b    2
a    3
c    4
dtype: int64
a    3
b    2
c    4
d    1
dtype: int64


## 5、统计函数

In [83]:
s1 = pd.Series([1,2,3,4],index=['a','b','c','d'])

# 求和
tmp = s1.sum()
print(tmp)

# 最小值
tmp = s1.min()
print(tmp)

# 最大值
tmp = s1.max()
print(tmp)

# 平均值
tmp = s1.mean()
print(tmp)

# 中位数
tmp = s1.median()
print(tmp)

# 标准差
tmp = s1.std()
print(tmp)

# 统计描述
tmp = s1.describe()
print(tmp)

# 非NA值的数量
tmp = s1.count()
print(tmp)


10
1
4
2.5
2.5
1.2909944487358056
count    4.000000
mean     2.500000
std      1.290994
min      1.000000
25%      1.750000
50%      2.500000
75%      3.250000
max      4.000000
dtype: float64
4


## 6、唯一值和值计数

In [85]:
s1 = pd.Series(['h','a','g','f','c','a','e','a','b','b'])
# 去重
tmp = s1.unique()
print(tmp)

# 值频率
tmp =  s1.value_counts()
print(tmp)

['h' 'a' 'g' 'f' 'c' 'e' 'b']
a    3
b    2
f    1
e    1
c    1
h    1
g    1
dtype: int64


## 7、处理缺失数据
**浮点值NaN表示浮点和非浮点数组中的缺失数据**

In [None]:
s1 = pd.Series([1,2,np.nan,4,5])

# 替换NaN的值
print(s1.fillna(1))

# 判断是否为null
print(s1.isnull())

# 判断不是null
print(s1.notnull())

# 删除值为NaN
s1.dropna()

## 8、层级化索引

In [127]:
s1 = pd.Series(np.random.randint(10,size=10),index=[['a','a','a','b','b','b','c','c','d','d'],[1,2,3,1,2,3,1,2,1,2]])
print(s1)

# 获取第一级索引为a下的，索引值为1的元素
# print(s1['a',1])

# 获取第一级索引为a下的，索引值为2和3之间的元素
# print(s1['a'][1:3])

# 统计一级索引的总和
# 把series转换为dataframe
tmp = s1.unstack()
print(tmp)
print(tmp.sum(axis=1))

a  1    7
   2    4
   3    6
b  1    9
   2    8
   3    9
c  1    9
   2    4
d  1    8
   2    0
dtype: int32
     1    2    3
a  7.0  4.0  6.0
b  9.0  8.0  9.0
c  9.0  4.0  NaN
d  8.0  0.0  NaN
a    17.0
b    26.0
c    13.0
d     8.0
dtype: float64
