# Series
## 1. Series的创建

In [35]:
import pandas as pd
import numpy as np
# 1. 直接创建
s = pd.Series([1, 2, 3, 4, 5])
print(s)
print('-' * 50)

# 2. 自定义  索引 + 名字
s = pd.Series([1, 2, 3, 4, 5], index=['A', 'B', 'C', 'D', 'E'], name='月份')
print(s)
print('-' * 50)

# 3. 从字典创建(因为从上一个输出可以看到，数据的组织形式很像字典 key: value)
s = pd.Series({'A': 1, 'B': 2, 'C':3}, name='月份')
print(s)
print('-' * 50)

# 4. 从series创建
s = pd.Series(s, index=['A', 'B']) # 从s中取index为'A'与'B'，得到新列表
print(s)

0    1
1    2
2    3
3    4
4    5
dtype: int64
--------------------------------------------------
A    1
B    2
C    3
D    4
E    5
Name: 月份, dtype: int64
--------------------------------------------------
A    1
B    2
C    3
Name: 月份, dtype: int64
--------------------------------------------------
A    1
B    2
Name: 月份, dtype: int64


# 2. 属性

In [36]:
s = pd.Series([1, 2, 3, 4, 5], index=['A', 'B', 'C', 'D', 'E'], name='月份')
print(s.index)
print(s.values)
print(s.size)
print(s.shape)
print(s.ndim)
s.name = 'month'
print(s.name)
print(s.dtype)
print(s.loc['A']) # 显式索引
print(s.iloc[0]) # 隐式索引

# 单纯取值等价于at方法
# 但是at方法不支持切片
print(s.at['A'])
print(s.iat[0])

# 用iloc切片
print(s.loc['A':'B']) # 显示右闭
print(s.iloc[0: 3]) # 隐式右开



Index(['A', 'B', 'C', 'D', 'E'], dtype='object')
[1 2 3 4 5]
5
(5,)
1
month
int64
1
1
1
1
A    1
B    2
Name: month, dtype: int64
A    1
B    2
C    3
Name: month, dtype: int64


# 3. 访问数据

In [37]:
# 另一种方式
print(s['A']) # 用index取数据，推荐
print(s[0]) # 用数字索引，但是不推荐，因为容易与index混淆

# bool索引取数据(同numpy的操作)
print(s[s<3])

s['F'] = 6
# pandas一般用来处理大量数据，所以调试时可以取一点
print(s.head(2)) # 取前2行
print(s.tail(3)) # 取后3行

1
1
A    1
B    2
Name: month, dtype: int64
A    1
B    2
Name: month, dtype: int64
D    4
E    5
F    6
Name: month, dtype: int64


  print(s[0]) # 用数字索引，但是不推荐，因为容易与index混淆


# 4. 常见函数

In [None]:
s = pd.Series([10, 2, np.nan, None, 3, 4, 5], index=['A', 'B', 'C', 'D', 'E', 'F', 'G'], name='data')
print(s)
print('-' * 50)
print(s.head(3))

# 查看所有描述性信息
print(s.describe()) # 忽略缺失值
print('-' * 50)

# 获取元素个数
print(s.count())

# 获取索引
print(s.keys()) # 方法
print(s.index) # 属性

# 判断是否缺失
print(s.isna()) # 返回bool值的series类型

# 判断指定元素是否在Series中
print(s.isin([1, 4, 5, 6]))

# 排序
print(s.sort_values()) # 缺失值放最后
print(s.sort_index())

# 计数
print(s.value_counts()) # 每个值的出现次数

# 去重（两种方法）
print(s.drop_duplicates()) # 返回series类型
print(s.unique()) # 返回去重后的值ndarray

# 去重后返回个数
print(s.nunique())

# 其他
print(s.quantile(0.8))
print(s.mean())
print(s.std())
print(s.var())
print(s.sum())
print(s.min())
print(s.median()) # 去掉缺失值
print(s.mode()) # 如果频率一样，就都输出
s['H'] = 4
print(s.mode()) # 否则只输出一个元素的series


A    10.0
B     2.0
C     NaN
D     NaN
E     3.0
F     4.0
G     5.0
Name: data, dtype: float64
--------------------------------------------------
A    10.0
B     2.0
C     NaN
Name: data, dtype: float64
count     5.000000
mean      4.800000
std       3.114482
min       2.000000
25%       3.000000
50%       4.000000
75%       5.000000
max      10.000000
Name: data, dtype: float64
--------------------------------------------------
5
Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')
Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')
A    False
B    False
C     True
D     True
E    False
F    False
G    False
Name: data, dtype: bool
A    False
B    False
C    False
D    False
E    False
F     True
G     True
Name: data, dtype: bool
B     2.0
E     3.0
F     4.0
G     5.0
A    10.0
C     NaN
D     NaN
Name: data, dtype: float64
A    10.0
B     2.0
C     NaN
D     NaN
E     3.0
F     4.0
G     5.0
Name: data, dtype: float64
data
10.0    1
2.0     1
3.0     1
4.0     1
5.0 