In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

## 5.1.1 Series

In [2]:
obj = pd.Series([4, 7, -5, 3])

In [3]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
# 数值就是ndarray类型
print(type(obj.values))
print(obj.values)

<class 'numpy.ndarray'>
[ 4  7 -5  3]


In [5]:
# 索引是pandas的核心,以后仔细研究一下
print(type(obj.index))
print(obj.index)

<class 'pandas.core.indexes.range.RangeIndex'>
RangeIndex(start=0, stop=4, step=1)


#### 当然我们也可以自己指定索引

In [6]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
obj2.index # 索引的元素类型是object

Index(['d', 'b', 'a', 'c'], dtype='object')

### 取值

In [8]:
# 选取单一值
print(obj2['a'])
obj2[1]

-5


7

In [9]:
# 选取一组值
obj2[['a', 'b', 'c']]

a   -5
b    7
c    3
dtype: int64

In [10]:
obj2[0:2]

d    4
b    7
dtype: int64

### 修改值

In [11]:
obj2['d'] = 666
obj2

d    666
b      7
a     -5
c      3
dtype: int64

In [12]:
res = obj2 > 0
print(type(res))
res

<class 'pandas.core.series.Series'>


d     True
b     True
a    False
c     True
dtype: bool

In [13]:
# 索引可以是布尔值类型的series
obj2[obj2 > 0]

d    666
b      7
c      3
dtype: int64

### 基本运算

In [14]:
obj2 * 2

d    1332
b      14
a     -10
c       6
dtype: int64

In [15]:
np.exp(obj2)

d    1.738301e+289
b     1.096633e+03
a     6.737947e-03
c     2.008554e+01
dtype: float64

In [16]:
obj2

d    666
b      7
a     -5
c      3
dtype: int64

### 根据索引判断是否存在

In [18]:
'b' in obj2

True

In [19]:
'e' in obj2

False

## 通过dict来创建 series：

In [20]:
myDict = {'李四': 35000, '张三': 71000, '赵六':16000}
print(myDict)
seri3 = pd.Series(myDict)
seri3

{'李四': 35000, '张三': 71000, '赵六': 16000}


张三    71000
李四    35000
赵六    16000
dtype: int64

#### 我们也可以传入一个自己想要的索引顺序：

In [21]:
myIndexSort = ['王五', '张三', '李四']
seri4 = pd.Series(myDict, index=myIndexSort)
# 以index的值为准, 字典中不存在,但是index有的为NaN, like '王五' ;
# 字典中有键, 但是index不存在的则删除掉, 如'赵六'
seri4 

王五        NaN
张三    71000.0
李四    35000.0
dtype: float64

NaN表示缺失数据，pandas中的isnull和notnull函数可以用来检测缺失数据：

In [22]:
# 不存在的数为True
pd.isnull(seri4) # 等价于 seri4.isnull()

王五     True
张三    False
李四    False
dtype: bool

In [24]:
# 存在的数为True
pd.notnull(seri4)

王五    False
张三     True
李四     True
dtype: bool

以上两个方法得到的关于缺失数据，在第七章还会讲得更详细一些。

### 两个series相加

In [25]:
seri3

张三    71000
李四    35000
赵六    16000
dtype: int64

In [26]:
seri4

王五        NaN
张三    71000.0
李四    35000.0
dtype: float64

In [27]:
# 这里的数据对齐和数据库中的join相似。
seri3 + seri4 # 有一个不存在或者为nan的结果就是nan

张三    142000.0
李四     70000.0
王五         NaN
赵六         NaN
dtype: float64

### serice自身和它的index都有一个叫name的属性，这个能和其他pandas的函数进行整合

In [35]:
seri4.name = '资产'
seri4.index.name = '姓名'
seri4

姓名
ZhangSan        NaN
LiSi        71000.0
WangWu      35000.0
Name: 资产, dtype: float64

#### series的index能被重新复制,索引的值是不可修改的

In [36]:
seri4.index = ['ZhangSan', 'LiSi', 'WangWu']
seri4

ZhangSan        NaN
LiSi        71000.0
WangWu      35000.0
Name: 资产, dtype: float64

In [37]:
# 修改索引会报错
try:
    seri4.index[0] = 'ZhangThree'
except TypeError as e:
    print("错误信息:", e, "即 不支持可变操作")


错误信息: Index does not support mutable operations 即 不支持可变操作
