In [2]:
import pandas as pd
import numpy as np

In [14]:
def display_all(items):
    i = 0
    for item in items:
        print('-'*60)
        print(f'第{i+1}个：')
        print(item)
        print('数据类型：', type(item))
        i = i+1

# Series
类似一维数组，由一组数据以及一组与之相关的数据标签(索引)构成。

# 创建

In [15]:
a_list = [4, 7, -5, 3]
obj1 = pd.Series(a_list)
obj2 = pd.Series(a_list, index=['d', 'b', 'a', 'e'])

item_list = [obj1, obj2]
display_all(item_list)

------------------------------------------------------------
第1个：
0    4
1    7
2   -5
3    3
dtype: int64
数据类型： <class 'pandas.core.series.Series'>
------------------------------------------------------------
第2个：
d    4
b    7
a   -5
e    3
dtype: int64
数据类型： <class 'pandas.core.series.Series'>


## 通过字典构建

In [16]:
sdata = {
    'Ohio': 35000,
    'Texas': 71000,
    'Oregon': 16000,
    'Utah': 5000
    }
obj3 = pd.Series(sdata)     # 只传入一个字典，Series的索引就是原字典的键

states = ['California', 'Ohio', 'Oregon', 'Texas']  # 指定index
obj4 = pd.Series(sdata, index=states)  # 调整了index对应数据的顺序，没有键的index，数值为空

item_list = [obj3, obj4]
display_all(item_list)

------------------------------------------------------------
第1个：
Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
数据类型： <class 'pandas.core.series.Series'>
------------------------------------------------------------
第2个：
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
数据类型： <class 'pandas.core.series.Series'>


# 属性

In [19]:
a = obj1.values   # 值
b = obj2.index    # index
c = obj3.index

# 为name属性赋值
obj4.name = 'population'
obj4.index.name = 'state'

d = obj4.name
e = obj4.index.name

item_list = [a, b, c, d, e]
display_all(item_list)

------------------------------------------------------------
第1个：
[ 4  7 -5  3]
数据类型： <class 'numpy.ndarray'>
------------------------------------------------------------
第2个：
Index(['d', 'b', 'a', 'e'], dtype='object')
数据类型： <class 'pandas.core.indexes.base.Index'>
------------------------------------------------------------
第3个：
Index(['Ohio', 'Texas', 'Oregon', 'Utah'], dtype='object')
数据类型： <class 'pandas.core.indexes.base.Index'>
------------------------------------------------------------
第4个：
population
数据类型： <class 'str'>
------------------------------------------------------------
第5个：
state
数据类型： <class 'str'>


In [20]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

# 索引

In [35]:
a = obj2['a']               # 通过索引选取单个值
b = obj2[['a', 'b', 'e']]   # 通过索引选取一组值
c = obj2[obj2.index[1:]]    # 通过index范围过滤

item_list = [obj2, a, b, c]
display_all(item_list)

------------------------------------------------------------
第1个：
d    4
b    7
a   -5
e    3
dtype: int64
数据类型： <class 'pandas.core.series.Series'>
------------------------------------------------------------
第2个：
-5
数据类型： <class 'numpy.int64'>
------------------------------------------------------------
第3个：
a   -5
b    7
e    3
dtype: int64
数据类型： <class 'pandas.core.series.Series'>
------------------------------------------------------------
第4个：
b    7
a   -5
e    3
dtype: int64
数据类型： <class 'pandas.core.series.Series'>


## 通过bool值筛选

In [26]:
a = obj2[obj2>2]       # numpy数组运算（布尔过滤，标量，函数）都会保留索引和值的链接
b = obj2*2

item_list = [obj2, a, b]
display_all(item_list)

------------------------------------------------------------
第1个：
d    4
b    7
a   -5
e    3
dtype: int64
数据类型： <class 'pandas.core.series.Series'>
------------------------------------------------------------
第2个：
d    4
b    7
e    3
dtype: int64
数据类型： <class 'pandas.core.series.Series'>
------------------------------------------------------------
第3个：
d     8
b    14
a   -10
e     6
dtype: int64
数据类型： <class 'pandas.core.series.Series'>


# 缺失情况

In [27]:
a = pd.isnull(obj4)       # isnull函数
b = obj4.isnull()         # 实例方法
c = pd.notnull(obj4)      # notnull函数

item_list = [obj4, a, b, c]
display_all(item_list)

------------------------------------------------------------
第1个：
state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64
数据类型： <class 'pandas.core.series.Series'>
------------------------------------------------------------
第2个：
state
California     True
Ohio          False
Oregon        False
Texas         False
Name: population, dtype: bool
数据类型： <class 'pandas.core.series.Series'>
------------------------------------------------------------
第3个：
state
California     True
Ohio          False
Oregon        False
Texas         False
Name: population, dtype: bool
数据类型： <class 'pandas.core.series.Series'>
------------------------------------------------------------
第4个：
state
California    False
Ohio           True
Oregon         True
Texas          True
Name: population, dtype: bool
数据类型： <class 'pandas.core.series.Series'>


# 运算

## 数据对齐

In [30]:
new_obj = obj3+obj4

item_list=[obj3, obj4, new_obj
display_all(item_list)

------------------------------------------------------------
第1个：
Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
数据类型： <class 'pandas.core.series.Series'>
------------------------------------------------------------
第2个：
state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64
数据类型： <class 'pandas.core.series.Series'>
------------------------------------------------------------
第3个：
California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64
数据类型： <class 'pandas.core.series.Series'>
