In [1]:
# pandas 数据清洗和分析工作更快更简单的数据结构和操作工具
# 数值计算 numpy scipy
# 分析库 statsmodels scikit-learn
# 数据可视化库 matplotlib

# pandas 基于 numpy 数组构建的，特别基于数组的函数和不使用 for 循环的数据处理
# numpy 适用于处理统一的数值型数组数据
# pandas 适用于处理表格式或者非结构化式的高维数据

import pandas as pd

# 因为 Series 和 DataFrame 使用非常频繁，故此将其引入本地命名空间中更加方便
from pandas import Series, DataFrame

In [2]:
# Series 类似 一维数组的对象 
# 由一组数据 和 一组与之相关的数据标签（索引）构成
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
# Series 表现形式：索引在左 ， 值在右 
# 若未指定数据的标签索引，则自动创建从 0 - N-1 的整数索引
# 通过 Series 的 values 属性获取 数值，以数组形式返回
# 通过 Series 的 index 属性获取 索引对象，以数组形式返回
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [4]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
# 创建 Series 带有数据标签的一维数据
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [6]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [7]:
# Series 通过数据标签索引访问数据
obj2["a"]

-5

In [8]:
obj2["d"] = 6

obj2[["c", "a", "d"]]

c    3
a   -5
d    6
dtype: int64

In [10]:
# 使用NumPy函数或类似NumPy的运算， 都会保留索引值的链接
# 根据布尔型数组进行过滤、 标量乘法、 应用数学函数
import numpy as np

print(obj2[obj2 > 0])
print(obj2 * 2)
print(np.exp(obj2))

d    6
b    7
c    3
dtype: int64
d    12
b    14
a   -10
c     6
dtype: int64
d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


In [11]:
# 将Series看成是一个定长的有序字典， 因为它是索引值到数据值的一个映射
# 它可以用在许多原本需要字典参数的函数中：
'b' in obj2

True

In [12]:
'e' in obj2

False

In [13]:
# 数据被存放在一个Python字典中， 也可以直接通过这个字典来创建Series
data_dict = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(data_dict)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [14]:
# 如果只传入一个字典， 则结果Series中的索引就是原字典的键（有序排列）
# 可以传入排好序的字典的键以改变顺序
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(data_dict, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [15]:
# NaN : not a number
# pandas 表示缺失值 或者 NA 值
# pandas 的 isnull 和 notnull 函数可以检测缺失数据
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [16]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [17]:
# Series 的实例化对象 一样有着相同功能的方法
print(obj4.isnull())
print("=====================")
print(obj4.notnull())

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


In [18]:
# Series 的重要功能是 根据运算的索引标签自动对齐数据
# 以上的输出结果 可以明显的表现出这一点重要功能：数据对齐功能 

# Series 对象本身 和 其索引 都有一个 name 属性
# 该属性与 pandas 其他关键功能非常密切
obj4.name = "population"
obj4.index.name = "state"
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [19]:
# Series 的索引可以通过赋值的方式就地修改
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [20]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64