# Series
    
* 一维数组型对象，包含一个值序列和数据标签(索引)

In [1]:
import pandas as pd
import numpy as np

In [2]:
obj = pd.Series([4, 7, -7, 5])

In [3]:
obj

0    4
1    7
2   -7
3    5
dtype: int64

* index: 索引, 默认创建 0 ~ len(Series), step 1
* values:值

In [4]:
obj.values

array([ 4,  7, -7,  5], dtype=int64)

In [5]:
obj.index

RangeIndex(start=0, stop=4, step=1)

* 可将与值等长度的序列作为参数传入 Series的index属性中


In [6]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [7]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [8]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

* 与NumPy相比，pandas可以使用标签作为参数的索引

In [9]:
obj2['a']

-5

* 与numpy一样，pandas的切片获取到的也是数据的视图， 任何对数据的修改都会反应到原视图上

In [10]:
obj2['d'] = 6

In [11]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [12]:
# obj2['c', 'a', 'd'] 
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

* pandas可是使用numpy的函数或numpy风格的操作
* 需要注意： 这些操作应该保持索引值的连接

In [13]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [14]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [15]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

* Series可以认为是一个长度固定且有序的字典
* 即： Series可以将索引值和数据值按位置进行配对。

In [16]:
'b' in obj2

True

In [17]:
'e' in obj2

False

* 通过字典创建Series

In [18]:
sdata = {
    'Ohio': 35000,
    'Texas': 71000,
    'Oregon': 15600,
    'Utah': 5000,
}

In [19]:
obj3 = pd.Series(sdata)

* Series 会自动将字典拆分成 keyList， valList， 然后根据keyList创建索引

In [20]:
obj3

Ohio      35000
Texas     71000
Oregon    15600
Utah       5000
dtype: int64

* 可以将字典的键，提取出来，按照自己的预期进行排序， 然后在将字典键列表传递给Series
    
    这样就可以Series的顺序进行调整

In [21]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

In [22]:
obj4 = pd.Series(sdata, index=states)

* 传入的字典键列表中的元素，可以不是字典的键， 字典的键也可以不用出现列表中
    * 如果不是字典的键，Series也会创建出对应的值，填充NaN， 表示缺失数据
    * 如果字典的键不在列表中，则会被Series排除
    * 这一特性只能在传递的数据为字典时可用，其他比如列表等，index长度必须一致

In [23]:
obj4

California        NaN
Oregon        15600.0
Texas         71000.0
dtype: float64

* isnull & notnull 检查缺失数据

    * pandas 提供了检查数据是否缺失的方法 isnull & notnull
        * 将series或者DataFrame对象传递给isnull & notnull
        * pandas会返回一个bool对象

In [322]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [323]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

* 自动对齐索引

    * 在对两个Series对象进行操作时，pandas会自动根据Series中的键进行对齐操作
        * 对相同键进行修改
        * 然后将两个Series的索引合并成一个新的集合
        * 创建新的Series对象

In [324]:
obj3

Ohio      35000
Texas     71000
Oregon    15600
Utah       5000
dtype: int64

In [325]:
obj4

California        NaN
Ohio          35000.0
Oregon        15600.0
Texas         71000.0
dtype: float64

In [326]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         31200.0
Texas         142000.0
Utah               NaN
dtype: float64

* Series自身及其索引各自都拥有name属性

In [327]:
obj4.name = 'population'

In [328]:
obj4.index.name = 'state'

In [329]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        15600.0
Texas         71000.0
Name: population, dtype: float64

* Series支持对index重新赋值， 给定一个indexList， 根据顺序对Series的重写

In [330]:
obj

0    4
1    7
2   -7
3    5
dtype: int64

In [331]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

In [332]:
obj

Bob      4
Steve    7
Jeff    -7
Ryan     5
dtype: int64


# DataFrame

* DataFrame表示矩阵的数据表，包含已排序的列集合
    * 每一列的值可以是不同的类型。
    * DataFrame既有行索引，也有列索引 == 共享相同索引的Series的字典(存在一个字典， 字典中的每个键对应了一个Series对象， *所有Series对象的index都相同*)
    * DataFrame数据存储在一个二维块， 而不是列表，字典或其他一维数据的集合

* DataFrame属于二维数据，但是利用分层索引在DataFrame中展现更高维度的数据 —— 类似关系表的外键

* 可以将嵌套一维数据的字典作为参数传递

In [333]:
data = {
    'state': ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
    'year': [2000, 2001, 2002, 2003, 2001, 2002],
    'pop': [1.4, 2.3, 6.5, 7.4, 1., 4.3]
}

In [334]:
frame = pd.DataFrame(data)

In [335]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.4
1,Ohio,2001,2.3
2,Ohio,2002,6.5
3,Nevada,2003,7.4
4,Nevada,2001,1.0
5,Nevada,2002,4.3


* head属性， 可以获取DataFrame的前5行数据
* tail属性， 可以获取DataFrame的后5行数据

In [336]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.4
1,Ohio,2001,2.3
2,Ohio,2002,6.5
3,Nevada,2003,7.4
4,Nevada,2001,1.0


In [337]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,2.3
2,Ohio,2002,6.5
3,Nevada,2003,7.4
4,Nevada,2001,1.0
5,Nevada,2002,4.3


* 类似Series，可以传递一个索引列表， 对DataFrame的索引进行排序
    * columns， DataFrame的索引被定义为列(columns)

* DataFrame 也可以传递Series的索引，效果与Series相同

In [338]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'dept'], index=['one', 'two', 'three', 'four', 'five', 'six'])

In [339]:
frame2

Unnamed: 0,year,state,pop,dept
one,2000,Ohio,1.4,
two,2001,Ohio,2.3,
three,2002,Ohio,6.5,
four,2003,Nevada,7.4,
five,2001,Nevada,1.0,
six,2002,Nevada,4.3,


* 使用类似字典的索引方式，获取对应的Series对象


In [340]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

* 使用属性获取对应的Series

In [341]:
frame.year

0    2000
1    2001
2    2002
3    2003
4    2001
5    2002
Name: year, dtype: int64

***
DataFrame[columns] 对任意的列名有效
DataFrame.columns 只在列名有效
<br>
***

* loc 获取行

In [342]:
frame2.loc['three']

year     2002
state    Ohio
pop       6.5
dept      NaN
Name: three, dtype: object

* 利用pandas切片对视图进行修改，处理NaN

In [343]:
frame2.dept = 16.5

In [344]:
frame2

Unnamed: 0,year,state,pop,dept
one,2000,Ohio,1.4,16.5
two,2001,Ohio,2.3,16.5
three,2002,Ohio,6.5,16.5
four,2003,Nevada,7.4,16.5
five,2001,Nevada,1.0,16.5
six,2002,Nevada,4.3,16.5


* 可以用一个一维数据进行赋值，但是长度必须与DataFrame相同

In [345]:
frame2.dept = range(6)

In [346]:
frame2

Unnamed: 0,year,state,pop,dept
one,2000,Ohio,1.4,0
two,2001,Ohio,2.3,1
three,2002,Ohio,6.5,2
four,2003,Nevada,7.4,3
five,2001,Nevada,1.0,4
six,2002,Nevada,4.3,5


* 特别的， 将Series作为一列传递时，Series将会按照DataFrame的索引重新排列
* 需要注意，这个操作会对整列进行修改，如果DataFrame的索引不在Series中，则对应的值会被修改为NaN
* 如果Series的索引不在DataFrame中，则这一条目会被DataFame排除

In [347]:
val = pd.Series([-1.2, -1.4, -1.9, 3.3], index=['two', 'four', 'five', 'seven'])

In [348]:
frame2['dept'] = val

In [349]:
frame2

Unnamed: 0,year,state,pop,dept
one,2000,Ohio,1.4,
two,2001,Ohio,2.3,-1.2
three,2002,Ohio,6.5,
four,2003,Nevada,7.4,-1.4
five,2001,Nevada,1.0,-1.9
six,2002,Nevada,4.3,


* 如果DataFrame索引的列不存在，这个方法会为DataFrame创建新的列
* 使用属性索引(DataFrame.columns)的方法无法创建
    * 程序可以正常运行，但是不会有结果

In [368]:
frame2['eastern'] = frame2.state == "Ohio"

In [369]:
frame2

Unnamed: 0,year,state,pop,dept,eastern
one,2000,Ohio,1.4,,True
two,2001,Ohio,2.3,-1.2,True
three,2002,Ohio,6.5,,True
four,2003,Nevada,7.4,-1.4,False
five,2001,Nevada,1.0,-1.9,False
six,2002,Nevada,4.3,,False


* del 删除列 | 行

In [370]:
# 同样的删除列，也不能使用属性的方式索引要删除的列，且这样做会报错
del frame2['eastern']

In [371]:
frame2

Unnamed: 0,year,state,pop,dept
one,2000,Ohio,1.4,
two,2001,Ohio,2.3,-1.2
three,2002,Ohio,6.5,
four,2003,Nevada,7.4,-1.4
five,2001,Nevada,1.0,-1.9
six,2002,Nevada,4.3,


* 使用嵌套字典创建DataFrame
* DataFrame会根据根据所有子字典的键的集合创建Series，并在各自对应的列下找到对应的索引进行填充
* 其余的值填充NaN

In [398]:
pop = {
    "Nevada": {
        '2001': 2.4,
        '2002': 2.0
    },
    "Ohio": {
        "2000": 1.5,
        "2001": 1.7,
        "2002": 3.5
    }
}

In [399]:
frame3 = pd.DataFrame(pop)

In [400]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.0,3.5
2000,,1.5


* 使用类似numpy的方法 对DataFrame进行转置
* 转置操作不会修改视图

In [401]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.0,
Ohio,1.7,3.5,1.5


In [402]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.0,3.5
2000,,1.5


* 显式指明索引，定义索引的顺序， 索引不会自动排序
* 特别的如果index的类型是数据的话，DataFrame会自动进行递增排序

In [405]:
pd.DataFrame(pop, index=['2001', '2002', '2003'])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.0,3.5
2003,,


* 使用name属性对DataFrame的行和列进行命名
* DataFrame.index.name
* DataFrame.columns.name

In [407]:
frame3.index.name = 'year'

In [408]:
frame3.columns.name = 'state'

In [409]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.0,3.5
2000,,1.5


* DataFrame的values会将包含在DataFrame中的数据以二维ndarray的形式返回

In [411]:
vals = frame3.values

In [412]:
vals

array([[2.4, 1.7],
       [2. , 3.5],
       [nan, 1.5]])

In [413]:
type(vals)

numpy.ndarray

# 索引对象