# pandas的数据结构
## 1.Series
- 类似一维数组的对象
    - 由一组数据以及一组与之相关的数据标签（即索引）组成。
    - 索引在左，值在右。
    - 若不指定索引，则自动创建0-(n-1)的整数型数组。
    - 通过Series的values和index属性获取其数组表示形式和索引对象。
    - 可以在创建时，指定index=；或创建之后，通过赋值的方式就地修改obj.index = 
    - 与普通Numpy数组相比，可通过索引的方式选取Series中的特定值。
    - 使用Numpy函数或类似Numpy的运算都会保留索引值的链接。
- 可看成是一个定长的有序字典
    - 索引值到数据值的映射；
    - 可通过字典来创建Series；
    - 若只传入一个字典，则结果Series中的索引就是原字典的键（有序排列），也可传入排好序的字典的键以改变顺序；
    - 若指定索引没有对应的数据值，则返回NaN，表示数据缺失；isnull和notnull函数可用于检测缺失数据（np.isnull(obj)、obj.isnull()）；
    - Series对象本身及其索引都有一个name属性；
- 创建空Series：pd.Series([])

## 2.DataFrame
- 表格型的数据结构，含有一组有序的列，每列可以是不同的值类型；
- 既有行索引，也有列索引，可以看做由Series组成的字典；
- 其中的数据是以一个或多个二维块存放的，而不是列表、字典或其他；
- 创建：传入一个由等长列表或numpy数组组成的字典；
    - 若将嵌套字典传入，则以外层字典的键为列，内层键为行索引；
    - 内层字典的键会被合并、排序以形成最终的索引；
    - 可指定索引
- frame.head()选取前5行；
- 可在创建时，指定列序列columns=[]；
- 可通过类似字典标记的方式（frame['column']）或属性的方式（frame.column），将DataFrame的列获取为一个Series
- 可通过位置或名称的方式获取行frame.loc['index']
- 可通过赋值修改列；为不存在的列赋值会创建出一个新列；
- del frame['column'] 删除某列
- frame.T 行列转置
- DataFrame的index及column也有name属性
- frame.values会以二维数组形式返回数据

## 索引对象
- pd.Index(...)
- index对象是不可变的，index[1]= 是不可用的；
- 不可变使得index对象在多个数据结构之间安全共享；
- index功能类似一个固定大小的集合，但与Python集合不同，pandas的index可包含重复的标签；
- 有一些方法与属性：
    - append：连接另一个index对象，产生一个新的index
    - difference：计算差集
    - intersection：计算交集
    - union：计算并集
    - isin：计算一个指示各值是否都包含在参数集合中的布尔型数组
    - delete：删除索引i处的元素，得到新的index
    - drop：删除传入的值，得到新的index
    - is_monotonic：当各元素均大于等于前一个元素时，返回True
    - is_unique：当index没有重复值时，返回True
    - unique：计算index中唯一值的数组

In [61]:
## Series类似一维数组
import pandas as pd
from pandas import Series

# 默认索引为0开始的整数序列
obj = pd.Series([4, 7, 2, -3])
print(obj, '\n')

#values和index属性
print(obj.values)
print(obj.index, '\n')

# 指定索引
obj2 = pd.Series([4, 7, 2, -3], index=['b', 'd', 'a', 'c'])
print(obj2, '\n')
# 修改索引
obj.index = ['m', 'n', 'p', 'q']

# 对特定值的索引读取
print(obj2['a'])
print(obj2[['b', 'd']], '\n')

# 运算后也会保留索引值的链接
print(obj2[obj2 > 0])
print(obj2 ** 2)

0    4
1    7
2    2
3   -3
dtype: int64 

[ 4  7  2 -3]
RangeIndex(start=0, stop=4, step=1) 

b    4
d    7
a    2
c   -3
dtype: int64 

2
b    4
d    7
dtype: int64 

b    4
d    7
a    2
dtype: int64
b    16
d    49
a     4
c     9
dtype: int64


In [71]:
## Series可看成定长有序字典
import pandas as pd
from pandas import Series

# 通过字典创建
sdata = {'Ohio': 35000, 'Texas': 71000, 'Utah': 5000}
obj = pd.Series(sdata)
print(obj, '\n')

# 指定字典中键的传入顺序
states = ['Texas', 'Utah', 'Ohio']
obj2 = pd.Series(sdata, index=states)
print(obj2, '\n')

# 数据缺失或NA值（无数据值对应的索引）
states = ['Texas', 'Utah', 'Ohio', 'California']
obj3 = pd.Series(sdata, index=states)
print(obj3, '\n')
# 可用isnull和notnull函数检测缺失
pd.isnull(obj3)
pd.notnull(obj3)
obj3.isnull()

# Series本身及其索引的name属性
obj3.name = 'population'
obj3.index.name = 'state'
print(obj3, '\n')

# 赋值修改索引
obj3.index = ['a', 'b', 'c', 'd']
print(obj3, '\n')

# 类似字典的运算
'a' in obj3

Ohio     35000
Texas    71000
Utah      5000
dtype: int64 

Texas    71000
Utah      5000
Ohio     35000
dtype: int64 

Texas         71000.0
Utah           5000.0
Ohio          35000.0
California        NaN
dtype: float64 

state
Texas         71000.0
Utah           5000.0
Ohio          35000.0
California        NaN
Name: population, dtype: float64 

a    71000.0
b     5000.0
c    35000.0
d        NaN
Name: population, dtype: float64 



True

In [93]:
## DaraFrame
import pandas as pd
from pandas import DataFrame

# 通过字典创建
data = {'state':['ohio', 'ohio', 'ohio', 'nevada', 'nevada', 'nevada'],
       'year': [2000, 2001, 2002, 2001, 2002, 2003],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.4]}
frame = pd.DataFrame(data)
print(frame, '\n')

# 对于大DataFrame，选取前五行
frame.head()

# 指定列序列columns
pd.DataFrame(data, columns=['year', 'state', 'pop'])

# 缺失（传入无对应的列）
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                     index=['one', 'two', 'three', 'four', 'five', 'six'])
print(frame2, '\n')

# 读取某列为Series
frame2['state']   #类似字典的方法
frame2.state  #属性

# 读取某行
frame2.loc['three']    #loc属性

# 修改某列：直接赋值
frame2['debt'] = 16
print(frame2, '\n')
# Series赋值
val = pd.Series([-1.2, -1.5, -1.7], index=['one', 'four', 'five'])
frame2['debt'] = val
print(frame2, '\n')

# 为不存在的列赋值，会创建出一个新列
frame2['eastern'] = frame2.state == 'ohio'
print(frame2, '\n')

# 删除某列del
del frame2['eastern']
print(frame2, '\n')

# 传入嵌套字典
pop = {'ohio': {2000: 1.5, 2001: 1.7, 2002: 1.9},
       'nevada': {2001: 2.4, 2002: 2.9}}
frame3 = pd.DataFrame(pop)
print(frame3, '\n')

# 转置：交换行与列
frame4 = frame3.T
print(frame4, '\n')

# DataFrame的index和columns的name属性
frame3.index.name = 'year'
frame3.columns.name = 'state'
print(frame3)

# values属性
frame3.values

    state  year  pop
0    ohio  2000  1.5
1    ohio  2001  1.7
2    ohio  2002  3.6
3  nevada  2001  2.4
4  nevada  2002  2.9
5  nevada  2003  3.4 

       year   state  pop debt
one    2000    ohio  1.5  NaN
two    2001    ohio  1.7  NaN
three  2002    ohio  3.6  NaN
four   2001  nevada  2.4  NaN
five   2002  nevada  2.9  NaN
six    2003  nevada  3.4  NaN 

       year   state  pop  debt
one    2000    ohio  1.5    16
two    2001    ohio  1.7    16
three  2002    ohio  3.6    16
four   2001  nevada  2.4    16
five   2002  nevada  2.9    16
six    2003  nevada  3.4    16 

       year   state  pop  debt
one    2000    ohio  1.5  -1.2
two    2001    ohio  1.7   NaN
three  2002    ohio  3.6   NaN
four   2001  nevada  2.4  -1.5
five   2002  nevada  2.9  -1.7
six    2003  nevada  3.4   NaN 

       year   state  pop  debt  eastern
one    2000    ohio  1.5  -1.2     True
two    2001    ohio  1.7   NaN     True
three  2002    ohio  3.6   NaN     True
four   2001  nevada  2.4  -1.5    False
f

array([[1.5, nan],
       [1.7, 2.4],
       [1.9, 2.9]])

In [152]:
## 索引对象
import pandas as pd
from pandas import Series, DataFrame

obj = pd.Series(range(3), index=['a', 'b', 'c'])
idx = obj.index
print(idx)
print(idx[1:], '\n')

# index对象不可修改
#idx[1] = 'd' 报错

# index对象在多个数据结构间共享
labels = pd.Index([0, 1, 2])
print(labels)
obj2 = pd.Series([1.4, 0, -1.1], index=labels)
print(obj2, '\n')

obj2.index is labels

# pandas的index可包含重复的标签，不同于set
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
print(dup_labels)

# index的方法与属性
l1 = pd.Index([0, 1, 2, 3, 3])
l2 = pd.Index([2, 3, 5, 6])
print(l1.append(l2))
print(l1.difference(l2))
print(l1.intersection(l2))
print(l1.union(l2))
print(l1.isin(l2))
print(l1.delete(1))  #删除第2个元素
#print(l1.drop(2))
print(l1.insert(3, 10))  #在第3个元素后面插入新元素10
print(l1.is_monotonic)  #后一个元素均不小于前一个元素
print(l1.is_unique)  #无重复元素
print(l1.unique())


Index(['a', 'b', 'c'], dtype='object')
Index(['b', 'c'], dtype='object') 

Int64Index([0, 1, 2], dtype='int64')
0    1.4
1    0.0
2   -1.1
dtype: float64 

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')
Int64Index([0, 1, 2, 3, 3, 2, 3, 5, 6], dtype='int64')
Int64Index([0, 1], dtype='int64')
Int64Index([2, 3, 3], dtype='int64')
Int64Index([0, 1, 2, 3, 3, 5, 6], dtype='int64')
[False False  True  True  True]
Int64Index([0, 2, 3, 3], dtype='int64')
Int64Index([0, 1, 2, 10, 3, 3], dtype='int64')
True
False
Int64Index([0, 1, 2, 3], dtype='int64')


# 基本功能
## 重新索引reindex
- 作用：创建一个新对象。根据新索引进行重排，当某个索引值当前不存在，恶引入缺失值。
- reindex()函数参数
    - method= 做插值处理
        - method='ffill'：前向值填充，即复制前一个元素（需要index是升序或降序，如index=[4, 1, 2]，则报错）。
    - fill_value= 需要引入缺失值时使用的替代值
    - limit= 前向或后向填充时的最大填充量
    - tolerence= 向前或向后填充时，填充不准确匹配项的最大间距
    - level= 在MultiIndex的指定级别上匹配简单索引，否则选取其子集
    - copy= 默认为True，若设定为False，则新旧相等就不复制
- DataFrame的reindex可修改行和列
    - 只传递一个序列时，重新索引结果的行；
    - 可用columns关键字重新索引列。

## 丢弃指定轴上的项
- obj.drop('index')：返回一个在指定轴上删除了指定值的新对象
- frame.drop('index')：删除行上的指定值
- frame.drop('col', axis=1)或frame.drop('col', axis='columns')：删除列上的指定值
- frame.drop(..., inplace=True)：则永久删除

## 索引、选取和过滤
- 直接切片：
    - Series：既可以按行标签索引值，也可以按第几个（obj[2:4]或obj['c':]）；标签切片包含右端点。
    - DataFrame：按columns标签索引，获取的是列；按第几个切片索引，获取的是行（但单一整数frame[2]报错）
- 利用loc（轴索引）和iloc（整数索引）进行选取：
    - frame.loc['index', ['col1', 'col2']]  （索引值）
    - frame.iloc[idx, [col, col2]]   （第几个）
- 整数索引
    - 对于整数index，obj[-1]会报错；
    - 对于非整数index，obj[-1]不会报错；
    - 统一起见，若轴索引含有整数，数据选取总使用标签loc和iloc

## 数据对齐与算术运算
- 可对不同索引的对象进行算术运算；
- 自动对齐：结果的索引为所有对象索引的并集，共同索引处的值能被运算，而在不重叠索引处引入NA值；
- 对NA值的填充：frame1.add(frame2, fill_value=0)
    - 先分别将frame1和frame2扩展到并集索引，并进行填充，然后再运算。
- 算术方法：
    - 加法：add、radd  （f1.radd(f2)表示f2+f1）
    - 减法：sub、rsub  （f1.rsub(f2)表示f2-f1）
    - 除法（/）：div、rdiv  （f1.rdiv(f2)表示f2/f1）
    - 底除（//）：floordiv、rfloordiv  （f1.radd(f2)表示f2//f1）
    - 乘法：mul、rmul  （f1.rmul(f2)表示f2*f1）
    - 指数：pow、rpow  （f1.rpow(f2)表示f2**f1）
- DataFrame与Series之间的运算
    - 类似广播
    - 默认一行行运算
    - 需要使用算术方法，并指定axis='index'或axis=0，才一列列运算

## 函数应用和映射
- numpy的ufunc（元素级）也可用于操作pandas对象；
- 常见的数组统计功能都被实现成DataFrame的方法：frame.sum(axis=)
- DataFrame的apply方法：
    - 默认沿行（即一列列）操作；若传递axis='columns'或axis=1，则沿列操作；
    - 返回apply的函数可以是标量，也可以是Series。
- 元素级的Python函数也是可用的；
    - DataFrame的applymap方法：frame.applymap(...)
    - Series的map方法：obj.map(...)
- 排序：
    - sort_index方法根据索引排序；sort_values方法根据值大小排序；
    - 默认升序；若指定ascending=False，则降序；
    - Series：
        - sort_index方法按索引排序；
        - sort_values：NA值则会默认放在末尾；
    - DataFrame：
        - sort_index：默认沿行排序；若指定axis='columns'，则沿列排序；
        - sort_values(by=)：根据某列的值排序，需传递参数by=。
- 排名：rank方法
    - 从1开始；
    - 默认按升序排名；若指定ascending=False，则按降序排名；
    - 默认“为各组分配一个平均排名”的方式（method='average'）破坏平级关系（e.g. 有两个‘3’排在第2位，则它们的排名均为(2+3)/2=2.5；若有三个‘3’排在第2位，则它们的排名均为(2+3+4)/3=3）
    - 指定参数method='first'，则将相同元素按其出现顺序排名；
    - 指定参数method='min'（或'max'），则将相同元素均按最小（最大）名次顺序排名;
    - 指定参数method='first'，则相同元素同一最小名次排名后，后面的元素名次不跳个数（e.g. 三个‘3’名次均为2，后面的‘4’名次为3，而非5）。

## 带有重复标签的轴索引
- 许多pandas函数都要求标签唯一，但这不是强制性的；
- 索引的is_unique属性可判断索引是否唯一；
- 对于对应多个值的索引的读取，会返回一个Series或DataFrame；


In [27]:
## reindex方法
from pandas import Series as ser, DataFrame as df
import numpy as np

obj = ser([4.2, 1.1, 2., 5.9], index=['a', 'd', 'b', 'c'])

##Series中的reindex
#根据新索引重排
obj2 = obj.reindex(['a', 'b', 'd', 'e'])
obj2

#插值method=
obj3 = ser(['red', 'green', 'blue'], index=[0, 3, 5])    #index必须是单调升或降
obj3.reindex(range(7), method='ffill')    #'ffill'复制前一个
obj4 = ser(['red', 'green', 'blue'], index=['a', 'b', 'd'])
obj4.reindex(['a', 'b', 'c', 'd', 'e'], method='ffill')    #不可用range(7)，int与str无法比较大小
obj5 = ser(['red', 'green', 'blue'], index=[6, 4, 1])    #index为降序时，'ffill'复制后一个
obj5.reindex(range(8), method='ffill', fill_value='yellow')  #fill_value填充NA值


##DataFrame中的reindex
#只传递一个序列时，重新索引行
frame = df(np.arange(9).reshape(3, 3),
          index=['a', 'c', 'd'],
          columns=['ohio', 'texas', 'california'])
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

#使用关键字columns=，重新索引列
frame3 = frame.reindex(columns=['texas', 'utah', 'california'])
frame3

Unnamed: 0,texas,utah,california
a,1,,2
c,4,,5
d,7,,8


In [36]:
## drop方法
from pandas import Series as ser, DataFrame as df
import numpy as np

#Series中的drop
obj = ser(np.arange(5), index=['a', 'b', 'c', 'd', 'e'])
obj2 = obj.drop('c')
obj2

#DataFrame中的drop
frame = df(np.arange(16).reshape((4, 4)), 
           index=['ohio', 'colorado', 'utah', 'LA'], 
           columns=['one', 'two', 'three', 'four'])
#默认删除行
frame2 = frame.drop(['colorado', 'ohio'])
frame2

#需要传递axis=1或axis='columns'才删除列
frame3 = frame.drop(['two', 'four'], axis=1)
frame4 = frame.drop(['one', 'two'], axis='columns')
frame4

#永久删除，inplace=True
obj.drop('c', inplace=True)
obj

frame.drop('colorado', inplace=True)
frame

Unnamed: 0,one,two,three,four
ohio,0,1,2,3
utah,8,9,10,11
LA,12,13,14,15


In [71]:
## 索引、选取
from pandas import Series as ser, DataFrame as df
import numpy as np

## Series中的索引
obj = ser(np.arange(4), index=['a', 'b', 'c', 'd'])
#标签索引
obj['b']
obj[['b', 'd']]
obj['a':'c']    #标签切片包含右端点（不同于整数切片）
#整数索引（第几个）
obj[1]
obj[0:2]

obj[obj < 2]


## DataFrame中的索引
frame = df(np.arange(16).reshape((4, 4)),
           index=['ohio', 'utah', 'LA', 'colorado'],
           columns=['one', 'two', 'three', 'four'])

#直接索引
#列标签索引读取列
frame['two'] 

#读取行
#frame[0] #报错
frame[:1]
frame[frame['three'] > 5]
frame[frame < 5] = 0
frame


#标签运算符loc和iloc
#轴标签loc
frame.loc[['LA', 'colorado'], ['two', 'three']]
frame.loc[:'LA', 'two']
#整数iloc
frame.iloc[[2, 3], [2, 3]]
frame.iloc[2]
frame.iloc[:, :3][frame.three >5]


## 整数索引
obj = ser(np.arange(3), index=['a', 'b', 'c'])
obj[-1]
obj2 = ser(np.arange(3), index=range(3))
#obj2[-1]  #index为整数时，obj[-1]会报错

#若轴标签含有整数，则统一使用loc和iloc
obj2.loc[:1]
obj2.iloc[:1]

0    0
dtype: int32

In [181]:
## 数据对齐与算术运算
from pandas import Series as ser, DataFrame as df
import numpy as np

# 类似广播，NA值补入
s1 = ser(np.arange(3), index=list('abc'))
s2 = ser(np.arange(3), index=list('bcd'))
s1 + s2

f1 = df(np.ones(9).reshape((3, 3)), columns=list('abc'),
        index=['ohio', 'texas', 'LA'])
f2 = df(np.ones(9).reshape((3, 3)), columns=list('bcd'),
        index=['ohio', 'LA', 'utah'])
f1 + f2

# NA值填充：需使用算术方法，并指定参数fill_value=
f1.iloc[0, 0] = np.nan
f1.add(f2, fill_value=0)

# 翻转参数的算术方法：r开头
f1.add(f2)    #f1+f2
f1.radd(f2)    #f2+f1

f1.sub(f2)    #f1-f2
f1.rsub(f2)    #f2-f1

f2.div(1)    #f2/1
f2.rdiv(1)    #1/f2

f2.floordiv(2)    #f2//2
f2.rfloordiv(2)    #2//f2

f1.mul(f2)    #f1*f2
f1.rmul(f2)    #f2*f1

f2.pow(2)    #f2**2
f2.rpow(2)    #2**f2

# DataFrame与Series之间的运算（类似广播）
#默认沿列运算（一行行）
s3 = ser([2, 3, 4], index=['b', 'c', 'd'])
f2 - s3

#需用算数方法，并指定axis='index'，才能沿行运算（一列列）
s4 = ser([2, 3, 4], index=['ohio', 'LA', 'utah'])
f2.add(s4, axis=0)
f2.add(s4, axis='index')

Unnamed: 0,b,c,d
ohio,3.0,3.0,3.0
LA,4.0,4.0,4.0
utah,5.0,5.0,5.0


In [193]:
## 函数应用
from pandas import Series as ser, DataFrame as df
import numpy as np

# ufuncs
frame = df(np.arange(9).reshape((3, 3)), columns=list('abc'),
           index=['ohio', 'utah', 'LA'])
np.negative(frame)

# DataFrame的apply方法应用函数
#默认沿行运算（一列列）
f = lambda x: x.max() - x.min()
frame.apply(f)

#指定axis='columns'，沿列运算（一行行）
frame.apply(f, axis=1)
frame.apply(f, axis='columns')

#传递给apply的函数也可以是Series
def f(x):
    return ser([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

# 常见的数组统计功能也能直接用于DataFrame
frame.sum()
frame.mean(axis=1)

# 通过applymap和map方法，应用元素级的python函数
format = lambda x: '%.2f' % x
frame.applymap(format)

frame['a'].map(format)

ohio    0.00
utah    3.00
LA      6.00
Name: a, dtype: object

In [226]:
## 排序与排名
from pandas import Series as ser, DataFrame as df
import numpy as np

# 根据标签索引排序：sort_index方法
#默认升序
obj = ser([4, 2, -1, 0], index=['d', 'a', 'b', 'c'])
obj.sort_index()
#指定参数ascending=False，降序
obj.sort_index(ascending=False)

#DataFrame默认沿行排序
frame = df(np.arange(8).reshape((2, 4)),
           index=['four', 'two'],
           columns=list('dabc'))
frame.sort_index()
#指定axis='column'，则沿列排序
frame.sort_index(axis=1)

# 根据值大小排序：sort_values方法
#默认升序
obj.sort_values()
#指定参数ascending=False，降序
obj.sort_values(ascending=False)
#NA值会被默认置于末尾
obj2 = ser([np.nan, 2, np.nan, 3, 8])
obj2.sort_values()

#DataFrame通过参数by=，指定按某列的值排序
frame2 = df({'b': [4, 7, -3], 'c': [0, 1, 0], 'd': [4, 3, 8]})
frame2.sort_values(by='b')
frame2.sort_values(by=['b', 'd'])


# 排名（从1开始）：rank方法
obj3 = ser([7, 2, 4, 0, 4])
#默认method='average'，且升序
obj3.rank()
obj3.rank(ascending=False)

#其他method
obj3.rank(method='first')
obj3.rank(method='min')
obj3.rank(method='max')
obj3.rank(method='dense')

0    4.0
1    2.0
2    3.0
3    1.0
4    3.0
dtype: float64

In [231]:
## 带有重复标签的轴索引
from pandas import Series as ser, DataFrame as df

obj = ser(range(3), index=['a', 'a', 'b'])
frame = df(np.ones((3, 3)), index=['a', 'a', 'b'])
frame.loc['a']

# 索引的is_unique属性判断是否唯一
obj.index.is_unique

# 重复标签的读取结果为Series
obj['a']

Unnamed: 0,0,1,2
a,1.0,1.0,1.0
a,1.0,1.0,1.0


# 汇总和计算描述统计
## 常用的数学和统计方法
- 默认沿行统计；设置axis=1则沿列；
- NA值会自动被排除，除非整个切片都是NA，通过设置参数skipna=False，可禁用该功能；
- 参数level=，若轴是层次化索引的（即MultiIndex），则根据level分组约简；
- 方法：
    - count：非NA值的数量
    - describe：针对Series或DataFrame各列计算汇总统计
    - min/max：最值
    - argmin/argmax：最值的索引位置（整数）
    - idxmin/idxmax：最值的索引值
    - quantile：计算样本的分位数（0-1）
    - sum：和
    - mean：平均数
    - median：算术中位数（50%分位数）
    - mad：根据平均值计算平均绝对离差
    - var：方差
    - std：标准差
    - skew：偏度（三阶矩）
    - kurt：峰度（四阶矩）
    - cumsum：累计和
    - cummin/cummax：累计最值
    - cumprod：累计积
    - diff：一阶差分
    - pct_change：计算百分数变化
    - corr：相关系数
    - cov：协方差
    - corrwith：计算frame1与另一Series或frame2之间的相关系数
- 针对Series的唯一值的统计
    - unique方法：返回唯一值数组（未排序），对结果使用sort函数实现排序
    - value_counts方法：计算各值出现的频率，按频率降序排列，设置参数ascending=True升序；若不想排序而是按原索引顺序输出，则设置参数sort=False
        - value_counts还是一个顶级pandas方法（pd.value_counts(obj)），适用于任何数组或序列
        - 可将pd.value_counts传递给apply函数
    - isin方法：用于判断矢量化集合的成员资格，返回Series
    - Index.get_indexer方法：按照第二个Series的元素顺序，返回第一个Series中元素的索引位置的数组（pd.Index(ser2).get_indexer(ser1)）
    - match方法：计算一个数组中的各值到另一个不同值数组的整数索引
- DataFrame中的统计
    - 将pd.value_counts传递给apply函数：frame.apply(pd.value_counts).fillna(0) （统计各列元素的频率）

In [313]:
## 汇总与描述统计
import pandas as pd
from pandas import Series as Ser, DataFrame as DF
import numpy as np

# 默认沿行
df1 = DF([[1, np.nan], [np.nan, np.nan], [2, 4]],
         index=list('abc'), columns=['one', 'two'])
df1.sum()

# 设置axis=1沿列
df1.mean(axis=1)

# 禁用自动排除NA值功能，设置skipna=False
df1.mean(skipna=False)

# 最值的索引
#返回索引值
df1.idxmax()
#返回索引位置
#df.argmax()
#np.argmax(df)

# 累计型
df1.cumsum()
df1.cummin()
df1.cumprod()

# describe汇总
#对于数值型
df1.describe()
#对于非数值型
obj1 = Ser(list('aabc') * 4)
obj1.describe()

# 相关系数和协方差
df1.corr()
df1.cov()
# 计算frame1与另一个Series或frame2之间的相关系数
df2 = DF(np.arange(6).reshape((3, 2)), index=list('abd'), columns=['one', 'two'])
df1.corrwith(df2)
df1.corrwith(obj1)

# unique方法返回唯一值数组
#默认未排序
obj2 = Ser(list('bdaaaadccbe'))
obj2.unique()
#对结果操作sort方法进行排序
s = obj2.unique()
s.sort()
s

# value_counts方法返回各值的出现频率
#默认降序
obj2.value_counts()
#设置ascending=True升序
obj2.value_counts(ascending=True)
#设置sort=False按原索引顺序输出
obj2.value_counts(sort=False)
#也可作为pandas方法
pd.value_counts(obj2)

# isin方法返回成员资格判断Series
mask = obj2.isin(['b', 'c'])
obj2[mask]

# pandas的Index.get_indexer方法
obj3 = Ser(list('cabbca'))
obj4 = Ser(list('cba'))
pd.Index(obj4).get_indexer(obj3)

# DataFrame中的统计：frame.apply(pd.value_counts)
df2 = DF({'a1': [1, 2, 4, 2, 4],
          'a2': [2, 3, 1, 2, 3],
          'a3': [1, 5, 2, 4, 4]})
df2.apply(pd.value_counts).fillna(0)

Unnamed: 0,a1,a2,a3
1,1.0,1.0,1.0
2,2.0,2.0,1.0
3,0.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


# 数据的读取与存储
## 1. 读写文本格式的数据
- pandas中将表格型数据读取为Dataframe对象的函数： read_csv/table/fwf/clipboard/excel/hdf/html/json/ msgpack/pickle/sas/sql/stata/feather
    - pd.read_table('ex1.csv', sep=',')指定分隔符为逗号；
    - pd.read_csv('ex2.csv', header=None)文件中无标题行，需指定header=None，pandas为其分配默认的列名（0-）；
    - pd.read_csv('ex2.csv', names=[...])自定义列名（列标签）；
    - pd.read_csv('ex2.csv', index_col='列名')：以某一列作为行标签；
    - pd.read_csv('ex3.csv', index_col=['列名1', '列名2'])：层次化（嵌套式）索引，传入由列编号或列名组成的列表；
    - pd.read_table('ex4.txt', sep='\s+')：对于未用固定分隔符的文件，可以传递正则表达式\s+，来自动识别不同数量的分隔符；
    - pd.read_csv('ex5.csv', na_values=xxx)：缺失值标记，xxx可以是一个由指定元素及其索引组成的字典；
    - path= ：表示文件系统位置、URL、文件型对象的字符串；
    - skiprows= ：需要忽略或跳过的行号（从头开始）；
    - skip_footer= ：需要忽略的行号（从文件末尾算起）；
    - comment= ：用于将注释信息从行尾拆分出去；
- 逐块读取文本文件
    - 设置大文件显示行数：pd.options.display.max_rows = 10；
    - nrows= ：需要读取的行数（从头开始）；
    - chunksize= ：逐块读取，指定文件块的大小，用于迭代；
- 将数据写出到文本格式
    - data.to_csv('xxx.csv')：逗号分隔符；
    - data.to_csv(sys.stdout, sep=)：设置其他分隔符，直接写出到sys.stdout，仅仅是打印出文本结果；
    - data.to_csv(sys.stdout, na_rep='NULL')：缺失值在输出结果中会被默认表示为空字符串，可以通过na_rep=指定（如=NULL）；
    - data.to_csv(sys.stdout, index=False, header=False)：禁用行和列标签，即不把行列标签写入文件；
    - data.to_csv(sys.stdout, columns=)：只写入一部分列；
    - Series也有to_csv写入。
- 处理分隔符格式
    - 大部分表格型数据都能用pd.read_table进行加载，然而，有时还是需要做一些手工处理。
    - 使用python内置csv模块：with open('xxx.csv') as f: lines = list(csv.reader(f))
    - csv.reader(f, parameters)参数：
        - delimiter=：分隔符，默认逗号；
        - lineterminator=：行结束符，默认“\r\n”，可忽略；
        - quotechar=：用于带有特殊字符的字段的引用符号，默认“"”；
        - quoting=：引用约定；
        - skipinitialspace=：忽略分隔符后面的空白符，默认False；
        - doublequote=：如何处理字段内的引用符号，若为True，则双写；
        - escapechar=：用于对分隔符进行转义的字符串，默认禁用。
    - 手工输出分隔符文件，可用csv.writer，它接受一个已打开且可写的文件对象以及跟csv.reader相同的参数：with open('xxx.csv', 'w') as f:/n writer = csv.writer(f)/n writer.writerow((第一行内容))/n writer.writerow((第二行内容))/n ...
- JSON数据
- XML和HTML
- MS Excel文件的读写
    - 通过ExcelFile读取：xlsx = pd.ExcelFile('xxx.xlsx')；#读取一个文件中的多个表单， 更快
    - 通过read_excel读取：pd.read_excel('xxx.xlsx', 'Sheet1')；
    - 写入：
        - 先创建一个ExcelWriter，再to_excel方法：writer = pd.ExcelWriter('xxx.xlsx')/n  data.to_excel(writer, 'Sheet1')/n  writer.save()
        - 直接传递文件的路径到to_excel：data.to_excel('xxx.xlsx')。

## 2. 二进制数据格式
- 使用python内置的pickle序列化
    - 将数据以pickle格式保存到磁盘上：data.to_pickle('xxxx')；
    - 读取pickle化的数据：pd.read_pickle('xxxx')；
    - pickle仅建议由于短期存储格式，因为很难保证该格式永远是稳定的。
- pandas内置支持的2种二进制数据格式：HDF5和MessagePack

## 3. Web APIs交互
## 4. 数据库交互

In [49]:
import pandas as pd

df = pd.read_csv('examples/ex1.csv')
pd.read_table('examples/ex1.csv', sep=',')

pd.read_csv('examples/ex2.csv', header=None)
pd.read_csv('examples/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

pd.read_csv('examples/ex2.csv', names=['a', 'b', 'c', 'd', 'message'],
            index_col='message')

pd.read_csv('examples/ex1.csv', index_col='message')

pd.read_csv('examples/ex3.csv', index_col=['key1', 'key2'])
pd.read_csv('examples/ex3.csv', index_col=[0, 1])

list(open('examples/ex4.txt'))
pd.read_table('examples/ex4.txt', sep='\s+')

ex5 = pd.read_csv('examples/ex5.csv')
ex5.isnull()
pd.read_csv('examples/ex5.csv', na_values=['NULL'])
sentinels = {'msg': ['foo', 'NA'], 'sth': ['two']}
pd.read_csv('examples/ex5.csv', na_values=sentinels)

pd.read_csv('examples/ex5.csv', skiprows=[0, 2])
pd.read_csv('examples/ex5.csv', nrows=1)

pd.read_csv('examples/ex6.csv')

import csv
f = open('examples/ex6.csv')
reader = csv.reader(f)
for line in reader:
    print(line)

with open('examples/ex6.csv') as f:
    lines = list(csv.reader(f))
header, values = lines[0], lines[1:]
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

["'a'", "'b'", "'c'"]
["'1'", "'2'", "'3'"]
["'1'", "'2'", "'3'"]


{"'a'": ("'1'", "'1'"), "'b'": ("'2'", "'2'"), "'c'": ("'3'", "'3'")}

In [60]:
obj = """
{'name': 'Wes',
 'places_lived': ['Spain', 'Germany'],
 'pet': null,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zuko', Zeus]},
              {'name': 'Katie', 'age': 38, 'pets': 'Cisco'}]
}
"""

import json
result = json.loads(obj)

JSONDecodeError: Expecting property name enclosed in double quotes: line 2 column 2 (char 2)