# <center>第12章 pandas高级应用</center>

## 12.1 分类数据

### 1.使用take取样储存重复值

In [None]:
import pandas as pd 
import numpy as np 

index=pd.Series(['apple','orange','apple','apple']*2)
index.is_unique
value=np.random.randint(0,2,8)
#使用take方法存储重复值的方法
dim=pd.Series(['apple','orange'])
dim.take(value)

### 2.pandas的分类类型

In [None]:
import pandas as pd
import numpy as np

#pandas有一个特殊的分类类型，用于保存使用整数分类表示法的数据
fruit=['apple','orange','apple','apple']*2
n=len(fruit)
df=pd.DataFrame({'fruit':fruit,
                 'basket_id':np.arange(n),
                 'count':np.random.randint(3,15,size=n),
                 'weight':np.random.uniform(0,4,n)})
df
fruit_cat=df['fruit'].astype('category')
#fruit_cat的值不是一个NumPy数组，而是一个pandas.Categorical实例
fruit_cat
c=fruit_cat.values
c.categories#pd.Index对象
c.codes#array对象

#从序列直接创建pandas.Categorical
my_categories=pd.Categorical(['foo','bar','bar','foo','bar'])
my_categories
my_categories.codes
my_categories.categories

#如果已经从其他源获得了源码，可以使用from_codes构造器
categories=['foo','bar','baz']
codes=np.random.randint(0,3,10)
#ordered默认为False，如果为True，则按category确定顺序
a=pd.Categorical.from_codes(codes,categories,ordered=True)
a.codes
a.categories
#无序的实例可以通过as_ordered确定排序
a.as_ordered()

### 3.用分类进行计算

In [1]:
import pandas as pd
import numpy as np

draw=np.random.randn(1000)
c=pd.qcut(draw,4)
c.codes 
c.categories
#确切的分位数不利于汇总
d=pd.qcut(draw,4,labels=['q1','q2','q3','q4'])
d
#使用groupby提取一些汇总信息
a=pd.Series(draw).groupby(d).agg(['max','min','count']).reset_index()
a
#分位数保留了原始的面元分类信息,包括排序
a['index']

0    q1
1    q2
2    q3
3    q4
Name: index, dtype: category
Categories (4, object): [q1 < q2 < q3 < q4]

### 4.用分类提高性能

In [None]:
import pandas as pd
import numpy as np 

#在特定数据集上做大量分析，将其转化为分类可以极大提高效率
N=1000000
labels=pd.Series(['foo','bar','baz','qux']).take(np.random.randint(0,4,N))
#将标签转化为分类
categories=labels.astype('category')
#可以看到labels占用的内存明显要多
labels.memory_usage()
categories.memory_usage()

### 5.分类方法

In [None]:
import pandas as pd
import numpy as np

#包含分类数据的Series有一些特殊的分类方法
s=pd.Series(['a','b','c','d']).take(np.random.randint(0,4,10))
cate=s.astype('category')
cate
#特别的cat属性提供了分类方法的入口
cate.cat.codes#返回Series好像和这个差不多 cat_s.values.codes
cate.cat.categories#返回Index对象，等价于 cat_s.values.categories
#增加分类集
cate.cat.set_categories(['a','b','c','d','e'],inplace=True)
cate.value_counts()
#使用remove_unused_categories方法删除没看到的分类,节省内存
cate[cat_s.isin(['a','b'])]
cate.cat.remove_unused_categories()


<center><font color='#00F5FF'>cat的方法</font></br>
![cat的方法](https://upload-images.jianshu.io/upload_images/7178691-6c602152c2bba658.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/800/format/webp)

### 6.为建模创建虚拟变量

In [None]:
import pandas as pd
import numpy as np

obj=pd.Series([chr(x) for x in np.random.randint(97,100,10)])
dummy=pd.get_dummies(obj)

----
## 12.2GroupBy高级应用

### 1.分组转化和解封GroupBy

In [None]:
import pandas as pd
import numpy as np

#transform和apply很像，但是transform是对分组的单个元素作用
df=pd.DataFrame({'key':['a','b','c']*4,
                 'value':np.arange(12),
                 'city':np.random.rand(12)})
df
#按键进行分组
g=df.groupby('key')['city']
g.mean()
#产生一个和df['city']形状相同，但值替换为按键分组的平均值
g.transform(lambda x:x.mean())
#对于内置的聚合函数,传递一个字符串作为GroupBy的agg方法
g.transform('mean')
g.transform('count')
g.agg('mean')

#由于是作用于分组的每个元素，我们可以计算每个分组的降序排名
g.transform(lambda x:x.rank(ascending=False))
g.transform(lambda x:x.rank(ascending=True,method='first'))

#由简单聚合构造的分组转换函数
#构造把序列标准化的函数
def normalize(x):
    return (x-x.mean())/x.std()

g.transform(normalize)
#利用apply可以得到一个等价的结果
g.apply(normalize)

#内置的聚合函数，比如mean或sum通常比apply/transform快,这允许我们进行所谓解封(unwrapped)操作
g.transform('mean')
(df['city']-g.transform('mean'))/g.transform('std')

### 2.分组的时间重采样

In [None]:
import pandas as pd
import numpy as np

N=15
times=pd.date_range('2017-05-20 00:00',freq='T',periods=N)
df=pd.DataFrame({'value':np.arange(N)},index=times)
df.resample('5min').count()

#假设DataFrame包含多个时间序列，用一个额外的分组键的列标记
df2=pd.DataFrame({'key':np.tile(list('ABC'),N),
                   'value':np.arange(N*3)},index=times.repeat(3))
df2.head()
df2.index.name='time'
time_key=pd.Grouper(freq='5min')
resampled=df2.groupby(['key',time_key]).sum()
