## 其他方法

In [ ]:
# 排序sort()

# 将一列排序
Table[['某列']].sort()
 
# 将多列按照某一列排序
Table[['列1', '列2', '列3']].sort('列1')
 
# 值排序一般使用sort_values()
Table.sort_values(by = ['sex', 'age'])

In [ ]:
# 抽样take()

# 对于一个dataframe，take函数可以根据sampler按照行索引抽取数据
df.take(sampler)

In [None]:
# 哑变量get_dummies()

pd.get_dummies(df['key']，prefix='key')

## 数据查看与查询

In [ ]:
# 可以得到属性类别情况

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99122 entries, 0 to 99121
Columns: 122 entries, id to sec_app_mths_since_last_major_derog
dtypes: float64(97), object(25)
memory usage: 92.3+ MB

In [ ]:
# 直接打印表对象

# 当你查看一个大型数据框架，而不是显示数据框架的内容，它会显示一个摘要。这包括所有列，以及每列中有多少非空值。
# 如直接输出 complaints
complaints = pd.read_csv('../data/311-service-requests.csv')
complaints

In [ ]:
# 查看每列的类型
df.dtypes
 
# 查找多列，列索引必须要用中括号扩起来
complaints[['Complaint Type', 'Borough']][:10]
 
# 查找多行，这里的ix索引标签函数必须是中括号[]
student.ix[[0,2,4,5,7]]
 

In [ ]:
#条件查询

# 查询出所有12岁以上的女生姓名、身高和体重
student[(student['Sex']=='F') & (student['Age']>12)][['Name','Height','Weight']]
 
# 查看某列中各个种类出现的次数
complaints['Complaint Type'].value_counts()
 
# 查看某列中属于某个种类的数据
# 为了得到噪音投诉，我们需要找到 Complaint Type  列为 Noise -Street/Sidewalk  的行。 我会告诉你如何做，然后解释发生了什么。
noise_complaints = complaints[complaints['Complaint Type'] == "Noise - Street/Sidewalk"]
 
# 将多个条件与 & 运算符组合
is_noise = complaints['Complaint Type'] == "Noise - Street/Sidewalk"
in_brooklyn = complaints['Borough'] == "BROOKLYN"
complaints[is_noise & in_brooklyn][:5]

# 函数中用来判断条件符合的数据集并返回
# df.query(条件式) 
df_new.query("duration > 100 & index == 'UK'")

## 数据预处理 
数据预处理包括:重复数据处理,缺失值处理

In [ ]:
import pandas as pd 
import numpy as np

In [ ]:
# 移除重复数据
data.duplicated()    #查看是否存在重复数据
data.drop_duplicates()     #去掉重复数据

In [ ]:
# 缺失值处理

# 查看每列缺失值的数量
null_list = []
for i in df.columns:
    null_sum = len(df) - df[i].count()
    rate = 1.0 * null_sum/len(df)
    nul_list.append([i, null_sum, rate])  
pd.DataFrame(nul_list, columns=["字段", "缺失值数量", "缺失值占比"])
 
# 或者这样查看缺失值
aa = full.isnull().sum()
aa[aa>0].sort_values(ascending=False)

In [ ]:
# 缺失值处理

# 直接删除
# 默认对行进行操作,会删除任意含有缺失值的行
df.dropna()      

# 删除指定行
student.drop([1,4,7])

# 删除指定列
Student.drop(['列1','列2'], axis=1)

#只删除全是缺失值的行
df.drop(how=all)      

In [ ]:
# 填补法

# 1.使用0填充
df.fillna(0)

# 2.前向填充和后向填充
df.fillna(method=ffill)
df.fillna(method=bfill)

# 3.常量填充, 或者均值填充，中位数填充
df.fillna({'列1': 2，'列2': 3})

In [ ]:
# 插值法
# 自定义列向量拉格朗日插值函数

#s为列向量，n为被插值的位置，k为取前后的数据个数，默认为5
from scipy.interpolate import lagrange #导入拉格朗日插值函数
def ployinterp_column(s, n, k=5):
    y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取数
    y = y[y.notnull()] #剔除空值
    return lagrange(y.index, list(y))  #插值并返回插值结果
 
#逐个元素判断是否需要插值
for i in data.columns:
    for j in range(len(data)):
        if (data[i][j]).isnull(): #如果为空即插值。
            data[i][j] = ployinterp_column(data[i], j)

In [ ]:
# 数据规范化

#最小-最大规范化，会作用于每一列
(data - data.min())/(data.max() - data.min())
 
#零-均值规范化，会作用于每一列
(data - data.mean())/data.std()

In [ ]:
# 连续属性离散化

# 将数据分配到一个数据空间中
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]
cats = pd.cut(ages, bins)   #由bins可以得到四个空间，然后将ages中每一个数字放入合适的空间中
 
# 获得每个数据的空间名
cats.labels
 
# 获得总共划分了多少空间
cats.levels
 
# 查看每个空间有多少数据被划分进去
pd.value_counts(cats)
 
# 指定每个空间的开闭口的方位
pd.cut(ages, [18, 26, 36, 61, 100], right=False)
 
# 为空间命名
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
pd.cut(ages, bins, labels=group_names)



In [ ]:
# 默认qcut()将数据n等分，可以同给给出累计分布值的方式对数据进行划分
data = np.random.randn(100)
 
cats = pd.qcut(data, 4) # Cut into quartiles
print(pd.value_counts(cats))
 
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1])  #按照累计分布直进行数据切分