In [None]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame
%matplotlib notebook
import matplotlib.pyplot as plt

In [None]:
data = pd.read_csv(r'C:\Users\wang-\Desktop\student-mat.csv')

In [None]:
data = DataFrame(data)

In [None]:
data.head()

In [None]:
#查看所有列名称
data.columns

In [None]:
#索引age和sex两列
data.loc[:,['sex','age']].head()

In [None]:
#索引index为4，5，6的行
data.loc[4:6]

In [None]:
#索引index为5行的age  注：5不加引号
data.loc[5,'age']

In [None]:
data.loc[[4,6,16],['sex','age']]

In [None]:
#索引sex和age列的index从4到16的行
data.loc[4:16,['sex','age']]

In [None]:
#索引age大于19的行 注：age前必须加data
data.loc[data['age']>19]

In [None]:
#索引性别为女的行，注意使用双等号
data.loc[data['sex']=="F"].head()

In [None]:
#删除第四行
new_data = data.drop([3])
new_data.head()

In [None]:
#删除sex和age两列
new_data = data.drop(['sex','age'],axis=1)
new_data.head()

In [None]:
#对行排序
data.sort_index()

In [None]:
#对列按降序排序
data.sort_index(axis=1,ascending=False)

In [None]:
#按年龄列排序
data.sort_values(by='age').head()

In [None]:
#判断索引是否唯一
data.index.is_unique

In [None]:
#求每行平均值，当有缺失值时返回nan,默认是忽略nan
data.mean(axis=1,skipna=False)

In [None]:
#相关系数矩阵
data.corr()

In [None]:
#两列相关系数
data['freetime'].corr(data['age'])

In [None]:
#协方差矩阵
data.cov()

In [None]:
#字符串分割
val = 'a,b,  gu ido'
val.split(',')

In [None]:
#分割并去除空白符
pieces = [x.strip() for x in val.split(',')]
pieces

In [None]:
#生成透视表
data.pivot_table(index=['sex', 'age'])

In [None]:
#设置index、columns，最后查看Dalc和Fedu,并通过margins=True进行分组统计，计算平均数，显示其中的All行和列
#存在NA时，加上fill_value=0，可将其填充为0
data.pivot_table(['Dalc', 'Fedu'], index=['sex', 'age'],columns='Pstatus',margins=True)

## 数据预处理之缺失值

#### 1.通过常量或中心度量填充   2.与元组同类样本的中心度量填充   3.回归或决策树分类等方法填充

In [None]:
data1 = data.copy()

In [None]:
#查看缺失值
data1.info()

In [None]:
#查看缺失值个数
data1.isnull().sum()

In [None]:
#去除含缺失值的行
data1.dropna().head()

In [None]:
#去除全为na的行
data1.dropna(how='all').head()

In [None]:
# only drop rows where NaN appear in specific columns (here: 'sex')

data1.dropna(subset=['sex']).head()

In [None]:
#常数填充
data1.fillna(0).head()

In [None]:
#字典填充，如第二列填充为0.5，第三列填充为0
data1.fillna({1:0.5,2:0}).head()

In [None]:
#用平均值填充
data1.fillna(data1.mean()).head()

In [None]:
#用同列前面的值填充，限制填充两个   method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}
data1.fillna(method='ffill',limit=2).head()

## 数据预处理之数据集成

#### 1.不同表同一属性标题是否统一   2.属性是否冗余：卡方检验（分类数据），相关系数/协方差（数值数据）   3.元组是否重复   4.数据单位或划分标准是否不同

### 元组重复检验和处理

In [None]:
# 显示是否有完全重复行,由于数据太多，索引出是重复行的数据
dd=data1.duplicated()
dd[dd==True]

In [None]:
#删除所有重复行
data1.drop_duplicates().head()

In [None]:
#删除某两列重复的行，默认保留出现的第一行
ddd1 = data1.drop_duplicates(['sex','age'])

### 合并数据集

In [None]:
# pd.merge(df1,df2) 将两表合并

# pd.merge(df1,df2,on = 'key') 将两表通过key列合并

# pd.merge(df1,df2,left_on='1key',right_on='2key') 分别通过两列合并

# pd.merge(df1,df2,how='outer') 外连接，还可以为left、right，默认inner

# pd.merge(df1,df2,on=['key1','key2'],how='outer') #以两列连接

# pd.merge(df1,df2,on='key1',suffinxes=('_left','_right'))

# pd.concatenate([df1,df2],axis=1) 将两表横着拼一起

# pd.concat([df1,df2]) 将两表竖着拼一起

In [None]:
# data.stack('age') 将age列转为行

## 数据预处理之去噪声

#### 噪声检验：基本统计描述（盒图、散点图等）、聚类
#### 噪声处理：分箱/回归/聚类

### 替换

#### 同缺失值填充方法类似

##### s.replace(['?','$'],method='pad')向前填充

##### s.replace(['?','$'] ,method='ffill')向前填充

##### s.replace(['?','$'],method='bfill')向后填充

#### 按列指定单值替换

##### df.replace({'EMPNO':'?'},np.nan) 用np.nan替换EMPNO列中?
##### df.replace({'EMPNO':'?','ENAME':'.'},np.nan) 用np.nan替换EMPNO列中?和ENAME中.

In [None]:
#将数据中所有-999替换为nan
data1.replace(-999,np.nan).head()

In [None]:
#将-990和-1000都替换为nan
data1.replace([-990,-1000],np.nan).head()

In [None]:
#将-990替换为na，将-1000替换为0
data1.replace([-990,-1000],[np.nan,0]).head()

In [None]:
#将sex中所有男替换为0，女替换为1
name = {'F':0,'M':1}
data1['sex'] = data1['sex'].map(name)
data1.head()

### 分组

In [None]:
data1.loc[:,['age']].describe()

In [None]:
#将年龄分组,15-18,19-21,22-24
bins = [14,18,21,24] #左开有闭
cats = pd.cut(data1['age'],bins)

In [None]:
#给各组命名
group_names = ['age1','age2','age3']
pd.cut(data1['age'],bins,labels=group_names)

In [None]:
#等分为四组,保留0位小数
pd.cut(data1['age'],4,precision=0)

In [None]:
#四分位
pd.qcut(data1['age'],4)

In [None]:
#将sex列设为哑变量，并设置列明为key_0,key_1
dummies = pd.get_dummies(data1['sex'],prefix='key')

In [None]:
#将哑变量的列添加到data1中
data1_with_dummies = data1.join(dummies)

In [None]:
#按sex进行分组，访问age
m=data1['age'].groupby(data1['sex'])

In [None]:
#m是一个GroupBy对象，它实际上还没有进行任何计算
m

In [None]:
m.mean()

In [None]:
#各组分别有多少值
m.size()

In [None]:
m1=data1.groupby(['sex','age'])

In [None]:
m1.size()