### 脏数据
脏数据可以理解为带有不整洁程度的原始数据。原始数据的整洁程度由数据采集质量所决定。
脏数据的表现形式五花八门，如若数据采集质量不过关，拿到的原始数据内容只有更差没有最差。
脏数据的表现形式包括：

- 数据串行，尤其是长文本情形下
- 数值变量种混有文本/格式混乱
- 各种符号乱入
- 数据记录错误
- 大段缺失（某种意义上不算脏数据）

数据采集完后拿到的原始数据到建模前的数据 ———— there is a long way to go.
从数据分析的角度上来讲，这个中间处理脏数据的数据预处理和清洗过程几乎占到了我们全部机器学习项目的60%-70%的时间。  
</br>总体而言就是 **原始数据 -> 基础数据预处理/清洗 -> 探索性数据分析 -> 统计绘图/数据可视化 -> 特征工程**</br>

### 数据清洗与预处理基本方向

- 数据预处理没有特别固定的套路
- 数据预处理的困难程度与原始数据脏的程度而定
- 原始数据越脏，数据预处理工作越艰辛
- 数据预处理大的套路没有，小的套路一大堆
- 机器学习的数据预处理基于pandas来做
- 缺失值处理
- 小文本和字符串数据处理
- 法无定法，融会贯通

缺失值处理方法
- 删除:超过70%以上的缺失
- 填充

In [4]:
import pandas as pd
import numpy as np


dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))
df1 = df.reindex(index=dates[0:4],columns=list(df.columns)+['E'])
df1.loc[dates[0]:dates[1],'E']=1
df1

Unnamed: 0,A,B,C,D,E
2013-01-01,1.063993,1.076246,0.304555,-0.790627,1.0
2013-01-02,-0.055015,-0.486989,0.205795,0.402057,1.0
2013-01-03,0.988586,-0.285283,0.236512,0.804668,
2013-01-04,0.435068,0.973593,-0.519439,0.512159,


In [5]:
#删除包含你缺失的行
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,E
2013-01-01,1.063993,1.076246,0.304555,-0.790627,1.0
2013-01-02,-0.055015,-0.486989,0.205795,0.402057,1.0


In [6]:
#对缺失值进行填充
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,E
2013-01-01,1.063993,1.076246,0.304555,-0.790627,1.0
2013-01-02,-0.055015,-0.486989,0.205795,0.402057,1.0
2013-01-03,0.988586,-0.285283,0.236512,0.804668,5.0
2013-01-04,0.435068,0.973593,-0.519439,0.512159,5.0


In [10]:
df1.fillna(df['A'].mean())

Unnamed: 0,A,B,C,D,E
2013-01-01,1.063993,1.076246,0.304555,-0.790627,1.0
2013-01-02,-0.055015,-0.486989,0.205795,0.402057,1.0
2013-01-03,0.988586,-0.285283,0.236512,0.804668,0.09042
2013-01-04,0.435068,0.973593,-0.519439,0.512159,0.09042


### 小文本与字符串处理
- python 字符串处理函数
- 正则表达式 https://www.jb51.net/shouce/jquery1.82/regexp.html

In [18]:
# 去除空格
char = '    louwill is a machine learning engineer.    '
char.strip()

'louwill is a machine learning engineer.'

In [19]:
# 字符串分割
char2 = 'louwill,is,a,machine,learning,engineer.'
char2.split(',')

['louwill', 'is', 'a', 'machine', 'learning', 'engineer.']

In [20]:
# 拼接：列表转字符串
char2_2 = char2.split(',')
','.join(char2_2)

'louwill,is,a,machine,learning,engineer.'

In [22]:
# 字符替换
char2.replace(',', ' ')

'louwill is a machine learning engineer.'

#### 正则表达式 
- re模块

In [23]:
import re

# compile函数：编译正则表达式模式
# re.compile(pattern, flag=0)
text1 = 'lebron is a slight good person, he is cool.'
rr = re.compile(r'\w*oo\w*')
print(rr.findall(text1))

['good', 'cool']


In [27]:
# match函数：从字符串首开始匹配
# re.match(pattern, string, flag=0)
print(re.match('com', 'com.louwill.con').group())

com


In [28]:
# search函数：对字符串启动查找模式进行匹配，找到第一个并返回
# re.search(pattern, string, flags=0)
# sub 函数：替换字符串中每一个匹配的子串并返回替换后的字符串
# re.sub(pattern, repl, string, count)

### 招聘数据的清洗过程

In [1]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

data1 = pd.read_csv('./data_analysis.csv', encoding='gbk')
data2 = pd.read_csv('./machine_learning.csv', encoding='gbk')
data3 = pd.read_csv('./data_mining.csv', encoding='gbk')
data4 = pd.read_csv('./deep_learning.csv', encoding='gbk')

data = pd.concat((pd.concat((pd.concat((data1, data2)), data3)), data4)).reset_index(drop=True)
data.shape

(1650, 14)

In [2]:
data.head()

Unnamed: 0,address,advantage,city,company_name,education,industry,industryLables,label,position_detail,position_name,salary,size,stage,work_year
0,"['科华北路', '桂溪', '四川大学']",工作氛围好,成都,达疆网络科技（上海）有限公司,本科,O2O,[],"['年底双薪', '绩效奖金', '岗位晋升', '定期体检']",\r职位描述：\r\r工作职责：?\r1、负责新零售业务的数据分析工作，挖掘数据分析需求，制...,数据分析师,10k-20k,2000人以上,D轮及以上,1-3年
1,,"六险二金,晋升通道,独当一面,话语权",北京,贝壳找房（北京）科技有限公司,本科,"移动互联网,O2O","['大数据', '商业']","['股票期权', '带薪年假', '绩效奖金', '扁平管理']",\r职位描述：\r\r工作职责:方向一、经营分析/指标体系1. 参与公司核心策略的数据分析，...,数据分析类,25k-40k,2000人以上,C轮,5-10年
2,"['中关村', '万泉河', '苏州街']",五险一金,北京,杭州财米科技有限公司,不限,"移动互联网,金融",[],"['年底多薪', '岗位晋升', '定期体检', '五险一金']",\r职位描述：\r\r职位描述：\r1、收集、处理用户海量数据，挖掘用户行为特征，为产品、运...,数据分析师 (MJ000766),10k-15k,500-2000人,C轮,1-3年
3,"['琶洲', '官洲']","六险一金,周末双休,营养工作餐,萌宠陪伴",广州,广州微咔世纪信息科技有限公司,大专,"移动互联网,社交网络","['移动互联网', '社交', '数据运营']","['六险一金', '周末双休', '营养工作餐', '暖心下午茶']",\r职位描述：\r\r职位描述：\r1.负责对业务的专题进行统计分析，形成专题分析报告；\r...,数据分析师,8k-15k,50-150人,A轮,1-3年
4,"['中关村', '北京大学', '颐和园']",爱奇艺,北京,北京奇艺世纪科技有限公司,本科,"广告营销,文化娱乐","['大数据', 'SPSS']","['绩效奖金', '五险一金', '交通补助', '带薪年假']",\r职位描述：\r\r岗位职责： 1、负责内容合作部产品及运营数据指标的搭建； 2、负责数据...,数据分析师,8k-12k,2000人以上,上市公司,1-3年


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1650 entries, 0 to 1649
Data columns (total 14 columns):
address            1074 non-null object
advantage          1650 non-null object
city               1650 non-null object
company_name       1650 non-null object
education          1650 non-null object
industry           1650 non-null object
industryLables     1650 non-null object
label              1650 non-null object
position_detail    1646 non-null object
position_name      1650 non-null object
salary             1650 non-null object
size               1650 non-null object
stage              1650 non-null object
work_year          1650 non-null object
dtypes: object(14)
memory usage: 180.5+ KB


In [4]:
data['address'] = data['address'].fillna("['未知']")
data['address'][:5]

0    ['科华北路', '桂溪', '四川大学']
1                    ['未知']
2     ['中关村', '万泉河', '苏州街']
3              ['琶洲', '官洲']
4    ['中关村', '北京大学', '颐和园']
Name: address, dtype: object

In [6]:
for i, j in enumerate(data['address']):
    j = j.replace('[', '').replace(']', '')
    data['address'][i] = j
    
data['address'][:10]

0                                 '科华北路', '桂溪', '四川大学'
1                                                 '未知'
2                                  '中关村', '万泉河', '苏州街'
3                                           '琶洲', '官洲'
4                                 '中关村', '北京大学', '颐和园'
5                                                 '未知'
6    '后海', '深圳湾', '科技园', '后海', '后海', '深圳湾', '深圳湾', ...
7                                 '长阳路', '周家嘴路', '平凉路'
8    '古荡', '文一路', '文三路', '古荡', '古荡', '文一路', '文一路', ...
9                                                 '张江'
Name: address, dtype: object

In [7]:
for i, j in enumerate(data['industryLables']):
    j = j.replace('[', '').replace(']', '')
    data['industryLables'][i] = j
    
data['industryLables'][:10]

0                         
1              '大数据', '商业'
2                         
3    '移动互联网', '社交', '数据运营'
4            '大数据', 'SPSS'
5            '大数据', '数据挖掘'
6            '大数据', '数据挖掘'
7            '大数据', '数据挖掘'
8                     '金融'
9                         
Name: industryLables, dtype: object

In [8]:
for i, j in enumerate(data['label']):
    j = j.replace('[', '').replace(']', '')
    data['label'][i] = j
    
data['label'][:10]

0      '年底双薪', '绩效奖金', '岗位晋升', '定期体检'
1      '股票期权', '带薪年假', '绩效奖金', '扁平管理'
2      '年底多薪', '岗位晋升', '定期体检', '五险一金'
3    '六险一金', '周末双休', '营养工作餐', '暖心下午茶'
4      '绩效奖金', '五险一金', '交通补助', '带薪年假'
5      '专项奖金', '带薪年假', '弹性工作', '管理规范'
6        '丰厚年终', '扁平管理', '追求极致', '本分'
7      '弹性工作', '五险一金', '年度旅游', '年底双薪'
8      '创新开放', '团队牛X', '全员期权', '高速成长'
9      '绩效奖金', '交通补助', '午餐补助', '定期体检'
Name: label, dtype: object

In [8]:
data['position_detail'][0].replace('\r', '')

'职位描述：工作职责：?1、负责新零售业务的数据分析工作，挖掘数据分析需求，制定并实施分析方案，并根据数据分析结果为业务的改进提出合理化建议；?2、通过专题分析，对业务问题进行深入分析，为产品改进、运营决策、营销推广策略提供数据支持，推动业务部门数据驱动业务决策的转化3、通过对公司运营数据研究，提出改善运营质量的方法和建议，搭建BI数据分析体系，为公司决策提供支持。任职资格：?1、统计、数学、信息技术相关专业本科以上学历，互联网2年以上数据分析/挖掘相关经验；2、熟练独立编写商业数据分析报告，及时发现和分析其中隐含的变化和问题；?3、良好的数据敏感度，能从海量数据提炼核心结果；有丰富的数据分析、挖掘、清洗和建模的经验；?4、思维敏捷，具有发散性，能够举一反三，良好的逻辑分析能力及问题解决能力5、良好的跨团队、部门沟通及推动能力，有强烈的主人翁意识，积极发扬团队合作精神6、 熟练掌握SQL7、熟悉或使用过至少一种统计分析/数据挖掘软件（R,?Python等）者优先8、有大数据处理经验，如Hive/Spark/Hadoop等使用经验者优先'

In [10]:
data['position_detail'] = data['position_detail'].fillna('未知')

In [11]:
for i, j in enumerate(data['position_detail']):
    j = j.replace('\r', '')
    data['position_detail'][i] = j
    
data['position_detail'][:3]

0    职位描述：工作职责：?1、负责新零售业务的数据分析工作，挖掘数据分析需求，制定并实施分析方案...
1    职位描述：工作职责:方向一、经营分析/指标体系1. 参与公司核心策略的数据分析，基于策略逻辑...
2    职位描述：职位描述：1、收集、处理用户海量数据，挖掘用户行为特征，为产品、运营提供参考依据；...
Name: position_detail, dtype: object

In [12]:
data.head()

Unnamed: 0,address,advantage,city,company_name,education,industry,industryLables,label,position_detail,position_name,salary,size,stage,work_year
0,"'科华北路', '桂溪', '四川大学'",工作氛围好,成都,达疆网络科技（上海）有限公司,本科,O2O,,"'年底双薪', '绩效奖金', '岗位晋升', '定期体检'",职位描述：工作职责：?1、负责新零售业务的数据分析工作，挖掘数据分析需求，制定并实施分析方案...,数据分析师,10k-20k,2000人以上,D轮及以上,1-3年
1,'未知',"六险二金,晋升通道,独当一面,话语权",北京,贝壳找房（北京）科技有限公司,本科,"移动互联网,O2O","'大数据', '商业'","'股票期权', '带薪年假', '绩效奖金', '扁平管理'",职位描述：工作职责:方向一、经营分析/指标体系1. 参与公司核心策略的数据分析，基于策略逻辑...,数据分析类,25k-40k,2000人以上,C轮,5-10年
2,"'中关村', '万泉河', '苏州街'",五险一金,北京,杭州财米科技有限公司,不限,"移动互联网,金融",,"'年底多薪', '岗位晋升', '定期体检', '五险一金'",职位描述：职位描述：1、收集、处理用户海量数据，挖掘用户行为特征，为产品、运营提供参考依据；...,数据分析师 (MJ000766),10k-15k,500-2000人,C轮,1-3年
3,"'琶洲', '官洲'","六险一金,周末双休,营养工作餐,萌宠陪伴",广州,广州微咔世纪信息科技有限公司,大专,"移动互联网,社交网络","'移动互联网', '社交', '数据运营'","'六险一金', '周末双休', '营养工作餐', '暖心下午茶'",职位描述：职位描述：1.负责对业务的专题进行统计分析，形成专题分析报告；2.基于业务理解，设...,数据分析师,8k-15k,50-150人,A轮,1-3年
4,"'中关村', '北京大学', '颐和园'",爱奇艺,北京,北京奇艺世纪科技有限公司,本科,"广告营销,文化娱乐","'大数据', 'SPSS'","'绩效奖金', '五险一金', '交通补助', '带薪年假'",职位描述：岗位职责： 1、负责内容合作部产品及运营数据指标的搭建； 2、负责数据后台的完善与...,数据分析师,8k-12k,2000人以上,上市公司,1-3年


In [13]:
import string
for i in data['salary'][:10]:
    i = i.replace('k', '')
    i1 = int(i.split('-')[0])
    i2 = int(i.split('-')[1])
    i3 = 1/2 * (i1+i2)
    print(i3)

15.0
32.5
12.5
11.5
10.0
30.0
22.5
25.0
22.5
9.0


In [14]:
for i, j in enumerate(data['salary']):
    j = j.replace('k', '').replace('K', '').replace('以上', '-0')
    j1 = int(j.split('-')[0])
    j2 = int(j.split('-')[1])
    j3 = 1/2 * (j1+j2)
    data['salary'][i] = j3*1000
    
data['salary'].head(10)   

0    15000
1    32500
2    12500
3    11500
4    10000
5    30000
6    22500
7    25000
8    22500
9     9000
Name: salary, dtype: object

In [15]:
data['size'].value_counts()

2000人以上      573
500-2000人    324
150-500人     314
50-150人      269
15-50人       156
少于15人         14
Name: size, dtype: int64

In [16]:
data['stage'].value_counts()

上市公司     337
不需要融资    293
B轮       240
A轮       239
C轮       216
D轮及以上    192
天使轮       69
未融资       64
Name: stage, dtype: int64

In [17]:
data['work_year'].value_counts()

3-5年     730
1-3年     465
不限       221
5-10年    136
应届毕业生     80
1年以下      16
10年以上      2
Name: work_year, dtype: int64

In [17]:
for i, j in enumerate(data['position_name']):
    if '数据分析' in j:
        j = '数据分析师'
    if '数据挖掘' in j:
        j = '数据挖掘工程师'
    if '机器学习' in j:
        j = '机器学习工程师'
    if '深度学习' in j:
        j = '深度学习工程师'
    data['position_name'][i] = j
data['position_name'][:5]

0    数据分析师
1    数据分析师
2    数据分析师
3    数据分析师
4    数据分析师
Name: position_name, dtype: object

In [18]:
data.head()

Unnamed: 0,address,advantage,city,company_name,education,industry,industryLables,label,position_detail,position_name,salary,size,stage,work_year
0,"'科华北路', '桂溪', '四川大学'",工作氛围好,成都,达疆网络科技（上海）有限公司,本科,O2O,,"'年底双薪', '绩效奖金', '岗位晋升', '定期体检'",职位描述：工作职责：?1、负责新零售业务的数据分析工作，挖掘数据分析需求，制定并实施分析方案...,数据分析师,15000,2000人以上,D轮及以上,1-3年
1,'未知',"六险二金,晋升通道,独当一面,话语权",北京,贝壳找房（北京）科技有限公司,本科,"移动互联网,O2O","'大数据', '商业'","'股票期权', '带薪年假', '绩效奖金', '扁平管理'",职位描述：工作职责:方向一、经营分析/指标体系1. 参与公司核心策略的数据分析，基于策略逻辑...,数据分析师,32500,2000人以上,C轮,5-10年
2,"'中关村', '万泉河', '苏州街'",五险一金,北京,杭州财米科技有限公司,不限,"移动互联网,金融",,"'年底多薪', '岗位晋升', '定期体检', '五险一金'",职位描述：职位描述：1、收集、处理用户海量数据，挖掘用户行为特征，为产品、运营提供参考依据；...,数据分析师,12500,500-2000人,C轮,1-3年
3,"'琶洲', '官洲'","六险一金,周末双休,营养工作餐,萌宠陪伴",广州,广州微咔世纪信息科技有限公司,大专,"移动互联网,社交网络","'移动互联网', '社交', '数据运营'","'六险一金', '周末双休', '营养工作餐', '暖心下午茶'",职位描述：职位描述：1.负责对业务的专题进行统计分析，形成专题分析报告；2.基于业务理解，设...,数据分析师,11500,50-150人,A轮,1-3年
4,"'中关村', '北京大学', '颐和园'",爱奇艺,北京,北京奇艺世纪科技有限公司,本科,"广告营销,文化娱乐","'大数据', 'SPSS'","'绩效奖金', '五险一金', '交通补助', '带薪年假'",职位描述：岗位职责： 1、负责内容合作部产品及运营数据指标的搭建； 2、负责数据后台的完善与...,数据分析师,10000,2000人以上,上市公司,1-3年


### 清洗过程模块化

In [30]:
import numpy as np
import pandas as pd
import string
import warnings
warnings.filterwarnings('ignore')

class data_clean(object):
    def __init__(self):
        pass
    
    def get_data(self):
        data1 = pd.read_csv('./data_analysis.csv', encoding='gbk')
        data2 = pd.read_csv('./machine_learning.csv', encoding='gbk')
        data3 = pd.read_csv('./data_mining.csv', encoding='gbk')
        data4 = pd.read_csv('./deep_learning.csv', encoding='gbk')

        data = pd.concat((pd.concat((pd.concat((data1, data2)), data3)), data4)).reset_index(drop=True)
        return data

    def clean_operation(self):
        data = self.get_data()
        data['address'] = data['address'].fillna("['未知']")
        for i, j in enumerate(data['address']):
            j = j.replace('[', '').replace(']', '')
            data['address'][i] = j
            
        for i, j in enumerate(data['salary']):
            j = j.replace('k', '').replace('K', '').replace('以上', '-0')
            j1 = int(j.split('-')[0])
            j2 = int(j.split('-')[1])
            j3 = 1/2 * (j1+j2)
            data['salary'][i] = j3*1000
            
        for i, j in enumerate(data['industryLables']):
            j = j.replace('[', '').replace(']', '')
            data['industryLables'][i] = j
            
        for i, j in enumerate(data['label']):
            j = j.replace('[', '').replace(']', '')
            data['label'][i] = j
         
        data['position_detail'] = data['position_detail'].fillna('未知')
        for i, j in enumerate(data['position_detail']):
            j = j.replace('\r', '')
            data['position_detail'][i] = j
            
        return data
    
    
opt = data_clean()
data = opt.clean_operation()
data.head()

Unnamed: 0,address,advantage,city,company_name,education,industry,industryLables,label,position_detail,position_name,salary,size,stage,work_year
0,"'科华北路', '桂溪', '四川大学'",工作氛围好,成都,达疆网络科技（上海）有限公司,本科,O2O,,"'年底双薪', '绩效奖金', '岗位晋升', '定期体检'",职位描述：工作职责：?1、负责新零售业务的数据分析工作，挖掘数据分析需求，制定并实施分析方案...,数据分析师,15000,2000人以上,D轮及以上,1-3年
1,'未知',"六险二金,晋升通道,独当一面,话语权",北京,贝壳找房（北京）科技有限公司,本科,"移动互联网,O2O","'大数据', '商业'","'股票期权', '带薪年假', '绩效奖金', '扁平管理'",职位描述：工作职责:方向一、经营分析/指标体系1. 参与公司核心策略的数据分析，基于策略逻辑...,数据分析类,32500,2000人以上,C轮,5-10年
2,"'中关村', '万泉河', '苏州街'",五险一金,北京,杭州财米科技有限公司,不限,"移动互联网,金融",,"'年底多薪', '岗位晋升', '定期体检', '五险一金'",职位描述：职位描述：1、收集、处理用户海量数据，挖掘用户行为特征，为产品、运营提供参考依据；...,数据分析师 (MJ000766),12500,500-2000人,C轮,1-3年
3,"'琶洲', '官洲'","六险一金,周末双休,营养工作餐,萌宠陪伴",广州,广州微咔世纪信息科技有限公司,大专,"移动互联网,社交网络","'移动互联网', '社交', '数据运营'","'六险一金', '周末双休', '营养工作餐', '暖心下午茶'",职位描述：职位描述：1.负责对业务的专题进行统计分析，形成专题分析报告；2.基于业务理解，设...,数据分析师,11500,50-150人,A轮,1-3年
4,"'中关村', '北京大学', '颐和园'",爱奇艺,北京,北京奇艺世纪科技有限公司,本科,"广告营销,文化娱乐","'大数据', 'SPSS'","'绩效奖金', '五险一金', '交通补助', '带薪年假'",职位描述：岗位职责： 1、负责内容合作部产品及运营数据指标的搭建； 2、负责数据后台的完善与...,数据分析师,10000,2000人以上,上市公司,1-3年
