# 实验一 数据探索与预处理

## 1 数据清洗

### 1.1 找出不符合规则的数据并进行修正

In [None]:
import pandas as pd
import numpy as np
import re

# 读取csv
# 中文解码这个我也不知道怎么高效处理，一般试试utf-8再试试gbk，再不行就搜索报错信息...
# 长号码串不读取为数字更好处理
data = pd.read_csv("ex1.csv", encoding='gb18030', dtype={'qq':object, 'tel':object})

In [None]:
# 对空白字符进行处理
# 姓名删除多个空格，仅保留一个（考虑英文名）
data["姓名"].replace("\s+", " ", regex=True, inplace=True)
# 去除空白字符， 部门-职务、教育经历和工作经历为保持格式不去除
data["公司名称"].replace("\s+", "", regex=True, inplace=True)
data["工作内容"].replace("\s+", "", regex=True, inplace=True)
data["email"].replace("\s+", "", regex=True, inplace=True)
data["注册资金"].replace("\s+", "", regex=True, inplace=True)

# 姓名只允许中文英文
data["姓名"].replace("[^\w\u4e00-\u9fff]+", np.NaN, regex=True, inplace=True)

# Tel列只允许合法格式
data["tel"].replace("^[^1[35678]\d{9}$]", np.NaN, regex=True, inplace=True)

# 去除姓名字段为空的行
data.dropna(subset=["姓名"], inplace=True)


In [None]:
data

### 1.2 根据字段含义将数据处理为合适的格式

In [None]:
# 拆分部门-职务

# 直接拆分成两个新列
d1 = data["部门-职务"].str.split(" ", expand=True)
d1.drop(d1.columns[2:], axis=1, inplace=True)
d1.columns = ["部门", "职务"]

# 删除旧列, 添加新列
data = data.drop("部门-职务", axis=1).join(d1)
data

In [None]:
# 注册资金转为数值
def to_num(x):
    num = float(re.findall("^\d+\.?\d*", x)[0])
    if x[-1] == '万':
        unit = 10000
    elif x[-1] == '亿':
        unit = 100000000
    else:
        unit = 1
    return num * unit

data["注册资金"] = data["注册资金"].apply(lambda x: np.NaN if x!=x else to_num(x))

data

In [None]:
# 公司成立时间转为yyyy-mm-dd格式
data["公司成立时间"] = data["公司成立时间"].apply(lambda x: np.NaN if x == "未公示" else pd.to_datetime(x, format='%Y-%m-%d'))

# 公司年龄转数值
data["公司年龄"] = data["公司年龄"].apply(lambda x: np.NaN if x!=x else 0 if x == "不足一年" else int(re.findall("\d+\.?\d*", x)[0]))

data

In [None]:
# 教育经历拆分
# 拆分为 学校 是否本科 入学时间 毕业时间
d2 = data["教育经历"].str.split(" ", expand=True)
d2.drop(d2.columns[5:], axis=1, inplace=True)
d2.columns = ["学校", "是否本科", "专业", "入学时间", "毕业时间"]
data = data.drop("教育经历", axis=1).join(d2)

data

In [None]:
# 工作经历拆分
# 拆分为 曾属公司 曾属部门 曾任职位 入职时间 离职时间
d3 = data["工作经历"].str.split(" ", expand=True)
d3.drop(d3.columns[5:], axis=1, inplace=True)
d3.columns = ["曾属公司", "曾属部门", "曾任职位", "入职时间", "离职时间"]
data = data.drop("工作经历", axis=1).join(d3)

data

### 1.3	进行数据概化

In [None]:
# 职务等级划分
def job_level(job):
    job = str(job)
    if job.find("董事")!= -1 or job.find("主席")!= -1:
        return "A"
    elif job.find("总经理")!= -1 or job.find("总裁")!= -1:
        return "B"
    elif job.find("总监")!= -1 or job.find("经理")!= -1 or job.find("主任")!= -1 or job.find("主管")!= -1:
        return "C"
    elif job.find("工程师")!= -1 or job.find("员")!= -1 or job.find("实习生")!= -1:
        return "D"
    else:
        return "E"
    
d4 = data["职务"].apply(lambda x: np.NaN if x!=x else job_level(x))
d4 = d4.to_frame(name="职务等级")
data = data.join(d4)

data

In [None]:
# 工作类别划分
def job_kind(job):
    job = str(job)
    if job.find("销售")!= -1 or job.find("市场")!= -1 or job.find("客户")!= -1:
        return "市场类"
    elif job.find("业务")!= -1 or job.find("技术")!= -1 or job.find("项目")!= -1 or job.find("执行")!= -1:
        return "技术类"
    elif job.find("营销")!= -1 or job.find("宣传")!= -1  or job.find("商务")!= -1:
        return "营销类"
    else:
        return "其他类"
    
d5 = data["职务"].apply(lambda x: np.NaN if x!=x else job_kind(x))
d5 = d5.to_frame(name="工作类别")
data = data.join(d5)

data

In [None]:
# 公司领域划分
def company_kind(c):
    c = str(c)
    if c.find("科技")!= -1 or c.find("软件")!= -1 or c.find("计算机")!= -1 or c.find("技术")!= -1:
        return "科技类"
    elif c.find("文化")!= -1 or c.find("传媒")!= -1 or c.find("广告")!= -1:
        return "文化传媒类"
    elif c.find("咨询")!= -1:
        return "咨询类"
    elif c.find("管理")!= -1:
        return "管理类"
    elif c.find("贸")!= -1:
        return "贸易类"
    elif c.find("服务")!= -1:
        return "服务类"
    else:
        return "其他类"
    
d6 = data["公司名称"].apply(lambda x: np.NaN if x!=x else company_kind(x))
d6 = d6.to_frame(name="公司领域")
data = data.join(d6)

data

In [None]:
# 注册资金等级划分
def money_level(num):
    if num < 10000000:
        return "1000万以下"
    elif num < 50000000:
        return "1000万以上5000万以下"
    elif num < 100000000:
        return "5000万以上1亿以下"
    else:
        return "1亿以上"
    
d7 = data["注册资金"].apply(lambda x: np.NaN if x!=x else money_level(x))
d7 = d7.to_frame(name="注册资金等级")
data = data.join(d7)

data

## 2 数据可视化

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

### 2.1 按照数据类型进行图表展示

In [None]:
# 职务等级
sns.set_style('whitegrid',{'font.sans-serif':['simhei','Arial']}) 
sns.countplot(x="职务等级", data=data, order=['A','B','C','D','E'])

In [None]:
# 工作类别
sns.countplot(x="工作类别", data=data)

In [None]:
# 公司领域
sns.countplot(x="公司领域", data=data)

In [None]:
# 公司年龄
sns.countplot(x="公司年龄", data=data.sort_values(by="公司年龄", ascending=True))

### 2.2 相关分析

In [None]:
# 用户是否认证和公司是否认证
a = data[(data["是否认证"] == 1) & (data["公司是否认证"]== 1)].shape[0]
b = data[(data["是否认证"] == 0) & (data["公司是否认证"]== 1)].shape[0]
c = data[(data["是否认证"] == 1) & (data["公司是否认证"]== 0)].shape[0]
d = data[(data["是否认证"] == 0) & (data["公司是否认证"]== 0)].shape[0]

df = pd.DataFrame([[a,b],[c,d]], columns=["用户认证","用户未认证"], index =["公司认证","公司未认证"])
sns.heatmap(df,annot=True, fmt='.20g')

In [None]:
# 注册资金与公司年龄
plt.figure(figsize=(10, 5))
p = sns.scatterplot(x="公司年龄", y="注册资金", data=data)
p.set_xlim(0,45)
p.set_ylim(0,1000000000)

### 2.3 对比分析

In [None]:
# 认证用户与非认证用户职务分布
plt.figure(figsize=(10, 5))
sns.countplot(x="职务等级", hue="是否认证", data=data, order=['A','B','C','D','E'])

In [None]:
# 认证公司与非认证公司资金差异
plt.figure(figsize=(10, 5))
sns.countplot(x="注册资金等级", hue="公司是否认证", data=data, palette='coolwarm', order=['1亿以上','5000万以上1亿以下','1000万以上5000万以下','1000万以下'])

# 认证公司与非认证公司年龄差异
plt.figure(figsize=(10, 5))
p = sns.countplot(x="公司年龄", hue="是否认证", data=data.sort_values(by="公司年龄", ascending=True))
p.set_xlim(0,30)
