# 小象学院实践课程
## Numpy & Pandas
## Google工作数据

这个项目中，我们将处理以csv文件格式存储的数据。数据为从https://careers.google.com/ 爬取的google招聘职位需求。

Google是技术人员梦寐以求的工作圣地，想进入Google，需要什么样的条件？Google在哪些地区有招聘机会？我们一起探索。

> **提示**：这样的文字将会指导你如何使用 jupyter Notebook 来完成项目。你可以通过单击代码区域，然后使用键盘快捷键 Shift+Enter 或 Shift+Return 来运行代码。或者在选择代码后使用执行（run cell）按钮执行代码。Markdown的文字区域也同样可以如此操作。

> 在如下有**# TODO** 提示的地方，将代码补全，实现注释中所要求的功能。

> 在有"** 回答：**" 提示的地方，回答其上所提出的问题。

### 载入文件

我们尝试使用Pandas的read_csv载入数据，并查看前面的几行内容。

In [None]:
import pandas as pd

file = "./data/job_skills.csv"

df = pd.read_csv(file)

df.head()

从天气数据样本中，我们可以看到数据的一些特征

- **Company**：公司名字，这里绝大部分是Google
- **Title**：工作头衔
- **Category**：职位类别
- **Location**：工作地点
- **Responsibilities**: 职责
- **Minimum Qualifications**：最低要求
- **Preferred Qualifications**：加分项

### 技能语言排名

尝试在Minimum Qualifications中，查找各编程语言出现的次数。

我们考察的语言包括python、java、c++、php、javascript、object-C、ruby、perl、c、c#、sql、swift、scala、r。

In [None]:
lang_list = ['python', 'java', 'c++', 'php', 'javascript', 'objective-c', 
             'ruby', 'perl', 'c', 'c#', 'sql', 'swift', 'scala', 'r']

for lang in lang_list:
    lang_list.append(lang.title())
    
lang_list

In [None]:
import re
# 定义语言列表
lang_list = ['python', 'java', 'c++', 'php', 'javascript', 'objective-c', 
             'ruby', 'perl', 'c', 'c#', 'sql', 'swift', 'scala', 'r']

for lang in lang_list:
    lang_list.append(lang.title())
    
print(lang_list)

# 定义统计函数，输入字符串，从中提取包含的‘python’、'java'等语言单词的次数
def lang_count(miniumum_qualifications_string, lang_dict):
    '''该函数被以下all_lang_count调用，统计lang_dict中已经有的key在miniumum_qualifications_string中出现的次数。
    
       输入：
           miniumum_qualifications_string：str类型，被查询的字符串（）
    '''
    # TODO
    # 从miniumum_qualifications_string中提取单词（可以参考Python正则表达式文档： https://docs.python.org/3/library/re.html）
    # 将如下re.sqlit中的第一个参数修改为正确的表达式
    for w in re.split(' ', miniumum_qualifications_string):
        # TODO
        # 如果单词为lang_list中的某一种语言（注意单词大小写问题），将字典lang_dict对应项累加
        if w in lang_list: lang_dict[w] += 1
        
        

def all_lang_count(df):
    '''统计Minimum Qualifications列的内容中，语言出现的次数
    
       输入：
           df：DataFrame，其中包含Minimum Qualifications列。
    
       输出：
           字典类型，其中key为语言名字如'python'、'java'等，value为单词在Minimum Qualifications中出现的次数。
    '''
    # TODO
    # 初始化字典变量lang_dict, 以lang_list中的语言名字为key，出现次数为0
    lang_dict = dict()
    for lang in lang_list:
        lang_dict[lang] = 0
    # 对于Minimum Qualifications列中的每一项，调用lang_count方法
    for word in df['Minimum Qualifications']:
        lang_count(str(word), lang_dict)
    
    return lang_dict

lang_dict = all_lang_count(df)

print(lang_dict)

In [None]:
# TODO
# 对lang_dict.items()按照value所对应项进行排序并生成到新的列表变量lang_sorted中
lang_sorted = None

# 根据计算出的lang_sorted生成新的DataFrame
df_lang_sorted = pd.DataFrame(lang_sorted, columns = ['Language', 'Pop'])

# TODO
# 将Language设置为df_lang_sorted的index以便绘图时作为横坐标标签


# 绘制df_lang_sorted柱形图
df_lang_sorted.plot.bar()


从图形结果当中，我们可以看到，需求量排名前三的语言是哪些？

** 回答：**

### 更仔细的探索数据

对数据进行初步的统计得到以上结果，看起来比较惊喜。

让我们仔细看看一些数据的细节。

首先，检查下数据中包含多少空值。

In [None]:
pd.isnull(df).sum()

#### 去除空值项

In [None]:
df = df.dropna()
df.describe()

#### 观察一下Company列

在执行df.head结果之后，我们可以发现Company列中的unique为2，这里除了Google，还有另外一家公司。

看看另一家是什么：

In [None]:
df['Company'].value_counts()

可以看到这里还有一家是YouTube，也是被Google收购了的金牌雇主。

为了分析，先不管这么多，把YouTube相关的行数据去掉。

In [None]:
# TODO
# 去掉df中Company列为YouTube的数据
df = None

df.describe()

#### 观察其它列的大概状况

In [None]:
# Title列
df['Title'].value_counts()

In [None]:
# TODO
# 使用value_counts观察Location列的统计状况，注意，只列出前20项


In [None]:
# TODO
# 使用value_counts观察Category列的统计状况，注意，只列出前20项


### 工作年限

#### 粗略计算

In [None]:
from collections import defaultdict

# 使用defaultdict构建value默认值为0的字典
years_exp = defaultdict(lambda: 0)

# 定义统计函数，输入字符串，从中提取包含的xxx year字样的情况下期中xxx所描述的数字
def compute_years_exp(miniumum_qualifications_string):
    # 从miniumum_qualifications_string中提取xxx year中的xxx（可以参考Python正则表达式文档： https://docs.python.org/3/library/re.html）
    # 然后以年数（xxx）为key，将years_exp中的相应元素value加1。
    for w in re.findall(r'([0-9]+) year', miniumum_qualifications_string):
        years_exp[w] += 1
        
# 对于Minimum Qualifications列中的每一项，调用lang_count方法
for word in df['Minimum Qualifications']:
    compute_years_exp(str(word))
    
print(dict(years_exp))


In [None]:
# TODO
# 对dict(years_exp)按照value进行排序并生成到新的列表变量years_exp_sorted中
years_exp_sorted = None

# TODO
# 根据计算出的years_exp_sorted生成新的DataFrame，列名为Years以及Pop
df_years_exp_sorted = None

# TODO
# 将Years设置为df_years_exp_sorted的index以便绘图时作为横坐标标签


# 绘制df_years_exp_sorted柱形图
df_years_exp_sorted.plot.bar()


从图形结果当中，我们可以看到，需求量排名前二的工作经验年限是什么？

** 回答：**

#### 逐行处理

针对每一行，生成一个新列Minimum_years_experience，从当前行的Minimum Qualifications列中，提取xxx year 字样前面的xxx

In [None]:
# TODO
# 生成df['Minimum_years_experience']，每行元素为对应行的Minimum Qualifications这列中xxx year 字样前面的xxx。
# df['Minimum_years_experience']每个元素的类型为列表
df['Minimum_years_experience'] = None

df.head()

从结果中，我们可以看出，某些行会提取出多个数字，某些行却一个数字也提取不出来，需要做进一步处理。

#### 空值填充

将df['Minimum_years_experience']中的[]转换成[0]

In [None]:
# TODO
# 将df['Minimum_years_experience']中的[]转换成[0]，（提示：可以使用apply）
df['Minimum_years_experience'] = None

df.head()

#### 处理多值

当df['Minimum_years_experience']中出现多个元素时，比如[x, y, z]，将df['Minimum_years_experience']转换成[max(x, y, z)]

In [None]:
# TODO
# 当df['Minimum_years_experience']中出现多个元素时，比如[x, y, z]，将df['Minimum_years_experience']转换成[max(x, y, z)]
df['Minimum_years_experience'] = None

df.head()

In [None]:
# TODO
# 基于df['Minimum_years_experience']数据，绘制箱线图。
# 注意：如果元素类型非数值类型，绘制箱线图会失败，需要使用astype对元素类型进行转换。


从箱线图结果看，需求的工作年限的中位数是多少？

** 回答：**

### 查看分析师岗位相关数据

我们从Title中查找包含'Analyst'关键字的职位需求。

In [None]:
# TODO
# 从Title中查找包含'Analyst'关键字的职位，存储到df_Analyst中。
df_Analyst = None

df_Analyst.head()

In [None]:
# 查看下分析师需求的位置分布情况
df_Analyst['Location'].value_counts()

#### 添加国家信息

在位置信息中，最后一个逗号后面为国家名，我们对Location进一步分组。

在df_Analyst中生成一个新列'Country'，从Location中，将最后一个逗号后面的值提取出来，作为该列的值。

In [None]:
# TODO
# 生成新列df_Analyst['Country']，其中内容为df_Analyst['Location']中截取最后一个逗号之后的内容
df_Analyst['Country'] = None

df_Analyst['Country'].value_counts()

需求量排在前4的国家都是那些？

** 回答 ：**

#### 统计数据分析师的语言技能需求



In [None]:
print(all_lang_count(df_Analyst))

对于数据分析师，哪种语言的要求最高？

** 回答：**

#### 透视表

构建透视表，探寻不同国家对于数据分析师的工作年限需求。

透视表index为二级索引，第一级是国家（'Country'），第二级是职位分类（'Category'）,values是'Minimum_years_experience'。当生成表时出现元素冲突时，定义mean为aggfunc。

In [None]:
import numpy as np
# TODO
# 定义透视表category_country，以df_Analyst的Country和Category为二级索引，Minimum_years_experience为value，aggfunc为mean
category_country = None

category_country

中国的职位需求中，其对应的Category是什么？要求的最低工作年限是多少？

** 回答：**