# 第一讲： 数据处理导论

如何写出业界水准的数据处理程序


## 大纲

* 思维框架
* 基本概念
* Jupyter Notebook 小技巧


## 思维框架

建立ETL的思维框架

Extract(抽取) --> Transform(转换) --> Load(加载)

把处理数据想象成做菜：

* 未处理的原始数据 = 做菜的原材料，比如各种蔬菜、肉类和调料
* 抽取 = 把食物、调料从冰箱、储物柜中取出。有些不易获得的材料，我们需要专门打电话叫人送上们。
* 转换 = 把原材料做成我们需要的菜肴
* 加载 = 把菜肴装盘上桌，或者存入冰箱供后续使用


### Extract（抽取）

把数据从各种来源抽过来，放到staging(工作台)上。

我们需要学习如何从不同的数据源抽取数据。


可能的数据来源：
- 本地储存的文件（比如csv，excel文件，常见于学生作业或者临时处理的需求）
- 数据库（比如MySQL，Hive等，常见于工作中的数据处理，也是业界最常见的形式）
- 云储存上的文件（比如AWS S3，常见于业界的大文件存储，通常是针对特殊的需求）


staging：把需要处理的数据都放到同一个地方，方便进行操作。操作台可以指你存放数据的文件夹、专门用于处理数据的数据库等等




### Transform（转换）

把原始数据加工成目标数据

这是ETL三个步骤中最复杂的部分，工序最多。

我们需要了解都有哪些常用的工序，每道工序又需要如何进行操作。

下周我们会用两天时间来讲每一道工序的各种细节

常见的工序：
* 去重
* 填充Null值
* 文本处理
* 聚合计算
* 数据规整
* 窗口计算
* 时间序列计算
* 数据查询

### Load（加载）


处理好的数据，还需要放到合适储存位置，供后续使用

常见的储存位置：

- 直接用于可视化图表呈现
- 数据库（业界最常用的存储形式）
- 本地文件（常见于学生作业、临时需求）




## 基本概念

数据处理程序，在ETL的思维框架下，以DataFrame为核心构建的一套处理流程。

基本理念: 代码要清晰地展示DataFrame的流转情况

我们接下来将以Python的数据处理包 pandas 为主要的学习对象，学习如何用pandas来处理数据，为此需要先了解几个基本概念

* DataFrame：一个有结构的二维数组，二维表数据处理的核心，从数据源拿到操作台上的就是若干个DataFrame
* Column：操作的最小单元，一般是以列为对象进行操作。在pandas中又称为Series
* Row：一般不会直接选取，而是根据Column的条件来取若干Row


### DataFrame

In [34]:
import pandas as pd

data = [
    [1,'x',0.45],
    [2,'x',0.67],
    [3,'x',None],
    [4,'y',0.47],
]
df1 = pd.DataFrame(data,columns=['id','group','value'])
df1


Unnamed: 0,id,group,value
0,1,x,0.45
1,2,x,0.67
2,3,x,
3,4,y,0.47


In [35]:
data = [
    [4,'y',0.89],
    [5,'y',0.73],
    [6,'y',0.92],
]
df2 = pd.DataFrame(data,columns=['id','group','value'])
df2

Unnamed: 0,id,group,value
0,4,y,0.89
1,5,y,0.73
2,6,y,0.92


#### 数据规整

In [36]:
# 合并
print("========= 合并 =========")
df = pd.concat([df1,df2])
df = df.reset_index()
display(df)
# 选取部分数据
print("========= 选取 =========")
df[df['group']=='x']



Unnamed: 0,index,id,group,value
0,0,1,x,0.45
1,1,2,x,0.67
2,2,3,x,
3,3,4,y,0.47
4,0,4,y,0.89
5,1,5,y,0.73
6,2,6,y,0.92




Unnamed: 0,index,id,group,value
0,0,1,x,0.45
1,1,2,x,0.67
2,2,3,x,


#### 数据清洗

In [40]:
print("========= 填充空值 =========")
df_fillna = df.fillna(0)
display(df_fillna)
# 选取部分数据
print("========= 去除重复 =========")
df_drop_duplicates = df.drop_duplicates(subset=['id'])
display(df_drop_duplicates)



Unnamed: 0,index,id,group,value
0,0,1,x,0.45
1,1,2,x,0.67
2,2,3,x,0.0
3,3,4,y,0.47
4,0,4,y,0.89
5,1,5,y,0.73
6,2,6,y,0.92




Unnamed: 0,index,id,group,value
0,0,1,x,0.45
1,1,2,x,0.67
2,2,3,x,
3,3,4,y,0.47
5,1,5,y,0.73
6,2,6,y,0.92


### Column/Series

DataFrame中的一列，数据操作的最小单元。
在pandas中，称为Series

In [29]:
# 选取value列

df['value']

0    0.45
1    0.67
2     NaN
3    0.47
4    0.89
5    0.73
6    0.92
Name: value, dtype: float64

In [41]:
# is_null
df['value'].isnull()

0    False
1    False
2     True
3    False
4    False
5    False
6    False
Name: value, dtype: bool

In [31]:
# Series可以直接进行四则运算,会分别作用到每个元素上
display(df['value']+1)

display(df['value']*10)

0    1.45
1    1.67
2     NaN
3    1.47
4    1.89
5    1.73
6    1.92
Name: value, dtype: float64

0    4.5
1    6.7
2    NaN
3    4.7
4    8.9
5    7.3
6    9.2
Name: value, dtype: float64

In [33]:
# 可以为DataFrame添加新的列或者覆盖原本的列
df['new_value'] = df['value']*10
display(df)

df['new_value'] = df['new_value']/10
display(df)

Unnamed: 0,index,id,group,value,new_value
0,0,1,x,0.45,4.5
1,1,2,x,0.67,6.7
2,2,3,x,,
3,3,4,y,0.47,4.7
4,0,4,y,0.89,8.9
5,1,5,y,0.73,7.3
6,2,6,y,0.92,9.2


Unnamed: 0,index,id,group,value,new_value
0,0,1,x,0.45,0.45
1,1,2,x,0.67,0.67
2,2,3,x,,
3,3,4,y,0.47,0.47
4,0,4,y,0.89,0.89
5,1,5,y,0.73,0.73
6,2,6,y,0.92,0.92


## Jupyter Notebook 小技巧

首先需要安装 notebook的插件管理器

[参考教程](https://github.com/Jupyter-contrib/jupyter_nbextensions_configurator)

打开终端输入命令行来执行安装

如果使用anaconda
```bash
conda install -c conda-forge jupyter_nbextensions_configurator
```

如果使用pypi

```bash
pip install jupyter_nbextensions_configurator
jupyter nbextensions_configurator enable --user
```



In [None]:
也可以在命令前面加上!来执行终端命令

In [42]:
!pip install jupyter_nbextensions_configurator

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple, http://pypi.yimian.com.cn/simple


In [43]:
!jupyter nbextensions_configurator enable --user

Enabling: jupyter_nbextensions_configurator
- Writing config: /Users/lanxin/.jupyter
    - Validating...
      jupyter_nbextensions_configurator 0.4.1 [32mOK[0m
Enabling notebook nbextension nbextensions_configurator/config_menu/main...
Enabling tree nbextension nbextensions_configurator/tree_tab/main...


一些有用的插件

* Tree Filter：快速搜索文件
* Codefolding：代码折叠
* Code prettify：代码自动整理
* ExecuteTime：显示Cell执行时间
* Table of Contents (2)：目录


In [44]:
def a():
    print("a")
  

In [45]:
a = 1