拿到一份数据，或者在数据处理过程中，我们有时会简单对数据做一点简单变换，也就是数据预处理。

今天将学习数据预处理，几个高效实用的pandas的函数。

今日目标

数据预处理，通常包括数据类型的转换、和index的转换。今天将学习：

1. 时间类型数据

2. 字符转时间函数

3. 时间转字符函数

4. 格式转换函数

5. set_index()和reset_index()

# 时间类型

时间数据在很多领域都是重要的结构化数据形式。

时间的运算，有自己的逻辑和规则，和现有的字符串、整型、浮点型的逻辑不一样。

在Python中，时间数据可能有下面三种形式：

1. 具体的时间点，比如2020/09/30 12:00:00

2. 时间间隔，比如3days，2 months，是两个时间点之间的差值。

3. 时期，比如2020年9月，代表了9月1日-30日一整个月。

也对应了三种时间类型，datetime类型、timedelta类型、period类型。

## datetime

我们尝试构建一个如图的DataFrame，来描述三名同学入学和毕业时间。

在构造时，我们是以字符串格式，将时间数据存入。

但由于是字符串格式，我们无法对时间进行运算。

倘若我们想要自己构造一个时间类型的数据，就必需引入datetime模块中的datetime数据类型，这是Python自带的模块。

In [2]:
from datetime import datetime

start = datetime(2020, 5, 1, 23, 59, 59)
end = datetime(2020, 10, 1)

print(start)
print(end)
print(type(start))

2020-05-01 23:59:59
2020-10-01 00:00:00
<class 'datetime.datetime'>


示例代码中，通过导入datetime模块，使用datetime()函数，实现了时间类型数据的构造。

datetime()函数内，需要按照年、月、日、时、分、秒依次传入数字，组成一个时间。至少需要传入年、月、日的参数。

比如，start传入了年月日时分秒的数据构造时间，end只传入了年月日的数据构造时间。

## timedelta

In [3]:
from datetime import datetime

start = datetime(2020, 5, 1, 23, 59, 59)
end = datetime(2020, 10, 1)

timeSpan = end - start

print(timeSpan)
print(type(timeSpan))

152 days, 0:00:01
<class 'datetime.timedelta'>


构造变量start是2020年5月1日，end是2020年10月1日。

因为start和end均为时间类型数据，因此可以直接进行运算，将结果赋值给timeSpan。

timeSpan的输出结果，就是end比start多出来的时间，精确到秒。并且数据类型是timedelta，这也就是时间间隔。

现在想要计算，2008年8月8日 20:08 到 2020年10月1日 10:00，之间的时间间隔是多少。

尝试使用刚学过的datetime和timedelta，进行计算吧！

In [4]:
from datetime import datetime

# 构造一个2008年8月8日 20:08的时间，赋值给start
start = datetime(2008, 8, 8, 20, 8)

# 构造一个2020年10月1日 10:00的时间，赋值给end
end = datetime(2020, 10, 1, 10)

# 计算end减去start的差值，赋值给time_gap
time_gap = end - start

# 输出time_gap
print(time_gap)

4436 days, 13:52:00


## period

除了datetime和timedelta外，还有一个表示时间区间的类型"period"。

这个时间类型，表达的是一个时间段。

"period"的实际应用比较少，而且通常用后续学习的时间转字符函数代替，因此，在这里就不展开了。

# 字符串转时间


我们读取"电商订单数据.csv"，只取了其中的两列，create_time订单创建时间和pay_time订单支付时间。

此时，这两列是字符串类型。接下来，我们使用to_datetime函数，将其转化为时间类型。

使用to_datetime( )函数，将字符串格式的时间数据，转化为时间格式。

此时，输出结果为datetime类型。

```
# 导入pandas模块，简称为pd
import pandas as pd

# 读取文件，赋值给变量df
df= pd.read_csv("/Users/time/电商数据.csv", usecols=[9,10])

# 使用to_datetime()函数，将create_time和pay _time转化成时间格式
df["create_time"] = pd.to_datetime(df["create_time"])
df["pay_time"] = pd.to_datetime(df["pay_time"])

# 输出此时的df
print(df)
```

第8、9行，使用to_datetime( )函数，将字符串格式的时间数据，转化为时间格式。

此时，输出结果为datetime类型。

* 需要转化的列       

使用列索引，将需要转化格式的列选出来，作为参数。

在这里，create_time和pay_time这一列需要转换格式，因此将其传入作为参数。

* 函数pd.to_datetime         

pd.to_datetime( )函数，将参数中这一列的数据，转化成时间格式。

* 赋值的新列        

转化成时间格式之后，赋值给新的一列。

在这里，这两列的数据，转化成时间格式后，重新赋值给这两列，也就是覆盖了原先的数据。

# 时间转字符串

数据处理中，会将字符串转为时间类型，进行时间的计算。

有时，也会将时间类型数据，按照指定的格式，转为字符串数据。

这时，会涉及到.dt和strftime()函数

读取文件并且使用to_datetime()将create_time和pay_time转化为时间类型。

输出是精确到“秒”的时间类型。

在后续应用中，我们在分组或者可视化的时候，常会需要年月日这样的日期，或者只需要年月。

就会需要用到strftime()函数，将时间类型，转化为指定格式的字符串类型

```
import pandas as pd

df= pd.read_csv("/Users/time/电商数据.csv", usecols=[9,10])

df["create_time"] = pd.to_datetime(df["create_time"])
df["pay_time"] = pd.to_datetime(df["pay_time"])

df["create_time"] = df["create_time"].dt.strftime("%Y-%m")
df["pay_time"] = df["pay_time"].dt.strftime("%Y-%m")

print(df)
```

第8、9行，使用.dt.strftime("%Y-%m")。将某一列时间类型数据，转换为字符串类型，并变成“年-月”的格式。

* .dt         

对于某一列的数据，需要在列索引df["create_time"]后加上.dt，表示定位到这一列的时间数据上。

只有在Series和DataFrame中，列索引筛选的数据进行格式转换时，才需要.dt。

* strftime()          

.dt定位到一列的时间数据上后，通过strftime()函数转为字符串。

函数内传入的参数，是需要转换的格式。

* 时间格式化         

表示转为字符串的格式，作为参数传入strftime()函数内。

时间格式是非常丰富的，在这里，"%Y-%m"表示转为"年-月"的形式。

```
strftime()函数内的时间格式化符号，可以理解为是一种格式化输出。

%Y代表时间的年，%m代表时间的月，%d代表时间的日。时间以外的其他的内容可以任意编辑。

如图举了两个例子：
%Y-%m-%d，就是2018-01-31。
%Y年%m月，就是2018年01月。
```

格式化字符，不止"%Y", "%m", "%d"。

右图列出了最常用到的8个格式化字符。使用时，可以据此进行查询。

有一个非常易混的地方："%m"代表月，"%M"代表分钟。

我们尝试练习一下。

已经读取了文件中"pay_time"这一列，需要使用to_datetime()函数，将字符串转为时间类型。

然后使用strftime()函数，将时间类型，转成一列格式为"xxxx年xx月xx日"的数据，再转成一列"星期x"的数据。

```
# 导入模块
import pandas as pd

# 读取文件
df = pd.read_csv("/Users/time/电商数据.csv" , usecols= [10])

# TODO 使用to_datetime函数，将pay_time这一列转化为时间类型，重新赋值给pay_time这一列
df["pay_time"] = pd.to_datetime(df["pay_time"])

# TODO 使用strftime函数，将pay_time这一列转化为"%Y年%m月%d日"的格式，赋值给"日期"这一列
df["日期"] = df["pay_time"].dt.strftime("%Y年%m月%d日")

# TODO 使用strftime函数，将pay_time这一列转化为"星期%u"的格式，赋值给"星期"这一列
df["星期"] = df["pay_time"].dt.strftime("星期%u")

# 输出这个df
print(df)
```

# 格式转换函数

to_datetime()函数和strftime()函数，能实现字符串格式和时间格式之间的相互转换。

整型、浮点型、字符串、布尔型在满足一定条件时，也能进行相互之间的转换，这是通过astype()函数来实现的。

In [9]:
import pandas as pd

data = {"a":[1.134,2.12,3.54,0.23],"b":[1,2,3,0]}

df = pd.DataFrame(data)

print(df)

df["b"] = df["b"].astype(float)

print(df)

       a  b
0  1.134  1
1  2.120  2
2  3.540  3
3  0.230  0
       a    b
0  1.134  1.0
1  2.120  2.0
2  3.540  3.0
3  0.230  0.0


第7行，在列索引后，使用astype()函数，里面的参数是需要转化成为的数据类型。

在这里，将b这一列的数据，从整型(int)转化为浮点型(float)。

## astype(str)

转化为字符串类型(str)数据。

整型、浮点型数据，可以直接使用.astype(str)函数。将数据类型转化为字符串类型。

转化为字符串类型，是数据处理中常会用到的操作。

比如电话号码，身份证号等纯数值的数据，通常是不可变的，需要将其作为字符串处理。

读取"信用卡用户信息.csv"的文件，手机号phone_number这一列在读取时，是整型的数据类型。

我们尝试使用astype()函数，将其转化为字符串类型。

In [7]:
# 导入模块
import pandas as pd

# 读取文件
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_5_output/find/信用卡用户信息.csv")

# 输出phone_number这一列的数据类型
print(df["phone_number"].dtype)

# 使用astype()，将phone_number这一列转化为字符串类型，重新赋值给phone_number这一列
df["phone_number"] = df["phone_number"].astype(str)

# 再输出phone_number这一列现在的数据类型
print(df["phone_number"].dtype)

int64
object


## astype(int)

转化为整型(int)数据。

字符串数据，仅有当数据是整数数字时，才能使用.astype(int)函数，否则将会报错。

浮点型数据，可以直接使用.astype(int)函数，使用后数据将只保留整数部分。

转化为整型，在实际处理中用到的不多。

## astype(float)

转化为浮点型(float)数据。

字符串数据，当数据是数字（整数，小数都可以）时，可以使用.astype(float)函数，否则将会报错。

整型数据，可以直接使用.astype(float)函数，使用后数据将用0补充为一位小数。

转化为浮点型，在实际处理中用到的不多。

## astype(bool)

转化为布尔型数据。

整型、浮点型数据，可以直接使用.astype(bool)函数。

如果数据是整型0、浮点型0.0，则会转化为布尔值False；如果数据是非0，则会转化为布尔值True。

转化为布尔型，也是一个数据处理中常会用到的操作。

在计算机的储存中，许多是用0/1变量，来代表True/False。

在pandas中，就可以通过astype()函数，将0/1转化为布尔型的True/False。

我们来尝试简单操作一下，来通过布尔索引 来进行筛选。

In [10]:
# 导入模块
import pandas as pd

# 定义一个字典
data = {"rank":[1,2,3,4],"GDP":[80855,77388,68024,47251]}

# 构造一个DataFrame
df = pd.DataFrame(data)

# 定义一个01组成的列表
search = [0,1,0,1]

# 构造成一个Series
se = pd.Series(search)

# TODO 使用astype函数，将se中的01，转换为False/True的se，重新赋值给se
se = se.astype(bool)

# 输出此时se
print(se)

# 用布尔索引筛选，输出筛选结果
print(df[se])

0    False
1     True
2    False
3     True
dtype: bool
   rank    GDP
1     2  77388
3     4  47251


# index和列转换

在数据整理时，除了进行数据类型的转换外，最常见的，就是index的转换了。

构造DataFrame或者读取文件时，我们会先指定一个index。

但随着后续数据处理的需要，index需要转换为普通的列，或者一列需要变为index。

这里就需要使用set_index()或者reset_index()函数。

DataFrame，在构造时，没有指定index，因此df的index默认从0开始生成。

倘若此时，我们需要将provin这一列数据，作为index，就可以使用set_index()函数。

In [11]:
# 导入模块
import pandas as pd 

# 定义一个字典data
data = {"provin":["GD","JS","SD","ZJ"],"rank":[1,2,3,4],"GDP":[80855,77388,68024,47251]}

# 用data构造一个df
df=pd.DataFrame(data)

# 输出df
print(df)

# 使用set_index()函数，将provin这一列转化成index，赋值给new_df
new_df = df.set_index("provin")

# 输出new_df
print(new_df)

  provin  rank    GDP
0     GD     1  80855
1     JS     2  77388
2     SD     3  68024
3     ZJ     4  47251
        rank    GDP
provin             
GD         1  80855
JS         2  77388
SD         3  68024
ZJ         4  47251


第14行，对df使用set_index()函数，将provin这一列的数据转为DataFrame的index，并赋值给new_df。

参数是需要变为index的那一列的列名。

在有的场景中，index当中的数据，也是我们要进行处理和操作的数据。

我们又需要将index的数据，还原成一个普通的列

In [12]:
# 导入模块
import pandas as pd 

# 定义一个字典data
data = {"provin":["GD","JS","SD","ZJ"],"rank":[1,2,3,4],"GDP":[80855,77388,68024,47251]}

# 用data构造一个df
df=pd.DataFrame(data)

# 使用set_index()函数，将provin这一列转化成index，赋值给new_df
new_df = df.set_index("provin")

# 输出new_df
print(new_df)

# 使用reset_index()函数，将index转化成普通列，赋值给df
df = new_df.reset_index()

# 输出df
print(df)

        rank    GDP
provin             
GD         1  80855
JS         2  77388
SD         3  68024
ZJ         4  47251
  provin  rank    GDP
0     GD     1  80855
1     JS     2  77388
2     SD     3  68024
3     ZJ     4  47251


第17行，对new_df使用reset_index()函数，将index转为DataFrame的一列数据，并赋值给df。

reset_index()不需要传入参数。

对new_df对象使用reset_index()函数，赋值给新的变量。

index这一列，就会转化成普通的一列数据，index变为默认从0开始。

使用set_index()函数，将某一列的数据转为DataFrame的index；使用reset_index()函数，将index转为DataFrame的一列数据。

# 百题斩题目

## 性别统计
李华是人口普查小组中的一员，他统计夜曲小区的人口数据时，发现因为保存出错，有一栋楼的居民性别信息缺失了：
面对问题，李华灵机一动，想起可以利用身份证号来判断居民的性别。

身份证号的第13位（索引为12）如果是奇数，则持有人为男性（"男"）；如果是偶数，就代表持有人是女性（"女"）。
李华已经读取了文件，并存储在变量data中，接下来就需要：
1. 先通过列索引读取data中"身份证号"这一列数据，并把这列Series的数据格式转换为str，这样才能直接通过字符串的索引获取到身份证号的第13位。

2. 定义一个空列表gender，用于存储每一位居民的性别。

3. 循环遍历"身份证号"这一列数据。通过字符串的索引获取第13位，再将第13位转换为整数int，对其进行取模运算（%），判断是奇数还是偶数。

使用append()函数将结果添加到列表gender中：如果是奇数，将"男"添加到gender中；如果是偶数，则将"女"添加到gender中。

4. 最后，把gender赋值给data["性别"]，便可以将列表中的值依次添加到该列中。别忘记，要输出data变量哦～

本题中需要用到 循环遍历Series 和 字符串转整型 这两个知识点，请先点击提示进行学习。

* 循环遍历Series

在pandas模块中，我们可以使用for循环，访问到Series中的每一个值。
例如，循环遍历data变量中，"身份证号"这一列数据的代码为：
```
for idNo in data["身份证号"]:
    print(idNo)

输出为：
532822198104013
652826199304066
140428198101265
......
```

* 字符串转整型

Python的内置函数int()，可以将一个字符串转换为整型。只需将字符串作为参数传入该函数中即可。

例如，将刚刚获取到的idNo转换为整型的代码如下：
```
int(idNo)
```

In [13]:
# 导入pandas，并使用"pd"作为该模块的简写
import pandas as pd

# 使用read_csv()函数，获取文件"/Users/count/住户信息.csv"，并赋值给data
data = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_7_output/count/住户信息.csv")

# TODO 使用astype()函数，将data["身份证号"]转换为str类型
data["身份证号"] = data["身份证号"].astype(str)

# 创建储存性别的空列表gender
gender = []

# TODO 使用for循环遍历data["身份证号"]
for idNo in data["身份证号"]:
    
    # TODO 将身份证号的第13位([12])转换为int，并赋值给num
    num = int(idNo[12])

    # TODO 如果num是奇数
    if num % 2 == 1:

        # TODO 在gender列表中添加"男"
        gender.append("男")

    # TODO 如果num是偶数
    else:

        # TODO 在gender数组中添加"女"
        gender.append("女")

# TODO 将gender赋值给data["性别"]
data["性别"] = gender

# TODO 使用print()输出data
print(data)

    序号   姓名 性别             身份证号            公司                  职务
0    0   熊亮  女  532822198104013      巨奥科技有限公司                采购主管
1    1  赵秀芳  女  652826199304066      佳禾网络有限公司             产品经理/主管
2    2   王刚  女  140428198101265    鑫博腾飞网络有限公司               射频工程师
3    3  陈桂花  男  230402199601128   晖来计算机传媒有限公司               艺术/设计
4    4   母浩  男  622924196204155      天益传媒有限公司            首席运营官COO
5    5  王冬梅  女  321111197709297   晖来计算机传媒有限公司                  其他
6    6  许丽娟  女  610400197509034    万迅电脑传媒有限公司                 造型师
7    7   刘玲  女  522731197802092  惠派国际公司网络有限公司                  其他
8    8  马冬梅  男  610328197204105   济南亿次元信息有限公司              汽车质量管理
9    9  张淑珍  女  330181196301267    商软冠联网络有限公司              综合业务专员
10  10   王亮  女  332502196204251      富罳信息有限公司             Web前端开发
11  11  苏春梅  男  532722196904151      联软科技有限公司             导游/旅行顾问
12  12  徐秀芳  男  530427197301129    黄石金承传媒有限公司              科研管理人员
13  13   王娜  女  142332199709248    商软冠联传媒有限公司               团购业务员
14  14   石

## 美国犯罪调查
欣欣作为悬疑犯罪类型美剧的忠实爱好者，调查了美国1960-2014年的各种类型的犯罪数据，包括暴力犯罪，财产犯罪，谋杀，强奸等等。
她想要调查美国历史上最危险的时间。例如，暴力犯罪发生最频繁的年份。

欣欣可以先把年份设置为数据的行索引，然后只需要通过获取"暴力犯罪"这列最大值的行索引，便能获取到对应的最频繁的年份。

最后使用格式化输出结果：
暴力犯罪发生最多的年份是xxxx

本题中需要用到 获取DataFrame中某列最大值的索引位置 这个知识点，请先点击提示进行学习。

* 获取DataFrame中某列最大值的索引位置

通过列索引访问到DataFrame里某列数据后，可以直接对该列数据使用idxmax()函数，来获取该列最大值所在的索引位置。

比如，df中存储了每年的犯罪数据，要获取"谋杀"发生最多的年份的具体代码如下：
```
murderMax = df["谋杀"].idxmax()
print(murderMax)

输出结果：
1991
```

In [14]:
# 导入pandas模块，并以"pd"为该模块的简写
import pandas as pd

# 使用read_csv()函数，获取文件"/Users/xinxin/US_Crime_Rates_1960_2014.csv"，并赋值给df
df = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_7_output/xinxin/US_Crime_Rates_1960_2014.csv")

# TODO 使用set_index()函数，将"年份"设置成df的行索引
df = df.set_index("年份")

# TODO 获取df中"暴力犯罪"最多的年份，并赋值给violentMax
violentMax = df["暴力犯罪"].idxmax()

# TODO 格式化输出结果："暴力犯罪发生最多的年份是{violentMax}"
print(f"暴力犯罪发生最多的年份是{violentMax}")

暴力犯罪发生最多的年份是1992


## 消费行为
李华是兴兴药店的店长，他想通过对近期药品销售数据的分析，了解药店患者的日均消费次数、日均消费金额和客单价。

下图中展示了兴兴药店2018年药品的部分销售数据，每一行代表一条独立的消费数据：
请利用今日所学内容，帮助李华计算出药店患者的日均消费次数、日均消费金额和客单价，并在最后使用print()格式化输出这些信息。
```
1. 日均消费次数的公式为：
日均消费次数 = 总消费次数 / 天数
其中，总消费次数 = 销售数据的总行数； 天数 = 购药的结束日期减去购药的开始日期，也就是("购药时间"列的最后一个数据) - ("购药时间"列的第一个数据)

2. 日均消费金额的公式为：
日均消费金额 = 总消费金额 / 天数
其中，总消费金额 = dataDF["实收金额"]这一列数据的总和

3. 客单价的公式为：
客单价 = 总消费金额 / 总消费次数

格式化输出的格式为：
日均消费次数是xx，日均收入金额为xx，客单价为xx
```

本题中需要用到获取DataFrame的总行数、计算天数、访问DataFrame的元素和计算某列数据总和这四个知识点，请先点击提示进行学习。

```
1. 获取DataFrame的总行数
dataDF的总行数其实就是行索引index的长度，那么可以直接使用len(dataDF.index)，来获取总行数。

2. 计算天数
通过访问时间间隔的.days属性，就能获取到天数。

例如，开始日期是startTime，结束日期是endTime，计算这两个变量之间间隔天数的具体代码为：
day = (endTime-startTime).days

⚠️注意，在计算天数时，需要对时间类型的数据进行处理，所以需要先使用pd.to_datetime()函数，把dataDF["购药时间"]这一列字符串型数据转为datetime类型。

3. 访问DataFrame的元素
在之前的课程中，我们学习了访问DataFrame里的行数据和列数据的方法。如果想要读取某个指定的元素，可以使用.loc[行索引,列索引]的方式进行读取。

比如，要访问"购药时间"列里，第一个数据的代码为：
df.loc[0,"购药时间"]


4. 计算某列数据总和
通过列索引访问到某列数据后，直接使用sum()函数计算该列数据总和。

例如，计算销售数量总和的具体代码为：
volume = dataDF["销售数量"].sum()
输出是：
15682
```

In [16]:
# 导入pandas模块
import pandas as pd
# 读取文件，并赋值给变量dataDF
dataDF = pd.read_csv("/Users/xiaojiangyue/programming-study-notes/Python/数据分析/lesson_7_output/xingxing/兴兴药店2018年销售数据.csv")

# TODO 将dataDF中"购药时间"这一列数据从字符串类型转换为日期类型
dataDF["购药时间"] = pd.to_datetime(dataDF["购药时间"])

# TODO 使用len()函数和dataDF.index，计算总消费次数，并赋值给变量total
total = len(dataDF.index)

# TODO 使用.loc属性，分别获取dataDF变量里的开始日期startTime和结束日期endTime
startTime = dataDF.loc[0, "购药时间"]
endTime = dataDF.loc[total-1, "购药时间"]

# TODO 使用.days属性计算天数，并赋值给变量day
day = (endTime - startTime).days

# TODO 1. 根据题目里的公式计算日均消费次数，并赋值给变量dailyTimes
dailyTimes = total / day

# TODO 使用列索引和sum()函数计算总消费金额，并赋值给变量totalMoney
totalMoney = dataDF["实收金额"].sum()

# TODO 2. 根据题目里的公式计算日均消费金额，并赋值给变量dailyMoney
dailyMoney = totalMoney / day

# TODO 3. 根据题目里的公式计算客单价，并赋值给变量pct
pct = totalMoney / total

# TODO 使用print格式化输出
# 日均消费次数是{dailyTimes}，日均收入金额为{dailyMoney}，客单价为{pct}
print(f"日均消费次数是{dailyTimes}，日均收入金额为{dailyMoney}，客单价为{pct}")

日均消费次数是33.040201005025125，日均收入金额为1530.4743718592965，客单价为46.321581749049436
