# [Python 数据分析入门与进阶](https://www.shiyanlou.com/courses/764/learning/?id=3454)

对于数据分析来说，也同样有各种各样的 Python 软件包，如：

IPython - 易用的 Python 交互式终端。
**NumPy - 科学计算软件包，强大的矩阵处理能力。（科学计算）**
**Pandas - 基于 NumPy, 更加强大方便易用的矩阵运算功能。（数据分析）**
Scikit-Learn - 包含了各种机器学习算法。
Keras - 包含了各种神经网络算法，可以满足各种数据分类，聚类需求。
Matplotlib - 强大的绘图软件包，可以绘制各种各样的图表。

## NumPy 和 Pandas 基础入门

### NumPy 数值计算包( Numerical Python )

数据分析的基础是数据，原始数据应该在计算机中会以某种数据结构进行存储，后续的分析操作都是在基于这些数据结构进行的。比较容易能想到，我们分析的数据大多都是数据都是二维的，有行和列之分，这样的数据刚开始可能存储在 Excel 或者 数据库表之中。那么在 Python 中有没有什么软件包可以很方便的处理这种二维数据或者更多维的数据呢？ 那就是 NumPy。

NumPy 提供了对多维数组（矩阵）的高效支持，同时还有以下优点：

- Ndarray, 核心数据结构，支持矢量运算的多维数组，在内存中进行连续存储。
- 各种操作多维数组的函数。
- 用于集成其他编程语言的各种接口。

NumPy 本身没有提供高级的数据分析功能，但理解 NumPy 数组以及面向数组的各种计算有助于更加高效使用其他数据分析工具。


#### 笔记汇总
- random = np.random.random(12) #返回随机的浮点数，在半开区间 [0.0, 1.0)
- randn = np.random.randn(12) #返回一个样本，具有标准正态分布
- rand = np.random.rand(12) #0-1之间的随机值

#### 多维的创建

NumPy 的主要对象是多维数组 Ndarray。在 NumPy 中维度 Dimensions 叫做轴 Axes，轴的个数叫做秩 Rank。

NumPy 的核心是多维数组，是通过 **Ndarray对象**做到的，Ndarray 对象是一个灵活的数据容器，可以基于此容器对数据进行各种运算。

下面我们开始尝试创建一个多维数组：

In [2]:
import numpy as np

a1 = np.array([1,2,3,4]) # a1 为一维数组
a2 = np.array([[1.0, 2.5, 3], [0.5, 4, 9]]) # a2 为二维数组  
print("数组类型",type(a1))
print("数组a1：{}，元素个数：{}，形状：{}，元素类型：{}".format(a1,a1.size,a1.shape,a1.dtype))
print("数组a2：{}，元素个数：{}，形状：{}，元素类型：{}，最小值：{}".format(a2,a2.size,a2.shape,a2.dtype,a2.min()))


数组类型 <class 'numpy.ndarray'>
数组a1：[1 2 3 4]，元素个数：4，形状：(4,)，元素类型：int32
数组a2：[[1.  2.5 3. ]
 [0.5 4.  9. ]]，元素个数：6，形状：(2, 3)，元素类型：float64，最小值：0.5


二维数组可以想象到类似于 Excel 表中的数据，有行列之分。
比如 a2.shape 输出为 (2, 3), 代表其是一个 2 行 3 列的数组。

**ndarray对象的属性**
- ndarray.shape 属性:数组每一维度的数量
- ndarray.size 属性:数组的元素个数
- ndarray.dtype 属性:数组内部存储的元素是什么类型，NumPy 支持常见的类型，如浮点数，整数，布尔值，字符串，Python 对象。
- ndarray.ndim 属性：数组的维度

**NumPy 创建多维数组的多种方法：**

- np.arange 类似于 Python 内置的 range，**只能创建一维数组**；
- np.ones 创建元素值全部为 1 的数组；
- np.zeros 创建元素值全为 0 的数组；
- np.empty 创建空值多维数组，只分配内存，不填充任何值；
- np.random.random 创建元素值为随机值的多维数组；
- ndarray.reshape()方法 **Ndarray 对象变形为其他维度的数组。**

以上全部函数都能接收一个 **dtype 参数，用于指定多维数组元素的类型**,当没有指定 dtype 类型时，多维数组元素类型默认是 float64。

而**后四个函数需要通过元组指定创建的数组形状**，比如 (2, 3) 指定创建数组为 2 行 3 列。当然 NumPy 既然支持多维数组，所以也可以创建三维，四维数组，只需要设置指定形状的元组长度为 3 和 4 即可。

In [3]:
a1 = np.arange(4)
print("创建一维数组 a1：\n{},形状{},维度{}".format(a1,a1.shape,a1.ndim))
a2 = np.ones((1,1), dtype=np.int64)
print("创建全1多维数组 a2：\n{},形状{},维度{}".format(a2,a2.shape,a2.ndim))
a3 = np.zeros((1,1))
print("创建全0多维数组 a3：\n{},形状{},维度{}".format(a3,a3.shape,a3.ndim))
a4 = np.empty((2,2,3))
print("创建空值多维数组 a4：\n,{},形状{},维度{}".format(a4,a4.shape,a4.ndim))
a5 = np.random.random((2,3,1,2))
print("创建随机多维数组 a5：\n,{},形状{},维度{}".format(a5,a5.shape,a5.ndim))
a6 = np.arange(12)
print("变形前数组 a6：\n,{},形状{},维度{}".format(a6,a6.shape,a6.ndim))
a7 = a6.reshape(4, 3)
print("变形后数组 a6：\n,{},形状{},维度{}".format(a7,a7.shape,a7.ndim))

创建一维数组 a1：
[0 1 2 3],形状(4,),维度1
创建全1多维数组 a2：
[[1]],形状(1, 1),维度2
创建全0多维数组 a3：
[[0.]],形状(1, 1),维度2
创建空值多维数组 a4：
,[[[1.20183064e-311 3.16202013e-322 0.00000000e+000]
  [0.00000000e+000 7.56587583e-307 2.62040465e+180]]

 [[5.54937496e+170 3.54390972e-061 1.82795139e+184]
  [1.04784202e+165 2.14794875e+184 6.23355941e-038]]],形状(2, 2, 3),维度3
创建随机多维数组 a5：
,[[[[0.32820922 0.88312698]]

  [[0.50526877 0.1777091 ]]

  [[0.511597   0.57984011]]]


 [[[0.69499034 0.57921752]]

  [[0.22805681 0.75820981]]

  [[0.96611257 0.66393043]]]],形状(2, 3, 1, 2),维度4
变形前数组 a6：
,[ 0  1  2  3  4  5  6  7  8  9 10 11],形状(12,),维度1
变形后数组 a6：
,[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]],形状(4, 3),维度2


#### 多维数组索引

在 Python 中一个列表，可以非常灵活的使用 : 切片选择部分元素：

#### python 切片

先创建了一个列表，然后通过切片选择部分列表元素，几种切片用法含义如下，


- l[:2] 选择列表中前 2 个元素；
- l[2:4] 选择列表的第 3，4 元素；
- l[1:5:2] 选择列表的第 1 个到第 4 个元素，且步长为 2。

注意，**左闭右开**，列表的索引都是从 0 开始的。

In [4]:
l = [1, 2, 3, 4, 5]

print(l[:2])
print(l[2:4])
print(l[1:5:2])

[1, 2]
[3, 4]
[2, 4]


在 NumPy 中的多维数组中，也支持类似于上面的索引方式。

#### 一维数组切片

和 Python 列表的工作方式完全一样，当然多维数组的切片比 Python 列表切片还要强大的多，**因为通过切片可以进行赋值操作，一次性改变数组中的多个元素**

In [5]:
a1 = np.arange(12)
print("原数组",a1)
print(a1[1:4])
print(a1[1:10:2])
a1[1:10:2] = 1
print(a1[1:10:2])
print("赋值后数组",a1)

原数组 [ 0  1  2  3  4  5  6  7  8  9 10 11]
[1 2 3]
[1 3 5 7 9]
[1 1 1 1 1]
赋值后数组 [ 0  1  2  1  4  1  6  1  8  1 10 11]


#### 多维数组切片

对于二维数组，每个索引值对应的元素不再是一个值，而是一个一维数组；
可以通过 a[x, y] 的方式进行索引

In [6]:
a = np.arange(12).reshape(3, 4)
print(type(a))
print("原数组\n {} \n 形状：{} 维度：{}".format(a,a.shape,a.ndim))
print("取第一行\n {} 形状：{} 维度：{}".format(a[0],a[0].shape,a[0].ndim)) 
print("取第一列\n {} 形状：{} 维度：{}".format(a[:,0],a[:,0].shape,a[:,0].ndim))
print("取前两行\n {} 形状：{} 维度：{}".format(a[0:2],a[0:2].shape,a[0:2].ndim)) 
print("取前两列\n {} 形状：{} 维度：{}".format(a[:,:2],a[0:2].shape,a[0:2].ndim))

<class 'numpy.ndarray'>
原数组
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] 
 形状：(3, 4) 维度：2
取第一行
 [0 1 2 3] 形状：(4,) 维度：1
取第一列
 [0 4 8] 形状：(3,) 维度：1
取前两行
 [[0 1 2 3]
 [4 5 6 7]] 形状：(2, 4) 维度：2
取前两列
 [[0 1]
 [4 5]
 [8 9]] 形状：(2, 4) 维度：2


注意：单独一个冒号表示选择整个轴上的数组。

In [7]:
a = np.arange(9)
a = a.reshape((3,3))
print(a,'维度：',a.ndim)
q1 = a[:2,1:]
print('切片1:{},维度：{},形状：{}'.format(q1,q1.ndim,q1.shape))
q2= a[2]
print('切片2:{},维度：{},形状：{}'.format(q2,q2.ndim,q2.shape))
q3= a[2,:]
print('切片3:{},维度：{},形状：{}'.format(q3,q3.ndim,q3.shape))
q4= a[2:,:]
print('切片4:{},维度：{},形状：{}'.format(q4,q4.ndim,q4.shape))

[[0 1 2]
 [3 4 5]
 [6 7 8]] 维度： 2
切片1:[[1 2]
 [4 5]],维度：2,形状：(2, 2)
切片2:[6 7 8],维度：1,形状：(3,)
切片3:[6 7 8],维度：1,形状：(3,)
切片4:[[6 7 8]],维度：2,形状：(1, 3)


切片3 `a[2,:]` 和切片4 `a[2:,:]` 数字一样，但最大的区别在于：**维度不同，切片3获取的是一维数组，切片4获取的是二维数组**


对于三维数组，每个索引值对应的元素不再是一维数组，而是一个二维数组；三维数组可以通过 a[x, y, z] 的方式进行

三维数组可以想象成一张表上面叠了一张表,3x3x3理解成魔方

一个 2x2x3 的数组

- 2：Z轴：厚度
- 2：X轴：行数
- 3：Y轴：列数

In [8]:
a = np.arange(12).reshape((2,2,3))
print('元组：\n{}\n 维度：{},形状：{}'.format(a,a.ndim,a.shape))
q1 = a[0]
print('切片1，切第一张表:\n{},维度：{},形状：{}'.format(q1,q1.ndim,q1.shape))
q2= a[1]
print('切片2，切第二张表:\n{},维度：{},形状：{}'.format(q2,q2.ndim,q2.shape))
q3= a[:2,:1]
print('切片3:{},维度：{},形状：{}'.format(q3,q3.ndim,q3.shape))
q4= a[:2,:1,:2]
print('切片4:{},维度：{},形状：{}'.format(q4,q4.ndim,q4.shape))

元组：
[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]
 维度：3,形状：(2, 2, 3)
切片1，切第一张表:
[[0 1 2]
 [3 4 5]],维度：2,形状：(2, 3)
切片2，切第二张表:
[[ 6  7  8]
 [ 9 10 11]],维度：2,形状：(2, 3)
切片3:[[[0 1 2]]

 [[6 7 8]]],维度：3,形状：(2, 1, 3)
切片4:[[[0 1]]

 [[6 7]]],维度：3,形状：(2, 1, 2)


#### 多维数组基础运算

基础运算一般包括加减乘除，而这些 NumPy 都有很好的支持。在 Python 自带的列表中，如果想使列表（数组）中每一个元素都加上同一个数，需要通过遍历实现，但是在 NumPy 中则异常简单，和普通的加法语法一样简洁：

In [9]:
a = np.arange(12).reshape(3, 4)
print('数组：\n',a)
a += 1
print('数组加一：\n',a)
a *= 2
print('数组翻倍：\n',a)

数组：
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
数组加一：
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
数组翻倍：
 [[ 2  4  6  8]
 [10 12 14 16]
 [18 20 22 24]]


多维数组和数字（标量）间的运算非常简单，同样多维数组间的运算也非常容易：

In [10]:
a = np.arange(4).reshape(2, 2)
b = np.arange(4, 8).reshape(2, 2)
print('数组：\n',a)
print('数组：\n',b)
print('两个数组相加：\n',a + b)
print('两个数组相减：\n',b - a)
print('两个数组相乘：\n',a * b)


数组：
 [[0 1]
 [2 3]]
数组：
 [[4 5]
 [6 7]]
两个数组相加：
 [[ 4  6]
 [ 8 10]]
两个数组相减：
 [[4 4]
 [4 4]]
两个数组相乘：
 [[ 0  5]
 [12 21]]


可以看到多维数组间的运算规则是**相同位置（坐标）上的值进行运算**得到最终结果。
Numpy 的线性代数中所不同的是 * 是矩阵的逐元素乘积，而不是矩阵的点乘积

需要注意的是，多维数组的组织方式和矩阵相同，但其乘法的运算规则却和矩阵的运算规则不同，如果想对 Ndarray 对象使用矩阵的乘法运算规则，可以使用 ndarray.dot 方法，比如计算上面演示代码中 a 和 b 的矩阵乘法结果：

In [11]:
a.dot(b)

array([[ 6,  7],
       [26, 31]])

多维数组还支持逻辑比较运算，比如我们想知道一个多维数组中哪些值大于某一个指定值？典型的做法是通过循环实现，但是在 NumPy 中却可以直接通过比较实现：

In [12]:
a = np.arange(12).reshape(4, 3)
print('元组：\n{}\n 维度：{},形状：{}'.format(a,a.ndim,a.shape))
b = a > 5
print(b)
print(a[b])

元组：
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
 维度：2,形状：(4, 3)
[[False False False]
 [False False False]
 [ True  True  True]
 [ True  True  True]]
[ 6  7  8  9 10 11]


首先通过 a > 5 生成了一个形状和 a 一致的多维数组，所有为 True 的元素的位置在 a 中的值都大于 5。然后就可以使用 a[b] 这种形式列出 a 中所有大于 5 的元素。

**NumPy 的多维数组还有一些方法**，可以用于统计数组中一些统计量，假如 a 为一个多维数组，则

- a.sum() 计算多维数组的所有元素的和；
- a.max() 最大值计算；
- a.min() 最小值计算；
- a.mean() 平均值计算；
- a.std() 标准差计算；
- a.var() 方差计算；

以上所有方法，都可以接受一个 axis 参数，用于指定具体统计哪根轴上的数据。

比如二维数组，可以理解为有 x, y 两根轴，分别代表行和列，指定 axis=0 时代表分别统计每列上的数据，axis=1 时，代表分别统计每一行上的数据。没有指定axis 参数时，代表统计所有元素。

In [13]:
a = np.arange(12).reshape(4, 3)
print('元组：\n{}\n 维度：{},形状：{}'.format(a,a.ndim,a.shape))
print(a.sum())
print(a.sum(axis=0))
print(a.sum(axis=1))

元组：
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
 维度：2,形状：(4, 3)
66
[18 22 26]
[ 3 12 21 30]


可以看到，a.sum(axis=0) 统计了每一列的和，并生成了一个一纬度数组，而 a.sum(axis=1) 则分别统计了行的和。

除了 Ndarray 多维数组对象自己的方法外，NumPy 还自带了一些通用函数，可以进行各种计算：

- np.sqrt 开方运算；
- np.dot 矩阵乘法；
- np.sort 排序；
- np.linalg 模块中包含了一些基本的线性代数计算函数；

### [pandas.DataFrame.copy](https://www.cjavapy.com/article/348/)

= 的赋值方式会带有关联性 深拷贝 copy 浅拷贝

`DataFrame.copy(deep=True)`  复制此对象的索引和数据。

- 参数：deep ： bool，默认为True   创建深层副本，包括数据和索引的副本。随着deep=False无论是指数还是数据复制。

    - 当deep=True（默认）时，将使用调用对象的数据和索引的副本创建新对象。对副本的数据或索引的修改不会反映在原始对象中。

    - 当deep=False，将创建一个新对象而不复制调用对象的数据或索引（仅复制对数据和索引的引用）。对原始数据的任何更改都将反映在浅层副本中（反之亦然）。

- 返回：copy ： Series，DataFrame或Panel 对象类型与调用者匹配。


In [14]:
import numpy as np

a = np.arange(4)


b = a
c = a
d = b

print(a,b,c,d)

[0 1 2 3] [0 1 2 3] [0 1 2 3] [0 1 2 3]


In [15]:
# 改变a的第一个值，b、c、d的第一个值也会同时改变。

a[0] = 11
print(b)
print(c)
print(d)

print(id(a))
print(id(b))
print(id(c))
print(id(c))

[11  1  2  3]
[11  1  2  3]
[11  1  2  3]
2432559250368
2432559250368
2432559250368
2432559250368


可以看出，用 = 赋值，他们的 ID 是关联到同一个地址

copy() 的赋值方式没有关联性，ID 不同

In [16]:
b = a.copy()    # deep copy
print(b)        # array([11, 22, 33,  3])
a[3] = 44
print(a)        # array([11, 22, 33, 44])
print(b)        # array([11, 22, 33,  3])

print(id(a))
print(id(b))

[11  1  2  3]
[11  1  2 44]
[11  1  2  3]
2432559250368
2432559331488




## Pandas 数据处理包

在数据分析中，我们更多的针对表格数据进行处理，也就是 NumPy 中的二维数组数据，尽管 NumPy 对于多维数组的支持已经足够强大，但 Pandas 处理这些二维数据时更加得心应手。Pandas 建立在 NumPy 基础之上，但增加了更加高级实用的功能，比如数据自动对齐功能，时间序列的支持，缺失数据的灵活处理等等。

Pandas 是用来处理表格型和异质型数据。而 Numpy 更适合处理同质型的数值类数组数据。

先导入
```
import pandas as pd
from pandas import Series,DataFrame
```

**Pandas 数据结构**

**Series 和 DataFrame 是 Pandas 中的两种核心数据结构**，大部分 Pandas 的功能都围绕着两种数据结构进行。

### Series
Series 是一种一维的数组型对象，它包含一个值序列，并且包含了数据标签，即索引。索引可以定制，当不指定时默认使用整数索引，而且索引可以被命名：

In [17]:
import pandas as pd

s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s1)
print(s2)

s2.index.name = 'index'
print(s2.index)

0    1
1    2
2    3
3    4
4    5
dtype: int64
a    1
b    2
c    3
d    4
e    5
dtype: int64
Index(['a', 'b', 'c', 'd', 'e'], dtype='object', name='index')


以上代码中先后创建了 s1 和 s2 两个序列，前一个使用了默认的整数索引，后一个使用了我们指定的字符索引，同时还可以对索引进行命名。

#### 构建 Series

可以将 python 中的字典生产一个 Series

In [18]:
import pandas as pd
data = {'user_id': 18, 'course': 45, 'minutes': 9}
df2 = pd.Series(data)
df2

user_id    18
course     45
minutes     9
dtype: int64

### DataFrame

#### 构建 DataFrame
多种方式可以构建 DataFrame，其中最常用的方式

- 包含等长度列表的字典(值必须是列表)
- 包含等长度 Numpy 数组的字典

In [19]:
data = {'user_id': [5348, 13], 'course': [12, 45], 'minutes': [9, 36],
        'name': ['Linux 基础入门', '数据分析']}
df2 = pd.DataFrame(data)
df2

Unnamed: 0,user_id,course,minutes,name
0,5348,12,9,Linux 基础入门
1,13,45,36,数据分析


In [33]:
# 会报错
data = {'user_id': 18, 'course': 45, 'minutes': 9}
df2 = pd.DataFrame(data)
print(df2)

ValueError: If using all scalar values, you must pass an index

In [34]:
data = {'user_id': [18], 'course': [45], 'minutes': [9]}
df2 = pd.DataFrame(data)
df2

Unnamed: 0,user_id,course,minutes
0,18,45,9


DataFrame 类似于二维数组，有行和列之分，除了像 Series 一样，有行索引(索引)，还有列索引(标签)， 索引和标签本身都可以被命名：

In [35]:
df = pd.DataFrame(np.random.randn(4, 4), index=['a', 'b', 'c', 'd'], columns=['A', 'B', 'C', 'D'])
print(df)
print(df.index)
print(df.columns)

          A         B         C         D
a -0.965893 -1.061419  0.033638 -0.349583
b  3.843169 -0.615549 -0.625340 -0.016810
c  0.807868  0.316944 -0.505534 -1.665043
d  0.205301  0.308307  0.186265  0.571222
Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['A', 'B', 'C', 'D'], dtype='object')


上面的代码中，通过指定索引和标签（columns 参数）创建了一个 DataFrame 实例。

- df.index 所有索引(行)
- df.columns 所有列标签

类似于 NumPy 数组，当生成了 Series 和 DataFrame 数据时，我们怎么选择其中的部分数据呢？

### 选择 Series 数据
对于 Series 数据来说，主要通过其索引来进行选择。由于 Series 是一种一维的数组型对象，它只有行

- 默认的整数索引 `s2[0]  \ s2.iloc[0]`
- 指定的字符索引 `s2['a'] \ s2.loc['a']`

其实整数索引和字符索引，分别调用了 s2.iloc 和 s2.loc 索引

```
print(s2[0])
print(s2['a'])
print(s2[0:3])
print(s2['a':'c'])
```

两者等价

```
print(s2.iloc[0])
print(s2.loc['a'])
print(s2.iloc[0:3])
print(s2.loc['a':'c'])
```

In [36]:
s2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s2)
print(s2[0])
print(s2['a'])
print(s2[0:3])
print(s2['a':'c'])

a    1
b    2
c    3
d    4
e    5
dtype: int64
1
1
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
dtype: int64


In [37]:
s2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s2)
print(s2.iloc[0])
print(s2.loc['a'])
print(s2.iloc[0:3])
print(s2.loc['a':'c'])

a    1
b    2
c    3
d    4
e    5
dtype: int64
1
1
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
dtype: int64


### 选择 DataFrame 数据

对于 DataFrame 数据来说，由于有行列之分，所以可以有多种选择数据的方式，比如通过索引(行)或者标签(列)来选择。

#### 选择某一列 (按照字典型标记或属性那样检索为 Series)

- df.A 的属性方式
- df['A'] 的方式

#### 选择多列
- df[df.columns[0:2]]
- df[['A','D']]

前面我们提到过可以根据 loc 属性来选择某一行，iloc 根据整数索引来选择某一行，这些在 DataFrame 中都是可以的。

#### 选择某一行
- df.iloc[0]
- df.loc['a']

#### 选择多行
- df.iloc[0:3]
- df.loc['a':'c']

df.loc[行index, 列columns] 支持二维的选择，也就是同时选择行和列， : 符号代表选择所有的行。

#### 选择行和列

- df.loc['a', 'A']
- df.loc[:, ['B', 'C', 'D']]
- df.loc['b':'c', 'B':'C']

In [38]:
df = pd.DataFrame(np.random.randn(4, 4), index=['a', 'b', 'c', 'd'], columns=['A', 'B', 'C', 'D'])
print(df)
print('选择第一列')
print(df.A,type(df.A))
print(df['A'],type(df['A']))
print('选择多列')
print(df[df.columns[0:2]])
print(df[['A','D']])
print('选择第一行')
print(df.iloc[0])
print(df.loc['a'])
print('选择第多行')
print(df.iloc[0:3])
print(df.loc['a':'c'])
print('选择行和列')
print(df.loc['a', 'A'])
print(df.loc[:, ['B', 'C', 'D']])
print(df.loc['b':'c', 'B':'C'])

          A         B         C         D
a -0.656938 -1.211875  0.940156 -1.336807
b -0.835564  0.188569  1.100676  1.535068
c  1.871749 -1.601338 -0.389581  0.474731
d  0.683557  0.349398  0.172218  1.038961
选择第一列
a   -0.656938
b   -0.835564
c    1.871749
d    0.683557
Name: A, dtype: float64 <class 'pandas.core.series.Series'>
a   -0.656938
b   -0.835564
c    1.871749
d    0.683557
Name: A, dtype: float64 <class 'pandas.core.series.Series'>
选择多列
          A         B
a -0.656938 -1.211875
b -0.835564  0.188569
c  1.871749 -1.601338
d  0.683557  0.349398
          A         D
a -0.656938 -1.336807
b -0.835564  1.535068
c  1.871749  0.474731
d  0.683557  1.038961
选择第一行
A   -0.656938
B   -1.211875
C    0.940156
D   -1.336807
Name: a, dtype: float64
A   -0.656938
B   -1.211875
C    0.940156
D   -1.336807
Name: a, dtype: float64
选择第多行
          A         B         C         D
a -0.656938 -1.211875  0.940156 -1.336807
b -0.835564  0.188569  1.100676  1.535068
c  1.871749 -1.601338 -0.3895

### [pandas索引和选择数据](https://blog.csdn.net/flyfish5/article/details/79852938)

pandas中有三种索引方法：.loc，.iloc和[]

- .loc用法
- iloc用法
- 切片操作[]

数据

In [91]:
df1 = pd.DataFrame(np.random.rand(8,4),index=list('abcdefgh'),columns=['A','B','C','D'])
print(df1)

          A         B         C         D
a  0.550621  0.095520  0.646338  0.316438
b  0.829284  0.542531  0.492942  0.258165
c  0.538562  0.537529  0.120112  0.230982
d  0.255179  0.932201  0.423410  0.743246
e  0.166285  0.487388  0.165937  0.537099
f  0.479509  0.114213  0.148638  0.563158
g  0.303887  0.833277  0.575736  0.769772
h  0.108185  0.598747  0.797040  0.465887


#### .loc用法

.loc主要是基于标签(label)的，包括行标签(index)和列标签(columns)，即行名称和列名称，可以使用df.loc[index_name,col_name]，选择指定位置的数据，

- **使用单个标签**。如果.loc[]中只有单个标签，选择某一行。 

df.loc[3]选择的是index名为‘3’的一行，注意这里的’3’是index的名称，而不是序号

下面选择 a 行

In [69]:
df1.loc['a'] # 选择a行

A    0.763085
B    0.812814
C    0.320559
D    0.738258
Name: a, dtype: float64

- **使用标签的list**：选择多行

In [71]:
df1.loc[['a','b','f']] # 选择 a,b,f 三行

Unnamed: 0,A,B,C,D
a,0.763085,0.812814,0.320559,0.738258
b,0.096638,0.680995,0.889563,0.276047
f,0.32527,0.033999,0.699735,0.313089


- **标签的切片对象**：与通常的python切片不同，在最终选择的数据中包含切片的start和stop. **左闭右闭**

切片多行

In [72]:
df1.loc['a':'c'] # 选择 a到c所有行

Unnamed: 0,A,B,C,D
a,0.763085,0.812814,0.320559,0.738258
b,0.096638,0.680995,0.889563,0.276047
c,0.400557,0.281996,0.864719,0.893291


- **布尔型的数组**：通常用于筛选列符合某些条件的行

In [77]:
df1.loc[df1['A']>0.5]  # 所有 ‘A’ 列大于0.5的行
#df1.loc[df1.A>0.5]  # 同上

Unnamed: 0,A,B,C,D
a,0.763085,0.812814,0.320559,0.738258
d,0.555589,0.946202,0.120252,0.14518
h,0.834092,0.710121,0.487061,0.881206


In [78]:
df1.loc[df1['A']>0.5,['C','D']]# ‘A’ 列大于0.5的所有行中 'C' 'D' 列

Unnamed: 0,C,D
a,0.320559,0.738258
d,0.120252,0.14518
h,0.487061,0.881206


- 可调用函数

lambda表达式语法：
lambda 传入参数 ： 返回的计算表达式

In [80]:
df1.loc[lambda df1:df1['A']>0.5,:]

Unnamed: 0,A,B,C,D
a,0.763085,0.812814,0.320559,0.738258
d,0.555589,0.946202,0.120252,0.14518
h,0.834092,0.710121,0.487061,0.881206


####  iloc用法
iloc是基于位置的索引，利用元素在各个轴上的索引序号进行选择，序号超出范围会产生IndexError，切片时允许序号超过范围，用法包括：

- **使用整数**：与.loc相同，如果只使用一个维度，则对行选择，下标从0开始

In [81]:
df1.iloc[5] # 选择 f 行

A    0.325270
B    0.033999
C    0.699735
D    0.313089
Name: f, dtype: float64

- **使用列表或数组**，同样是对行选择

In [82]:
df1.iloc[[5,1,7]] # 选择 f，b, h 行

Unnamed: 0,A,B,C,D
f,0.32527,0.033999,0.699735,0.313089
b,0.096638,0.680995,0.889563,0.276047
h,0.834092,0.710121,0.487061,0.881206


- **元素为整数的切片对象**：与.loc不同的是，这里下标为stop的数据不被选择 **左闭右开**
    - 对行进行切片
    - 对行和列进行切片

In [84]:
df1.iloc[3:5] # 选择d,e行 对行切片

Unnamed: 0,A,B,C,D
d,0.555589,0.946202,0.120252,0.14518
e,0.421522,0.321023,0.009352,0.823612


In [86]:
df1.iloc[0:3,1:3] #选择ab行，BC列，对行和列切片

Unnamed: 0,B,C
a,0.812814,0.320559
b,0.680995,0.889563
c,0.281996,0.864719


**使用布尔数组进行筛选**：注意这里可以使用list或者array，

使用Series的话会出错，NotImplementedError或者ValueError，前者是Series的index与待切片DataFrame的index不同时，后者是index相同时报的错，可以自己实现体会一下。

与.loc使用布尔数组，可以使用list， array，也可以使用Series，使用Series时index需要一致，否则会报IndexingError

In [87]:
df1.iloc[list(df1['A']>0.5)] 
#df1.iloc[np.array(df1['A']>0.5)] # 两种实现方式都可以

Unnamed: 0,A,B,C,D
a,0.763085,0.812814,0.320559,0.738258
d,0.555589,0.946202,0.120252,0.14518
h,0.834092,0.710121,0.487061,0.881206


**使用可调用函数**

In [88]:
df1.iloc[lambda df1:[0,1]]

Unnamed: 0,A,B,C,D
a,0.763085,0.812814,0.320559,0.738258
b,0.096638,0.680995,0.889563,0.276047


#### 切片操作[]

[]操作只能输入一个维度，不能用逗号隔开输入两个维度：

![image.png](attachment:image.png)

- **使用列名**：.loc和iloc只输入一维时选取的是行，而[]选取的是列，并且必须使用列名

In [89]:
df1[['A','B']]

Unnamed: 0,A,B
a,0.763085,0.812814
b,0.096638,0.680995
c,0.400557,0.281996
d,0.555589,0.946202
e,0.421522,0.321023
f,0.32527,0.033999
g,0.214985,0.742845
h,0.834092,0.710121


- **使用布尔数组**：bool数组的index需要和dataframe的index一致，此时选取的是行

因此可以用来筛选符合条件的行：

#### .loc和.iloc的区别

- .iloc使用全是以0开头的行号和列号，不能直接用其它索引哦
- .loc使用的实际设置的索引和列名。

在实际运用中，
- **.iloc只能选取数据表里实际有的行和列**
- **.loc可以选取没有的行和列，赋值后就可以添加新行或者列**

In [92]:
print(df1)

          A         B         C         D
a  0.550621  0.095520  0.646338  0.316438
b  0.829284  0.542531  0.492942  0.258165
c  0.538562  0.537529  0.120112  0.230982
d  0.255179  0.932201  0.423410  0.743246
e  0.166285  0.487388  0.165937  0.537099
f  0.479509  0.114213  0.148638  0.563158
g  0.303887  0.833277  0.575736  0.769772
h  0.108185  0.598747  0.797040  0.465887


In [94]:
df1.loc['E'] = 0
df1

Unnamed: 0,A,B,C,D
a,0.550621,0.09552,0.646338,0.316438
b,0.829284,0.542531,0.492942,0.258165
c,0.538562,0.537529,0.120112,0.230982
d,0.255179,0.932201,0.42341,0.743246
e,0.166285,0.487388,0.165937,0.537099
f,0.479509,0.114213,0.148638,0.563158
g,0.303887,0.833277,0.575736,0.769772
h,0.108185,0.598747,0.79704,0.465887
E,0.0,0.0,0.0,0.0


#### [loc 根据条件，对新增列赋值](https://blog.csdn.net/qq_36523839/article/details/80502574)
`df.loc[条件,新增列] = 赋初始值`

如果新增列名为已有列名，则在原来的数据列上改变

In [96]:
df1.loc[df1['A']<0.5,'小于0.5'] = True
df1

Unnamed: 0,A,B,C,D,小于0.5
a,0.550621,0.09552,0.646338,0.316438,
b,0.829284,0.542531,0.492942,0.258165,
c,0.538562,0.537529,0.120112,0.230982,
d,0.255179,0.932201,0.42341,0.743246,True
e,0.166285,0.487388,0.165937,0.537099,True
f,0.479509,0.114213,0.148638,0.563158,True
g,0.303887,0.833277,0.575736,0.769772,True
h,0.108185,0.598747,0.79704,0.465887,True
E,0.0,0.0,0.0,0.0,True


通过使用loc进行索引，在索引中做判断，然后根据判断的结果给新增的列赋值。

### [筛选数据isin(), str.contains()](https://zhuanlan.zhihu.com/p/29720881)

当然>,<,==,>=,<=都是相同的道理。小心“等于”一定是用‘==’，如果用‘=’就不是判断大小了。

如果有多个条件，就用&将多个条件连接起来，每个条件用（）括起来。

![image.png](attachment:image.png)

##### 筛选某个值在某个列表中 isin

You can use `pd.Series.isin`.

For "IN" use: `something.isin(somewhere)`

Or for "NOT IN": `~something.isin(somewhere)`

In [None]:
df = df[df['subject_1'].isin([1, 2, 13, 18, 25])]

#### 包含某个字符串 str.contains()

![image.png](attachment:image.png)

![image.png](attachment:image.png)

#### 不包括

`new_df = df[~df["col"].str.contains(word)]`

### 缺失值和数据自动对齐

在 Pandas 中最重要的一个功能是，它可以对不同索引的对象进行算术运算。比如将两个 Series 数据进行相加时，如果存在不同的索引，则结果是两个索引的并集，什么意思呢？

In [39]:
s1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
s2 = pd.Series([2, 3, 4, 5], index=['b', 'c', 'd', 'e'])
print(s1)
print(s2)
print(s1+s2)

a    1
b    2
c    3
d    4
dtype: int64
b    2
c    3
d    4
e    5
dtype: int64
a    NaN
b    4.0
c    6.0
d    8.0
e    NaN
dtype: float64


以上代码中创建了两个 s1 和 s2 两个 Series 序列，两者具有相同的索引 ['b', 'c', 'd'], 所以在进行相加时，相同索引上的值会相加，但不重叠的索引引入 NaN 值，也就是缺失值。而缺失值会在运算中传播，所以最终结果也是 NaN 值。

**根据相同的索引进行自动计算，这就是自动对齐功能**

同样的规则，在 DataFrame 数据中也生效：行索引和列索引都相同，才会进行相加。

In [41]:
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), columns=list('ABC'), index=list('abc'))
df2 = pd.DataFrame(np.arange(12).reshape(3, 4), columns=list('ABDE'), index=list('bcd'))
print(df1)
print(df2)
print(df1+df2)

   A  B  C
a  0  1  2
b  3  4  5
c  6  7  8
   A  B   D   E
b  0  1   2   3
c  4  5   6   7
d  8  9  10  11
      A     B   C   D   E
a   NaN   NaN NaN NaN NaN
b   3.0   5.0 NaN NaN NaN
c  10.0  12.0 NaN NaN NaN
d   NaN   NaN NaN NaN NaN


##### fill_value 参数指定 NaN 值的填充值

DataFrame 的计算也会进行自动对齐操作，这个时候没有的行或者列会使用 NaN 值自动填充，而由于 NaN 值会传播，所以相加的结果也是 NaN。当然我们在计算时，可以指定使用值来填充 NaN 值，然后带入计算过程。

In [42]:
df1.add(df2,fill_value = 0)

Unnamed: 0,A,B,C,D,E
a,0.0,1.0,2.0,,
b,3.0,5.0,5.0,2.0,3.0
c,10.0,12.0,8.0,6.0,7.0
d,8.0,9.0,,10.0,11.0


我们指定了使用 0 填充 NaN 值，然后带入计算过程，注意这里填充的不是最终的运算结果。可以看到依然有元素为 NaN 值，这是因为这个位置的元素在 df1 和 df2 中都未定义。

### 常用运算

DataFrame 数据
- df.apply() 将函数应用到每行或者每一列上面
- df.applymap() 将某函数应用到每一个元素上

Series 数据
- s.map() 将某函数应用到每一个元素上

Series 和 DataFrame 的常用运算方式和 NumPy 中的差不多，这里就不多做介绍了。在 Pandas 中还有一种比较常见的操作是**将函数应用到每行或者每一列上面，DataFrame 的 apply 方法可以实现此功能**，比如想统计每行和每列的极差（最大值和最小值之差）：

In [43]:
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), columns=list('ABC'), index=list('abc'))

def f(x): 
    return x.max() - x.min()

print(df1)
print('每列的极差\n',df1.apply(f))
print('行的极差\n',df1.apply(f, axis=1))

   A  B  C
a  0  1  2
b  3  4  5
c  6  7  8
每列的极差
 A    6
B    6
C    6
dtype: int64
行的极差
 a    2
b    2
c    2
dtype: int64


以上代码中，我们定义了 f 函数，该匿数简单的返回列表的极差，然后首先通过 df.apply(f) 应用 f, 统计出了每列的极差，接着通过传入 axis=1 参数，统计出了每行的极差。

DataFrame数据下，函数默认按每列统计，axis=1 时，按行统计。

如果想将某函数应用到每一个元素上，对于 DataFrame 数据可使用 df.applymap 方法，而对于 Series 数据可以使用 s.map 方法：

In [44]:
print('df.applymap(), 将某函数应用到 DataFrame 数据每一个元素上')
print(df1)
print(df1.applymap(lambda x: x+1))
print('s1.map(), 将某函数用到 Series 数据每一个元素上')
s1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s1)
print(s1.map(lambda x: x+1))

df.applymap(), 将某函数应用到 DataFrame 数据每一个元素上
   A  B  C
a  0  1  2
b  3  4  5
c  6  7  8
   A  B  C
a  1  2  3
b  4  5  6
c  7  8  9
s1.map(), 将某函数用到 Series 数据每一个元素上
a    1
b    2
c    3
d    4
dtype: int64
a    2
b    3
c    4
d    5
dtype: int64


### 常用统计

类似于 NumPy，Series 和 DataFrame 也有各种统计方法，比如求平均值，方差，和等方法，同时通过 describe 方法可以得知当前数据的一些常用统计信息：

- DataFrame数据下，函数默认按每列统计，axis=1 时按行统计。
- Series数据下，函数默认统计所有元素, axis=0 时按列统计，axis=1 时按行统计。

describe 方法显示了一些常用的统计信息，具体解释如下：

- count 元素值的数量；
- mean 平均值；
- std 标准差；
- min 最小值；
- 25% 下四分位数；
- 50% 中位数；
- 75% 上四分位数；
- max 最大值；
- sum 计算元素值的和；

describe 方法include 参数：

`df.describe()` 展示数据的一些描述性统计信息,但会过滤掉缺失值。默认只统计数值类型的字段内容。
- `describe(include="ALL")`,统计所有类型的数据
- `describe(include=[np.number])` 只统计数值类型的字段内容：count计数，mean平均数，std方差，min最小值，四分位数，max 最大值
- `describe(include=[np.object])` 只统计object类型的字段内容
- `describe(include=‘O’) 只统计字符串类型的字段内容：count计数，unique唯一值数量，top出现频率最高的内容，freq最高出现频率
- `describe(percentiles=[])`:设置输出的百分位数，默认为[.25，.5，.75]，返回第25，第50和第75百分位数。


对于对象类型数据（例如字符串或时间戳），则返回将包括count，unique， top，和freq。top标识最常见的值。freq标识最常见的值的出现频次。时间戳还包括first和last指标。如果多个对象值具有最高计数，那么将从具有最高计数的那些中任意选择count和top结果。

In [45]:
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), columns=list('ABC'), index=list('abc'))
print(df1)
print(df1.sum())
print(df1.mean())
print(df1.mean(axis=1))
print(df1.describe())

   A  B  C
a  0  1  2
b  3  4  5
c  6  7  8
A     9
B    12
C    15
dtype: int64
A    3.0
B    4.0
C    5.0
dtype: float64
a    1.0
b    4.0
c    7.0
dtype: float64
         A    B    C
count  3.0  3.0  3.0
mean   3.0  4.0  5.0
std    3.0  3.0  3.0
min    0.0  1.0  2.0
25%    1.5  2.5  3.5
50%    3.0  4.0  5.0
75%    4.5  5.5  6.5
max    6.0  7.0  8.0


### 数据合并和分组

有的时候需要合并两个 DataFrame 数据，合并数据的方式主要有两种，一种简单的进行拼接，另一种是根据列名类像数据库表查询一样进行合并。这两种操作可以分别通过调用 pandas.concat 和 pandas.merge 方法实现，

- pandas.concat
- pandas.merge

In [46]:
df1 = pd.DataFrame(np.random.randn(3, 3))
df2 = pd.DataFrame(np.random.randn(3, 3), index=[5,6,7])
print(df1)
print(df2)
pd.concat([df1, df2])

          0         1         2
0  1.095259  0.503254 -0.950906
1  0.516360 -0.484453  0.575758
2 -0.190352 -1.410811 -0.378693
          0         1         2
5  0.175955 -0.394481  0.152373
6  0.425747 -1.073867  0.911858
7 -0.813160 -0.247386 -0.142883


Unnamed: 0,0,1,2
0,1.095259,0.503254,-0.950906
1,0.51636,-0.484453,0.575758
2,-0.190352,-1.410811,-0.378693
5,0.175955,-0.394481,0.152373
6,0.425747,-1.073867,0.911858
7,-0.81316,-0.247386,-0.142883


使用 pandas.concat 函数成功的拼接了两个 DataFrame 数据，类似于数据库中的表加法操作。有的时候，我们有多个数据集，这些数据集有相同的列，这个时候就可以按照这个列进行合并操作，类似于数据库中的 join 操作：

In [47]:
df1 = pd.DataFrame({'user_id': [5348, 13], 'course': [12, 45], 'minutes': [9, 36]})
df2 = pd.DataFrame({'course': [12, 45], 'name': ['Linux 基础入门', '数据分析']})
pd.merge(df1,df2)

Unnamed: 0,user_id,course,minutes,name
0,5348,12,9,Linux 基础入门
1,13,45,36,数据分析


上面的代码中我们通过字典创建了两个数据集，可以看到当通过字段创建 DataFrame 数据集的时，键名变成了列名。df1 和 df2 有共同的列 course, 当进行 merge 操作的时候 Pandas 会自动安装这列进行合并。合并数据集时，有很多参数可以选择，比如选择在根据哪一列进行合并，合并的方式等，可以通过 help(pd.merge) 查看完整的帮助文档.

在 Pandas 中，也支持类似于数据库查询语句 **GROUP BY** 的功能，也就是按照某列进行分组，然后再分组上进行一些计算操作，假如我们有如下的数据集，那么如何计算其中 user_id 是 5348 的用户的学习时间呢？

- 第一种：是筛选出所有 user_id 为 5348 的行，然后进行求和统计。先通过 df[df['user_id'] == 5348] 布尔索引筛选出所有的相关行，然后通过结合列筛选功过滤其他列，只剩下时间统计列 (minutes 所在列为学习时间列），最后通过求和运算统计出了学习时间。

- 第二种：可以使用类似于数据库的 GROUP BY 功能进行计算。先过滤列，只剩下了 user_id 和 minutes 列，然后通过 groupby 方法在 user_id 列上进行分组并求和，相对于前一种方式，分组求和更加灵活一些。

In [48]:
df = pd.DataFrame({'user_id': [5348, 13, 5348], 'course': [12, 45, 23], 'minutes': [9, 36, 45]})
print(df)

df[df['user_id'] == 5348]['minutes'].sum()

   user_id  course  minutes
0     5348      12        9
1       13      45       36
2     5348      23       45


54

In [49]:
df[['user_id','minutes']]

Unnamed: 0,user_id,minutes
0,5348,9
1,13,36
2,5348,45


In [50]:
df[['user_id','minutes']].groupby('user_id')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fde05feb6d8>

In [51]:
df[['user_id','minutes']].groupby('user_id').sum()

Unnamed: 0_level_0,minutes
user_id,Unnamed: 1_level_1
13,36
5348,54


### 时间序列处理

在我们要分析的数据中，很多数据都带有时间戳，比如数据集中的每一项数据都带有一项数据项生成时的时间戳，有的时候我们需要根据这个时间戳进行运算，这在 Pandas 中非常方便。

在 Python 中，时间处理方面的相关功能主要集中在 datetime 包中，主要有的三种对象：

- datetime.datetime 代表时间对象；
- datetime.date 代表某一天；
- datetime.timedelta 代表两个 datetime.datetime 对象之间的时间差；

In [52]:
from datetime import datetime, timedelta

d1 = datetime(2017, 8, 1)
delta = timedelta(days=10)
d1 + delta

datetime.datetime(2017, 8, 11, 0, 0)

以上代码中，简单演示了 datetime.datetime 和 datetime.timedelta 的用法。先创建一个简单的时间序列，然后演示一些基本的用法

In [53]:
from datetime import datetime

dates = [datetime(2018, 1, 1), datetime(2018, 1, 2),
         datetime(2018, 1, 3), datetime(2018, 1, 4)]

ts = pd.Series(np.random.randn(4), index=dates)
print(ts)
print(ts.index)
print(ts.index[0])

2018-01-01   -0.958669
2018-01-02   -1.175007
2018-01-03   -0.827752
2018-01-04   -0.643192
dtype: float64
DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04'], dtype='datetime64[ns]', freq=None)
2018-01-01 00:00:00


以上代码中，我们通过 datetime 时间类型生成了一堆时间，然后基于此创建了一个时间序列 ts , 可以看到 ts 的索引类型为 DatetimeIndex 类型。生成 ts 以后我们就有多种方法**选择元素**了，只需要传入一个能被 Pandas 识别的日期字符串就可以了

In [54]:
print(ts[ts.index[0]])
print(ts['2018-01-01'])
print(ts['2018/01/01'])
print(ts['1/1/2018'])
print(ts[datetime(2018, 1, 1)])

-0.9586690468060068
-0.9586690468060068
-0.9586690468060068
-0.9586690468060068
-0.9586690468060068


可以看到选择元素的方式非常灵活。

在 Pandas 中**生成日期范围**也非常灵活，主要通过 pandas.date_range 函数完成，该函数主要有以下几个参数：

`pd.date_range(start,end,periods,freq)`

- start: 指定了日期范围的起始时间；
- end: 指定了日期范围的结束时间；
- periods: 指定了间隔范围，如果只是指定了 start 和 end 日期的其中一个，则需要改参数；
- freq: 指定了日期频率，比如 D 代表每天，H 代表每小时，M 代表月，这些频率字符前也可以指定一个整数，代表具体多少天，多少小时，比如 5D 代表 5 天。还有一些其他的频率字符串，比如 MS 代表每月第一天，BM 代表每月最后一个工作日，或者是频率组合字符串，比如 1h30min 代表 1 小时 30 分钟。

In [55]:
pd.date_range('2018-1-1', '2019', freq='M')

DatetimeIndex(['2018-01-31', '2018-02-28', '2018-03-31', '2018-04-30',
               '2018-05-31', '2018-06-30', '2018-07-31', '2018-08-31',
               '2018-09-30', '2018-10-31', '2018-11-30', '2018-12-31'],
              dtype='datetime64[ns]', freq='M')

In [56]:
pd.date_range('2018-1-1', '2018-12-1', freq='MS')

DatetimeIndex(['2018-01-01', '2018-02-01', '2018-03-01', '2018-04-01',
               '2018-05-01', '2018-06-01', '2018-07-01', '2018-08-01',
               '2018-09-01', '2018-10-01', '2018-11-01', '2018-12-01'],
              dtype='datetime64[ns]', freq='MS')

freq 参数还有许多频率指定的方式，篇幅有限就不一一介绍了。

#### 日期时间格式转化

In [65]:
import numpy as np  # 科学计算工具包
import pandas as pd  # 数据分析工具包

orders = pd.read_csv("ecommerce_data.csv")
orders.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 113398 entries, 0 to 113397
Data columns (total 21 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   product_id                     113398 non-null  object 
 1   seller_id                      113398 non-null  object 
 2   order_id                       113398 non-null  object 
 3   order_item_id                  113398 non-null  float64
 4   customer_unique_id             113398 non-null  object 
 5   order_status                   113398 non-null  object 
 6   order_purchase_timestamp       113398 non-null  object 
 7   order_approved_at              113398 non-null  object 
 8   order_delivered_customer_date  113398 non-null  object 
 9   order_estimated_delivery_date  113398 non-null  object 
 10  customer_city                  113398 non-null  object 
 11  customer_state                 113398 non-null  object 
 12  seller_city                   

##### 将 object 类型数据转成 datetime64

pd.to_datetime()

In [66]:
# 查看 order_purchase_timestamp 的数据类型
print('转化前',orders['order_purchase_timestamp'].dtype)
print('='*15)
# 将 object 转 datetime64
orders['order_purchase_timestamp'] = pd.to_datetime(orders['order_purchase_timestamp'])
print('转化后',orders['order_purchase_timestamp'].dtype)

orders['order_approved_at'] = pd.to_datetime(orders['order_approved_at'])

转化前 object
转化后 datetime64[ns]


##### 从 datetime 类型的数据中取出需要的时间信息

In [67]:
# 年份
orders['year'] = orders['order_purchase_timestamp'].dt.year

# 月份
orders['month'] = orders['order_purchase_timestamp'].dt.month

#提取日期
orders['date'] = orders['order_purchase_timestamp'].dt.date   

# 取出来是几号 dom：day of month
orders['day'] = orders['order_purchase_timestamp'].dt.day

# 取出一年当中的第几天 doy: day of year
orders['dayofyear'] = orders['order_purchase_timestamp'].dt.dayofyear

# 取出星期几 dow: day of week
orders['dayofweek'] = orders['order_purchase_timestamp'].dt.dayofweek

# 小时
orders['hour'] = orders['order_purchase_timestamp'].dt.hour

# 分钟
orders['minute'] = orders['order_purchase_timestamp'].dt.minute
# 秒钟
orders['second'] = orders['order_purchase_timestamp'].dt.second

orders.head()

Unnamed: 0,product_id,seller_id,order_id,order_item_id,customer_unique_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_customer_date,order_estimated_delivery_date,...,product_category_name_english,year,month,date,day,dayofyear,dayofweek,hour,minute,second
0,87285b34884572647811a353c7ac498a,3504c0cb71d7fa48d967e0e4c94d59d9,e481f51cbdc54678b7cc49136f2d6af7,1.0,7c396fd4830fd04220f754e42b4e5bff,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-10 21:25:13,2017-10-18 00:00:00,...,housewares,2017,10,2017-10-02,2,275,0,10,56,33
1,87285b34884572647811a353c7ac498a,3504c0cb71d7fa48d967e0e4c94d59d9,e481f51cbdc54678b7cc49136f2d6af7,1.0,7c396fd4830fd04220f754e42b4e5bff,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-10 21:25:13,2017-10-18 00:00:00,...,housewares,2017,10,2017-10-02,2,275,0,10,56,33
2,87285b34884572647811a353c7ac498a,3504c0cb71d7fa48d967e0e4c94d59d9,e481f51cbdc54678b7cc49136f2d6af7,1.0,7c396fd4830fd04220f754e42b4e5bff,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-10 21:25:13,2017-10-18 00:00:00,...,housewares,2017,10,2017-10-02,2,275,0,10,56,33
3,595fac2a385ac33a80bd5114aec74eb8,289cdb325fb7e7f891c38608bf9e0962,53cdb2fc8bc7dce0b6741e2150273451,1.0,af07308b275d755c9edb36a90c618231,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-08-07 15:27:45,2018-08-13 00:00:00,...,perfumery,2018,7,2018-07-24,24,205,1,20,41,37
4,aa4383b373c6aca5d8797843e5594415,4869f7a5dfa277a7dca6462dcf3b52b2,47770eb9100c2d0c44946d9cf07ec65d,1.0,3a653a41f6f9fc3d2a113cf8398680e8,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-17 18:06:29,2018-09-04 00:00:00,...,auto,2018,8,2018-08-08,8,220,2,8,38,49


#### 只获取年和月部分


- `orders['order_month'] = orders['order_purchase_timestamp'].dt.to_period('M')`
您还可以使用D表示日期，2M表示2个月等不同的采样间隔，如果有一个时间序列数据带有时间戳，我们可以使用粒度采样间隔，例如作为45Min 45分钟，15Min进行15分钟采样等。

- `orders['order_month'] = orders['order_purchase_timestamp'].values.astype('datetime64[M]')`

In [68]:
orders['order_month'] = orders['order_purchase_timestamp'].dt.to_period('M')
orders['order_month'].head()

0    2017-10
1    2017-10
2    2017-10
3    2018-07
4    2018-08
Name: order_month, dtype: period[M]

In [70]:
orders['order_month'] = orders['order_purchase_timestamp'].values.astype('datetime64[M]')
orders['order_month'].head()

0   2017-10-01
1   2017-10-01
2   2017-10-01
3   2018-07-01
4   2018-08-01
Name: order_month, dtype: datetime64[ns]

#### [Python pandas库 日期时间运算](https://zhuanlan.zhihu.com/p/31385049)

In [50]:
orders[['order_purchase_timestamp','order_approved_at']].head()

Unnamed: 0,order_purchase_timestamp,order_approved_at
0,2017-10-02 10:56:33,2017-10-02 11:07:15
1,2017-10-02 10:56:33,2017-10-02 11:07:15
2,2017-10-02 10:56:33,2017-10-02 11:07:15
3,2018-07-24 20:41:37,2018-07-26 03:24:27
4,2018-08-08 08:38:49,2018-08-08 08:55:23


In [58]:
date_diff = orders['order_approved_at'] -orders['order_purchase_timestamp'] 
print(date_diff.dtypes)
date_diff.head(5)

timedelta64[ns]


0   0 days 00:10:42
1   0 days 00:10:42
2   0 days 00:10:42
3   1 days 06:42:50
4   0 days 00:16:34
dtype: timedelta64[ns]

两个日期时间相减得出的并不是整数型也不是个字符串，而是 datetime 库里常用的 timedelta 型( 代表两个 datetime.datetime 对象之间的时间差)。

##### 如何提取 timedelta 中的天数

对每一个元素使用一次.days就能将数据转换为整数。

In [59]:
date_diff.map(lambda x:x.days)

0         0
1         0
2         0
3         1
4         0
         ..
113393    0
113394    0
113395    0
113396    0
113397    0
Length: 113398, dtype: int64

**timedelta型数据，不能直接转换成年、周、月等，只能转换为天数、秒数和微秒数。而且在返回秒数和微秒数时，如果是负数时，容易出错（例如：-3秒会被处理为-1天86397秒）**

所以在转换间隔秒数时最好使用total_seconds()

In [62]:
date_diff.map(lambda x:x.total_seconds())

0            642.0
1            642.0
2            642.0
3         110570.0
4            994.0
            ...   
113393       699.0
113394      1053.0
113395       474.0
113396       474.0
113397     51778.0
Length: 113398, dtype: float64

## 基本操作
### 排序函数 sort_values()

pandas中的sort_values()函数原理类似于SQL中的order by，可以将数据集依照某个字段中的数据进行排序，该函数即可根据指定列数据也可根据指定行的数据排序。

`DataFrame.sort_values(by=‘##’,axis=0,ascending=True, inplace=False, na_position=‘last’)`

参数	|说明
---|:--:
by|指定列名(axis=0或’index’)或索引值(axis=1或’columns’)
axis|若axis=0或’index’，则按照指定列中数据大小排序；若axis=1或’columns’，则按照指定索引中数据大小排序，默认axis=0
ascending|是否按指定列的数组升序排列，默认为True，即升序排列
inplace|是否用排序后的数据集替换原来的数据，默认为False，即不替换
na_position|{‘first’,‘last’}，设定缺失值的显示位置


In [239]:
import numpy as np
import pandas as pd
df=pd.DataFrame({'col1':['A','A','B',np.nan,'D','C'],
                 'col2':[2,1,9,8,7,7],
                 'col3':[0,1,9,4,2,8]
})
df

Unnamed: 0,col1,col2,col3
0,A,2,0
1,A,1,1
2,B,9,9
3,,8,4
4,D,7,2
5,C,7,8


In [242]:
# 依据第一列排序，并将该列空值放在首位
print(df.sort_values(by=["col1"],na_position='first'))
print("-----"*10)
# 依据第二、三列，数值降序排序
print(df.sort_values(by=['col2','col3'],ascending=False))
print("-----"*10)
# 根据第一列中数值排序，按降序排列，并替换原数据
print(df)
df.sort_values(by=["col1"],ascending=False,na_position='first',inplace=True)
print("-----"*10)
print(df)
print("-----"*10)
x = pd.DataFrame({'x1':[1,2,2,3],'x2':[4,3,2,1],'x3':[3,2,4,1]}) 
print(x)
print("-----"*10)
# 按照索引值为0的行，即第一行的值来降序排序
print(x.sort_values(by=0,axis=1,ascending=False))

  col1  col2  col3
3  NaN     8     4
0    A     2     0
1    A     1     1
2    B     9     9
5    C     7     8
4    D     7     2
--------------------------------------------------
  col1  col2  col3
2    B     9     9
3  NaN     8     4
5    C     7     8
4    D     7     2
0    A     2     0
1    A     1     1
--------------------------------------------------
  col1  col2  col3
3  NaN     8     4
4    D     7     2
5    C     7     8
2    B     9     9
0    A     2     0
1    A     1     1
--------------------------------------------------
  col1  col2  col3
3  NaN     8     4
4    D     7     2
5    C     7     8
2    B     9     9
0    A     2     0
1    A     1     1
--------------------------------------------------
   x1  x2  x3
0   1   4   3
1   2   3   2
2   2   2   4
3   3   1   1
--------------------------------------------------
   x2  x3  x1
0   4   3   1
1   3   2   2
2   2   4   2
3   1   1   3


#### [Fillna() 填充缺失数据](https://blog.csdn.net/weixin_39549734/article/details/81221276)

`DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)`

- 作用：使用指定的方法填充NA / NaN值
- **返回：被充满的DataFrame，默认不修改原对象　**
- 参数：
    - value : 变量, 字典, Series, or DataFrame
    用于填充缺失值（例如0），或者指定为每个索引（对于Series）或列（对于DataFrame）使用哪个字典/Serise/DataFrame的值。（不在字典/Series/DataFrame中的值不会被填充）这个值不能是一个列表。
    - method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, 默认值 None ; 在Series中使用方法填充空白（‘backfill’, ‘bfill’向前填充，‘pad’, ‘ffill’向后填充）
    - axis : {0 or ‘index’, 1 or ‘columns’},默认值 0
    - inplace : boolean, 默认值 False。如果为Ture,在原地填满。注意：这将修改次对象上的任何其他视图（例如，DataFrame中的列的无复制贴片）
    - limit : int, 默认值 None； 如果指定了方法，则这是连续的NaN值的前向/后向填充的最大数量。 换句话说，如果连续NaN数量超过这个数字，它将只被部分填充。 如果未指定方法，则这是沿着整个轴的最大数量，其中NaN将被填充。 如果不是无，则必须大于0。
    - downcast : dict, 默认是 None； 如果可能的话，把 item->dtype 的字典将尝试向下转换为适当的相等类型的字符串（例如，如果可能的话，从float64到int64）

In [5]:
import pandas as pd
import numpy as np
df = pd.DataFrame([[np.nan,2,np.nan,0],
                   [3,4,np.nan,1],
                   [np.nan,np.nan,np.nan,5],
                   [np.nan,3,np.nan,4]],
                   columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5
3,,3.0,,4


**空值创建**
空值的产生只有np.nan()一种方法

#### 不指定任何参数

- 用常数填充同一个值
- 用字典填充不同的值

In [263]:
# 用常数填充
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0
1,3.0,4.0,0.0,1
2,0.0,0.0,0.0,5
3,0.0,3.0,0.0,4


In [264]:
# 用字典填充不同的值

values = {'A': 0, 'B': 1, 'C': 2, 'D': 3}
df.fillna(value=values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0
1,3.0,4.0,2.0,1
2,0.0,1.0,2.0,5
3,0.0,3.0,2.0,4


In [275]:
# 用每列特征的均值填充缺失数据

df.fillna(df.mean())

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0
1,3.0,4.0,,1
2,3.0,3.0,,5
3,3.0,3.0,,4


#### 指定inplace参数

`inplace`参数的取值：`True`、`False`

- True：直接修改原对象
- False：创建一个副本，修改副本，原对象不变（缺省默认）

In [274]:
# 传入inplace=True 直接修改原对象(inplace 默认为 False)

df1 = df.copy()
print(df1.fillna(value=0,inplace=False)) # 创建副本，并返回
print(df1) # 原对象没变
print("="*15)
print(df1.fillna(value=0,inplace=True)) # 不创建副本，返回 None
print(df1) # 原对象变了

     A    B    C  D
0  0.0  2.0  0.0  0
1  3.0  4.0  0.0  1
2  0.0  0.0  0.0  5
3  0.0  3.0  0.0  4
     A    B   C  D
0  NaN  2.0 NaN  0
1  3.0  4.0 NaN  1
2  NaN  NaN NaN  5
3  NaN  3.0 NaN  4
None
     A    B    C  D
0  0.0  2.0  0.0  0
1  3.0  4.0  0.0  1
2  0.0  0.0  0.0  5
3  0.0  3.0  0.0  4


#### 指定method参数

- method = 'bflii'/'backfill'：用下一个非缺失值填充该缺失值
- method = 'ffill'/'pad'：用前一个非缺失值去填充该缺失值

In [4]:
# method = 'bflii'/'backfill'：用下一个非缺失值填充该缺失值
df.fillna(method='bfill')

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0
1,3.0,4.0,,1
2,,3.0,,5
3,,3.0,,4


In [6]:
# method = 'ffill'/'pad'：用前一个非缺失值去填充该缺失值
df.fillna(method='ffill')

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,3.0,4.0,,5
3,3.0,3.0,,4


#### 指定limit参数

limit参数：限制填充个数

- 设置了 method 参数，则这是连续的NaN值的前向/后向填充的最大数量。 换句话说，如果连续NaN数量超过这个数字，它将只被部分填充。 
- 没有设置 method 参数，则这是沿着整个轴的最大数量，其中NaN将被填充。 如果不是无，则必须大于0。

In [276]:
df.fillna(method='ffill',limit=1) 

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,3.0,4.0,,5
3,,3.0,,4


In [277]:
df.fillna(0,limit=1)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0
1,3.0,4.0,,1
2,,0.0,,5
3,,3.0,,4


#### 指定axis参数

axis参数：修改填充方向

默认值是0，纵轴方向

In [280]:
print(df)
df.fillna(method='ffill',limit=1,axis=1) # 按照横方向的 用前一个非缺失值去填充该缺失值

     A    B   C  D
0  NaN  2.0 NaN  0
1  3.0  4.0 NaN  1
2  NaN  NaN NaN  5
3  NaN  3.0 NaN  4


Unnamed: 0,A,B,C,D
0,,2.0,2.0,0.0
1,3.0,4.0,4.0,1.0
2,,,,5.0
3,,3.0,3.0,4.0


### value_counts() 方法 - 只能用在 series 上

返回一个序列 Series，该序列包含每个值的数量。也就是说，对于数据框中的任何列，**value-counts () 方法会返回该列每个项的计数。**

对该列中出现的每个值进行计数(无效值会被排除) **默认降序排序**

`value_counts(ascending=True)` 升序

求各个值的相对频率
`value_counts(normalize=True)`

In [281]:
df1 = pd.DataFrame(np.random.rand(8,4),index=list('abcdefgh'),columns=['A','B','C','D'])
print(df1)

df1.loc[df1['A']<0.5,'小于0.5'] = 1
print(df1)
print(df1['小于0.5'].value_counts())
df1.loc[df1['A']>0.5,'小于0.5'] = 0
print(df1['小于0.5'].value_counts(normalize=True))

          A         B         C         D
a  0.264023  0.634367  0.638607  0.167111
b  0.356451  0.371136  0.303557  0.775523
c  0.829226  0.575895  0.446785  0.888709
d  0.508184  0.755193  0.762615  0.855665
e  0.715643  0.327555  0.737846  0.278955
f  0.985899  0.055670  0.378994  0.453448
g  0.389233  0.748885  0.057702  0.398306
h  0.436787  0.102688  0.870239  0.757572
          A         B         C         D  小于0.5
a  0.264023  0.634367  0.638607  0.167111    1.0
b  0.356451  0.371136  0.303557  0.775523    1.0
c  0.829226  0.575895  0.446785  0.888709    NaN
d  0.508184  0.755193  0.762615  0.855665    NaN
e  0.715643  0.327555  0.737846  0.278955    NaN
f  0.985899  0.055670  0.378994  0.453448    NaN
g  0.389233  0.748885  0.057702  0.398306    1.0
h  0.436787  0.102688  0.870239  0.757572    1.0
1.0    4
Name: 小于0.5, dtype: int64
0.0    0.5
1.0    0.5
Name: 小于0.5, dtype: float64


### [dropna()](https://blog.csdn.net/weixin_38168620/article/details/79596798)
用于滤除缺失数据

- `Series.dropna()`
    + `xx.dropna()` 默认丢弃含有缺失值的行,返回一个仅含非空数据和索引值的Series
    
- `DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)` 
    + 参数说明：
        - axis:
            - axis=0: 删除包含缺失值的行
            - axis=1: 删除包含缺失值的列
        - how: 与axis配合使用
            - how=‘any’ :只要有缺失值出现，就删除该行货列
            - how=‘all’: 所有的值都缺失，才删除行或列
    + 例子
        + `data.dropna(how = 'all')` 传入这个参数后将只丢弃全为缺失值的那些行
        + `data.dropna(axis = 0) ` 丢弃有缺失值的行
        + `data.dropna(axis = 1)  `     丢弃有缺失值的列（一般不会这么做，这样会删掉一个特征）
        + `data.dropna(axis=1,how="all")`   丢弃全为缺失值的那些列
        + `data.dropna(axis=0,subset = ["Age", "Sex"])`   丢弃‘Age’和‘Sex’这两列中有缺失值的行   
        
        
### drop() 

`drop(labels=None, axis=0, index=None, columns=None,level=None, inplace=False, errors='raise')`

- labels：一个字符或者数值，加上axis ，表示带label标识的行或者列；如 (labels='A', axis=1) 表示A列
- axis：axis=0表示行，axis=1表示列
- columns：列名
- index：表示dataframe的index, 如index=1, index=a,可接受列表
- **inplace：True表示删除某行后原dataframe变化，False不改变原始datafram**


#### [删除满足条件的行](https://stackoverflow.com/questions/13851535/delete-rows-from-a-pandas-dataframe-based-on-a-conditional-expression-involving)

`df = df.drop(df[<some boolean condition>].index)`

- 例子
    - To remove all rows where column 'score' is < 50:
       - `df = df.drop(df[df.score < 50].index)`
    - In place version (as pointed out in comments)
       - `df.drop(df[df.score < 50].index, inplace=True)`

- 多条件操作符
    - | for or
    - & for and
    - ~ for not


#### 删除行 

##### 基于Index和columns删除行

In [7]:
import numpy as np
import pandas as pd
df=pd.DataFrame({'A':[0,1,2,3],
                 'B':[4,5,6,7],
                 'C':[8,9,10,11],
                 'D':[12,13,14,15]})
df

Unnamed: 0,A,B,C,D
0,0,4,8,12
1,1,5,9,13
2,2,6,10,14
3,3,7,11,15


In [10]:
#删除index=0的行
df.drop(index=0)

Unnamed: 0,A,B,C,D
1,1,5,9,13
2,2,6,10,14
3,3,7,11,15


In [12]:
#删除 "行号为0" 的行
df.drop(labels=0,axis=0)

Unnamed: 0,A,B,C,D
1,1,5,9,13
2,2,6,10,14
3,3,7,11,15


##### 删除特定条件的行

In [38]:
#删除B列中包含数值4 所在的行 
print(df[df['B']==4])
print(df[df['B']==4].index[0])

df = df.drop(index=df[df['B']==4].index[0])
df

   A  B  C   D
0  0  4  8  12
0


Unnamed: 0,A,B,C,D
1,1,5,9,13
2,2,6,10,14
3,3,7,11,15


In [20]:
# isin() 函数也能实现同样效果

df.drop(index=df[df['B'].isin([4])].index[0])

Unnamed: 0,A,B,C,D
1,1,5,9,13
2,2,6,10,14
3,3,7,11,15


##### 删除特定条件的多行

index 接收列表

In [27]:
#删除B列中包含数值>5的行 
print(df[df['B']>5])
print(df[df['B']>5].index)

df.drop(index=df[df['B']>4].index)

   A  B   C   D
2  2  6  10  14
3  3  7  11  15
Int64Index([2, 3], dtype='int64')


Unnamed: 0,A,B,C,D
0,0,4,8,12


#### 删除列
##### 基于Index和columns删除列

In [21]:
#删除columns为A的列
df.drop(columns='A')    

Unnamed: 0,B,C,D
0,4,8,12
1,5,9,13
2,6,10,14
3,7,11,15


In [22]:
#删除 "列名为A" 的列
df.drop(labels='A',axis=1)

Unnamed: 0,B,C,D
0,4,8,12
1,5,9,13
2,6,10,14
3,7,11,15


### [map、apply、applymap详解](https://zhuanlan.zhihu.com/p/100064394)

在日常的数据处理中，经常会对一个DataFrame进行逐行、逐列和逐元素的操作，对应这些操作，Pandas中的map、apply和applymap可以解决绝大部分这样的数据处理需求。

数据集

In [90]:
boolean=[True,False]
gender=["男","女"]
color=["white","black","yellow"]
data=pd.DataFrame({
    "height":np.random.randint(150,190,100),
    "weight":np.random.randint(40,90,100),
    "smoker":[boolean[x] for x in np.random.randint(0,2,100)],
    "gender":[gender[x] for x in np.random.randint(0,2,100)],
    "age":np.random.randint(15,90,100),
    "color":[color[x] for x in np.random.randint(0,len(color),100) ]
}
)
data

Unnamed: 0,height,weight,smoker,gender,age,color
0,188,73,False,女,18,black
1,187,62,False,男,56,white
2,158,46,True,男,67,white
3,177,59,False,女,77,black
4,176,73,False,男,31,black
...,...,...,...,...,...,...
95,185,47,True,女,78,black
96,154,71,True,男,78,yellow
97,187,56,False,女,40,yellow
98,166,43,False,男,18,yellow


#### Series数据处理

##### map用法

如果需要把数据集中gender列的男替换为1，女替换为0，怎么做呢？绝对不是用for循环实现，使用Series.map()可以很容易做到，最少仅需一行代码。

- 使用字典进行映射
- 使用函数进行映射

In [91]:
#使用字典进行映射
data_1 = data.copy()
data_1['gender'] = data['gender'].map({"男":1,"女":0})
data_1

Unnamed: 0,height,weight,smoker,gender,age,color
0,188,73,False,0,18,black
1,187,62,False,1,56,white
2,158,46,True,1,67,white
3,177,59,False,0,77,black
4,176,73,False,1,31,black
...,...,...,...,...,...,...
95,185,47,True,0,78,black
96,154,71,True,1,78,yellow
97,187,56,False,0,40,yellow
98,166,43,False,1,18,yellow


In [85]:
# 使用函数进行映射
def gender_map(x):
    if x == "男":
        gender = 1
    else:
        gender = 0
    return gender

#注意这里传入的是函数名，不带括号

data_2 = data.copy()
data_2['gender'] = data_2['gender'].map(gender_map)
data_2

Unnamed: 0,height,weight,smoker,gender,age,color
0,161,44,False,0,55,white
1,187,53,False,1,22,yellow
2,181,51,True,1,41,yellow
3,157,53,False,1,45,yellow
4,165,74,True,1,42,white
...,...,...,...,...,...,...
95,187,50,False,0,88,yellow
96,156,77,True,0,75,white
97,186,66,False,1,15,white
98,157,59,False,1,50,white


那map在实际过程中是怎么运行的呢？请看下面的图解（为了方便展示，仅截取了前10条数据）
![image.png](attachment:image.png)

![image.png](attachment:image.png)

不论是利用字典还是函数进行映射，map方法都是把对应的数据逐个当作参数传入到字典或函数中，得到映射后的值。

##### apply

同时Series对象还有apply方法，apply方法的作用原理和map方法类似，**区别在于apply能够传入功能更为复杂的函数**。怎么理解呢？一起看看下面的例子。

假设在数据统计的过程中，年龄age列有较大误差，需要对其进行调整（加上或减去一个值），由于这个加上或减去的值未知，故在定义函数时，需要加多一个参数bias，此时用map方法是操作不了的**（传入map的函数只能接收一个参数）**，apply方法则可以解决这个问题。

In [86]:
def apply_age(x,bias):
    return x+bias

#以元组的方式传入额外的参数
data["age"] = data["age"].apply(apply_age,args=(-3,))
data

Unnamed: 0,height,weight,smoker,gender,age,color
0,161,44,False,女,52,white
1,187,53,False,男,19,yellow
2,181,51,True,男,38,yellow
3,157,53,False,男,42,yellow
4,165,74,True,男,39,white
...,...,...,...,...,...,...
95,187,50,False,女,85,yellow
96,156,77,True,女,72,white
97,186,66,False,男,12,white
98,157,59,False,男,47,white


可以看到age列都减了3，当然，这里只是简单举了个例子，当需要进行复杂处理时，更能体现apply的作用。

总而言之，对于Series而言，map可以解决绝大多数的数据处理需求，但如果需要使用较为复杂的函数，则需要用到apply方法。

#### DataFrame数据处理

对DataFrame而言，apply是非常重要的数据处理方法，它可以接收各种各样的函数（Python内置的或自定义的），处理方式很灵活，下面通过几个例子来看看apply的具体使用及其原理。

在进行具体介绍之前，首先需要介绍一下DataFrame中axis的概念，在DataFrame对象的大多数方法中，都会有axis这个参数，它控制了你指定的操作是沿着0轴还是1轴进行。如下图所示。

![image.png](attachment:image.png)

#### apply
##### axis=0/1 [行列问题](https://www.zhihu.com/question/58993137)

轴用来为超过一维的数组定义的属性，二维数据拥有两个轴：第0轴沿着行的垂直往下，第1轴沿着列的方向水平延伸。

根据官方的说法，1表示横轴，方向从左到右；0表示纵轴，方向从上到下。当axis=1时，数组的变化是横向的，而体现出来的是列的增加或者减少。我们拿图形举个例子：

![image.png](attachment:image.png)

也就是说，对于这个4x4的正方形而言，当axis=1时，体现的是横向的长度+1，而如果这是一个4行4列的二维数组同样也是如此，但是体现出来是增加了一列。所以其实axis的重点在于方向，而不是行和列。具体到各种用法而言也是如此。当axis=1时，如果是求平均，那么是从左到右横向求平均；如果是拼接，那么也是左右横向拼接；如果是drop，那么也是横向发生变化，体现为列的减少。当考虑了方向，即**axis=1为横向，axis=0为纵向**，而不是行和列，那么所有的例子就都统一了。

假设现在需要对data中的数值列分别进行取对数和求和的操作，这时可以用apply进行相应的操作，因为是对列进行操作，所以需要指定axis=0，使用下面的两行代码可以很轻松地解决我们的问题。

In [87]:
# 沿着0轴求和
print(data[["height","weight","age"]].apply(np.sum, axis=0))

# 沿着0轴取对数
print(data[["height","weight","age"]].apply(np.log, axis=0))

height    17035
weight     6482
age        4882
dtype: int64
      height    weight       age
0   5.081404  3.784190  3.951244
1   5.231109  3.970292  2.944439
2   5.198497  3.931826  3.637586
3   5.056246  3.970292  3.737670
4   5.105945  4.304065  3.663562
..       ...       ...       ...
95  5.231109  3.912023  4.442651
96  5.049856  4.343805  4.276666
97  5.225747  4.189655  2.484907
98  5.056246  4.077537  3.850148
99  5.123964  4.094345  4.382027

[100 rows x 3 columns]


实现的方式很简单，但调用apply时究竟发生了什么呢？过程是怎么实现的？还是通过图解的方式来一探究竟。（取前五条数据为例）

![image.png](attachment:image.png)

当沿着轴0（axis=0）进行操作时，会将各列(columns)**默认以Series的形式作为参数，传入到你指定的操作函数中**，操作后合并并返回相应的结果。

那如果在实际使用中需要按行进行操作（axis=1）,那整个过程又是怎么实现的呢？

在数据集中，有身高和体重的数据，所以根据这个，我们可以计算每个人的BMI指数（体检时常用的指标，衡量人体肥胖程度和是否健康的重要标准），计算公式是：体重指数BMI=体重/身高的平方（国际单位kg/㎡），因为需要对每个样本进行操作，这里使用axis=1的apply进行操作，代码如下：

In [88]:
def BMI(series):
    weight = series['weight']
    height = series['height']
    BMI = weight/height**2
    return BMI

data['BMI']=data.apply(BMI,axis=1)
print(data)

    height  weight  smoker gender  age   color       BMI
0      161      44   False      女   52   white  0.001697
1      187      53   False      男   19  yellow  0.001516
2      181      51    True      男   38  yellow  0.001557
3      157      53   False      男   42  yellow  0.002150
4      165      74    True      男   39   white  0.002718
..     ...     ...     ...    ...  ...     ...       ...
95     187      50   False      女   85  yellow  0.001430
96     156      77    True      女   72   white  0.003164
97     186      66   False      男   12   white  0.001908
98     157      59   False      男   47   white  0.002394
99     168      60   False      男   80   black  0.002126

[100 rows x 7 columns]


In [30]:
# 等同上面
data['BMI']=data.apply(lambda x:x['weight']+x['height'],axis=1)

还是用图解的方式来看看这个过程到底是怎么实现的（以前5条数据为例）。

![image.png](attachment:image.png)

当apply设置了axis=1对行进行操作时，**会默认将每一行数据以Series的形式（Series的索引为列名）传入指定函数**，返回相应的结果。

总结一下对 DataFrame 的 apply 操作：

- 当axis=0时，对每列columns执行指定函数；当axis=1时，对每行row执行指定函数。
- 无论axis=0还是axis=1，其传入指定函数的默认形式均为Series，可以通过设置raw=True传入numpy数组。
- 对每个Series执行结果后，会将结果整合在一起返回（若想有返回值，定义函数时需要return相应的值）
- 当然，DataFrame的apply和Series的apply一样，也能接收更复杂的函数，如传入参数等，实现原理是一样的，具体用法详见官方文档。



#### applymap

applymap的用法比较简单，会对DataFrame中的每个单元格执行指定函数的操作，虽然用途不如apply广泛，但在某些场合下还是比较有用的，如下面这个例子。

为了演示的方便，新生成一个DataFrame

In [122]:
df = pd.DataFrame(
    {
        "A":np.random.randn(5),
        "B":np.random.randn(5),
        "C":np.random.randn(5),
        "D":np.random.randn(5),
        "E":np.random.randn(5),
    }
)
df

Unnamed: 0,A,B,C,D,E
0,0.17297,0.57457,0.162583,0.324397,0.102217
1,-0.885682,-0.088579,-1.93428,-1.078659,0.325589
2,1.484533,0.826854,1.717665,-1.738954,-1.429627
3,0.20073,-1.214587,1.297678,0.404185,-0.746153
4,-0.31451,-0.244743,-0.090652,-1.193964,-0.730032


现在想将DataFrame中所有的值保留两位小数显示，使用applymap可以很快达到你想要的目的，代码和图解如下：

"{:.2}".format是保留两位有效数字

In [125]:
df.applymap(lambda x:"{:.2}".format(x))
# df.applymap(lambda x:"%.2f" % x) 相同功能

Unnamed: 0,A,B,C,D,E
0,0.17,0.57,0.16,0.32,0.1
1,-0.89,-0.089,-1.9,-1.1,0.33
2,1.5,0.83,1.7,-1.7,-1.4
3,0.2,-1.2,1.3,0.4,-0.75
4,-0.31,-0.24,-0.091,-1.2,-0.73


![image.png](attachment:image.png)

### [重复值标记（duplicated）与删除（drop_duplicates)](https://zhuanlan.zhihu.com/p/31103116)

- duplicated() 发现重复值

这个函数返回的是一组bool值，这些bool值能够用于筛选非重复值或者重复值。
   
**inplace = True 才会对源数据有效**
   
#### 查询全部列的重复值 
**如果只是df.duplicated()，括号里面什么都不填写，是按照所有列作为依据进行查找的，每一列的值都必须一致才会被标记为重复值。**
    

In [27]:
import numpy as np
import pandas as pd

boolean=[True,False]
gender=["男","女"]
color=["white","black"]
data=pd.DataFrame({
    "height":np.random.randint(159,160,10),
    "weight":np.random.randint(44,45,10),
    "smoker":[boolean[x] for x in np.random.randint(0,2,10)],
    "gender":[gender[x] for x in np.random.randint(0,2,10)],
    "age":np.random.randint(27,30,10),
    "color":[color[x] for x in np.random.randint(0,len(color),10) ]
}
)
data

Unnamed: 0,height,weight,smoker,gender,age,color
0,159,44,False,男,27,white
1,159,44,True,男,29,black
2,159,44,False,男,27,white
3,159,44,True,男,28,black
4,159,44,False,女,29,black
5,159,44,True,男,28,white
6,159,44,False,男,27,white
7,159,44,True,男,29,black
8,159,44,False,男,27,black
9,159,44,True,女,29,white


In [28]:
data.duplicated()

0    False
1    False
2     True
3    False
4    False
5    False
6     True
7     True
8    False
9    False
dtype: bool

这里只有第2、6、7行被标记为重复值

#### 查询某一列的重复值

**如果只需要用某一列作为标记依据，只需要将列名写在括号里就行了。**

In [29]:
data.duplicated('age')

0    False
1    False
2     True
3    False
4     True
5     True
6     True
7     True
8     True
9     True
dtype: bool

#### 筛选出重复行

这个函数返回的是一组bool值，这些bool值能够用于筛选非重复值或者重复值。

In [32]:
data[data.duplicated('age')]

Unnamed: 0,height,weight,smoker,gender,age,color
2,159,44,False,男,27,white
4,159,44,False,女,29,black
5,159,44,True,男,28,white
6,159,44,False,男,27,white
7,159,44,True,男,29,black
8,159,44,False,男,27,black
9,159,44,True,女,29,white


#### 筛选出非重复行

In [33]:
data[data.duplicated('age') == False]

Unnamed: 0,height,weight,smoker,gender,age,color
0,159,44,False,男,27,white
1,159,44,True,男,29,black
3,159,44,True,男,28,black


#### 查询多列的重复值

按照‘age’和‘gender’两列同时作为依据进行筛选重复行的。

In [35]:
data.duplicated(['age','gender'])

0    False
1    False
2     True
3    False
4    False
5     True
6     True
7     True
8     True
9     True
dtype: bool

#### keep 参数

- keep='first'参数 默认让系统从前向后开始筛查，这样索引大的重复行会返回 'True'。
- keep='last'参数就是让系统从后向前开始筛查，这样索引小的重复行会返回 'True'。

In [36]:
data.duplicated('age')

0    False
1    False
2     True
3    False
4     True
5     True
6     True
7     True
8     True
9     True
dtype: bool

如果遇到上面这种情况，我们想保留第9行，而把其他行定义为重复行，只需要加参数`keep="last"`就行了。

In [37]:
data.duplicated('age',keep="last")

0     True
1     True
2     True
3     True
4     True
5    False
6     True
7     True
8    False
9    False
dtype: bool

keep='last'参数就是让系统从后向前开始筛查，这样索引小的重复行会返回 'True'。

#### 删除重复数据

- drop_duplicates 删除重复数据
- 单列、多列均适用
- keep 参数也适用

平时我们的操作中可能只是简单地将重复的行删除掉，不需要标记再筛选，太麻烦。那就使用drop_duplicates。

In [38]:
data.drop_duplicates('age')

Unnamed: 0,height,weight,smoker,gender,age,color
0,159,44,False,男,27,white
1,159,44,True,男,29,black
3,159,44,True,男,28,black


In [None]:
data.drop_duplicates(subset=['age','color'])

这样age重复的就直接删除了。

- 跟 duplicated 一样，将列名放进括号里面可以作为判断重复的依据； 如果要保留后一个重复值，需要加参数keep='last'。

- 而如果想直接将原数据修改，需要加参数 inplace=True。

### [pandas中的数据去重和替换（duplicated、drop_duplicates、replace详解)](https://www.jianshu.com/p/80902c88c2bd)

[替换 replace()及部分替换](https://zhuanlan.zhihu.com/p/30829387)


#### Series数据
    - duplicated()得到重复值判断的布尔值，再选择布尔值为False的既为非重复值
    - drop_duplicates()去除重复值，返回唯一值
 
#### DataFrame数据
    - 针对某一列使用 drop_duplicates()
    
#### 查看是否存在重复值
看一下每一行数据是否存在重复值。
    - `df.duplicated().sum()`

In [132]:
import numpy as np
import pandas as pd

s = pd.Series([1,1,1,1,2,2,2,3,4,5,5,5,5])
s.duplicated()
s[s.duplicated()==False]

0    1
4    2
7    3
8    4
9    5
dtype: int64

In [135]:
s.drop_duplicates()

0    1
4    2
7    3
8    4
9    5
dtype: int64

### [Pandas 合并](https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/3-6-pd-concat/)

pandas处理多组数据的时候往往会要用到数据的合并处理,使用 concat是一种基本的合并方式.而且concat中有很多参数可以调整,合并成你想要的数据形式.

#### concate

##### 参数 axis (合并方向)

默认 axis=0，**axis=1为横向，axis=0为纵向**

In [158]:
import pandas as pd
import numpy as np

#定义数据集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['a','b','c','d'])
df3 = pd.DataFrame(np.ones((3,4))*2, columns=['a','b','c','d'])

#concat纵向合并
res = pd.concat([df1, df2, df3], axis=0)

#打印结果
print(res)

     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0
0  1.0  1.0  1.0  1.0
1  1.0  1.0  1.0  1.0
2  1.0  1.0  1.0  1.0
0  2.0  2.0  2.0  2.0
1  2.0  2.0  2.0  2.0
2  2.0  2.0  2.0  2.0


index是0, 1, 2, 0, 1, 2, 0, 1, 2，若要将index重置，使用 ingnore_index 参数

##### 参数 ignore_index (重置 index) 

In [160]:
res = pd.concat([df1, df2, df3], axis=0,ignore_index=True)
res

Unnamed: 0,a,b,c,d
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,1.0,1.0,1.0,1.0
4,1.0,1.0,1.0,1.0
5,1.0,1.0,1.0,1.0
6,2.0,2.0,2.0,2.0
7,2.0,2.0,2.0,2.0
8,2.0,2.0,2.0,2.0


结果的index变0, 1, 2, 3, 4, 5, 6, 7, 8

##### 参数 join (合并方式) 

默认join='outer'。此方式是依照column来做纵向合并，有相同的column上下合并在一起，其他独自的column个自成列，原本没有值的位置皆以NaN填充。

- outer - mysql 中的外链接
  + 纵向合并，有相同的column上下合并在一起，其他独自的column个自成列
- inner - mysql 中的内连接  
  + 纵向合并，只有相同的column合并在一起，其他的会被抛弃

In [161]:
#定义数据集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'], index=[1,2,3])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['b','c','d','e'], index=[2,3,4])

#outer 纵向"外"合并df1与df2  
res = pd.concat([df1, df2], axis=0, join='outer')
res

Unnamed: 0,a,b,c,d,e
1,0.0,0.0,0.0,0.0,
2,0.0,0.0,0.0,0.0,
3,0.0,0.0,0.0,0.0,
2,,1.0,1.0,1.0,1.0
3,,1.0,1.0,1.0,1.0
4,,1.0,1.0,1.0,1.0


In [163]:
#outer 纵向"内"合并df1与df2  
res = pd.concat([df1, df2], axis=0, join='inner')
res

Unnamed: 0,b,c,d
1,0.0,0.0,0.0
2,0.0,0.0,0.0
3,0.0,0.0,0.0
2,1.0,1.0,1.0
3,1.0,1.0,1.0
4,1.0,1.0,1.0


##### join_axes (依照 axes 合并) 


In [164]:
#定义数据集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'], index=[1,2,3])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['b','c','d','e'], index=[2,3,4])

#依照`df1.index`进行横向合并
res = pd.concat([df1, df2], axis=1, join_axes=[df1.index])

TypeError: concat() got an unexpected keyword argument 'join_axes'

#### append (添加数据)

append只有纵向合并，没有横向合并。

In [144]:
import pandas as pd
import numpy as np

#定义数据集
df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['a','b','c','d'])
df3 = pd.DataFrame(np.ones((3,4))*2, columns=['a','b','c','d'])
s1 = pd.Series([1,2,3,4], index=['a','b','c','d'])

print(df1)

     a    b    c    d
0  0.0  0.0  0.0  0.0
1  0.0  0.0  0.0  0.0
2  0.0  0.0  0.0  0.0


##### 合并两个 dataframe

In [145]:
#将df2合并到df1的下面，以及重置index，并打印出结果

df1.append(df2,ignore_index=True) 

Unnamed: 0,a,b,c,d
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,1.0,1.0,1.0,1.0
4,1.0,1.0,1.0,1.0
5,1.0,1.0,1.0,1.0


In [146]:
df1.append(df2,ignore_index=False) 

Unnamed: 0,a,b,c,d
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
0,1.0,1.0,1.0,1.0
1,1.0,1.0,1.0,1.0
2,1.0,1.0,1.0,1.0


参数 ignore_index 为 False 和 True 的区别
- ignore_index = True 忽略原来的index,有新的index
- ignore_index = False 沿用原来的index,还是旧的index

#### 合并多个  dataframe

In [147]:
#合并多个df，将df2与df3合并至df1的下面，以及重置index，并打印出结果
df1.append([df2,df3],ignore_index=True)

Unnamed: 0,a,b,c,d
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,1.0,1.0,1.0,1.0
4,1.0,1.0,1.0,1.0
5,1.0,1.0,1.0,1.0
6,2.0,2.0,2.0,2.0
7,2.0,2.0,2.0,2.0
8,2.0,2.0,2.0,2.0


#####  合并 series 和 dataframe 

In [149]:
#合并series，将s1合并至df1，以及重置index，并打印出结果

df1.append(s1,ignore_index=True)

Unnamed: 0,a,b,c,d
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,1.0,2.0,3.0,4.0


#### merge
[Pandas数据分析——Merge数据合并图文详解](https://zhuanlan.zhihu.com/p/102274476)
##### 问题
为什么 pandas 中 left merge 方法会增加原有数据的行？它不适合和 mysql 的 left outer join 一样的吗？不增加原有数据的行？

**Mysql 中，两个表 on的键都是主键，没有重复值，所以结果是一一对应。而 Pandas 中，两个表 on的键如果不都是主键，就会出现一对多的情况，从而增加数据的行。**

参考资料：[谈谈pandas merge 的一个深坑，莫名其妙多出来一行](https://blog.csdn.net/AlanGuoo/article/details/86711217)

merge 在 pandas 里面的基本用法
```
pd.merge([df1, df2], on=’ ‘, how=’ left/right/inner’)
df1.merge(df2, on=’ ‘, how=’ ')
```

如果你要拼接的两个dataframe中，有一个相同的关键字段，且两个列名是相同的，就可以指定 on=‘column name’

In [35]:
df1 = pd.DataFrame([['a', 1], ['b', 2]],
              columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4], ['b', 5], ['b', 6], ['a', 7]],
               columns=['letter', 'num'])
print(df1)
print('='*15)
print(df2)

  letter  number
0      a       1
1      b       2
  letter  num
0      c    3
1      d    4
2      b    5
3      b    6
4      a    7


可以看到df1, df2 均有letter列，接下来我们希望按照letter列为 key来join两个dataframe，且只保留存在于df1中的letter, 所以用‘left’ join

In [36]:
# 用法1
df1.merge(df2, on='letter', how='left')

Unnamed: 0,letter,number,num
0,a,1,7
1,b,2,5
2,b,2,6


In [37]:
# 用法2
pd.merge(df1,df2, on='letter', how='left')

Unnamed: 0,letter,number,num
0,a,1,7
1,b,2,5
2,b,2,6


本来按照 left join，以为出来的dataframe的行数会和df1一样，但是结果并不是。因为df2的letter列有重复的 ’b’，所以会多出来一行。所并不是一 一对应的关系。

### [DataFrame.to_dict() 转字典函数基本使用](https://zhuanlan.zhihu.com/p/112275320)

Pandas 处理数据的基本类型为 DataFrame，数据清洗时不可必然会关系到数据类型转化问题，Pandas 在这方面也做的也非常不错，其中经常用的是 DataFrame.to_dict() 函数之间转化为字典类型；除了转化为字典之外，Pandas 还提供向 json、html、latex、csv等格式的转换。

**to_dict() 函数基本语法**

`DataFrame.to_dict (self, orient='dict', into=)` --- 官方文档

函数种只需要填写一个参数：orient 即可 ，但对于写入orient的不同，字典的构造方式也不同，官网一共给出了6种，并且其中一种是列表类型：

- orient ='dict'，是函数默认的，转化后的字典形式：{column(列名) : {index(行名) : value(值) )}}；
- orient ='list' ，转化后的字典形式：{column(列名) :{[values] (值)}};
- orient ='series' ，转化后的字典形式：{column(列名) : Series (values) (值)};
- orient ='split' ，转化后的字典形式：{'index' : [index]，‘columns' :[columns]，’data‘ : [values]};
- orient ='records' ，转化后是 list形式：[{column(列名) : value(值)}......{column:value}];
- orient ='index' ，转化后的字典形式：{index(值) : {column(列名) : value(值)}};

备注：

- 1，上面中 value 代表数据表中的值，column表示列名，index 表示行名，如下图所示：
![image.png](attachment:image.png)

- 2，{ }表示字典数据类型，字典中的数据是以 {key : value} 的形式显示，是键名和键值一一对应形成的。

In [2]:
df =pd.DataFrame({'col_1':[1,2],'col_2':[0.5,0.75]},index =['row1','row2'])
df

Unnamed: 0,col_1,col_2
row1,1,0.5
row2,2,0.75


#### `orient ='dict'` 

— {column(列名) : {index(行名) : value(值) )}}

默认情况：`to_dict('list')`构造好的字典形式：{第一列的列名:{第一行的行名：value值，第二行行名，value值}，....}；

可以很方便得到**在某一列对应的行名与各值之间的字典**数据类型

In [180]:
print(df.to_dict())

# 得到在col_1这一列行名与各值之间的字典

print(df.to_dict()["col_1"])

{'col_1': {'row1': 1, 'row2': 2}, 'col_2': {'row1': 0.5, 'row2': 0.75}}
{'row1': 1, 'row2': 2}


#### `orient ='list'` 

— {column(列名) :{[ values ](值)}}

生成字典中 key为各列名，value为各列对应值的列表

以很方便得到在**某一列各值所生成的列表**集合

In [183]:
print(df.to_dict('list'))

# 得到在col_1这一列各值所生成的列表集合
print(df.to_dict('list')["col_1"])

{'col_1': [1, 2], 'col_2': [0.5, 0.75]}
[1, 2]


#### `orient ='series'` 

— {column(列名) : Series (values) (值)};

orient ='series' 与 orient = 'list' 唯一区别就是，这里的 value 是 **Series数据类型**，而前者为**列表**类型

In [185]:
print(df.to_dict('series'))

{'col_1': row1    1
row2    2
Name: col_1, dtype: int64, 'col_2': row1    0.50
row2    0.75
Name: col_2, dtype: float64}


#### `orient ='split' `

— {'index' : [index]，‘columns' :[columns]，’data‘ : [values]};

orient ='split' 得到三个键值对，列名、行名、值各一个，value统一都是列表形式；

可以很方便得到**DataFrame数据表中全部列名或者行名的列表**形式

In [187]:
print(df.to_dict('split'))

# 可以得到 DataFrame数据表 中全部列名的列表形式
df.to_dict('split')['columns']

{'index': ['row1', 'row2'], 'columns': ['col_1', 'col_2'], 'data': [[1, 0.5], [2, 0.75]]}


['col_1', 'col_2']

#### `orient ='records'` 

— [{column:value(值)},{column:value}....{column:value}];

注意的是，orient ='records' 返回的数据类型不是 dict ; 而是list 列表形式，由全部列名与每一行的值形成一一对应的映射关系:

很容易得到**列名与某一行值形成得字典**数据

In [189]:
print(df.to_dict('records'))

# 2行{column:value}得数据

print(df.to_dict('records')[1])

[{'col_1': 1, 'col_2': 0.5}, {'col_1': 2, 'col_2': 0.75}]
{'col_1': 2, 'col_2': 0.75}


#### `orient ='index'` 

— {index:{culumn:value}};

`orient ='index'`与 `orient ='dict'`用法刚好相反，求某一行中列名与值之间一一对应关系(查询效果与上面一点相似)：

In [191]:
print(df.to_dict('index'))

#查询行名为 row2 列名与值一一对应字典数据类型
print(df.to_dict('index')['row2'])

{'row1': {'col_1': 1, 'col_2': 0.5}, 'row2': {'col_1': 2, 'col_2': 0.75}}
{'col_1': 2, 'col_2': 0.75}


#### to_dict() 函数其它用法

还有其他用法，例如可以快速索引第几行第几列的值(实现 pandas内置索引函数)，例如我想要第二行第二列的值

In [196]:
print(df)

#to_dict 版本的：
print(df.to_dict('index')['row2']['col_2'])

# pandas自带的
print(df.iloc[1,1])

      col_1  col_2
row1      1   0.50
row2      2   0.75
0.75
0.75


#### 常用模式

将第一列设为键，第二列设为值

In [3]:
df

Unnamed: 0,col_1,col_2
row1,1,0.5
row2,2,0.75


In [11]:
df.set_index('col_1')['col_2'].to_dict()

{1: 0.5, 2: 0.75}

### [Groupby](https://juejin.im/post/5e1a80c3e51d45020078761f)

在日常的数据分析中，经常需要将数据**根据某个（多个）字段划分为不同的群体（group）**进行分析，如电商领域将全国的总销售额根据省份进行划分，分析各省销售额的变化情况，社交领域将用户根据画像（性别、年龄）进行细分，研究用户的使用情况和偏好等。在Pandas中，上述的数据处理操作主要运用groupby完成，这篇文章就介绍一下groupby的基本原理及对应的agg、transform和apply操作。

为了后续图解的方便，采用模拟生成的10个样本数据，代码和数据如下：

In [3]:
import numpy as np
import pandas as pd

company=["A","B","C"]

data=pd.DataFrame({
    "company":[company[x] for x in np.random.randint(0,len(company),10)],
    "salary":np.random.randint(5,50,10),
    "age":np.random.randint(15,50,10)
}
)
data

Unnamed: 0,company,salary,age
0,C,6,17
1,A,26,16
2,A,19,31
3,C,27,25
4,A,18,42
5,A,33,31
6,A,34,27
7,B,35,38
8,C,8,43
9,B,21,25


#### Groupby的基本原理

在pandas中，实现分组操作的代码很简单，仅需一行代码，在这里，将上面的数据集按照company字段进行划分：

In [218]:
group = data.groupby("company")
list(group)

[('A',   company  salary  age
  4       A       8   48
  6       A      13   28
  9       A      20   18), ('B',   company  salary  age
  0       B      37   42
  1       B      47   30
  3       B      41   24
  5       B      41   34), ('C',   company  salary  age
  2       C      29   31
  7       C      38   15
  8       C       6   18)]

上面代码得到一个DataFrameGroupBy对象

那这个生成的DataFrameGroupBy是啥呢？对data进行了groupby后发生了什么？所返回的结果是其内存地址，并不利于直观地理解，为了看看group内部究竟是什么，这里把group转换成list的形式来看一看：

In [170]:
list(group)

[('A',   company  salary  age
  5       A      39   28
  6       A      11   49
  7       A      12   25), ('B',   company  salary  age
  0       B      15   48
  3       B      35   47
  4       B      29   31
  9       B      10   35), ('C',   company  salary  age
  1       C      15   48
  2       C      12   19
  8       C      45   16)]

转换成列表的形式后，可以看到，列表由三个元组组成，每个元组中，第一个元素是组别（这里是按照company进行分组，所以最后分为了A,B,C），第二个元素的是对应组别下的DataFrame，整个过程可以图解如下：

![image.png](attachment:image.png)

总结来说，groupby的过程就是将原有的DataFrame按照groupby的字段（这里是company），划分为若干个分组DataFrame，被分为多少个组就有多少个分组DataFrame。**所以说，在groupby之后的一系列操作（如agg、apply等），均是基于子DataFrame的操作。**理解了这点，也就基本摸清了Pandas中groupby操作的主要原理。下面来讲讲groupby之后的常见操作。

In [216]:
# 多分组

group = data.groupby(["company","age"])
list(group)

[(('A', 18),   company  salary  age
  9       A      20   18), (('A', 28),   company  salary  age
  6       A      13   28), (('A', 48),   company  salary  age
  4       A       8   48), (('B', 24),   company  salary  age
  3       B      41   24), (('B', 30),   company  salary  age
  1       B      47   30), (('B', 34),   company  salary  age
  5       B      41   34), (('B', 42),   company  salary  age
  0       B      37   42), (('C', 15),   company  salary  age
  7       C      38   15), (('C', 18),   company  salary  age
  8       C       6   18), (('C', 31),   company  salary  age
  2       C      29   31)]

#### [GroupBy对象的一些方法](https://zhuanlan.zhihu.com/p/133130001)

函数名	|说明
---|:--:
count|分组中非NA值的数量
sum|非NA值的和
mean|非NA值的平均值
median|非NA值的算术中位数
std、var|无偏(分母为n-1)标准差和方差
min、max|非NA值的最小值和最大值
prod|非NA值的积
first、last|第一个和最后一个非NA值

这些是pandas自带的聚集函数，也可以使用自己定义的聚集函数–agg

#### agg 聚合操作

聚合操作是groupby后非常常见的操作，会写SQL的朋友对此应该是非常熟悉了。聚合操作可以用来求和、均值、最大值、最小值等，下面的表格列出了Pandas中常见的聚合操作。

函数|用途
---|:--:
min|最小值
max|最大值
sum|求和
mean|均值
median|中位数
std|标准差
var|方差
count|计数

针对样例数据集，如果我想求不同公司员工的平均年龄和平均薪水，可以按照下方的代码进行：

In [220]:
data.groupby("company").agg('mean')

Unnamed: 0_level_0,salary,age
company,Unnamed: 1_level_1,Unnamed: 2_level_1
A,37.0,45.0
B,30.333333,35.5
C,34.333333,27.0


In [221]:
data.groupby("company").mean()

Unnamed: 0_level_0,salary,age
company,Unnamed: 1_level_1,Unnamed: 2_level_1
A,37.0,45.0
B,30.333333,35.5
C,34.333333,27.0


如果想对针对不同的列求不同的值，比如要计算不同公司员工的平均年龄以及薪水的中位数，可以利用字典进行聚合操作的指定：

In [173]:
data.groupby("company").agg({"age":"mean","salary":"median"})

Unnamed: 0_level_0,age,salary
company,Unnamed: 1_level_1,Unnamed: 2_level_1
A,34.0,12
B,40.25,22
C,27.666667,15


agg聚合过程可以图解如下（第二个例子为例）：![image.png](attachment:image.png)

#### transform

transform是一种什么数据操作？和agg有什么区别呢？为了更好地理解transform和agg的不同，下面从实际的应用场景出发进行对比。

在上面的agg中，我们学会了如何求不同公司员工的平均薪水，如果现在需要在原数据集中新增一列avg_salary，代表员工所在的公司的平均薪水（相同公司的员工具有一样的平均薪水），该怎么实现呢？如果按照正常的步骤来计算，需要先求得不同公司的平均薪水，然后按照员工和公司的对应关系填充到对应的位置，不用transform的话，实现代码如下：

In [210]:
avg_sal = data.groupby("company").agg("mean")["salary"]
print(avg_sal)
# to_dict() - {column(列名) : {index(行名) : value(值) )}}
avg_sal = avg_sal.to_dict()
print(avg_sal)

data['avg_salary'] = data['company'].map(avg_sal)
data

company
A    20.666667
B    22.250000
C    24.000000
Name: salary, dtype: float64
{'A': 20.666666666666668, 'B': 22.25, 'C': 24.0}


Unnamed: 0,company,salary,age,avg_salary
0,B,15,48,22.25
1,C,15,48,24.0
2,C,12,19,24.0
3,B,35,47,22.25
4,B,29,31,22.25
5,A,39,28,20.666667
6,A,11,49,20.666667
7,A,12,25,20.666667
8,C,45,16,24.0
9,B,10,35,22.25


如果使用transform的话，仅需要一行代码

In [5]:
data["avg_salary"] = data.groupby("company")["salary"].transform("mean")
data

Unnamed: 0,company,salary,age,avg_salary
0,C,6,17,13.666667
1,A,26,16,26.0
2,A,19,31,26.0
3,C,27,25,13.666667
4,A,18,42,26.0
5,A,33,31,26.0
6,A,34,27,26.0
7,B,35,38,28.0
8,C,8,43,13.666667
9,B,21,25,28.0


In [6]:
# 收入中位数

data["median_salary"] = data.groupby("company")["salary"].transform("median")
data

Unnamed: 0,company,salary,age,avg_salary,media_salary
0,C,6,17,13.666667,8
1,A,26,16,26.0,26
2,A,19,31,26.0,26
3,C,27,25,13.666667,8
4,A,18,42,26.0,26
5,A,33,31,26.0,26
6,A,34,27,26.0,26
7,B,35,38,28.0,28
8,C,8,43,13.666667,8
9,B,21,25,28.0,28


还是以图解的方式来看看进行groupby后transform的实现过程（为了更直观展示，图中加入了company列，实际按照上面的代码只有salary列）：
![image.png](attachment:image.png)

图中的大方框是transform和agg所不一样的地方，对agg而言，会计算得到A，B，C公司对应的均值并直接返回，但对transform而言，则会对每一条数据求得相应的结果，同一组内的样本会有相同的值，组内求完均值后会按照原索引的顺序返回结果，如果有不理解的可以拿这张图和agg那张对比一下。

#### 用 transform 填充缺失值

In [None]:
#Group by neighborhood and fill in missing value by the median LotFrontage of all the neighborhood
all_data["LotFrontage"] = all_data.groupby("Neighborhood")["LotFrontage"].transform(lambda x: x.fillna(x.median()))

#### [groupby的参数：as_index](https://www.cnblogs.com/zhangzhixing/p/11074416.html)

as_index ： bool，默认为True

对于聚合输出，返回以组标签作为索引的对象。仅与DataFrame输入相关。as_index = False实际上是“SQL风格”的分组输出。

In [245]:
import pandas as pd

df = pd.DataFrame(data={'books':['bk1','bk1','bk1','bk2','bk2','bk3'], 'price': [12,12,12,15,15,17],'num':[2,1,1,4,2,2]})
df

Unnamed: 0,books,price,num
0,bk1,12,2
1,bk1,12,1
2,bk1,12,1
3,bk2,15,4
4,bk2,15,2
5,bk3,17,2


In [247]:
# as_index为True的输出
print(df.groupby('books',as_index=True).sum())
print('='*15)
# as_index为False的输出
print(df.groupby('books',as_index=False).sum())

       price  num
books            
bk1       36    4
bk2       30    6
bk3       17    2
  books  price  num
0   bk1     36    4
1   bk2     30    6
2   bk3     17    2


可以看到为True时,自动把第一列作为了index,这样可以通过book的name来提取这本书的信息

In [249]:
df_1 = df.groupby('books',as_index=True).sum()
print(df_1)
print('='*15)
print(df_1.loc['bk1'])

       price  num
books            
bk1       36    4
bk2       30    6
bk3       17    2
price    36
num       4
Name: bk1, dtype: int64


#### apply
apply应该是大家的老朋友了，它相比agg和transform而言更加灵活，能够传入任意自定义的函数，实现复杂的数据操作。

在groupby后使用apply和之前所介绍的有什么区别呢？

区别是有的，但是整个实现原理是基本一致的。两者的区别在于，对于groupby后的apply，以分组后的子DataFrame作为参数传入指定函数的，基本操作单位是DataFrame，而之前介绍的apply的基本操作单位是Series。还是以一个案例来介绍groupby后的apply用法。

假设我现在需要获取各个公司年龄最大的员工的数据，该怎么实现呢？可以用以下代码实现：

In [250]:
def get_oldest_staff(x):
    df = x.sort_values(by = 'age')
    return df.iloc[-1,:] # 选择最后一行，所有列

oldest_staff = data.groupby('company',as_index=False).apply(get_oldest_staff)
oldest_staff

Unnamed: 0,company,salary,age
0,A,26,46
1,B,38,39
2,C,29,44


这样便得到了每个公司年龄最大的员工的数据，整个流程图解如下：

![image.png](attachment:image.png)

可以看到，此处的apply和上篇文章中所介绍的作用原理基本一致，只是传入函数的参数由Series变为了此处的分组DataFrame。
最后，关于apply的使用，这里有个小建议，虽然说apply拥有更大的灵活性，但apply的运行效率会比agg和transform更慢。所以，groupby之后能用agg和transform解决的问题还是优先使用这两个方法，实在解决不了了才考虑使用apply进行操作。

### [unique()函数与nunique()函数区别](https://blog.csdn.net/feizxiang3/article/details/93380525)

- `unique()`是以 数组形式（numpy.ndarray）返回列的所有唯一值（特征的所有唯一值）
- `nunique()` Return number of unique elements in the object.即返回的是唯一值的个数

![image.png](attachment:image.png)

### [is None/np.isnan(i)/i.isnull()之间的差别](https://blog.csdn.net/weixin_41712499/article/details/82719987)

### [qcut() pandas的qcut()方法详解)](https://www.zhangshengrong.com/p/boNwrlbbaw/)

基于分位数的离散化功能.

可以把一组数字按大小区间进行分区,比如

`data = pd.Series([0,8,1,5,3,7,2,6,10,4,9])`

比如我要把这组数据分成两部分,一半大的,一半小的,如果是小的数,值就变成'small number',大的数,值就变成'large number'

In [63]:
data = pd.Series([0,8,1,5,3,7,2,6,10,4,9])

print(pd.qcut(data,[0,0.5,1],labels=['small number','large number']))

0     small number
1     large number
2     small number
3     small number
4     small number
5     large number
6     small number
7     large number
8     large number
9     small number
10    large number
dtype: category
Categories (2, object): [small number < large number]


- 第一个参数是数据
- 第二个参数定义区间的分割方法,比如这里把数字分成两半,那就是 [0, 0.5, 1] 如果要分成4份,就是 [0, 0.25, 0.5, 0.75, 1] ,也可以不是均分,比如 [0, 0.1, 0.2, 0.3, 1] ,这就就会按照 1:1:1:7 进行分布,比如:

In [64]:
print(pd.qcut(data,[0, 0.1, 0.2, 0.3, 1],labels=['first 10%','second 10%','third 10%','70%']))

0      first 10%
1            70%
2      first 10%
3            70%
4      third 10%
5            70%
6     second 10%
7            70%
8            70%
9            70%
10           70%
dtype: category
Categories (4, object): [first 10% < second 10% < third 10% < 70%]


当然,这里因为数据里有11个数,没法刚好按照 1:1:1:7 分,所以 0和1,都被分到了 'first10%' 这一类.

qcut() 方法第二个参数是要替换的值,就是对应区间的值应该替换成什么值,顺序和区间保持一致就好了,注意有几个区间,就要给几个值,不能多也不能少.

### [对DataFrame对象转置](https://zhuanlan.zhihu.com/p/77912924)

- 转置：将行变成列，列变成行，跟numpy中一样，使用.T操作即可
- 注意：转置后的结果是一个副本，不会对原对象进行转置

In [94]:
info = {
    'name' : ['james', 'lucy', 'lily'],
    'age' : [18, 19, 20]
}

data = pd.DataFrame(info)
data

Unnamed: 0,name,age
0,james,18
1,lucy,19
2,lily,20


In [95]:
data.T

Unnamed: 0,0,1,2
name,james,lucy,lily
age,18,19,20


### [Pandas基础用法大全](https://www.cnblogs.com/HongjianChen/p/9626012.html)

In [None]:
import pandas as pd
import numpy as np
import pymysql


#缩写
# df 任意的Pandas DataFrame对象
# s 任意的Pandas Series对象，表示一列


#导入数据
filename='D:/IJCAI/file.csv'
pd.read_csv(filename,sep=' ')#从CSV文件导入数据
df=pd.read_csv(filename,sep=' ',header=None) #没有头的文件
df.columns =['f1','f2']
pd.read_table(filename)#从限定分隔符的文本文件导入数据
pd.read_excel(filename)#从Excel文件导入数据
query='select user_id,item_id from data'
db = pymysql.connect(host='host_name', port=3600, user='user_name', passwd='123456', db='db_name',charset="utf8")
pd.read_sql(query, db)#从SQL表/库导入数据
pd.read_json(json_string)#从JSON格式的字符串导入数据
pd.read_html(url)#解析URL、字符串或者HTML文件，抽取其中的tables表格
pd.read_clipboard()#从你的粘贴板获取内容，并传给read_table()


#自己构造dataframe数据
df=pd.DataFrame([[1,2,3],[4,5,6]],columns=['f1','f2','f3'])
df=pd.DataFrame({'user_id':[1,2,3],'item_id':[12,34,56]}) # 按列构造
df=pd.DataFrame([{'user_id':1,'item_id':2},{'user_id':'3'},{'item_id':4}]) #按行构造


#导出数据
df.to_csv(filename,index=False,sep=',')#导出数据到CSV文件
df.to_excel(filename) #导出数据到Excel文件
df.to_sql(table_name, db) #导出数据到SQL表
df.to_json(filename) #以Json格式导出数据到文本文件


#查看数据
df.head(n)#查看DataFrame对象的前n行
df.tail(n)#查看DataFrame对象的最后n行
df.shape()#查看行数和列数
df.info()#查看索引、数据类型和内存信息
df.describe()#查看数值型列的汇总统计
df['user_id'].value_counts(dropna=False) #查看Series对象的唯一值和计数


#数据选取
s=df['user_id']#根据列名，并以Series的形式返回列
df[['user_id', 'item_id']]#以DataFrame形式返回多列
s.iloc[0]#按位置选取数据
s.loc['index_one']#按索引选取数据
df.iloc[0,:]#返回第一行
df.iloc[0,0]#返回第一列的第一个元素
df.sample(frac=0.5)  #采样
df.sample(n=len(df))


#数据整理


pd.isnull()#检查DataFrame对象中的空值，并返回一个Boolean数组
pd.notnull()#检查DataFrame对象中的非空值，并返回一个Boolean数组
df.dropna(axis=0)#删除所有包含空值的行
df.dropna(axis=1)#删除所有包含空值的列
df.dropna(axis=1,thresh=n)#删除所有小于n个非空值的行
df.fillna(x)#用x替换DataFrame对象中所有的空值
df.fillna(df.mode().iloc[0]) #众值填充
df.fillna(df.median()) #中位数填充
df["user_age"][df.age.isnull()]="0"  #对某一列填充
s.astype(float)#将Series中的数据类型更改为float类型
df["user_age"]=df["user_age"].astype('int') #更改某列类型
s.replace(1,'one')#用‘one’代替所有等于1的值
s.replace([1,3],['one','three'])#用'one'代替1，用'three'代替3
df.columns = ['a','b','c']#重命名列名
df.rename(columns=lambda x: x + 1)#批量更改列名
df.rename(index=lambda x: x + 1)#批量重命名索引
df.rename(columns={'old_name': 'new_ name'})#选择性更改列名
df.set_index('column_one')#更改索引列
df.reset_index(drop=True) #重置索引，主要用在各种操作之后，索引会被打乱






#数据处理#Filter 、Sort 和 GroupBy
df[df[col] > 0.5]#选择col列的值大于0.5的行
df.sort_values(by='col1',ascending=True)#按照列col1排序数据，默认升序排列
df.sort_values([col1,col2], ascending=[True,False])#先按列col1升序排列，后按col2降序排列数据
df.groupby(col)#返回一个按列col进行分组的Groupby对象
df.groupby([col1,col2])#返回一个按多列进行分组的Groupby对象
df.groupby(col1)[col2].apply(np.mean)#返回按列col1进行分组后，列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)#创建一个按列col1进行分组，并计算col2和col3的最大值的数据透视表
df.groupby(col1).agg(np.mean)#返回按列col1分组的所有列的均值
df.groupby('user_id',as_index=False)['is_trade'].agg({'buy':'sum','click':'count','cvr':'mean'}) #生成新的df，列是user_id,buy,click,cvr


for index,row in df.iterrows():
    # index 是行号
    # row是一行
    print(index,row['user_id'])
    break
    pass


for key,df in df.groupby('user_gender_id'):
    # key 就是user_id
    # df就是分组后的dataframe
    print(key,len(df))
    pass


df['user_id'].apply(np.mean)#对DataFrame中的每一列应用函数np.mean
df.apply(np.max,axis=1)#对DataFrame中的每一行应用函数np.max
#构造分组排序特征，比如对shop分组，对组里面的item转化率分别排序
df.groupby('shop_id',as_index=False)['item_cvr'].rank(ascending=False, method='dense')


# 数据合并
df1.append(df2)#将df2中的行添加到df1的尾部
pd.concat([df1, df2],axis=1)#按列合并
pd.concat([df1,df2],axis=0)#按行合并
pd.merge(df1,df2,on='user_id',how='inner')#对df1的列和df2的列执行SQL形式的join
#差集计算
df1=pd.DataFrame({'user_id':[1,2,3,4],'item_id':[11,22,33,44]})
df2=pd.DataFrame({'user_id':[1,2]})
df2['flag']=1
df3=pd.merge(df1,df2,on='user_id',how='left')
df3=df3[df3.flag.isnull()].drop('flag',axis=1)


# 数据统计


df.mean()#返回所有列的均值
df.corr()#返回所有列与列之间的相关系数
df.item_star_level.corr(df.is_trade)
df.count()#返回每一列中的非空值的个数
df.max()#返回每一列的最大值
df.min()#返回每一列的最小值
df.median()#返回每一列的中位数
df.std()#返回每一列的标准差
df.dtypes #查看数据类型
df["user_age_level"].hist() #查看变量分布
df.isnull().sum()  #查看每一列缺失值情况
df['n_null'] = df.isnull().sum(axis=1) #查看每一行缺失值情况
df["user_age_level"].value_counts() #查看这一列的值统计
df['user_age_level'].unique() #查看数据取值

## 实际应用场景

### 未读完 [DataFrame 新增列的五种方法](https://blog.csdn.net/qq_35318838/article/details/102720553)

####   insert 方法

- 第一个参数指定插入列的位置
- 第二个参数指定插入列的列名
- 第三个参数指定插入列的数据

#### obj[‘col’] = value 方法
直接对 DataFrame 直接赋值即可

In [17]:
import pandas as pd
import numpy as np
data = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=['a', 'b', 'c'])
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [18]:
# 方法一
print('行列',data.shape)
data.insert(data.shape[1], 'd', 0)
data

行列 (3, 3)


Unnamed: 0,a,b,c,d
0,1,2,3,0
1,4,5,6,0
2,7,8,9,0


In [19]:
# 方法二
data['e'] = 0
data

Unnamed: 0,a,b,c,d,e
0,1,2,3,0,0
1,4,5,6,0,0
2,7,8,9,0,0


### 未看完 [pandas计算同比环比增长](https://blog.csdn.net/weixin_35894821/article/details/92796844)

[python如何计算环比增长率](https://zhuanlan.zhihu.com/p/135308611)

- 环比增长率=（本期的某个指标的值-上一期这个指标的值）/上一期这个指标的值*100%
- 同比增长率 = 现年的某个指标的值-上年同期这个指标的值）/上年同期这个指标的值

In [39]:
import pandas as pd
import random
date = list(pd.date_range('1/1/2017', periods=24, freq='M')) #生成日期
money = [random.randint(1000,9000) for i in range(0,24)] #随机生成销售额
data = pd.DataFrame({'date':date,'money':money}) #组成一个dataframe

data

Unnamed: 0,date,money
0,2017-01-31,2437
1,2017-02-28,6819
2,2017-03-31,6931
3,2017-04-30,4592
4,2017-05-31,1220
5,2017-06-30,8332
6,2017-07-31,2611
7,2017-08-31,8663
8,2017-09-30,5681
9,2017-10-31,4021


#### 方法一：常规操作

In [41]:
# 方法一

data['mom'] = 0

for i in range(0,len(data)):
    if i == 0:
        data.loc[i,'mom'] = 'Null'
    else:
        data.loc[i,'mom'] = format((data.loc[i,'money'] - data.loc[i-1,'money'])/data.loc[i-1,'money'],'.2%')
        #format(res,'.2%') 小数格式化为百分数

data

Unnamed: 0,date,money,mom
0,2017-01-31,2437,Null
1,2017-02-28,6819,179.81%
2,2017-03-31,6931,1.64%
3,2017-04-30,4592,-33.75%
4,2017-05-31,1220,-73.43%
5,2017-06-30,8332,582.95%
6,2017-07-31,2611,-68.66%
7,2017-08-31,8663,231.79%
8,2017-09-30,5681,-34.42%
9,2017-10-31,4021,-29.22%


#### 方法二：diff 

pandas.Series.diff 用于新值减去旧值

`diff（periods=1, axis=0)`

- periods：移动的幅度 默认值为1
- axis:移动的方向，{0 or ‘index’, 1 or ‘columns’}，如果为0或者’index’，则上下移动，如果为1或者’columns’，则左右移动。默认列向移动


In [43]:
money_diff = data.money.diff()
data['mom_1'] = money_diff/

0        NaN
1     4382.0
2      112.0
3    -2339.0
4    -3372.0
5     7112.0
6    -5721.0
7     6052.0
8    -2982.0
9    -1660.0
10    4551.0
11   -2409.0
12    -500.0
13    1304.0
14   -3699.0
15   -1194.0
16    1832.0
17   -2196.0
18    5871.0
19   -2108.0
20    2054.0
21   -4428.0
22    5615.0
23   -6082.0
Name: mom_1, dtype: float64

### pandas 文件处理

#### 向一个csv文件追加写入数据

pandas to_csv()只能在新文件写数据？当然不是！ pandas to_csv() 是可以向已经存在的具有相同结构的csv文件增加dataframe数据。

`df.to_csv('my_csv.csv', mode='a', header=False)`

to_csv()方法mode默认为w，我们加上mode='a'，便可以追加写入数据。

### 判断空值的情况 (未读完)
[Pandas中空值的判断方法，包括数值型、字符串型、时间类型等](https://blog.csdn.net/weixin_39750084/article/details/81750185)

[pandas中对nan空值的判断和陷阱](https://blog.csdn.net/S_o_l_o_n/article/details/100661937)

### [Pandas的isna() vs isnull() vs numpy.isnan()有什么区别？](https://blog.csdn.net/htuhxf/article/details/89525441)

Pandas `isna()` vs `isnull()`

我觉得咱要说的是`pandas.DataFrame.isna()` vs `pandas.DataFrame.isnull()`。而不是pandas.isnull()，因为它不是用于DataFrame的。

这俩函数的功用一模一样！它俩甚至连官方文档都一模一样。你点击pandas的官网文档就明白了。

但是为什么搞2个函数、取2个名字，来做同样的事儿？

这是因为pandas的DataFrame是基于R的DataFrame。在R里边na和null是分开的2个东西。

然而，在python里边，pandas是建在numpy上的（即numpy的定制版），而numpy可是没na，也没null，只有NaN的（是 “Not a Number”的缩写）。因此，pandas还用NaN。

简单说呢就是：
- numpy里边查找NaN值的话，就用np.isnan()。
- pandas里边查找NaN值的话，要么.isna()，要么.isnull()。
- NaN源于这样一个事实：即pandas构建在numpy之上，而这两个函数的名称源自R的DataFrame，pandas就是试图模仿它的结构和功能。

### [从 numpy array 中删除 NaN值](https://www.kite.com/python/answers/how-to-remove-nan-values-from-a-numpy-array-in-python)

#### np.isnan 针对数值型

对于字符串类型会报错

`ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule...`

In [17]:
array1 = np.array([np.nan, 1, 2])
print(array1)
nan_array = np.isnan(array1)
nan_array

[nan  1.  2.]


array([ True, False, False])

In [19]:
not_nan_array = ~nan_array #取反
not_nan_array

array([False,  True,  True])

In [20]:
array2 = array1[not_nan_array]
array2

array([1., 2.])

#### pd.isnull 对于字符串类型

In [21]:
a = ['A', np.nan, np.nan, 1.67, 8]
a

['A', nan, nan, 1.67, 8]

In [22]:
pd.isnull(a) 

array([False,  True,  True, False, False])

In [23]:
pd.notnull(a)

array([ True, False, False,  True,  True])

In [25]:
for x in a:
    if pd.notnull(x):
        print(x)

A
1.67
8


In [30]:
not_null_a = [x for x in a if pd.notnull(x)]
not_null_a

['A', 1.67, 8]

### numpy.datetime64() 日期函数

创建数据时间的最基本的方法是使用I**ISO 8601日期**或日期时间格式的字符串。内部存储单元是从字符串的形式自动选择的，可以是日期单位 **date unit**或**时间单位 time unit**。

- 日期单位是年（'Y'），月（'M'），周（'W'）和天（'D'）
- 时间单位是小时（'h'），分钟（'m'） ），秒（'s'）， 毫秒（'ms'）和一些额外的SI前缀基于秒的单位

#### 简单的ISO日期

In [12]:
import numpy as np
np.datetime64('2005-02-25')

numpy.datetime64('2005-02-25')

#### 使用月份为单位

In [13]:
np.datetime64('2005-02')

numpy.datetime64('2005-02')

#### 仅指定月份，但强制使用“天”单位

In [14]:
np.datetime64('2005-02', 'D')

numpy.datetime64('2005-02-01')

datetime类型适用于许多常见的NumPy函数，例如arange可用于生成日期范围。

### 时间差

[A simple way to finding the difference between two dates in Pandas](https://medium.com/@bramtunggala/a-simple-way-to-finding-the-difference-between-two-dates-in-pandas-179d2714b6c)

In [8]:
import pandas as pd   
import numpy as np
# import datetime
# from dateutil.relativedelta import relativedelta
from datetime import date

In [9]:
date1 = pd.Series(pd.date_range('2018-1-1 12:00:00',periods=7,freq='M'))
date2 = pd.Series(pd.date_range('2019-3-11 21:45:00',periods=7,freq='W'))

date_df = pd.DataFrame(dict(Start_date=date1, End_date=date2))
date_df

Unnamed: 0,Start_date,End_date
0,2018-01-31 12:00:00,2019-03-17 21:45:00
1,2018-02-28 12:00:00,2019-03-24 21:45:00
2,2018-03-31 12:00:00,2019-03-31 21:45:00
3,2018-04-30 12:00:00,2019-04-07 21:45:00
4,2018-05-31 12:00:00,2019-04-14 21:45:00
5,2018-06-30 12:00:00,2019-04-21 21:45:00
6,2018-07-31 12:00:00,2019-04-28 21:45:00


#### 天数差

In [11]:
date_df['diff_days'] = date_df['End_date'] - date_df['Start_date']
date_df

Unnamed: 0,Start_date,End_date,diff_days
0,2018-01-31 12:00:00,2019-03-17 21:45:00,410 days 09:45:00
1,2018-02-28 12:00:00,2019-03-24 21:45:00,389 days 09:45:00
2,2018-03-31 12:00:00,2019-03-31 21:45:00,365 days 09:45:00
3,2018-04-30 12:00:00,2019-04-07 21:45:00,342 days 09:45:00
4,2018-05-31 12:00:00,2019-04-14 21:45:00,318 days 09:45:00
5,2018-06-30 12:00:00,2019-04-21 21:45:00,295 days 09:45:00
6,2018-07-31 12:00:00,2019-04-28 21:45:00,271 days 09:45:00


### index 对象

集合的并、交、补、差、对称差 基本运算法

In [1]:
import pandas as pd
import numpy as np

a = pd.Index(['c', 'b', 'a'])
b = pd.Index(['c', 'e', 'd'])

In [2]:
# a 并 b 并集
a | b

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [3]:
# a 交 b 交集
a & b

Index(['c'], dtype='object')

In [4]:
# a 差 b，结果在 a 中不在 b 中
a.difference(b)

Index(['a', 'b'], dtype='object')

In [7]:
# b 差 a，结果在 b 中不在 a 中
b.difference(a)

Index(['d', 'e'], dtype='object')

In [6]:
# a 对称差 b 
a.symmetric_difference(b)

Index(['a', 'b', 'd', 'e'], dtype='object')

In [5]:
a ^ b

Index(['a', 'b', 'd', 'e'], dtype='object')

### 一行变多行

![image.png](attachment:image.png)

#### 常规方法

In [8]:
import pandas as pd
import numpy as np

df=pd.read_excel('一行变多行.xlsx')
df.head()

Unnamed: 0,姓名,爱好
0,张三,旅游、画画、游泳
1,李四,跳舞、打羽毛球、唱歌
2,王五,打羽毛球、唱歌
3,赵六,旅游、唱歌


In [3]:
# 把“爱好”字段拆分，分为多列
df_name=df['爱好'].str.split('、',expand=True)
df_name

Unnamed: 0,0,1,2
0,旅游,画画,游泳
1,跳舞,打羽毛球,唱歌
2,打羽毛球,唱歌,
3,旅游,唱歌,


In [4]:
# 把行转列成列
df_name=df_name.stack()
df_name

0  0      旅游
   1      画画
   2      游泳
1  0      跳舞
   1    打羽毛球
   2      唱歌
2  0    打羽毛球
   1      唱歌
3  0      旅游
   1      唱歌
dtype: object

In [5]:
# 重置索引，并删除多于的索引
df_name = df_name.reset_index(level=1,drop=True)
df_name

0      旅游
0      画画
0      游泳
1      跳舞
1    打羽毛球
1      唱歌
2    打羽毛球
2      唱歌
3      旅游
3      唱歌
dtype: object

In [6]:
# 与原始数据合并
df_name.name='df_name1'
df_new = df.drop(['爱好'], axis=1).join(df_name)
df_new

Unnamed: 0,姓名,df_name1
0,张三,旅游
0,张三,画画
0,张三,游泳
1,李四,跳舞
1,李四,打羽毛球
1,李四,唱歌
2,王五,打羽毛球
2,王五,唱歌
3,赵六,旅游
3,赵六,唱歌


In [7]:
#  一行代码解决
# df.drop(['爱好'], axis=1).join(df['爱好'].str.split('、', expand=True).stack().reset_index(level=1, drop=True).rename('df_name1'))

#### explode( )

使用pandas中自带的explode( )方法也可以实现行扩展。但是需要注意的是，该方法只有在高版本(0.25)的pandas中才可以使用

In [21]:
df_1=pd.read_excel('一行变多行.xlsx')

#一、先将‘爱好’字段拆分
df_1['爱好']=df_1['爱好'].map(lambda x:x.split(','))

In [22]:
df_1

Unnamed: 0,姓名,爱好
0,张三,[旅游、画画、游泳]
1,李四,[跳舞、打羽毛球、唱歌]
2,王五,[打羽毛球、唱歌]
3,赵六,[旅游、唱歌]


In [23]:
#二、然后直接调用explode()方法
df_1.explode('爱好')

Unnamed: 0,姓名,爱好
0,张三,旅游、画画、游泳
1,李四,跳舞、打羽毛球、唱歌
2,王五,打羽毛球、唱歌
3,赵六,旅游、唱歌


In [27]:
df_1.explode('爱好') # 没有反应，可能是版本原因

Unnamed: 0,姓名,爱好
0,张三,旅游、画画、游泳
1,李四,跳舞、打羽毛球、唱歌
2,王五,打羽毛球、唱歌
3,赵六,旅游、唱歌


### [数据分箱](https://zhuanlan.zhihu.com/p/68194655)

经常会对数据进行分箱处理的操作， 也就是 把一段连续的值切分成若干段，每一段的值看成一个分类。这个把连续值转换成离散值的过程，我们叫做分箱处理。

比如，把年龄按15岁划分成一组，0-15岁叫做少年，16-30岁叫做青年，31-45岁叫做壮年。在这个过程中，我们把连续的年龄分成了三个类别，“少年”，“青年”和“壮年”就是各个类别的名称，或者叫做标签。

#### cut和qcut函数的基本介绍

在pandas中，cut和qcut函数都可以进行分箱处理操作。其中

- cut函数是按照数据的值进行分割
- qcut函数则是根据数据本身的数量来对数据进行分割。

区分
- cut在划分区间时，按照绝对值
- qcut在划分区间时，使用分位数

In [1]:
import pandas as pd

d = pd.DataFrame([x**2 for x in range(11)],columns=['number'])
d

Unnamed: 0,number
0,0
1,1
2,4
3,9
4,16
5,25
6,36
7,49
8,64
9,81


##### cut：按变量的值进行分割

例子：按照数据值由小到大的顺序将数据分成4份，并且使每组值的范围大致相等。

pandas.cut( x , bins , right=True , labels=None , retbins=False , precision=3 , include_lowest=False,duplicates='raise')

- 参数说明: 
    - x    : 进行划分的一维数组；
    - bins :如果是整数---将x划分为多少个等间距的区间，如代码一；
    - bins :如果是序列，则将x划分在指定的序列中，若不在该序列中，则是NaN ，如代码二；
    - right : 是否包含右端点；
    - labels : 是否用标记来代替返回的bins，如代码三；
    - retbins: 是否返回间距bins，如果retbins = False 则返回x中每个值对应的bin的列表，否者则返回x中每个值对应的bin的列表和对应的bins；
    - precision: 精精度；
    - include_lowest:是否包含左端点；   

In [2]:
d_cut = d.copy()
d_cut['cut_group'] =pd.cut(d_cut['number'], 4)
d_cut

Unnamed: 0,number,cut_group
0,0,"(-0.1, 25.0]"
1,1,"(-0.1, 25.0]"
2,4,"(-0.1, 25.0]"
3,9,"(-0.1, 25.0]"
4,16,"(-0.1, 25.0]"
5,25,"(-0.1, 25.0]"
6,36,"(25.0, 50.0]"
7,49,"(25.0, 50.0]"
8,64,"(50.0, 75.0]"
9,81,"(75.0, 100.0]"


我们可以看到， 上面的代码把数据按照由小到大的顺序平均切分成了4份， 每份的值的跨度大约是25。

其中， (a1, a2]表示 a < x <= b， 默认情况下， 每个区间包括最大值， 不包括最小值。但是最左边的值， 一般设置成最小值（0）减去最大值（100）的0.1%， 也就是0 - 100*0.1% = -0.1

我们查看一下上面每个分组里变量的个数。

In [3]:
# 查看每个分组里变量的个数
d_cut['cut_group'].value_counts()

(-0.1, 25.0]     6
(75.0, 100.0]    2
(25.0, 50.0]     2
(50.0, 75.0]     1
Name: cut_group, dtype: int64

可以看到，每个分组里数据的个数并不一样。

如果希望每个分组里的数据个数一样，我们就要用到了qcut方法。

##### qcut : 按数据的数量进行分割

跟cut()按照变量的值对变量进行分割不同， qcut()是按变量的数量来对变量进行分割，并且尽量保证每个分组里变量的个数相同。

例子：把数据由小到大分成四组，并且让每组数据的数量相同

In [4]:
d_qcut = d.copy()
d_qcut['qcut_group'] = pd.qcut(d_qcut['number'], 4)
d_qcut

Unnamed: 0,number,qcut_group
0,0,"(-0.001, 6.5]"
1,1,"(-0.001, 6.5]"
2,4,"(-0.001, 6.5]"
3,9,"(6.5, 25.0]"
4,16,"(6.5, 25.0]"
5,25,"(6.5, 25.0]"
6,36,"(25.0, 56.5]"
7,49,"(25.0, 56.5]"
8,64,"(56.5, 100.0]"
9,81,"(56.5, 100.0]"


In [5]:
# 查看每个分组里变量的个数
d_qcut['qcut_group'].value_counts()

(56.5, 100.0]    3
(6.5, 25.0]      3
(-0.001, 6.5]    3
(25.0, 56.5]     2
Name: qcut_group, dtype: int64

从上面的结果我们可以看到，使用qcut()对数据进行分割之后，每个分组里的数据个数都大致相同，但是跟cut()不同的是，每个分组里值的范围并不相同。

#### cut和qcut函数的拓展用法
上面的内容说明了cut和qcut函数的基本区别，接下来我们来补充一些这两个函数的其它用法。

##### cut()
例子1：bins参数：按照指定的边界值对变量进行分割

In [6]:
d_cut_bins = d.copy()
d_cut_bins['cut_group'] = pd.cut(d_cut_bins['number'], 
                                bins=[0, 10, 50, 100])
d_cut_bins

Unnamed: 0,number,cut_group
0,0,
1,1,"(0.0, 10.0]"
2,4,"(0.0, 10.0]"
3,9,"(0.0, 10.0]"
4,16,"(10.0, 50.0]"
5,25,"(10.0, 50.0]"
6,36,"(10.0, 50.0]"
7,49,"(10.0, 50.0]"
8,64,"(50.0, 100.0]"
9,81,"(50.0, 100.0]"
