# Pandas数据结构

In [1]:
import pandas as pd

## Series

In [2]:
# 通过list创建Series
ser_obj = pd.Series(range(10, 20))
print(ser_obj)

0    10
1    11
2    12
3    13
4    14
5    15
6    16
7    17
8    18
9    19
dtype: int64


In [3]:
# 获取数据
print(ser_obj.values)

# 获取索引
print(ser_obj.index)

# 预览数据
print(ser_obj.head())

[10 11 12 13 14 15 16 17 18 19]
RangeIndex(start=0, stop=10, step=1)
0    10
1    11
2    12
3    13
4    14
dtype: int64


In [4]:
# 通过dict创建Series
years_data = {2001: 17.8, 2002: 20.1, 2003: 16.5}
ser_obj2 = pd.Series(years_data)
print(ser_obj2.head())
print(ser_obj2.index)

2001    17.8
2002    20.1
2003    16.5
dtype: float64
Int64Index([2001, 2002, 2003], dtype='int64')


In [5]:
# name属性
ser_obj2.name = 'temp'
ser_obj2.index.name = 'year'
print(ser_obj2.head())

year
2001    17.8
2002    20.1
2003    16.5
Name: temp, dtype: float64


## DataFrame

### 通过ndarray构建DataFrame

In [6]:
import numpy as np
array = np.random.randn(5, 4)  # 标准正态分布
print(array)
df_obj = pd.DataFrame(array)
print(df_obj.head())

[[-0.11353081  0.94796577  0.19558377  0.31562581]
 [ 1.37057659  1.18064147  0.08863999  0.0178791 ]
 [-0.83073438  0.64219754  0.07895568 -0.32836279]
 [-1.19355566  0.92363394  0.47129542  0.98665345]
 [ 0.43964795 -0.3012785   0.3639327  -0.17682835]]
          0         1         2         3
0 -0.113531  0.947966  0.195584  0.315626
1  1.370577  1.180641  0.088640  0.017879
2 -0.830734  0.642198  0.078956 -0.328363
3 -1.193556  0.923634  0.471295  0.986653
4  0.439648 -0.301278  0.363933 -0.176828


### 通过dict构建DataFrame

In [7]:
dict_data = {
    'A': 1,
    'B': pd.Timestamp('20190531'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(['Python', 'Java', 'C++', 'C#']),
    'F': 'ChinaHadoop'
}
df_obj2 = pd.DataFrame(dict_data)
print(df_obj2.head())

   A          B    C  D       E            F
0  1 2019-05-31  1.0  3  Python  ChinaHadoop
1  1 2019-05-31  1.0  3    Java  ChinaHadoop
2  1 2019-05-31  1.0  3     C++  ChinaHadoop
3  1 2019-05-31  1.0  3      C#  ChinaHadoop


In [8]:
# 访问列
print(df_obj2['E'])

0    Python
1      Java
2       C++
3        C#
Name: E, dtype: category
Categories (4, object): [C#, C++, Java, Python]


### 通过list构建DataFrame

In [9]:
df_obj3 = pd.DataFrame(['a', 'b', 'c', 'd'])
df_obj3

Unnamed: 0,0
0,a
1,b
2,c
3,d


In [10]:
# 嵌套list
df_obj4 = pd.DataFrame([['a', 'A'], ['b', 'B'], ['c', 'C'], ['d', 'D']])
df_obj4

Unnamed: 0,0,1
0,a,A
1,b,B
2,c,C
3,d,D


### 指定行、列索引

In [11]:
# 设置列索引
df_obj5 = pd.DataFrame([['a', 'A'], ['b', 'B'], ['c', 'C'], ['d', 'D']], columns=['小写', '大写'])
df_obj5

Unnamed: 0,小写,大写
0,a,A
1,b,B
2,c,C
3,d,D


In [12]:
# 设置行索引
df_obj6 = pd.DataFrame([['a', 'A'], ['b', 'B'], ['c', 'C'], ['d', 'D']], index=['一', '二', '三', '四'])
df_obj6

Unnamed: 0,0,1
一,a,A
二,b,B
三,c,C
四,d,D


# Pandas导入数据

## 导入.xlsx文件

### 基本导入

In [13]:
df = pd.read_excel(r'D:\data_analysis\test.xlsx')
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018-08-08
1,A2,16,女,2018-08-09
2,A3,47,女,2018-08-10
3,A4,41,男,2018-08-11


### 指定导入哪个Sheet

In [14]:
df = pd.read_excel(r'D:\data_analysis\test.xlsx', sheet_name='Sheet1')
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018-08-08
1,A2,16,女,2018-08-09
2,A3,47,女,2018-08-10
3,A4,41,男,2018-08-11


### 指定行索引：用第一列做行索引

In [15]:
df = pd.read_excel(r'D:\data_analysis\test.xlsx', sheet_name=0, index_col=1)  # 用第1列做行索引
print(df)

    编号 性别       注册时间
年龄                  
54  A1  男 2018-08-08
16  A2  女 2018-08-09
47  A3  女 2018-08-10
41  A4  男 2018-08-11


index_col表示用.xlsx文件中第几列做行索引，从0开始计数

### 指定列索引

将本地文件导入DataFrame时，默认使用源数据表的第一行做为列索引，也可以通过设置header参数来设置列索引，header值默认为0，即用第一行作为列索引。

In [16]:
# 使用第一行作为列索引
df = pd.read_excel(r'D:\data_analysis\test.xlsx', sheet_name=0, header=0)
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018-08-08
1,A2,16,女,2018-08-09
2,A3,47,女,2018-08-10
3,A4,41,男,2018-08-11


In [17]:
# 使用第二行作为列索引
df = pd.read_excel(r'D:\data_analysis\test.xlsx', sheet_name=0, header=1)
df

Unnamed: 0,A1,54,男,2018-08-08 00:00:00
0,A2,16,女,2018-08-09
1,A3,47,女,2018-08-10
2,A4,41,男,2018-08-11


In [18]:
# 使用从0开始的数作为列索引
df = pd.read_excel(r'D:\data_analysis\test.xlsx', sheet_name=0, header=None)
df

Unnamed: 0,0,1,2,3
0,编号,年龄,性别,注册时间
1,A1,54,男,2018-08-08 00:00:00
2,A2,16,女,2018-08-09 00:00:00
3,A3,47,女,2018-08-10 00:00:00
4,A4,41,男,2018-08-11 00:00:00


### 指定导入列

In [19]:
# 使用usecols参数来指定要导入的列
df = pd.read_excel(r'D:\data_analysis\test.xlsx', usecols=[0])
df

Unnamed: 0,编号
0,A1
1,A2
2,A3
3,A4


## 导入.csv文件

### 直接导入

read_csv（）默认文件中数据以逗号分隔开，如果文件数据不是以逗号分开，则需人为指定分隔符号

默认以第一行为列索引

In [20]:
df = pd.read_csv(r'D:\data_analysis\test.csv') # test.csv用逗号分隔开
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


In [21]:
df = pd.read_csv(r'D:\data_analysis\test1.csv', sep=' ') # test1.csv用空格分隔开
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


### 指明读取行数

In [22]:
df = pd.read_csv(r'D:\data_analysis\test1.csv', sep=' ', nrows=2) # test1.csv用空格分隔开
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9


### 指定编码格式

通过设置参数encoding来设置导入的编码格式，默认编码格式为UTF-8

In [23]:
df = pd.read_csv(r'D:\data_analysis\test1.csv', sep=' ', encoding='utf-8') # test1.csv用空格分隔开
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


# 熟悉数据

## 利用head预览前几行

In [24]:
df.head() # 默认展示前5行

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


In [25]:
df.head(2) # 只展示前2行

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9


## 利用shape属性获取数据表的大小

In [26]:
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


In [27]:
df.shape

(4, 4)

## 利用info获取数据类型

In [28]:
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
编号      4 non-null object
年龄      4 non-null int64
性别      4 non-null object
注册时间    4 non-null object
dtypes: int64(1), object(3)
memory usage: 256.0+ bytes


## 利用describe方法获取特征分布情况

In [30]:
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


In [31]:
# 数值型特征的统计描述
df.describe()

Unnamed: 0,年龄
count,4.0
mean,39.5
std,16.542874
min,16.0
25%,34.75
50%,44.0
75%,48.75
max,54.0


In [32]:
# 类别型特征的统计描述
df.describe(include=['object'])

Unnamed: 0,编号,性别,注册时间
count,4,4,4
unique,4,2,4
top,A3,男,2018/8/8
freq,1,2,1


# 数据预处理

## 缺失值处理

### 缺失值查看

In [33]:
df = pd.read_csv(r'D:\data_analysis\test2.csv') 
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,,2018/8/9
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
编号      4 non-null object
年龄      4 non-null int64
性别      3 non-null object
注册时间    4 non-null object
dtypes: int64(1), object(3)
memory usage: 256.0+ bytes


用isnull（）方法来判断哪个是缺失值，如果是缺失值则返回True.

In [35]:
df.isnull()

Unnamed: 0,编号,年龄,性别,注册时间
0,False,False,False,False
1,False,False,True,False
2,False,False,False,False
3,False,False,False,False


### 缺失值删除

缺失值分为两种，一种是一行中某个字段是缺失值；另一种是一行中的字段全部为缺失值，即为一个空白行

利用dropna（）方法，dropna（）方法默认删除含有缺失值的行，也就是只要某一行有缺失值就把这一行删除

In [36]:
df = pd.read_csv(r'D:\data_analysis\test2.csv') 
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,,2018/8/9
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


In [37]:
df.dropna()

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


如果只想删除空白行，则必须给dropna（）方法传入一个参数how='all'，这样不全为空值的行就不会被删除

In [38]:
df = pd.read_csv(r'D:\data_analysis\test3.csv') 
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54.0,男,2018/8/8
1,A2,16.0,,2018/8/9
2,,,,
3,A4,41.0,男,2018/8/11


In [39]:
df.dropna(how='all')

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54.0,男,2018/8/8
1,A2,16.0,,2018/8/9
3,A4,41.0,男,2018/8/11


### 缺失值填充

#### 均值、中位数、众数填充

利用fillna（）方法对数据表中的所有缺失值进行填充，在fillna后面的括号中输入要填充的值即可

In [40]:
df = pd.read_csv(r'D:\data_analysis\test4.csv') 
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54.0,男,2018/8/8
1,A2,16.0,,2018/8/9
2,A3,,女,2018/8/10
3,A4,41.0,男,2018/8/11


In [41]:
df.fillna({'年龄':'30', '性别':'女'}) # 按不同列填充

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9
2,A3,30,女,2018/8/10
3,A4,41,男,2018/8/11


#### 插值填充

SciPy的interpolate模块提供了函数interp1d，lagrange（拉格朗日插值）。

In [42]:
# 线性插值
import numpy as np
from scipy.interpolate import interp1d
x = np.array([1, 2, 3, 4, 5, 8, 9, 10])   # 创建自变量x
y1 = np.array([2, 8, 18, 32, 50, 128, 162, 200])  # 创建因变量y1
y2 = np.array([3, 5, 7, 9, 11, 17, 19, 21])   # 创建因变量y2
LinearInsValue1 = interp1d(x, y1, kind='linear')   # 线性插值拟合x,y1
LinearInsValue2 = interp1d(x, y2, kind='linear')   # 线性插值拟合x,y2
print('当x为6、7时，使用线性插值y1为：', LinearInsValue1([6, 7]))
print('当x为6、7时，使用线性插值y2为：', LinearInsValue2([6, 7]))

当x为6、7时，使用线性插值y1为： [ 76. 102.]
当x为6、7时，使用线性插值y2为： [13. 15.]


In [43]:
# 多项式插值：拉格朗日插值
from scipy.interpolate import lagrange
LargeInsValue1 = lagrange(x, y1)  # 拉格朗日插值拟合x, y1
LargeInsValue2 = lagrange(x, y2)  # 拉格朗日插值拟合x, y2
print('当x为6、7时，使用拉格朗日插值y1为：', LargeInsValue1([6, 7]))
print('当x为6、7时，使用拉格朗日插值y2为：', LargeInsValue2([6, 7]))

当x为6、7时，使用拉格朗日插值y1为： [72. 98.]
当x为6、7时，使用拉格朗日插值y2为： [13. 15.]


1. 上述自变量x和因变量y1的关系式为：$y1=2x^2$
2. 上述自变量x和因变量y2的关系式为：$y2=2x+1$

从拟合结果可以看出，多项式插值拟合更加出色，线性插值只有在自变量和因变量为线性关系的情况下拟合才较为出色

## 重复值处理

利用drop_duplicates（）方法重复值，该方法默认对所有值进行重复值判断，且默认保留第一个（行）值

In [44]:
df = pd.read_csv(r'D:\data_analysis\test5.csv') 
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
3,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


In [45]:
df.drop_duplicates()

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


若只针对某一列或某几列进行重复值删除的判断，只需要在drop_duplicates（）方法中指明要判断的列名即可。

In [46]:
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
3,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


In [47]:
df.drop_duplicates(subset=['客户姓名', '唯一识别码'])

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11


还可以自定义删除重复项时保留哪个，默认保留第一个，也可以设置保留最后一个，或者全部不保留

通过传入参数keep进行设置，参数keep默认值是first，即保留第一个值；也可以是last，保留最后一个值；还可以是False,即把重复值全删除

In [48]:
# 保留最后一个值
df.drop_duplicates(subset=['客户姓名', '唯一识别码'], keep='last')

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张通,101,2018-08-08
1,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
5,A5,赵恒,104,2018-08-12


In [49]:
# 不保留任何重复值
df.drop_duplicates(subset=['客户姓名', '唯一识别码'], keep=False)

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张通,101,2018-08-08
1,A2,李谷,102,2018-08-09


## 数据类型转换

### 数据类型

在python中，不仅可以用info（）方法获取每一列的数据类型，还可以通过dtype来获取某一列的数据类型

In [50]:
df['订单编号'].dtype # 查看订单编号这一列的数据类型

dtype('O')

In [51]:
df['唯一识别码'].dtype # 查看唯一识别码这一列的数据类型

dtype('int64')

### 类型转换

在pyhon中，利用astype（）方法对数据类型进行转换，astype后面的括号里指明要转换的目标类型即可

In [52]:
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
3,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


In [53]:
df['唯一识别码'].dtype # 查看唯一识别码这一列的数据类型

dtype('int64')

In [54]:
df['唯一识别码'].astype('float64') # 将唯一识别码从int类型转换为float类型

0    101.0
1    102.0
2    103.0
3    103.0
4    104.0
5    104.0
Name: 唯一识别码, dtype: float64

## 索引设置

### 为无索引表添加索引

In [55]:
df = pd.read_csv(r'D:\data_analysis\test6.csv')
df

Unnamed: 0,0,1,2,3
0,A1,张通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
3,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


In [56]:
# 为表添加列索引
df.columns = ['订单编号', '客户姓名', '唯一识别码', '成交时间']
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张通,101,2018-08-08
1,A2,李谷,102,2018-08-09
2,A3,孙凤,103,2018-08-10
3,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


In [57]:
# 为表添加行索引
df.index = [1, 2, 3, 4, 5, 6]
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
1,A1,张通,101,2018-08-08
2,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
4,A3,孙凤,103,2018-08-10
5,A4,赵恒,104,2018-08-11
6,A5,赵恒,104,2018-08-12


### 重新设置索引

在python中可以利用set_index（）方法重新设置索引列，在set_index（）里指明要用作行索引的列的名称即可

In [58]:
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
1,A1,张通,101,2018-08-08
2,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
4,A3,孙凤,103,2018-08-10
5,A4,赵恒,104,2018-08-11
6,A5,赵恒,104,2018-08-12


In [59]:
df.set_index('订单编号') # 使用订单编号作为行索引

Unnamed: 0_level_0,客户姓名,唯一识别码,成交时间
订单编号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A1,张通,101,2018-08-08
A2,李谷,102,2018-08-09
A3,孙凤,103,2018-08-10
A3,孙凤,103,2018-08-10
A4,赵恒,104,2018-08-11
A5,赵恒,104,2018-08-12


### 重命名索引

In [60]:
# 重命名列索引
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
1,A1,张通,101,2018-08-08
2,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
4,A3,孙凤,103,2018-08-10
5,A4,赵恒,104,2018-08-11
6,A5,赵恒,104,2018-08-12


In [61]:
df.rename(columns={'订单编号': '新订单编号', '客户姓名': '新客户姓名'})

Unnamed: 0,新订单编号,新客户姓名,唯一识别码,成交时间
1,A1,张通,101,2018-08-08
2,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
4,A3,孙凤,103,2018-08-10
5,A4,赵恒,104,2018-08-11
6,A5,赵恒,104,2018-08-12


In [62]:
# 重命名行索引
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
1,A1,张通,101,2018-08-08
2,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
4,A3,孙凤,103,2018-08-10
5,A4,赵恒,104,2018-08-11
6,A5,赵恒,104,2018-08-12


In [63]:
df.rename(index={1: '一', 2: '二', 3: '三'})

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
一,A1,张通,101,2018-08-08
二,A2,李谷,102,2018-08-09
三,A3,孙凤,103,2018-08-10
4,A3,孙凤,103,2018-08-10
5,A4,赵恒,104,2018-08-11
6,A5,赵恒,104,2018-08-12


# 数据选择

## 列选择

### 选择某一列/某几列

在python中我们想要获取某列只需要在表df后面的方括号中指明要选择的列名即可

In [64]:
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
1,A1,张通,101,2018-08-08
2,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
4,A3,孙凤,103,2018-08-10
5,A4,赵恒,104,2018-08-11
6,A5,赵恒,104,2018-08-12


#### 普通列索引：直接传入列名

In [65]:
df['订单编号']

1    A1
2    A2
3    A3
4    A3
5    A4
6    A5
Name: 订单编号, dtype: object

In [66]:
df[['订单编号', '客户姓名']]

Unnamed: 0,订单编号,客户姓名
1,A1,张通
2,A2,李谷
3,A3,孙凤
4,A3,孙凤
5,A4,赵恒
6,A5,赵恒


#### 位置列索引：传入具体的位置，即第几列，调用iloc方法

In [67]:
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
1,A1,张通,101,2018-08-08
2,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
4,A3,孙凤,103,2018-08-10
5,A4,赵恒,104,2018-08-11
6,A5,赵恒,104,2018-08-12


In [68]:
df.iloc[:, [0, 2]]

Unnamed: 0,订单编号,唯一识别码
1,A1,101
2,A2,102
3,A3,103
4,A3,103
5,A4,104
6,A5,104


In [69]:
df.iloc[:, 0:3]

Unnamed: 0,订单编号,客户姓名,唯一识别码
1,A1,张通,101
2,A2,李谷,102
3,A3,孙凤,103
4,A3,孙凤,103
5,A4,赵恒,104
6,A5,赵恒,104


## 行选择

### 选择某一行/某几行

#### 普通行索引：调用loc（）方法，传入具体行名

In [70]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test6.csv')
df = df.rename(columns={'0':'订单编号', '1':'客户姓名', '2':'唯一识别码', '3':'成交时间'})
df = df.rename(index={0:'一', 1:'二', 2:'三', 3:'四', 4:'五', 5:'六'})
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
一,A1,张通,101,2018-08-08
二,A2,李谷,102,2018-08-09
三,A3,孙凤,103,2018-08-10
四,A3,孙凤,103,2018-08-10
五,A4,赵恒,104,2018-08-11
六,A5,赵恒,104,2018-08-12


In [71]:
df.loc['一'] # 选择第一行

订单编号             A1
客户姓名             张通
唯一识别码           101
成交时间     2018-08-08
Name: 一, dtype: object

In [72]:
df.loc[['一', '三']] # 选择第一行和第三行

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
一,A1,张通,101,2018-08-08
三,A3,孙凤,103,2018-08-10


#### 位置行索引：调用iloc方法，传入具体的行位置

In [73]:
df.iloc[0] # 选择第一行

订单编号             A1
客户姓名             张通
唯一识别码           101
成交时间     2018-08-08
Name: 一, dtype: object

In [74]:
df.iloc[[0, 3]] # 选择第一行和第四行

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
一,A1,张通,101,2018-08-08
四,A3,孙凤,103,2018-08-10


In [75]:
df.iloc[0:3] # 选择第一行到第三行

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
一,A1,张通,101,2018-08-08
二,A2,李谷,102,2018-08-09
三,A3,孙凤,103,2018-08-10


### 选择满足条件的行

#### 布尔索引：在df后面的方括号中传入判断条件

In [76]:
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
一,A1,张通,101,2018-08-08
二,A2,李谷,102,2018-08-09
三,A3,孙凤,103,2018-08-10
四,A3,孙凤,103,2018-08-10
五,A4,赵恒,104,2018-08-11
六,A5,赵恒,104,2018-08-12


In [77]:
df[df['唯一识别码'] < 104] # 选择唯一识别码小于104的数据

Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
一,A1,张通,101,2018-08-08
二,A2,李谷,102,2018-08-09
三,A3,孙凤,103,2018-08-10
四,A3,孙凤,103,2018-08-10


## 行列同时选择

### 普通索引+普通索引

In [78]:
df.loc[['一', '三'], ['订单编号', '唯一识别码']]

Unnamed: 0,订单编号,唯一识别码
一,A1,101
三,A3,103


### 位置索引+位置索引

In [79]:
df.iloc[[0, 1], [0, 2]] # 获取第一行、第二行和第一列、第三列

Unnamed: 0,订单编号,唯一识别码
一,A1,101
二,A2,102


1. iloc和loc的区别是，iloc接收的必须是行索引和列索引的位置。
2. 在使用loc方法的时候，如果内部传入的行索引名称为一个区间，则左右均为闭区间；使用iloc时则为左闭右开

### 布尔索引+普通索引

In [80]:
df[df['唯一识别码'] < 104][['订单编号', '客户姓名']]

Unnamed: 0,订单编号,客户姓名
一,A1,张通
二,A2,李谷
三,A3,孙凤
四,A3,孙凤


### 交叉索引：位置索引+普通索引（调用ix（）方法）

In [81]:
df.ix[0:3, ['客户姓名', '唯一识别码']]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  retval = getattr(retval, self.name)._getitem_axis(key, axis=i)


Unnamed: 0,客户姓名,唯一识别码
一,张通,101
二,李谷,102
三,孙凤,103


# 数值操作

## 数值替换：replace（）方法

### 一对一替换

In [82]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test7.csv')
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A3,孙凤,103,240,2018-08-10
4,A4,赵恒,104,240,2018-08-11
5,A5,赵恒,104,240,2018-08-12


In [83]:
# 将240岁的年龄替换成33岁
df['年龄'].replace(240, 33, inplace=True)
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A3,孙凤,103,33,2018-08-10
4,A4,赵恒,104,33,2018-08-11
5,A5,赵恒,104,33,2018-08-12


### 多对一替换

In [84]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test8.csv')
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A3,孙凤,103,240,2018-08-10
4,A4,赵恒,104,260,2018-08-11
5,A5,赵恒,104,280,2018-08-12


In [85]:
df.replace([240, 260, 280], 33)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A3,孙凤,103,33,2018-08-10
4,A4,赵恒,104,33,2018-08-11
5,A5,赵恒,104,33,2018-08-12


### 多对多替换

In [86]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test8.csv')
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A3,孙凤,103,240,2018-08-10
4,A4,赵恒,104,260,2018-08-11
5,A5,赵恒,104,280,2018-08-12


In [87]:
df.replace({240:32, 260:33, 280:34})

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A3,孙凤,103,32,2018-08-10
4,A4,赵恒,104,33,2018-08-11
5,A5,赵恒,104,34,2018-08-12


## 数值排序

### 按照一列数值进行排序

In [88]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test9.csv')
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张通,101,31,2018-08-08,1
1,A2,李谷,102,45,2018-08-09,2
2,A3,孙凤,103,23,2018-08-10,1
3,A3,孙凤,103,240,2018-08-10,2
4,A4,赵恒,104,260,2018-08-11,3
5,A5,赵恒,104,280,2018-08-12,4


In [89]:
# 按照销售ID升序排列
df.sort_values(by=['销售ID'])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张通,101,31,2018-08-08,1
2,A3,孙凤,103,23,2018-08-10,1
1,A2,李谷,102,45,2018-08-09,2
3,A3,孙凤,103,240,2018-08-10,2
4,A4,赵恒,104,260,2018-08-11,3
5,A5,赵恒,104,280,2018-08-12,4


In [90]:
# 按照销售ID降序排列
df.sort_values(by=['销售ID'], ascending=False)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
5,A5,赵恒,104,280,2018-08-12,4
4,A4,赵恒,104,260,2018-08-11,3
1,A2,李谷,102,45,2018-08-09,2
3,A3,孙凤,103,240,2018-08-10,2
0,A1,张通,101,31,2018-08-08,1
2,A3,孙凤,103,23,2018-08-10,1


### 按照有缺失值的列进行排序

In [91]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test10.csv')
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张通,101,31,2018-08-08,1.0
1,A2,李谷,102,45,2018-08-09,2.0
2,A3,孙凤,103,23,2018-08-10,1.0
3,A3,孙凤,103,240,2018-08-10,
4,A4,赵恒,104,260,2018-08-11,3.0
5,A5,赵恒,104,280,2018-08-12,4.0


In [92]:
# na_position参数默认值为last,既将缺失值显示在最后
df.sort_values(by=['销售ID'], na_position='first')

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
3,A3,孙凤,103,240,2018-08-10,
0,A1,张通,101,31,2018-08-08,1.0
2,A3,孙凤,103,23,2018-08-10,1.0
1,A2,李谷,102,45,2018-08-09,2.0
4,A4,赵恒,104,260,2018-08-11,3.0
5,A5,赵恒,104,280,2018-08-12,4.0


### 按照多列数值进行排序

In [93]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test9.csv')
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张通,101,31,2018-08-08,1
1,A2,李谷,102,45,2018-08-09,2
2,A3,孙凤,103,23,2018-08-10,1
3,A3,孙凤,103,240,2018-08-10,2
4,A4,赵恒,104,260,2018-08-11,3
5,A5,赵恒,104,280,2018-08-12,4


In [94]:
# 先按销售ID升序排列，再按成交时间降序排列
df.sort_values(by=['销售ID', '成交时间'], ascending=[True, False])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,1
0,A1,张通,101,31,2018-08-08,1
3,A3,孙凤,103,240,2018-08-10,2
1,A2,李谷,102,45,2018-08-09,2
4,A4,赵恒,104,260,2018-08-11,3
5,A5,赵恒,104,280,2018-08-12,4


## 数值删除：drop（）方法

### 删除列

In [7]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test9.csv')
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张通,101,31,2018-08-08,1
1,A2,李谷,102,45,2018-08-09,2
2,A3,孙凤,103,23,2018-08-10,1
3,A3,孙凤,103,240,2018-08-10,2
4,A4,赵恒,104,260,2018-08-11,3
5,A5,赵恒,104,280,2018-08-12,4


In [8]:
# df.drop(['销售ID', '成交时间'], axis=1)
df.drop(columns=['销售ID', '成交时间'])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄
0,A1,张通,101,31
1,A2,李谷,102,45
2,A3,孙凤,103,23
3,A3,孙凤,103,240
4,A4,赵恒,104,260
5,A5,赵恒,104,280


**axis参数表示坐标轴，0表示按行操作，1表示按列操作**

### 删除行

In [4]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test9.csv')
df = df.rename(index={0:'一', 1:'二', 2:'三', 3:'四', 4:'五', 5:'六'}) # 重命名行标签
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
一,A1,张通,101,31,2018-08-08,1
二,A2,李谷,102,45,2018-08-09,2
三,A3,孙凤,103,23,2018-08-10,1
四,A3,孙凤,103,240,2018-08-10,2
五,A4,赵恒,104,260,2018-08-11,3
六,A5,赵恒,104,280,2018-08-12,4


In [6]:
# 删除第一行和第二行
df.drop(index=['一', '二'])
# df.drop(['一', '二'], axis=0)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
三,A3,孙凤,103,23,2018-08-10,1
四,A3,孙凤,103,240,2018-08-10,2
五,A4,赵恒,104,260,2018-08-11,3
六,A5,赵恒,104,280,2018-08-12,4


## 数值计数

在python中对某些值的出现次数的计数我们用到的方法是value_counts

In [99]:
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
一,A1,张通,101,31,2018-08-08,1
二,A2,李谷,102,45,2018-08-09,2
三,A3,孙凤,103,23,2018-08-10,1
四,A3,孙凤,103,240,2018-08-10,2
五,A4,赵恒,104,260,2018-08-11,3
六,A5,赵恒,104,280,2018-08-12,4


In [100]:
df['销售ID'].value_counts()

2    2
1    2
4    1
3    1
Name: 销售ID, dtype: int64

In [101]:
# 出现次数占比
df['销售ID'].value_counts(normalize=True)

2    0.333333
1    0.333333
4    0.166667
3    0.166667
Name: 销售ID, dtype: float64

## 唯一值获取：去重

In [102]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test9.csv')
df = df.rename(index={0:'一', 1:'二', 2:'三', 3:'四', 4:'五', 5:'六'}) # 重命名行标签
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
一,A1,张通,101,31,2018-08-08,1
二,A2,李谷,102,45,2018-08-09,2
三,A3,孙凤,103,23,2018-08-10,1
四,A3,孙凤,103,240,2018-08-10,2
五,A4,赵恒,104,260,2018-08-11,3
六,A5,赵恒,104,280,2018-08-12,4


In [103]:
df['销售ID'].unique()

array([1, 2, 3, 4], dtype=int64)

## 数值查找

In [104]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test9.csv')
df = df.rename(index={0:'一', 1:'二', 2:'三', 3:'四', 4:'五', 5:'六'}) # 重命名行标签
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
一,A1,张通,101,31,2018-08-08,1
二,A2,李谷,102,45,2018-08-09,2
三,A3,孙凤,103,23,2018-08-10,1
四,A3,孙凤,103,240,2018-08-10,2
五,A4,赵恒,104,260,2018-08-11,3
六,A5,赵恒,104,280,2018-08-12,4


In [105]:
# 年龄这一列是否包含31、23这两个值
df['年龄'].isin([31, 23])

一     True
二    False
三     True
四    False
五    False
六    False
Name: 年龄, dtype: bool

In [106]:
# 全表中是否包含A2、31这两个值
df.isin(['A2', 31])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
一,False,False,False,True,False,False
二,True,False,False,False,False,False
三,False,False,False,False,False,False
四,False,False,False,False,False,False
五,False,False,False,False,False,False
六,False,False,False,False,False,False


## 插入新的列或行

In [107]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test9.csv')
df = df.rename(index={0:'一', 1:'二', 2:'三', 3:'四', 4:'五', 5:'六'}) # 重命名行标签
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
一,A1,张通,101,31,2018-08-08,1
二,A2,李谷,102,45,2018-08-09,2
三,A3,孙凤,103,23,2018-08-10,1
四,A3,孙凤,103,240,2018-08-10,2
五,A4,赵恒,104,260,2018-08-11,3
六,A5,赵恒,104,280,2018-08-12,4


In [108]:
# 在第二列后插入一列并命名为商品类型
df.insert(2, '商品类型', ['cat01', 'cat02', 'cat03', 'cat04', 'cat05', 'cat06'])
df

Unnamed: 0,订单编号,客户姓名,商品类型,唯一识别码,年龄,成交时间,销售ID
一,A1,张通,cat01,101,31,2018-08-08,1
二,A2,李谷,cat02,102,45,2018-08-09,2
三,A3,孙凤,cat03,103,23,2018-08-10,1
四,A3,孙凤,cat04,103,240,2018-08-10,2
五,A4,赵恒,cat05,104,260,2018-08-11,3
六,A5,赵恒,cat06,104,280,2018-08-12,4


## 行列互换（数据表转置）

In [109]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test9.csv')
df = df.rename(index={0:'一', 1:'二', 2:'三', 3:'四', 4:'五', 5:'六'}) # 重命名行标签
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
一,A1,张通,101,31,2018-08-08,1
二,A2,李谷,102,45,2018-08-09,2
三,A3,孙凤,103,23,2018-08-10,1
四,A3,孙凤,103,240,2018-08-10,2
五,A4,赵恒,104,260,2018-08-11,3
六,A5,赵恒,104,280,2018-08-12,4


In [110]:
# 数据表转置
df.T

Unnamed: 0,一,二,三,四,五,六
订单编号,A1,A2,A3,A3,A4,A5
客户姓名,张通,李谷,孙凤,孙凤,赵恒,赵恒
唯一识别码,101,102,103,103,104,104
年龄,31,45,23,240,260,280
成交时间,2018-08-08,2018-08-09,2018-08-10,2018-08-10,2018-08-11,2018-08-12
销售ID,1,2,1,2,3,4


## 索引重塑：stack（）方法

In [111]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test11.csv')
df = df.rename(index={0:'S1', 1:'S2'}) # 重命名行标签
df

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6


In [112]:
df.stack() # 表格型结构数据到树形结构数据

S1  C1    1
    C2    2
    C3    3
S2  C1    4
    C2    5
    C3    6
dtype: int64

## apply（）与applymap（）函数

In [113]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\test12.csv')
df

Unnamed: 0,C1,C2,C3
0,1,2,3
1,4,5,6
2,7,8,9


In [114]:
# 对C1列中的每一个元素加1
df['C1'].apply(lambda x:x+1)

0    2
1    5
2    8
Name: C1, dtype: int64

In [115]:
# 对df表中的每一个元素加1
df.applymap(lambda x:x+1)

Unnamed: 0,C1,C2,C3
0,2,3,4
1,5,6,7
2,8,9,10


# 数据分组/数据透视表

## 数据分组

### 分组键是列名

#### 按照一列分组

In [116]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\train_pivot.csv', encoding='gbk')
df

Unnamed: 0,用户ID,客户分类,区域,是否省会,7月销量,8月销量,9月销量
0,59224,A类,一线城市,是,6,20,0
1,55295,B类,三线城市,否,37,27,35
2,46035,A类,二线城市,是,8,1,8
3,2459,C类,一线城市,是,7,8,14
4,22179,B类,三线城市,否,9,12,4
5,22557,A类,二线城市,是,42,20,55


In [117]:
# 根据客户分类对所有数据分组、计算并合并
df.groupby('客户分类').count()

Unnamed: 0_level_0,用户ID,区域,是否省会,7月销量,8月销量,9月销量
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A类,3,3,3,3,3,3
B类,2,2,2,2,2,2
C类,1,1,1,1,1,1


In [118]:
df.groupby('客户分类').sum()

Unnamed: 0_level_0,用户ID,7月销量,8月销量,9月销量
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A类,127816,56,41,63
B类,77474,46,39,39
C类,2459,7,8,14


#### 按照多列进行分组

In [119]:
# 对分组后的数据进行计数运算
# 分组后分组键成了index对象
df.groupby(['客户分类', '区域']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,用户ID,是否省会,7月销量,8月销量,9月销量
客户分类,区域,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A类,一线城市,1,1,1,1,1
A类,二线城市,2,2,2,2,2
B类,三线城市,2,2,2,2,2
C类,一线城市,1,1,1,1,1


In [120]:
# 对分组后的数据进行求和运算
df.groupby(['客户分类', '区域']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,用户ID,7月销量,8月销量,9月销量
客户分类,区域,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A类,一线城市,59224,6,20,0
A类,二线城市,68592,50,21,63
B类,三线城市,77474,46,39,39
C类,一线城市,2459,7,8,14


In [121]:
# 分组后取单列进行汇总计算
df.groupby('客户分类')['用户ID'].count()

客户分类
A类    3
B类    2
C类    1
Name: 用户ID, dtype: int64

### 分组键是Series

把DataFrame的其中一列取出来就是一个Series，比如下面的df['客户分类']就是一个Series

In [122]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\train_pivot.csv', encoding='gbk')
df['客户分类']

0    A类
1    B类
2    A类
3    C类
4    B类
5    A类
Name: 客户分类, dtype: object

#### 按照一个Series进行分组

In [123]:
# 对分组后的数据进行计数运算
df.groupby(df['客户分类']).count()

Unnamed: 0_level_0,用户ID,区域,是否省会,7月销量,8月销量,9月销量
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A类,3,3,3,3,3,3
B类,2,2,2,2,2,2
C类,1,1,1,1,1,1


#### 按照多个Series进行分组

In [124]:
# 对分组后的数据进行求和运算
df.groupby([df['客户分类'], df['区域']]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,用户ID,7月销量,8月销量,9月销量
客户分类,区域,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A类,一线城市,59224,6,20,0
A类,二线城市,68592,50,21,63
B类,三线城市,77474,46,39,39
C类,一线城市,2459,7,8,14


### 聚合函数：aggregate（）方法

In [125]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\train_pivot.csv', encoding='gbk')
df

Unnamed: 0,用户ID,客户分类,区域,是否省会,7月销量,8月销量,9月销量
0,59224,A类,一线城市,是,6,20,0
1,55295,B类,三线城市,否,37,27,35
2,46035,A类,二线城市,是,8,1,8
3,2459,C类,一线城市,是,7,8,14
4,22179,B类,三线城市,否,9,12,4
5,22557,A类,二线城市,是,42,20,55


In [126]:
# 一次使用多种汇总方式
df.groupby('客户分类').aggregate(['count', 'sum'])

Unnamed: 0_level_0,用户ID,用户ID,区域,区域,是否省会,是否省会,7月销量,7月销量,8月销量,8月销量,9月销量,9月销量
Unnamed: 0_level_1,count,sum,count,sum,count,sum,count,sum,count,sum,count,sum
客户分类,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
A类,3,127816,3,一线城市二线城市二线城市,3,是是是,3,56,3,41,3,63
B类,2,77474,2,三线城市三线城市,2,否否,2,46,2,39,2,39
C类,1,2459,1,一线城市,1,是,1,7,1,8,1,14


In [127]:
# 针对不同的列做不同的运算
df.groupby('客户分类').aggregate({'用户ID':'count', '7月销量':'sum', '8月销量':'sum'})

Unnamed: 0_level_0,用户ID,7月销量,8月销量
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A类,3,56,41
B类,2,46,39
C类,1,7,8


### 对分组后的结果重置索引

In [128]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\train_pivot.csv', encoding='gbk')
df

Unnamed: 0,用户ID,客户分类,区域,是否省会,7月销量,8月销量,9月销量
0,59224,A类,一线城市,是,6,20,0
1,55295,B类,三线城市,否,37,27,35
2,46035,A类,二线城市,是,8,1,8
3,2459,C类,一线城市,是,7,8,14
4,22179,B类,三线城市,否,9,12,4
5,22557,A类,二线城市,是,42,20,55


In [129]:
# 结果不是标准的DataFrame形式
df.groupby('客户分类').sum()

Unnamed: 0_level_0,用户ID,7月销量,8月销量,9月销量
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A类,127816,56,41,63
B类,77474,46,39,39
C类,2459,7,8,14


In [130]:
# 重置索引，转化为标准的DataFrame形式
df.groupby('客户分类').sum().reset_index()

Unnamed: 0,客户分类,用户ID,7月销量,8月销量,9月销量
0,A类,127816,56,41,63
1,B类,77474,46,39,39
2,C类,2459,7,8,14


## 数据透视表

Python中的数据透视表用到的是Pandas库中的pivot_table（）方法

pd.pivot_table(
    data,
    values=None,
    index=None,
    columns=None,
    aggfunc='mean',
    fill_value=None,
    margins=False,
    dropna=True,
    margins_name='All',
    observed=False,
)

#data表示要做数据透视表的整个表
#values表示值
#index表示行标签
#columns表示列标签
#aggfunc表示对values的计算类型
#fill_value表示对空值的填充
#margins表示是否显示合计列
#dropna表示是否删除所有值缺失的列
#margins_name表示合计列的列名

In [131]:
import pandas as pd
df = pd.read_csv(r'D:\data_analysis\train_pivot.csv', encoding='gbk')
pd.pivot_table(df, values='用户ID', columns='区域', index='客户分类', aggfunc='count')

区域,一线城市,三线城市,二线城市
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A类,1.0,,2.0
B类,,2.0,
C类,1.0,,


In [132]:
# 显示合计列
pd.pivot_table(df, values='用户ID', columns='区域', index='客户分类', aggfunc='count', margins=True)

区域,一线城市,三线城市,二线城市,All
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A类,1.0,,2.0,3
B类,,2.0,,2
C类,1.0,,,1
All,2.0,2.0,2.0,6


In [133]:
# 更改合计列/行的名称为总计
pd.pivot_table(df, values='用户ID', columns='区域', index='客户分类', aggfunc='count', margins=True, margins_name='总计')

区域,一线城市,三线城市,二线城市,总计
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A类,1.0,,2.0,3
B类,,2.0,,2
C类,1.0,,,1
总计,2.0,2.0,2.0,6


In [134]:
# 将缺失值填充为0
pd.pivot_table(df, values='用户ID', columns='区域', index='客户分类', aggfunc='count', margins=True, fill_value=0)

区域,一线城市,三线城市,二线城市,All
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A类,1,0,2,3
B类,0,2,0,2
C类,1,0,0,1
All,2,2,2,6


In [135]:
# 对用户ID进行计数，对7月销量进行求和
pd.pivot_table(df, values=['用户ID', '7月销量'], columns='区域', index='客户分类',
               aggfunc={'用户ID':'count', '7月销量':'sum'})

Unnamed: 0_level_0,7月销量,7月销量,7月销量,用户ID,用户ID,用户ID
区域,一线城市,三线城市,二线城市,一线城市,三线城市,二线城市
客户分类,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A类,6.0,,50.0,1.0,,2.0
B类,,46.0,,,2.0,
C类,7.0,,,1.0,,


In [136]:
# 重置索引
pd.pivot_table(df,values='用户ID', columns='区域', index='客户分类', aggfunc='count')

区域,一线城市,三线城市,二线城市
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A类,1.0,,2.0
B类,,2.0,
C类,1.0,,


In [137]:
# 重置索引
pd.pivot_table(df,values='用户ID', columns='区域', index='客户分类', aggfunc='count').reset_index()

区域,客户分类,一线城市,三线城市,二线城市
0,A类,1.0,,2.0
1,B类,,2.0,
2,C类,1.0,,


# 多表拼接

## 表的横向拼接：pd库的merge（）方法

### 连接表的类型

#### 一对一

In [138]:
import pandas as pd
df1 = pd.read_csv(r'D:\data_analysis\test13.csv')
df2 = pd.read_csv(r'D:\data_analysis\test14.csv')
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [139]:
df2

Unnamed: 0,学号,班级
0,100,一班
1,101,一班
2,102,二班
3,103,三班


In [140]:
# 一对一
pd.merge(df1, df2)

Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,小张,100,650,一班
1,2,小王,101,600,一班
2,3,小李,102,578,二班
3,4,小赵,103,550,三班


#### 一对多

多对一就是待连接的两个表的公共列不是一对一的，其中一个表的公共列有重复值，另一个表的公共列是唯一的

In [141]:
import pandas as pd
df1 = pd.read_csv(r'D:\data_analysis\test15.csv')
df2 = pd.read_csv(r'D:\data_analysis\test16.csv')
df1

Unnamed: 0,姓名,学号,f_成绩
0,小张,100,650
1,小王,101,600
2,小李,102,578


In [142]:
df2

Unnamed: 0,学号,e_成绩
0,100,586
1,100,602
2,101,691
3,101,702
4,102,645
5,102,676


In [143]:
pd.merge(df1, df2)

Unnamed: 0,姓名,学号,f_成绩,e_成绩
0,小张,100,650,586
1,小张,100,650,602
2,小王,101,600,691
3,小王,101,600,702
4,小李,102,578,645
5,小李,102,578,676


#### 多对多

多对多就是待连接的两个表的公共列不是一对一，且两个表中的公共列都有重复值，相当于多个一对多连接

In [144]:
import pandas as pd
df1 = pd.read_csv(r'D:\data_analysis\test17.csv')
df2 = pd.read_csv(r'D:\data_analysis\test18.csv')
df1

Unnamed: 0,姓名,学号,f_成绩
0,小张,100,650
1,小张,100,610
2,小王,101,600
3,小李,102,578
4,小李,102,542


In [145]:
df2

Unnamed: 0,学号,e_成绩
0,100,650
1,100,610
2,101,600
3,102,578
4,102,542


In [146]:
pd.merge(df1, df2)

Unnamed: 0,姓名,学号,f_成绩,e_成绩
0,小张,100,650,650
1,小张,100,650,610
2,小张,100,610,650
3,小张,100,610,610
4,小王,101,600,600
5,小李,102,578,578
6,小李,102,578,542
7,小李,102,542,578
8,小李,102,542,542


### 连接键的类型

#### 默认以公共列作为连接键

In [147]:
import pandas as pd
df1 = pd.read_csv(r'D:\data_analysis\test13.csv')
df2 = pd.read_csv(r'D:\data_analysis\test14.csv')
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [148]:
df2

Unnamed: 0,学号,班级
0,100,一班
1,101,一班
2,102,二班
3,103,三班


In [149]:
pd.merge(df1, df2)

Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,小张,100,650,一班
1,2,小王,101,600,一班
2,3,小李,102,578,二班
3,4,小赵,103,550,三班


#### 用on来指定连接键

In [150]:
pd.merge(df1, df2, on='学号')

Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,小张,100,650,一班
1,2,小王,101,600,一班
2,3,小李,102,578,二班
3,4,小赵,103,550,三班


#### 分别指定左右连接键

若两表中存在实际值一样，但列名不同的列，则必须分别指定左右连接键

In [151]:
import pandas as pd
df1 = pd.read_csv(r'D:\data_analysis\test19.csv')
df2 = pd.read_csv(r'D:\data_analysis\test20.csv')
df1

Unnamed: 0,名次,姓名,编号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


In [152]:
df2

Unnamed: 0,学号,班级
0,100,一班
1,101,一班
2,102,二班
3,103,三班


In [153]:
# 编号列和学号列实际值相同
pd.merge(df1, df2, left_on='编号', right_on='学号')

Unnamed: 0,名次,姓名,编号,成绩,学号,班级
0,1,小张,100,650,100,一班
1,2,小王,101,600,101,一班
2,3,小李,102,578,102,二班
3,4,小赵,103,550,103,三班


### 连接方式

#### 内连接（inner）

内连接就是取两个表的公共部分，如果不指明连接方式，则默认都是内连接

In [154]:
import pandas as pd
df1 = pd.read_csv(r'D:\data_analysis\test21.csv')
df2 = pd.read_csv(r'D:\data_analysis\test22.csv')
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小吴,105,600
2,3,小李,102,578
3,4,小赵,103,550


In [155]:
df2

Unnamed: 0,姓名,学号,班级
0,小张,100,一班
1,小王,101,一班
2,小李,102,二班
3,小钱,104,三班


In [156]:
# 内连接
pd.merge(df1, df2, on='学号', how='inner')

Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1,小张,100,650,小张,一班
1,3,小李,102,578,小李,二班


#### 左连接（left）

左连接就是以左表为基础，右表往左表上拼接，没有的信息以NaN填充

In [157]:
pd.merge(df1, df2, on='学号', how='left')

Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1,小张,100,650,小张,一班
1,2,小吴,105,600,,
2,3,小李,102,578,小李,二班
3,4,小赵,103,550,,


#### 右连接（right）

右连接就是以右表为基础，左表往右表上拼接，没有的信息以NaN填充

In [158]:
pd.merge(df1, df2, on='学号', how='right')

Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1.0,小张,100,650.0,小张,一班
1,3.0,小李,102,578.0,小李,二班
2,,,101,,小王,一班
3,,,104,,小钱,三班


#### 外连接（outer）：取两个表的并集

In [159]:
pd.merge(df1, df2, on='学号', how='outer')

Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1.0,小张,100,650.0,小张,一班
1,2.0,小吴,105,600.0,,
2,3.0,小李,102,578.0,小李,二班
3,4.0,小赵,103,550.0,,
4,,,101,,小王,一班
5,,,104,,小钱,三班


## 表的纵向拼接：pd库的concat（）方法

### 普通合并

In [160]:
import pandas as pd
df1 = pd.read_csv(r'D:\data_analysis\test23.csv')
df1 = df1.set_index('编号')
df1

Unnamed: 0_level_0,姓名,班级
编号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,许丹,一班
2,李旭文,一班
3,程成,一班
4,赵涛,一班


In [161]:
df2 = pd.read_csv(r'D:\data_analysis\test24.csv')
df2 = df2.set_index('编号')
df2

Unnamed: 0_level_0,姓名,班级
编号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,赵义,二班
2,李鹏,二班
3,卫来,二班
4,葛颜,二班


In [162]:
pd.concat([df1, df2])

Unnamed: 0_level_0,姓名,班级
编号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,许丹,一班
2,李旭文,一班
3,程成,一班
4,赵涛,一班
1,赵义,二班
2,李鹏,二班
3,卫来,二班
4,葛颜,二班


### 索引设置

In [163]:
# 不保留原索引，生成一组新的索引
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,姓名,班级
0,许丹,一班
1,李旭文,一班
2,程成,一班
3,赵涛,一班
4,赵义,二班
5,李鹏,二班
6,卫来,二班
7,葛颜,二班


### 重叠数据合并

In [164]:
import pandas as pd
df1 = pd.read_csv(r'D:\data_analysis\test25.csv')
df1 = df1.set_index('编号')
df1

Unnamed: 0_level_0,姓名,班级
编号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,许丹,一班
2,李旭文,一班
3,程成,一班
4,赵涛,一班
5,葛颜,二班


In [165]:
df2 = pd.read_csv(r'D:\data_analysis\test24.csv')
df2 = df2.set_index('编号')
df2

Unnamed: 0_level_0,姓名,班级
编号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,赵义,二班
2,李鹏,二班
3,卫来,二班
4,葛颜,二班


In [166]:
# 有重复项
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,姓名,班级
0,许丹,一班
1,李旭文,一班
2,程成,一班
3,赵涛,一班
4,葛颜,二班
5,赵义,二班
6,李鹏,二班
7,卫来,二班
8,葛颜,二班


In [167]:
# 删除重复项
pd.concat([df1, df2], ignore_index=True).drop_duplicates()

Unnamed: 0,姓名,班级
0,许丹,一班
1,李旭文,一班
2,程成,一班
3,赵涛,一班
4,葛颜,二班
5,赵义,二班
6,李鹏,二班
7,卫来,二班
