### 1.概要
内容主要涉及读取数据和保存数据、数据详情信息、数据处理、数据切片、筛选、排序、分组、统计、表格样式等几部分内容

In [314]:
import numpy as np
import pandas as pd

### 2.读取数据&保存数据

#### 读取csv，编码‘utf-8’

In [315]:
pd.read_csv('test1.csv', encoding='utf-8')

Unnamed: 0,姓名,年龄,身高
0,张三,24,167
1,李四,25,180
2,王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 读取前几行

In [316]:
csv_data = pd.read_csv('test1.csv')
pd.read_csv('test1.csv', encoding='utf-8', nrows = 3)

Unnamed: 0,姓名,年龄,身高
0,张三,24,167
1,李四,25,180
2,王五,28,176


#### 第一列作为行索引,忽略列索引

In [317]:
# 让第一列作索引 让第一行作数据不作标题
pd.read_csv('test1.csv', encoding = 'utf-8', index_col = 0, header = None)

Unnamed: 0_level_0,1,2
0,Unnamed: 1_level_1,Unnamed: 2_level_1
姓名,年龄,身高
张三,24,167
李四,25,180
王五,28,176
赵六,24,167
周武,66,180
张叶,28,176
张器,24,167
李咯,25,180
王根,28,176


#### 读取时忽略指定行

In [318]:
# 忽略一二两行和最后两行
pd.read_csv('test1.csv', skiprows = [1, 2], skipfooter = 2, engine = 'python')

Unnamed: 0,姓名,年龄,身高
0,王五,28,176
1,赵六,24,167
2,周武,66,180
3,张叶,28,176
4,张器,24,167
5,李咯,25,180
6,王根,28,176
7,张灯,24,167


#### 从限定分隔符逗号的文件或文本中读取数据

In [319]:
df = pd.read_table('test1.csv', sep = ',')

#### 保存数据

In [320]:
#df.to_excel('test1.xlsx')#默认会带索引列
df.to_excel('test1.xlsx', index = False)

In [321]:
df.to_json('test1.json')

### 3.查看数据信息

#### 查看前n行

In [322]:
df.head(3)

Unnamed: 0,姓名,年龄,身高
0,张三,24,167
1,李四,25,180
2,王五,28,176


#### 查看后n行

In [323]:
df.tail(3)

Unnamed: 0,姓名,年龄,身高
9,张灯,24,167
10,李放,25,180
11,王润,35,176


#### 查看行数和列数

In [324]:
df.shape#包含标题行

(12, 3)

#### 查看索引、数据类型和内存信息

In [325]:
df.columns #列索引

Index(['姓名', ' 年龄', ' 身高'], dtype='object')

In [326]:
df.index #行索引

RangeIndex(start=0, stop=12, step=1)

In [327]:
df.info() #查看索引、数据类型和内存信息

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   姓名      12 non-null     object
 1    年龄     12 non-null     int64 
 2    身高     12 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 416.0+ bytes


#### 查看数值型列的汇总统计

In [328]:
df.describe()

Unnamed: 0,年龄,身高
count,12.0,12.0
mean,29.666667,174.333333
std,11.873066,5.678241
min,24.0,167.0
25%,24.0,167.0
50%,25.0,176.0
75%,28.0,180.0
max,66.0,180.0


#### 查看每一列的唯一值和计数

In [329]:
pd.read_json('test1.json').apply(pd.Series.value_counts)
# 第一列为唯一值是什么 后面有数字代表有几个

Unnamed: 0,姓名,年龄,身高
周武,1.0,,
张三,1.0,,
张叶,1.0,,
张器,1.0,,
张灯,1.0,,
李咯,1.0,,
李四,1.0,,
李放,1.0,,
王五,1.0,,
王根,1.0,,


#### apply
参考 &gt; https://zhuanlan.zhihu.com/p/344835017

遍历DataFrame的元素（一行数据或者一列数据）

dataframe.apply(function,axis)对一行或一列做出一些操作（axis=1遍历行，axis=0遍历列）

### 4.数据处理

#### 重命名列名

In [330]:
df.columns = ['name', 'age', 'height']

#### 选择性更改列名

In [331]:
df.rename(columns = {'name' : '姓名', 'age' : '年龄'}, inplace = True)
df

Unnamed: 0,姓名,年龄,height
0,张三,24,167
1,李四,25,180
2,王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 批量更新索引

DataFrame.rename（mapper = None，index = None，columns = None，axis = None，copy = True，inplace = False，level = None ）

参数介绍：
mapper，index，columns：可以任选其一使用，可以是将index和columns结合使用。index和column直接传入mapper或者字典的形式。
axis：int或str，与mapper配合使用。可以是轴名称（‘index’，‘columns’）或数字（0,1）。默认为’index’。
copy：boolean，默认为True，是否复制基础数据。
inplace：布尔值，默认为False，是否返回新的DataFrame。如果为True，则忽略复制值。

In [332]:
df1 = df.rename(lambda x : x + 10)
df1

Unnamed: 0,姓名,年龄,height
10,张三,24,167
11,李四,25,180
12,王五,28,176
13,赵六,24,167
14,周武,66,180
15,张叶,28,176
16,张器,24,167
17,李咯,25,180
18,王根,28,176
19,张灯,24,167


#### 批量更新列名

In [333]:
df2 = df.rename(columns = lambda x : 'T-' + x)
df2

Unnamed: 0,T-姓名,T-年龄,T-height
0,张三,24,167
1,李四,25,180
2,王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 设置姓名列为行索引

In [334]:
df21 = df2.set_index('T-姓名')
df21

Unnamed: 0_level_0,T-年龄,T-height
T-姓名,Unnamed: 1_level_1,Unnamed: 2_level_1
张三,24,167
李四,25,180
王五,28,176
赵六,24,167
周武,66,180
张叶,28,176
张器,24,167
李咯,25,180
王根,28,176
张灯,24,167


#### 检查哪些列包含缺失值

In [335]:
df2.isnull().any()

T-姓名        False
T-年龄        False
T-height    False
dtype: bool

#### 统计各列空值数

In [336]:
df.isnull().sum()

姓名        0
年龄        0
height    0
dtype: int64

In [337]:
df_data = pd.DataFrame([['张三', 23], ['李四', 25], [None, 27], ['王五', None]], columns = ['姓名', '年龄'])
df_data

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,,27.0
3,王五,


#### 删除某列中空值的行

In [338]:
df_data1 = df_data[df_data['姓名'].notnull()]
df_data1

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
3,王五,


In [339]:
df_data2 = df_data[~df_data['姓名'].isnull()]
df_data2

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
3,王五,


#### 去掉某行

In [340]:
df_data3 = df_data2.drop(0, axis = 0)
df_data3

Unnamed: 0,姓名,年龄
1,李四,25.0
3,王五,


#### 去掉某列

In [341]:
df_data3.drop('年龄', axis = 1)

Unnamed: 0,姓名
1,李四
3,王五


#### 删除所有包含空值的行

In [342]:
print(df_data.to_string())
df_data.dropna()

     姓名    年龄
0    张三  23.0
1    李四  25.0
2  None  27.0
3    王五   NaN


Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0


#### 删除行里全是空值的行

In [343]:
df_data.dropna(how = 'all')

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,,27.0
3,王五,


#### 删除所有包含空值的列

In [344]:
df_data.dropna(axis = 1)

0
1
2
3


#### 至少保留几个非空值的行

In [345]:
df_data.dropna(thresh = 2)

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0


#### 至少保留几个非空值的列

In [346]:
df_data4 = df_data.dropna(axis = 1, thresh = 1)
df_data4

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,,27.0
3,王五,


#### 行数据向下填充

In [347]:
df_data4.fillna(method = 'ffill') # 空值复制上面

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,李四,27.0
3,王五,27.0


#### 列数据向右填充

In [348]:
df_data4.fillna(method = 'ffill', axis = 1) # 空值复制左边

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,,27.0
3,王五,王五


#### 用0替换所有空值

In [349]:
df_data4.fillna(0)

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,0,27.0
3,王五,0.0


#### 强制转换数据类型

In [350]:
df['年龄'].astype('int')
df

Unnamed: 0,姓名,年龄,height
0,张三,24,167
1,李四,25,180
2,王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 查看某列有多少唯一值

In [351]:
df['年龄'].unique()

array([24, 25, 28, 66, 35], dtype=int64)

#### 单值替换

In [352]:
df_dj = df.replace('张灯', '王天宇')

In [353]:
df.replace(24, 34)

Unnamed: 0,姓名,年龄,height
0,张三,34,167
1,李四,25,180
2,王五,28,176
3,赵六,34,167
4,周武,66,180
5,张叶,28,176
6,张器,34,167
7,李咯,25,180
8,王根,28,176
9,张灯,34,167


#### 多值替换

In [354]:
df.replace({'张三' : '张三2', '王根' : '王根2', 180 : 181})

Unnamed: 0,姓名,年龄,height
0,张三2,24,167
1,李四,25,181
2,王五,28,176
3,赵六,24,167
4,周武,66,181
5,张叶,28,176
6,张器,24,167
7,李咯,25,181
8,王根2,28,176
9,张灯,24,167


In [355]:
df.replace(['张三', '王五', '张叶'], ['张三2', '王五2', '张叶2'])

Unnamed: 0,姓名,年龄,height
0,张三2,24,167
1,李四,25,180
2,王五2,28,176
3,赵六,24,167
4,周武,66,180
5,张叶2,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 多值替换单值

In [356]:
df.replace(['张三', '王五'], '张三王五')

Unnamed: 0,姓名,年龄,height
0,张三王五,24,167
1,李四,25,180
2,张三王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 替换某列, 显示需要添加inplace=True

In [357]:
# 重命名
df.rename(columns = {'height' : '身高'}, inplace = True)
# 添加一列
df.insert(loc = 3, column = '城市', value = '上海')  # 在最后一列后，插入值全为3的c列
df

Unnamed: 0,姓名,年龄,身高,城市
0,张三,24,167,上海
1,李四,25,180,上海
2,王五,28,176,上海
3,赵六,24,167,上海
4,周武,66,180,上海
5,张叶,28,176,上海
6,张器,24,167,上海
7,李咯,25,180,上海
8,王根,28,176,上海
9,张灯,24,167,上海


In [358]:
df['年龄'] = df['年龄'].replace(24, 29)
df

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167,上海
1,李四,25,180,上海
2,王五,28,176,上海
3,赵六,29,167,上海
4,周武,66,180,上海
5,张叶,28,176,上海
6,张器,29,167,上海
7,李咯,25,180,上海
8,王根,28,176,上海
9,张灯,29,167,上海


#### 拆分某列成新的DataFrame

In [370]:
df1 = df.replace('上海', '上海-浦东-三林')
df2 = df1['城市'].str.split('-', expand = True)
df2.columns = ['城市', '地区', '乡镇']
df2

Unnamed: 0,城市,地区,乡镇
0,上海,浦东,三林
1,上海,浦东,三林
2,上海,浦东,三林
3,上海,浦东,三林
4,上海,浦东,三林
5,上海,浦东,三林
6,上海,浦东,三林
7,上海,浦东,三林
8,上海,浦东,三林
9,上海,浦东,三林


#### 某一列类型转换,注意该列类型要一致,包括NaN

In [379]:
df['身高'] = df['身高'].apply(float)
df

Unnamed: 0,姓名,年龄,身高,城市,地区
0,张三,29,167.0,上海,上海
1,李四,25,180.0,上海,上海
2,王五,28,176.0,上海,上海
3,赵六,29,167.0,上海,上海
4,周武,66,180.0,上海,上海
5,张叶,28,176.0,上海,上海
6,张器,29,167.0,上海,上海
7,李咯,25,180.0,上海,上海
8,王根,28,176.0,上海,上海
9,张灯,29,167.0,上海,上海


### 5.数据切片、筛选

#### 筛选年龄=25的

In [381]:
df[df['年龄'] == 25]

Unnamed: 0,姓名,年龄,身高,城市,地区
1,李四,25,180.0,上海,上海
7,李咯,25,180.0,上海,上海
10,李放,25,180.0,上海,上海


#### 筛选年龄在某个区间的

In [384]:
df[df['年龄'].isin([25, 29])]

Unnamed: 0,姓名,年龄,身高,城市,地区
0,张三,29,167.0,上海,上海
1,李四,25,180.0,上海,上海
3,赵六,29,167.0,上海,上海
6,张器,29,167.0,上海,上海
7,李咯,25,180.0,上海,上海
9,张灯,29,167.0,上海,上海
10,李放,25,180.0,上海,上海


#### like查询

In [388]:
# 包含
df[df['姓名'].str.contains('张', na = False)]

Unnamed: 0,姓名,年龄,身高,城市,地区
0,张三,29,167.0,上海,上海
5,张叶,28,176.0,上海,上海
6,张器,29,167.0,上海,上海
9,张灯,29,167.0,上海,上海


In [394]:
# 以什么开头
df[df['姓名'].str.startswith('李', na = False)]

Unnamed: 0,姓名,年龄,身高,城市,地区
1,李四,25,180.0,上海,上海
7,李咯,25,180.0,上海,上海
10,李放,25,180.0,上海,上海


In [397]:
# 以什么结尾
df[df['姓名'].str.endswith('五', na = False)]

Unnamed: 0,姓名,年龄,身高,城市,地区
2,王五,28,176.0,上海,上海


#### 输出所有姓名,缺失值用指定值填充

In [400]:
df_data['姓名'].str.cat(sep = '、', na_rep = '空值')

'张三、李四、空值、王五'

#### 重置索引

In [402]:
df_data.set_index('姓名')

Unnamed: 0_level_0,年龄
姓名,Unnamed: 1_level_1
张三,23.0
李四,25.0
,27.0
王五,


#### 读前几行

In [405]:
df[:3]

Unnamed: 0,姓名,年龄,身高,城市,地区
0,张三,29,167.0,上海,上海
1,李四,25,180.0,上海,上海
2,王五,28,176.0,上海,上海


#### 读后几行

In [407]:
df[-3:]

Unnamed: 0,姓名,年龄,身高,城市,地区
9,张灯,29,167.0,上海,上海
10,李放,25,180.0,上海,上海
11,王润,35,176.0,上海,上海


#### 读几行到几行

In [410]:
df[2:5]#左闭右开 注意:是从0行开始的

Unnamed: 0,姓名,年龄,身高,城市,地区
0,张三,29,167.0,上海,上海
1,李四,25,180.0,上海,上海
2,王五,28,176.0,上海,上海
3,赵六,29,167.0,上海,上海
4,周武,66,180.0,上海,上海
5,张叶,28,176.0,上海,上海
6,张器,29,167.0,上海,上海
7,李咯,25,180.0,上海,上海
8,王根,28,176.0,上海,上海
9,张灯,29,167.0,上海,上海


#### 每隔几行读取

In [412]:
df[::2]

Unnamed: 0,姓名,年龄,身高,城市,地区
0,张三,29,167.0,上海,上海
2,王五,28,176.0,上海,上海
4,周武,66,180.0,上海,上海
6,张器,29,167.0,上海,上海
8,王根,28,176.0,上海,上海
10,李放,25,180.0,上海,上海


#### 几行到几行按指定步长读

In [413]:
df[2:6:2]

Unnamed: 0,姓名,年龄,身高,城市,地区
2,王五,28,176.0,上海,上海
4,周武,66,180.0,上海,上海


#### 选取其中几列

In [415]:
df[['姓名','城市']]

Unnamed: 0,姓名,城市
0,张三,上海
1,李四,上海
2,王五,上海
3,赵六,上海
4,周武,上海
5,张叶,上海
6,张器,上海
7,李咯,上海
8,王根,上海
9,张灯,上海


#### loc

In [417]:
# df.loc[]只能使用标签索引，不能使用整数索引，通过便签索引切边进行筛选时，前闭后闭
# 0行，所有列
df.loc[0, :]

姓名       张三
年龄       29
身高    167.0
城市       上海
地区       上海
Name: 0, dtype: object

In [420]:
# 0 2 3行 所有列
df.loc[[0, 2, 3], :]

Unnamed: 0,姓名,年龄,身高,城市,地区
0,张三,29,167.0,上海,上海
2,王五,28,176.0,上海,上海
3,赵六,29,167.0,上海,上海


In [423]:
# 0-4行 所有列
df.loc[0 : 4, :]#左闭右闭

Unnamed: 0,姓名,年龄,身高,城市,地区
0,张三,29,167.0,上海,上海
1,李四,25,180.0,上海,上海
2,王五,28,176.0,上海,上海
3,赵六,29,167.0,上海,上海
4,周武,66,180.0,上海,上海


In [425]:
# 列索引为'姓名'，所有行
df.loc[:, '姓名']

0     张三
1     李四
2     王五
3     赵六
4     周武
5     张叶
6     张器
7     李咯
8     王根
9     张灯
10    李放
11    王润
Name: 姓名, dtype: object

In [427]:
# 列索引从姓名到城市
df.loc[:, '姓名' : '城市']

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
1,李四,25,180.0,上海
2,王五,28,176.0,上海
3,赵六,29,167.0,上海
4,周武,66,180.0,上海
5,张叶,28,176.0,上海
6,张器,29,167.0,上海
7,李咯,25,180.0,上海
8,王根,28,176.0,上海
9,张灯,29,167.0,上海


In [431]:
# 年龄大于28的姓名身高
df.loc[df['年龄'] > 28, ['姓名', '身高']]


Unnamed: 0,姓名,身高
0,张三,167.0
3,赵六,167.0
4,周武,180.0
6,张器,167.0
9,张灯,167.0
11,王润,176.0


In [432]:
df.loc[lambda x : x['年龄'] > 28]

Unnamed: 0,姓名,年龄,身高,城市,地区
0,张三,29,167.0,上海,上海
3,赵六,29,167.0,上海,上海
4,周武,66,180.0,上海,上海
6,张器,29,167.0,上海,上海
9,张灯,29,167.0,上海,上海
11,王润,35,176.0,上海,上海


In [434]:
# 筛选指定行的指定列
df.loc[df['姓名'].isin(['张三', '李四']), '姓名':'城市']

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
1,李四,25,180.0,上海


#### iloc
iloc[]只能使用整数索引，不能使用标签索引，
通过整数索引切边进行筛选时，前闭后开


In [436]:
# 前3行
df.iloc[:3]

Unnamed: 0,姓名,年龄,身高,城市,地区
0,张三,29,167.0,上海,上海
1,李四,25,180.0,上海,上海
2,王五,28,176.0,上海,上海


In [437]:
# 最后一行
df.iloc[-1:]

Unnamed: 0,姓名,年龄,身高,城市,地区
11,王润,35,176.0,上海,上海


In [439]:
# 第二列
df.iloc[:, 1]

0     29
1     25
2     28
3     29
4     66
5     28
6     29
7     25
8     28
9     29
10    25
11    35
Name: 年龄, dtype: int64

In [440]:
# 选取几行
df.iloc[[1, 3, 5], :]

Unnamed: 0,姓名,年龄,身高,城市,地区
1,李四,25,180.0,上海,上海
3,赵六,29,167.0,上海,上海
5,张叶,28,176.0,上海,上海


In [446]:
# 选取某个值 
print(df.to_string())
df.iloc[2, 2]#索引值(2,2)对应第3行3列

    姓名  年龄     身高  城市  地区
0   张三  29  167.0  上海  上海
1   李四  25  180.0  上海  上海
2   王五  28  176.0  上海  上海
3   赵六  29  167.0  上海  上海
4   周武  66  180.0  上海  上海
5   张叶  28  176.0  上海  上海
6   张器  29  167.0  上海  上海
7   李咯  25  180.0  上海  上海
8   王根  28  176.0  上海  上海
9   张灯  29  167.0  上海  上海
10  李放  25  180.0  上海  上海
11  王润  35  176.0  上海  上海


176.0

In [447]:
# 读取几列
df.iloc[:, [0, 2, 3]]

Unnamed: 0,姓名,身高,城市
0,张三,167.0,上海
1,李四,180.0,上海
2,王五,176.0,上海
3,赵六,167.0,上海
4,周武,180.0,上海
5,张叶,176.0,上海
6,张器,167.0,上海
7,李咯,180.0,上海
8,王根,176.0,上海
9,张灯,167.0,上海


In [448]:
# 读取某几行几列
df.iloc[[0, 2], [0, 2, 3]]

Unnamed: 0,姓名,身高,城市
0,张三,167.0,上海
2,王五,176.0,上海


In [449]:
# 前三行三列
df.iloc[:3, :3]

Unnamed: 0,姓名,年龄,身高
0,张三,29,167.0
1,李四,25,180.0
2,王五,28,176.0


### 6.数据排序

#### 重置索引

In [461]:
# 设置索引
df3 = df.set_index('姓名')
df3

Unnamed: 0_level_0,年龄,身高,城市,地区
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
张三,29,167.0,上海,上海
李四,25,180.0,上海,上海
王五,28,176.0,上海,上海
赵六,29,167.0,上海,上海
周武,66,180.0,上海,上海
张叶,28,176.0,上海,上海
张器,29,167.0,上海,上海
李咯,25,180.0,上海,上海
王根,28,176.0,上海,上海
张灯,29,167.0,上海,上海


In [466]:
# 重置索引
df4 = df3.reset_index()
df4

Unnamed: 0,姓名,年龄,身高,城市,地区
0,张三,29,167.0,上海,上海
1,李四,25,180.0,上海,上海
2,王五,28,176.0,上海,上海
3,赵六,29,167.0,上海,上海
4,周武,66,180.0,上海,上海
5,张叶,28,176.0,上海,上海
6,张器,29,167.0,上海,上海
7,李咯,25,180.0,上海,上海
8,王根,28,176.0,上海,上海
9,张灯,29,167.0,上海,上海


In [468]:
# 重置索引并删除原索引列
df5 = df3.reset_index(drop = True)
df5

Unnamed: 0,年龄,身高,城市,地区
0,29,167.0,上海,上海
1,25,180.0,上海,上海
2,28,176.0,上海,上海
3,29,167.0,上海,上海
4,66,180.0,上海,上海
5,28,176.0,上海,上海
6,29,167.0,上海,上海
7,25,180.0,上海,上海
8,28,176.0,上海,上海
9,29,167.0,上海,上海


#### 按某列排序(默认升序)

In [471]:
df.sort_values('年龄')#升序
df.sort_values('年龄', ascending = False)#降序

Unnamed: 0,姓名,年龄,身高,城市,地区
4,周武,66,180.0,上海,上海
11,王润,35,176.0,上海,上海
0,张三,29,167.0,上海,上海
3,赵六,29,167.0,上海,上海
6,张器,29,167.0,上海,上海
9,张灯,29,167.0,上海,上海
2,王五,28,176.0,上海,上海
5,张叶,28,176.0,上海,上海
8,王根,28,176.0,上海,上海
1,李四,25,180.0,上海,上海


#### 组合排序

In [472]:
#先按年龄升序 再按身高降序
df.sort_values(['年龄', '身高'], ascending = [True, False])

Unnamed: 0,姓名,年龄,身高,城市,地区
1,李四,25,180.0,上海,上海
7,李咯,25,180.0,上海,上海
10,李放,25,180.0,上海,上海
2,王五,28,176.0,上海,上海
5,张叶,28,176.0,上海,上海
8,王根,28,176.0,上海,上海
0,张三,29,167.0,上海,上海
3,赵六,29,167.0,上海,上海
6,张器,29,167.0,上海,上海
9,张灯,29,167.0,上海,上海


#### 条件查询

In [474]:
# 身高175以上
df.query('身高 > 175')
df[df['身高'] > 175]

Unnamed: 0,姓名,年龄,身高,城市,地区
1,李四,25,180.0,上海,上海
2,王五,28,176.0,上海,上海
4,周武,66,180.0,上海,上海
5,张叶,28,176.0,上海,上海
7,李咯,25,180.0,上海,上海
8,王根,28,176.0,上海,上海
10,李放,25,180.0,上海,上海
11,王润,35,176.0,上海,上海


In [475]:
# 身高180及以上且年龄30以下
df.query('身高 >= 180 & 年龄 < 30')

Unnamed: 0,姓名,年龄,身高,城市,地区
1,李四,25,180.0,上海,上海
7,李咯,25,180.0,上海,上海
10,李放,25,180.0,上海,上海


In [476]:
# 身高180及以上或年龄30以下
df.query('身高 >= 180 | 年龄 < 30')

Unnamed: 0,姓名,年龄,身高,城市,地区
0,张三,29,167.0,上海,上海
1,李四,25,180.0,上海,上海
2,王五,28,176.0,上海,上海
3,赵六,29,167.0,上海,上海
4,周武,66,180.0,上海,上海
5,张叶,28,176.0,上海,上海
6,张器,29,167.0,上海,上海
7,李咯,25,180.0,上海,上海
8,王根,28,176.0,上海,上海
9,张灯,29,167.0,上海,上海


#### 输出某个值的行和列号

In [478]:
np.where(df.values == 28)# 左边是行索引 右边是列索引

(array([2, 5, 8], dtype=int64), array([1, 1, 1], dtype=int64))


#### 增加一列

In [482]:
df['地区'] = '浦东'
df['地址'] = df['城市'] + '-' + df['地区']
df

Unnamed: 0,姓名,年龄,身高,城市,地区,地址
0,张三,29,167.0,上海,浦东,上海-浦东
1,李四,25,180.0,上海,浦东,上海-浦东
2,王五,28,176.0,上海,浦东,上海-浦东
3,赵六,29,167.0,上海,浦东,上海-浦东
4,周武,66,180.0,上海,浦东,上海-浦东
5,张叶,28,176.0,上海,浦东,上海-浦东
6,张器,29,167.0,上海,浦东,上海-浦东
7,李咯,25,180.0,上海,浦东,上海-浦东
8,王根,28,176.0,上海,浦东,上海-浦东
9,张灯,29,167.0,上海,浦东,上海-浦东


In [486]:
df['资产:万'] = np.random.randint(20, 100, 12)
df

Unnamed: 0,姓名,年龄,身高,城市,地区,地址,资产:万
0,张三,29,167.0,上海,浦东,上海-浦东,54
1,李四,25,180.0,上海,浦东,上海-浦东,97
2,王五,28,176.0,上海,浦东,上海-浦东,21
3,赵六,29,167.0,上海,浦东,上海-浦东,32
4,周武,66,180.0,上海,浦东,上海-浦东,45
5,张叶,28,176.0,上海,浦东,上海-浦东,99
6,张器,29,167.0,上海,浦东,上海-浦东,60
7,李咯,25,180.0,上海,浦东,上海-浦东,80
8,王根,28,176.0,上海,浦东,上海-浦东,96
9,张灯,29,167.0,上海,浦东,上海-浦东,79


In [491]:
# 增加一列财富评级
def get_level(assets):
    if assets > 90:
        return '富有'
    return '一般' if assets < 50 else '中等' 
df['财富等级'] = df['资产:万'].apply(lambda x : get_level(x))
df

Unnamed: 0,姓名,年龄,身高,城市,地区,地址,资产:万,财富等级
0,张三,29,167.0,上海,浦东,上海-浦东,54,中等
1,李四,25,180.0,上海,浦东,上海-浦东,97,富有
2,王五,28,176.0,上海,浦东,上海-浦东,21,一般
3,赵六,29,167.0,上海,浦东,上海-浦东,32,一般
4,周武,66,180.0,上海,浦东,上海-浦东,45,一般
5,张叶,28,176.0,上海,浦东,上海-浦东,99,富有
6,张器,29,167.0,上海,浦东,上海-浦东,60,中等
7,李咯,25,180.0,上海,浦东,上海-浦东,80,中等
8,王根,28,176.0,上海,浦东,上海-浦东,96,富有
9,张灯,29,167.0,上海,浦东,上海-浦东,79,中等


#### 删除行列
注意：（1）、删除列的操作时，axis参数不可省，因为axis默认为0（行）；

（2）、没有加入inplace参数，默认不会对原来数据进行修改，需要将结果赋值给新的变量。

In [498]:
# 删除某行
df6 = df.drop(labels = 0)
df6

Unnamed: 0,姓名,年龄,身高,城市,地区,地址,资产:万,财富等级
1,李四,25,180.0,上海,浦东,上海-浦东,97,富有
2,王五,28,176.0,上海,浦东,上海-浦东,21,一般
3,赵六,29,167.0,上海,浦东,上海-浦东,32,一般
4,周武,66,180.0,上海,浦东,上海-浦东,45,一般
5,张叶,28,176.0,上海,浦东,上海-浦东,99,富有
6,张器,29,167.0,上海,浦东,上海-浦东,60,中等
7,李咯,25,180.0,上海,浦东,上海-浦东,80,中等
8,王根,28,176.0,上海,浦东,上海-浦东,96,富有
9,张灯,29,167.0,上海,浦东,上海-浦东,79,中等
10,李放,25,180.0,上海,浦东,上海-浦东,91,富有


In [502]:
# 删除列
df7 = df.drop(labels = ['城市', '地区'], axis = 1)
df7

Unnamed: 0,姓名,年龄,身高,地址,资产:万,财富等级
0,张三,29,167.0,上海-浦东,54,中等
1,李四,25,180.0,上海-浦东,97,富有
2,王五,28,176.0,上海-浦东,21,一般
3,赵六,29,167.0,上海-浦东,32,一般
4,周武,66,180.0,上海-浦东,45,一般
5,张叶,28,176.0,上海-浦东,99,富有
6,张器,29,167.0,上海-浦东,60,中等
7,李咯,25,180.0,上海-浦东,80,中等
8,王根,28,176.0,上海-浦东,96,富有
9,张灯,29,167.0,上海-浦东,79,中等


In [503]:
del df7['身高']
df7

Unnamed: 0,姓名,年龄,地址,资产:万,财富等级
0,张三,29,上海-浦东,54,中等
1,李四,25,上海-浦东,97,富有
2,王五,28,上海-浦东,21,一般
3,赵六,29,上海-浦东,32,一般
4,周武,66,上海-浦东,45,一般
5,张叶,28,上海-浦东,99,富有
6,张器,29,上海-浦东,60,中等
7,李咯,25,上海-浦东,80,中等
8,王根,28,上海-浦东,96,富有
9,张灯,29,上海-浦东,79,中等


### 7.数据分组

### 8.数据统计

### 9.表格样式