# 04.Pandas查询数据

## Pandas查询的几种方法：
#### ① df.loc方法，根据行、列的标签值查询（.loc既能查询，又能覆盖写入。）
#### ② df.iloc方法，根据行、列的数字位置查询
#### ③ df.where方法
#### ④ df.query方法

## Pandas使用df.loc查询数据的方法：
#### 1.使用单个label值查询数据
#### 2.使用值列表批量查询
#### 3.使用数值区间进行范围查询
#### 4.使用条件表达式查询
#### 5.调用函数查询

## 注意：
#### · 以上查询方法，既适用于行，也适用于列
#### · 注意观察降维DataFrame->Series->值

In [3]:
import pandas as pd

## 0、读取数据

In [111]:
df=pd.read_csv("./datas/beijing_tianqi/beijing_tianqi_2018.csv",encoding='gbk')
# 这里显示用utf-8编码去解码CSV文件时，遇到无法识别的字节，所有尝试用其他常见编码，如encording='gbk'。

In [112]:
df.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1
3,2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1
4,2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1


In [113]:
# 设定索引为日期，方便按日期筛选
df.set_index('ymd',inplace=True)

In [114]:
# 时间序列见后续课程，本次按字符串处理
df.index

Index(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04', '2018-01-05',
       '2018-01-06', '2018-01-07', '2018-01-08', '2018-01-09', '2018-01/10',
       '2025-06-08'],
      dtype='object', name='ymd')

In [115]:
df.head()

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2
2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1
2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1
2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1
2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1


In [116]:
# 温度那两列带了一个℃的后缀，如果要对这两列进行数字化的处理，就要替换掉温度的后缀℃
df.loc[:,"bWendu"]=df["bWendu"].str.replace("℃","").astype('int32')
df.loc[:,"yWendu"]=df["yWendu"].str.replace("℃","").astype('int32')

#### 以处理bWendu列为例：
#### 1、df.loc[:,"bWendu"]：用loc定位DataFrame里的bWendu列，:表示选中所有行。
#### 2、df["bWendu"].str.replace("℃","")：先对bWendu列调用.str（把列当字符串序列处理），再用.repalce("℃","")替换，把每个单元格里面的℃字符删掉。
#### 3、.astype('int32')：把替换后得到的字符串（纯数字形式）转成int32整数类型，方便后续做数值运算。

In [117]:
df.dtypes

bWendu       object
yWendu       object
tianqi       object
fengxiang    object
fengli       object
aqi           int64
aqiInfo      object
aqiLevel      int64
dtype: object

In [118]:
df.head()

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2
2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1
2018-01-03,2,-5,多云,北风,1-2级,28,优,1
2018-01-04,0,-8,阴,东北风,1-2级,28,优,1
2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1


## 1、使用单个label值查询数据

In [119]:
# 得到单个值
df.loc['2018-01-03','bWendu']
# 这里的单个label值指的是'2018-01-03'

2

In [120]:
# 得到一个Series
df.loc['2018-01-03',['bWendu','yWendu']]

bWendu     2
yWendu    -5
Name: 2018-01-03, dtype: object

## 2、使用值列表批量查询

In [121]:
# 得到Series
df.loc[['2018-01-03','2018-01-04','2018-01-05'],'bWendu']

ymd
2018-01-03    2
2018-01-04    0
2018-01-05    3
Name: bWendu, dtype: object

In [122]:
# 得到DataFrame
df.loc[['2018-01-03','2018-01-04','2018-01-05'],['bWendu','yWendu']]

Unnamed: 0_level_0,bWendu,yWendu
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1
2018-01-03,2,-5
2018-01-04,0,-8
2018-01-05,3,-6


## 3、使用数值区间进行范围查询
#### 注意：区间既包含开始，也包含结束

In [123]:
# 行index按区间
df.loc['2018-01-03':'2018-01-05','bWendu']

ymd
2018-01-03    2
2018-01-04    0
2018-01-05    3
Name: bWendu, dtype: object

In [124]:
# 列index按区间
df.loc['2018-01-03','bWendu':'fengxiang']

bWendu        2
yWendu       -5
tianqi       多云
fengxiang    北风
Name: 2018-01-03, dtype: object

In [125]:
# 行和列都按区间查询
df.loc['2018-01-03':'2018-01-05','bWendu':'fengxiang']

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018-01-03,2,-5,多云,北风
2018-01-04,0,-8,阴,东北风
2018-01-05,3,-6,多云~晴,西北风


## 4、使用条件表达式查询

### 简单条件查询，最低温度低于-6度的列表

In [126]:
df.loc[df["yWendu"]<-6,:]

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-01-04,0,-8,阴,东北风,1-2级,28,优,1
2018-01-09,1,-8,晴,西北风,3-4级,34,优,1
2018-01/10,-2,-10,晴,西北风,1-2级,26,优,1


In [127]:
# 观察一下这里的boolean条件
df["yWendu"]<-6

ymd
2018-01-01    False
2018-01-02    False
2018-01-03    False
2018-01-04     True
2018-01-05    False
2018-01-06    False
2018-01-07    False
2018-01-08    False
2018-01-09     True
2018-01/10     True
2025-06-08    False
Name: yWendu, dtype: bool

### 复杂条件查询，查一下我心中的完美天气
#### 注意：组合条件用&符号合并，每个条件判断都得带括号

In [128]:
# 查询最高温度小于30度，并且最低温度大于15度，并且是晴天，并且天气为优的数据
df.loc[(df["bWendu"]<=30)&(df["yWendu"]>=15)&(df["tianqi"]=='晴')&(df["aqiLevel"]==1),:]

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2025-06-08,25,16,晴,东南风,1-2级,30,优,1


In [129]:
# 再次观察这里的boolean条件
(df["bWendu"]<=30)&(df["yWendu"]>=15)&(df["tianqi"]=='晴')&(df["aqiLevel"]==1)

ymd
2018-01-01    False
2018-01-02    False
2018-01-03    False
2018-01-04    False
2018-01-05    False
2018-01-06    False
2018-01-07    False
2018-01-08    False
2018-01-09    False
2018-01/10    False
2025-06-08     True
dtype: bool

## 5、调用函数查询

In [130]:
# 直接写lambda表达式
df.loc[lambda df : (df["bWendu"]<=30)&(df["yWendu"]>=15),:]

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2025-06-08,25,16,晴,东南风,1-2级,30,优,1


##### lambda df : (df["bWendu"]<=30)&(df["yWendu"]>=15)是一个lambda匿名函数（不用def定义的函数）
##### 拆解如下：
##### ·df是传入的参数，这里代表整个DataFrame（因为是在.loc里用，pandas会自动把当前DataFrame传给这个lambda）。
##### ·冒号:后面是函数体，返回一个布尔条件。

In [132]:
# 编写自己的函数，查询1月份，空气质量最好的数据
def query_my_data(df):
    return df.index.str.startswith("2018-01")&(df["aqiLevel"]==1)
# df.index表示调用df的索引，即日期；.str表示把调用的日期变成字符串形式；.startswith

df.loc[query_my_data,:]

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1
2018-01-03,2,-5,多云,北风,1-2级,28,优,1
2018-01-04,0,-8,阴,东北风,1-2级,28,优,1
2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1
2018-01-06,2,-5,多云~阴,西南风,1-2级,32,优,1
2018-01-08,2,-6,晴,西北风,4-5级,50,优,1
2018-01-09,1,-8,晴,西北风,3-4级,34,优,1
2018-01/10,-2,-10,晴,西北风,1-2级,26,优,1
