# pandas查询数据
##### 加油
## Pandas查询数据的几种方法
####  1  df.loc方法，根据行、列的标签值查询
####  2. df.iloc方法，根据行、列的数字位置查询
####  3. df.where方法
####  4. df.query方法
#### .loc既能查询，又能覆盖写入，强烈推荐!

## Pandas使用df.loc查询数据的方法

####  1. 使用单个label值查询数据
####  2. 使用值列表批量查询
####  3. 使用数值区间进行范围查询
####  4 使用条件表达式查询
####  5 .调用函数查询

## 注意
#### .以上查询方法，既适用于行，也适用于列
#### .注意观察降维dataFrame>Series>值

In [54]:
import pandas as pd

## 0.读取数据
#### 数据为不完整的过去一年北京的天气
#### 在get_last_12_months_beijing_weather.py爬的

In [3]:
df = pd.read_csv("beijing_last_12_weather.csv")
df.head()

Unnamed: 0,日期,最高温,最低温,天气,风力风向
0,2024-12-01 星期日,15℃,-1℃,多云,西北风 2级
1,2024-12-02 星期一,4℃,-4℃,晴,西北风 3级
2,2024-12-03 星期二,9℃,-3℃,晴~多云,西北风 2级
3,2024-12-04 星期三,8℃,-2℃,晴,西北风 2级
4,2024-12-05 星期四,9℃,-2℃,晴~阴,西北风 3级


In [16]:
#设定索引为日期,翻遍按照日期筛选,
# 这里inplace为true意思直接改变dataframe，为false就有返回值，可以定义一个新的变量接收，不会改变原有dataframe
#如果不inplace 本质上并没有修改df的行索引
# inplace 就是把原来数字的index改成了ymd这一列做index；数字index干掉
df.set_index('日期',inplace=True)

KeyError: "None of ['日期'] are in the columns"

In [17]:
df.index

Index(['2024-12-01 星期日', '2024-12-02 星期一', '2024-12-03 星期二', '2024-12-04 星期三',
       '2024-12-05 星期四', '2024-12-06 星期五', '2024-12-07 星期六', '2024-12-08 星期日',
       '2024-12-09 星期一', '2024-12-10 星期二',
       ...
       '2025-10-03 星期五', '2025-10-04 星期六', '2025-10-05 星期日', '2025-10-06 星期一',
       '2025-10-07 星期二', '2025-10-08 星期三', '2025-10-09 星期四', '2025-10-10 星期五',
       '2025-11-01 星期六', '2025-11-02 星期日'],
      dtype='object', name='日期', length=112)

In [18]:
df.head()

Unnamed: 0_level_0,最高温,最低温,天气,风力风向
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2024-12-01 星期日,15,-1,多云,西北风 2级
2024-12-02 星期一,4,-4,晴,西北风 3级
2024-12-03 星期二,9,-3,晴~多云,西北风 2级
2024-12-04 星期三,8,-2,晴,西北风 2级
2024-12-05 星期四,9,-2,晴~阴,西北风 3级


In [29]:
#替换掉温度后的°C
#.loc查询行
# 这里少讲了一点，上一节里如果同事查询多行+多列，那么是df.[行索引，列索引]
# 如果列 '最高温' 和 '最低温' 中包含非数字字符（如 °C），
# 直接调用 .astype('int32') 会报错。需要先去除这些非数字字符，再进行类型转换。
# 改变数据的类型可以:df['最高温'] = df['最高温'].astype('int32'),前提是本身只有数字.
df['最高温'] = df['最高温'].str.replace.astype('int32')
df['最低温'] = df['最低温'].str.replace.astype('int32')

In [30]:
df.dtypes

最高温      int32
最低温      int32
天气      object
风力风向    object
dtype: object

In [31]:
df.head()

Unnamed: 0_level_0,最高温,最低温,天气,风力风向
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2024-12-01 星期日,15,-1,多云,西北风 2级
2024-12-02 星期一,4,-4,晴,西北风 3级
2024-12-03 星期二,9,-3,晴~多云,西北风 2级
2024-12-04 星期三,8,-2,晴,西北风 2级
2024-12-05 星期四,9,-2,晴~阴,西北风 3级


## 1.使用单个label值查询数据
#### 行或者列,都可以只传入单个值,实现精准匹配

In [33]:
#得到单个值
df.loc['2024-12-01 星期日','最高温']

np.int32(15)

In [34]:
#得到一个Series
df.loc['2024-12-01 星期日',['最高温','最低温']]

最高温    15
最低温    -1
Name: 2024-12-01 星期日, dtype: object

## 2.使用值列表批量查询

In [35]:
#得到Series
df.loc[['2024-12-01 星期日','2024-12-02 星期一'],'最高温']

日期
2024-12-01 星期日    15
2024-12-02 星期一     4
Name: 最高温, dtype: int32

In [37]:
#得到DataFrame
df.loc[['2024-12-01 星期日','2024-12-02 星期一'],['最高温','最低温']]

Unnamed: 0_level_0,最高温,最低温
日期,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-12-01 星期日,15,-1
2024-12-02 星期一,4,-4


## 3.使用数值区间进行范围查询
#### 注意:区间包含开始也包含结束

In [38]:
#行index按区间
df.loc['2024-12-01 星期日':'2024-12-04 星期三','最高温']

日期
2024-12-01 星期日    15
2024-12-02 星期一     4
2024-12-03 星期二     9
2024-12-04 星期三     8
Name: 最高温, dtype: int32

In [39]:
#列index按区间
df.loc['2024-12-01 星期日','最高温':'风力风向']

最高温         15
最低温         -1
天气          多云
风力风向    西北风 2级
Name: 2024-12-01 星期日, dtype: object

In [40]:
#行列都按照区间查询
df.loc['2024-12-01 星期日':'2024-12-04 星期三','最高温':'风力风向']

Unnamed: 0_level_0,最高温,最低温,天气,风力风向
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2024-12-01 星期日,15,-1,多云,西北风 2级
2024-12-02 星期一,4,-4,晴,西北风 3级
2024-12-03 星期二,9,-3,晴~多云,西北风 2级
2024-12-04 星期三,8,-2,晴,西北风 2级


## 4.使用条件表达式查询
#### bool列表的长度得等于行数或者列数
#### 简单条件查询:最低温低于-10的列表

In [43]:
# 这里是筛选所有符合条件的行，所以在行的位置输入条件，列是全部显示的
# 后面没必要加，：，因为loc默认就是查询一行的所有列
# 不要说是冒号，说成是切片，全切，就是全部的意思
df.loc[df['最低温']<-5,:]

Unnamed: 0_level_0,最高温,最低温,天气,风力风向
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2024-12-08 星期日,6,-6,晴,西北风 1级
2025-01-04 星期六,-2,-6,多云,西风 3级
2025-01-09 星期四,1,-6,晴,西北风 3级
2025-01-10 星期五,4,-7,晴,北风 2级
2025-02-04 星期二,2,-6,多云,北风 4级
2025-02-05 星期三,1,-6,晴,西北风 4级
2025-02-06 星期四,-1,-10,多云,西北风 5级
2025-02-07 星期五,-5,-12,晴,西北风 5级
2025-02-08 星期六,-2,-10,晴,西北风 4级
2025-02-09 星期日,-1,-8,多云,西南风 2级


In [44]:
# 观察可以发现这里的boolean条件
df['最低温']<-5

日期
2024-12-01 星期日    False
2024-12-02 星期一    False
2024-12-03 星期二    False
2024-12-04 星期三    False
2024-12-05 星期四    False
                  ...  
2025-10-08 星期三    False
2025-10-09 星期四    False
2025-10-10 星期五    False
2025-11-01 星期六    False
2025-11-02 星期日    False
Name: 最低温, Length: 112, dtype: bool

### 复杂条件查询,查一下自己比较喜欢的天气
#### 注意:组合条件用 &(与/and) 符号合并,每个条件判断都得带括号

In [45]:
#首先最高温小于30,最低温大于15,晴天
df.loc[(df['最高温']<30)&(df['最低温']>15)&(df['天气']=='晴'),:]

Unnamed: 0_level_0,最高温,最低温,天气,风力风向
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2025-09-06 星期六,28,18,晴,南风 3级
2025-09-10 星期三,28,21,晴,东南风 3级


## 5.调用函数查询

In [46]:
# 直接写lambda表达式
df.loc[lambda df :(df['最高温']<30)&(df['最低温']>15),:]

Unnamed: 0_level_0,最高温,最低温,天气,风力风向
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2025-05-01 星期四,26,17,多云,西北风 4级
2025-05-04 星期日,26,16,阴,西南风 3级
2025-05-06 星期二,22,16,多云,南风 2级
2025-05-08 星期四,27,16,小雨,南风 3级
2025-06-01 星期日,27,21,阴,南风 3级
2025-08-04 星期一,29,26,小雨,南风 3级
2025-08-08 星期五,27,23,中雨,东南风 2级
2025-09-02 星期二,29,22,多云,南风 3级
2025-09-04 星期四,29,22,多云,南风 3级
2025-09-05 星期五,24,21,小雨,北风 3级


In [53]:
# 编写自己的函数,查询查询九份晴天
# df：这是一个Pandas DataFrame对象的变量名。DataFrame是Pandas中用于存储表格数据的主要数据结构，
# 它类似于Excel中的工作表或SQL中的表格。
# .index：这是DataFrame对象的一个属性，它返回DataFrame的索引（index）。
# str：这是Pandas为字符串数据类型提供的一系列字符串操作方法的访问器。当你对一个Series（DataFrame的单列或索引）
# 使用 .str 后，你可以访问一系列字符串处理方法，比如 startswith、endswith、find 等。
# 这个方法用于检查字符串是否以指定的子字符串开头。如果字符串以 '2025-09' 开头，它返回 True；否则返回 False。
def nine_Y(df):
    return (df.index.str.startswith('2025-09')) & (df['天气'] == '晴')
df.loc[nine_Y,:]

Unnamed: 0_level_0,最高温,最低温,天气,风力风向
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2025-09-01 星期一,30,22,晴,南风 2级
2025-09-06 星期六,28,18,晴,南风 3级
2025-09-10 星期三,28,21,晴,东南风 3级
