In [9]:
!pip install geopy

Collecting geopy
  Downloading geopy-2.4.1-py3-none-any.whl.metadata (6.8 kB)
Collecting geographiclib<3,>=1.52 (from geopy)
  Downloading geographiclib-2.0-py3-none-any.whl.metadata (1.4 kB)
Downloading geopy-2.4.1-py3-none-any.whl (125 kB)
   ---------------------------------------- 0.0/125.4 kB ? eta -:--:--
   --- ------------------------------------ 10.2/125.4 kB ? eta -:--:--
   --- ------------------------------------ 10.2/125.4 kB ? eta -:--:--
   --- ------------------------------------ 10.2/125.4 kB ? eta -:--:--
   ------------------- ------------------- 61.4/125.4 kB 363.1 kB/s eta 0:00:01
   ------------------- ------------------- 61.4/125.4 kB 363.1 kB/s eta 0:00:01
   ------------------- ------------------- 61.4/125.4 kB 363.1 kB/s eta 0:00:01
   ------------------- ------------------- 61.4/125.4 kB 363.1 kB/s eta 0:00:01
   ------------------- ------------------- 61.4/125.4 kB 363.1 kB/s eta 0:00:01
   ------------------- ------------------- 61.4/125.4 kB 363.1 kB/s eta

### 筛选出需要的列

In [None]:
import pandas as pd

# 输入文件路径
input_file_path = r"D:/文档/WeChat Files/WeChat Files/wxid_ujzkebqpjc3v22/FileStorage/File/2024-11/处理后的订单(3).xlsx"

# 输出文件路径
output_directory = r"D:\课程\数据分析\租车"
output_file_path = f"{output_directory}/提取后的11月订单数据.xlsx"

# 需要提取的列名
columns_to_extract = [
    "承租人", "网络平台订单号", "品牌车型", "取车地址", "POI类别", 
    "取车地址类别", "还车地址", "租期", "日租金", "总租金", "渠道"
]

# 读取 Excel 文件
df = pd.read_excel(input_file_path)

# 检查是否包含所有需要提取的列
missing_columns = [col for col in columns_to_extract if col not in df.columns]
if missing_columns:
    raise ValueError(f"以下列在文件中未找到：{missing_columns}")

# 提取需要的列
extracted_df = df[columns_to_extract]

# 保存为新的 Excel 文件
extracted_df.to_excel(output_file_path, index=False)

print(f"数据提取完成，文件已保存到 {output_file_path}")

### 先提取坐标

In [4]:
import pandas as pd
import requests
import time
import os

# 高德地图 API 密钥
API_KEY = "ace4cdbddb2061c8b5684b043aa1ed8e"

# 输入和输出文件路径
input_path = r"D:\课程\数据分析\租车\提取后的11月订单数据.xlsx"
output_path = r"D:\课程\数据分析\租车\提取后的11月订单数据_处理后.xlsx"

# 定义函数获取经纬度
def geocode_address(address, api_key):
    url = f'https://restapi.amap.com/v3/geocode/geo?address={address}&key={api_key}'
    try:
        response = requests.get(url)
        if response.status_code == 200:
            result = response.json()
            if result['status'] == '1' and result.get('geocodes'):
                return result['geocodes'][0]['location']  # 返回经纬度
    except Exception as e:
        print(f"获取地址 {address} 时发生错误：{e}")
    return None

# 提取所有地址对应的坐标，支持断点续传
def extract_coordinates_with_checkpoint(df, api_key, save_path):
    for i, row in df.iterrows():
        # 如果该行已处理过，跳过
        if row.get("已处理") == 1:
            continue
        address = row["取车地址"]
        print(f"正在获取第 {i+1} 个地址的坐标：{address}")
        location = geocode_address(address, api_key)
        if location:
            df.at[i, '坐标'] = location
            df.at[i, '已处理'] = 1
            print(f"成功获取：{location}")
        else:
            df.at[i, '坐标'] = "无法获取"
            df.at[i, '已处理'] = 0
            print(f"无法获取地址 {address} 的坐标")
        
        # 每次处理后立即保存
        df.to_excel(save_path, index=False)
        print(f"中间结果已保存到：{save_path}")
        time.sleep(1)  # 避免请求过快
    return df

# 主流程：加载数据，提取坐标
if __name__ == "__main__":
    # 加载文件
    if os.path.exists(output_path):
        # 如果已存在处理后的文件，从中加载数据
        print("检测到已有处理文件，加载进度...")
        df = pd.read_excel(output_path)
    else:
        # 否则从原始文件加载
        df = pd.read_excel(input_path)
        df["坐标"] = None
        df["已处理"] = 0  # 初始化为未处理

    # 提取坐标
    df_with_coordinates = extract_coordinates_with_checkpoint(df, API_KEY, output_path)
    print("所有地址的坐标提取完成！")

正在获取第 1 个地址的坐标：华亭国际-41号楼
成功获取：117.071166,39.119113
中间结果已保存到：D:\课程\数据分析\租车\提取后的11月订单数据_处理后.xlsx
正在获取第 2 个地址的坐标：永胜道路南侧临时停车点
成功获取：109.413390,27.064802
中间结果已保存到：D:\课程\数据分析\租车\提取后的11月订单数据_处理后.xlsx
正在获取第 3 个地址的坐标：天珺大厦
成功获取：117.201150,39.117003
中间结果已保存到：D:\课程\数据分析\租车\提取后的11月订单数据_处理后.xlsx
正在获取第 4 个地址的坐标：1
无法获取地址 1 的坐标
中间结果已保存到：D:\课程\数据分析\租车\提取后的11月订单数据_处理后.xlsx
正在获取第 5 个地址的坐标：长城公寓
成功获取：105.580901,30.498215
中间结果已保存到：D:\课程\数据分析\租车\提取后的11月订单数据_处理后.xlsx
正在获取第 6 个地址的坐标：天津市河北区天津站南地下停车场C区C6携程租车中心
成功获取：117.210103,39.135973
中间结果已保存到：D:\课程\数据分析\租车\提取后的11月订单数据_处理后.xlsx
正在获取第 7 个地址的坐标：天津市河西区桃园街道安德公寓
成功获取：117.211651,39.103066
中间结果已保存到：D:\课程\数据分析\租车\提取后的11月订单数据_处理后.xlsx
正在获取第 8 个地址的坐标：听景园
成功获取：117.111931,39.196941
中间结果已保存到：D:\课程\数据分析\租车\提取后的11月订单数据_处理后.xlsx
正在获取第 9 个地址的坐标：纪润家园
成功获取：117.199529,39.066480
中间结果已保存到：D:\课程\数据分析\租车\提取后的11月订单数据_处理后.xlsx
正在获取第 10 个地址的坐标：天津市津南区海棠街道南开大学津南校区院·网络空间安全学院
成功获取：117.342189,38.986689
中间结果已保存到：D:\课程\数据分析\租车\提取后的11月订单数据_处理后.xlsx
正在获取第 11 个地址的坐标：金厦水语花城-花溪苑
成功获取：117.084607,39.124

### 再进行POI分类

In [3]:
import pandas as pd
import requests
import time
from geopy.distance import geodesic

# 高德地图 API 密钥
API_KEY = "ace4cdbddb2061c8b5684b043aa1ed8e"

# 读取 Excel 文件
file_path = r"D:\课程\数据分析\租车\提取后的11月订单数据_处理后.xlsx"
df = pd.read_excel(file_path)

# 预设 POI 信息（经度在前，纬度在后）
preset_poi = {
    "天津站": (117.211693, 39.137783),
    "天津西站": (117.163548, 39.165834),
    "天津南站": (117.060761, 39.057057),
    "天津滨海国际机场": (117.362141, 39.126976),
}

# 计算地址与预设 POI 的距离
def get_preset_poi_category(location):
    loc1 = tuple(map(float, location.split(',')))  # location 格式为 "经度,纬度"
    for poi_name, poi_coords in preset_poi.items():
        distance = geodesic((loc1[1], loc1[0]), (poi_coords[1], poi_coords[0])).km  # geodesic 参数为 (纬度, 经度)
        if poi_name in ["天津站", "天津西站", "天津南站"] and distance <= 1.2:
            return poi_name
        elif poi_name == "天津滨海国际机场" and distance <= 5.2:
            return "天津滨海国际机场"
    return None  # 如果未找到匹配的 POI，返回 None

# 获取 POI 类别，并优先判断是否属于大学
def get_poi_category_with_university(location, api_key, radius=500, university_keywords=("大学", "学院", "教育", "校区", "研究所")):
    lon, lat = location.split(',')  # 解析经度和纬度
    url = f'https://restapi.amap.com/v3/place/around?location={lon},{lat}&key={api_key}&radius={radius}'
    
    response = requests.get(url)
    if response.status_code == 200:
        result = response.json()
        if result['status'] == '1' and result.get('pois'):
            pois = result['pois']
            
            # 优先判断是否存在大学相关 POI
            for poi in pois:
                if any(keyword in poi['name'] or keyword in poi.get('type', '') for keyword in university_keywords):
                    return "大学"
            
            # 如果没有找到大学相关 POI，返回第一个 POI 类别
            return pois[0].get('type', '未知')
    return '未知'

# 主流程：处理 POI 分类
def process_addresses_with_saved_progress(df, api_key, file_path):
    for i in range(len(df)):
        # 如果已经获取了 POI 类别，跳过该行
        if not pd.isna(df.at[i, 'POI类别']):
            continue
        
        location = df.at[i, '坐标']
        if location == "无法获取" or pd.isna(location):
            df.at[i, 'POI类别'] = "无法识别"
            continue
        
        print(f"正在处理第 {i + 1} 个坐标：{location}")
        try:
            # 优先判断是否属于预设 POI 范围
            preset_poi_category = get_preset_poi_category(location)
            if preset_poi_category:
                poi_category = preset_poi_category
            else:
                # 如果不在预设范围，获取 POI 类别
                poi_category = get_poi_category_with_university(location, api_key)
            
            # 保存 POI 分类结果
            df.at[i, 'POI类别'] = poi_category
            print(f"第 {i + 1} 个地址的 POI 类别为：{poi_category}")
            
            # 保存当前进度到文件
            df.to_excel(file_path, index=False)
            
            # 延迟 1 秒，避免请求过快
            time.sleep(1)
        
        except Exception as e:
            print(f"处理第 {i + 1} 个地址时出错：{e}")
            # 保存已完成的部分数据
            df.to_excel(file_path, index=False)
            break  # 中断处理

# 调用主流程
process_addresses_with_saved_progress(df, API_KEY, file_path)
print(f"处理完成，结果已保存到：{file_path}")


正在处理第 220 个坐标：120.760925,27.968004
第 220 个地址的 POI 类别为：生活服务;人才市场;人才市场
正在处理第 221 个坐标：118.344906,35.097360
第 221 个地址的 POI 类别为：生活服务;事务所;律师事务所
正在处理第 222 个坐标：117.109681,39.064487
第 222 个地址的 POI 类别为：大学
正在处理第 223 个坐标：114.005822,22.958671
第 223 个地址的 POI 类别为：餐饮服务;快餐厅;快餐厅
正在处理第 224 个坐标：117.050646,39.050010
第 224 个地址的 POI 类别为：天津南站
正在处理第 225 个坐标：117.223951,39.121377
第 225 个地址的 POI 类别为：生活服务;生活服务场所;生活服务场所
正在处理第 226 个坐标：117.136081,39.102536
第 226 个地址的 POI 类别为：生活服务;物流速递;物流速递
正在处理第 227 个坐标：117.124300,39.181673
第 227 个地址的 POI 类别为：大学
正在处理第 228 个坐标：117.176625,39.078111
第 228 个地址的 POI 类别为：餐饮服务;中餐厅;中餐厅
正在处理第 229 个坐标：117.162584,38.900339
第 229 个地址的 POI 类别为：商务住宅;住宅区;住宅小区
正在处理第 230 个坐标：117.186990,39.118744
第 230 个地址的 POI 类别为：商务住宅;住宅区;住宅小区
正在处理第 231 个坐标：117.203448,39.110502
第 231 个地址的 POI 类别为：商务住宅;住宅区;住宅小区
正在处理第 232 个坐标：117.122162,39.201702
第 232 个地址的 POI 类别为：餐饮服务;中餐厅;中餐厅
正在处理第 233 个坐标：117.089725,39.140695
第 233 个地址的 POI 类别为：餐饮服务;中餐厅;中餐厅
正在处理第 234 个坐标：121.337947,37.452081
第 234 个地址的 POI 类别为：生活服务;物流速递;物流仓储场地
正在处理