
# Australian Threatened Plants (TSX): Data Wrangling and MySQL Ingestion

Name: Zihan

### Step 1: 提取、转换物种及位置元数据

此步骤的代码将执行以下操作：
1.  使用 `pandas` 库读取原始的聚合数据集 `06_tsx-aggregated-data-dataset_for_aus_plants.csv`。
2.  根据指定的列名列表，选择与物种分类、保护状态和地理位置相关的关键列。
3.  将 `NationalPriorityTaxa` 列中的数值 (1 和 0) 转换成更易读的文本 ('Yes' 和 'No')。
4.  将提取并处理后的子集数据保存到 `02_wrangled_data` 目录下一个新的CSV文件 `Table16_TSX_SpeciesMonitoringTable.csv` 中。

In [3]:
import pandas as pd
import os

# --- 1. 定义文件路径 ---
# 原始数据文件路径
source_file_path = '01_raw_data/06_tsx-aggregated-data-dataset_for_aus_plants.csv'

# 输出文件路径
output_file_path = '02_wrangled_data/Table16_TSX_SpeciesMonitoringTable.csv'

# --- 2. 定义需要提取的列名列表 ---
# 注意：原始文件中的 'ID' 是大写的，这里保持一致
columns_to_extract = [
    'ID',
    'Binomial',
    'CommonName',
    'FamilyCommonName',
    'Class',
    'Order',
    'Family',
    'Genus',
    'Species',
    'Subspecies',
    'FunctionalGroup',
    'EPBCStatus',
    'IUCNStatus',
    'MaxStatus',
    'NationalPriorityTaxa',
    'State',
    'Region',
    'RegionCentroidLatitude',
    'RegionCentroidLongitude'
]

# --- 3. 确保输出目录存在 ---
# 获取输出文件所在的目录
output_dir = os.path.dirname(output_file_path)
# 如果目录不存在，则创建它
os.makedirs(output_dir, exist_ok=True)

# --- 4. 执行数据提取、转换和保存 ---
try:
    # 读取原始CSV文件
    print(f"正在读取原始文件: {source_file_path}")
    df_raw = pd.read_csv(source_file_path)
    
    # 从DataFrame中选择指定的列
    df_subset = df_raw[columns_to_extract].copy() # 使用 .copy() 避免 SettingWithCopyWarning
    
    # *** 新增步骤：转换 'NationalPriorityTaxa' 列 ***
    # 创建一个映射字典
    mapping = {1: 'Yes', 0: 'No'}
    # 应用映射
    df_subset['NationalPriorityTaxa'] = df_subset['NationalPriorityTaxa'].map(mapping)
    print("已将 'NationalPriorityTaxa' 列从 1/0 转换为 Yes/No。")
    
    # 将提取出的数据保存到新的CSV文件，不包含索引列
    df_subset.to_csv(output_file_path, index=False)
    
    print("-" * 50)
    print(f"成功提取并转换数据！")
    print(f"新的文件已保存至: {output_file_path}")
    print(f"新文件包含 {df_subset.shape[0]} 行 和 {df_subset.shape[1]} 列。")
    print("-" * 50)
    # 显示转换后列的前几行以供验证
    print("转换后 'NationalPriorityTaxa' 列的预览:")
    print(df_subset['NationalPriorityTaxa'].head())


except FileNotFoundError:
    print(f"错误：找不到原始文件。请确认文件路径是否正确: {source_file_path}")
except KeyError as e:
    print(f"错误：原始文件中缺少一个或多个指定的列。缺失的列: {e}")
except Exception as e:
    print(f"发生了未知错误: {e}")

正在读取原始文件: 01_raw_data/06_tsx-aggregated-data-dataset_for_aus_plants.csv
已将 'NationalPriorityTaxa' 列从 1/0 转换为 Yes/No。
--------------------------------------------------
成功提取并转换数据！
新的文件已保存至: 02_wrangled_data/Table16_TSX_SpeciesMonitoringTable.csv
新文件包含 937 行 和 19 列。
--------------------------------------------------
转换后 'NationalPriorityTaxa' 列的预览:
0    No
1    No
2    No
3    No
4    No
Name: NationalPriorityTaxa, dtype: object


### Step 1 - 加载已处理好的数据进行检查
这个步骤将加载我们上一步骤中已经清洗和转换好的CSV文件，并对其进行快速预览，以确保数据在上传前是正确的。

In [1]:
import pandas as pd

# 定义我们已经处理好的数据文件路径
wrangled_file_path = '02_wrangled_data/Table16_TSX_SpeciesMonitoringTable.csv'

# 读取数据到DataFrame
try:
    df = pd.read_csv(wrangled_file_path)
    print("✅ 已处理的CSV文件加载成功！")
    print("\n" + "="*50 + "\n")
    
    print("数据信息概览：")
    df.info()
    
    print("\n数据预览（前5行）：")
    print(df.head())

except FileNotFoundError:
    print(f"❌ 错误：文件未找到，请检查路径 '{wrangled_file_path}' 是否正确。")
except Exception as e:
    print(f"❌ 处理过程中发生错误: {e}")

✅ 已处理的CSV文件加载成功！


数据信息概览：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 937 entries, 0 to 936
Data columns (total 19 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   ID                       937 non-null    int64  
 1   Binomial                 937 non-null    object 
 2   CommonName               850 non-null    object 
 3   FamilyCommonName         0 non-null      float64
 4   Class                    0 non-null      float64
 5   Order                    937 non-null    object 
 6   Family                   937 non-null    object 
 7   Genus                    937 non-null    object 
 8   Species                  937 non-null    object 
 9   Subspecies               76 non-null     object 
 10  FunctionalGroup          937 non-null    object 
 11  EPBCStatus               932 non-null    object 
 12  IUCNStatus               149 non-null    object 
 13  MaxStatus                937 non-null    object 
 14 

### Step 2 - 为 `Table16_TSX_SpeciesMonitoringTable` 创建数据库表结构
此步骤将连接到您的MySQL数据库，删除任何可能存在的旧表，然后根据您指定的列和数据类型创建一个新的、结构正确的表。

In [2]:
import mysql.connector
from mysql.connector import Error

# 数据库连接配置 (与您提供的一致)
db_config = {
    'host': 'database-plantx.cqz06uycysiz.us-east-1.rds.amazonaws.com',
    'user': 'zihan',
    'password': '2002317Yzh12138.',
    'database': 'FIT5120_PlantX_Database',
    'allow_local_infile': True,
    'use_pure': True,
    'charset': 'utf8mb4'
}

# --- 任务：创建表结构 ---
print("--- [任务 1/4] 正在创建表 'Table16_TSX_SpeciesMonitoringTable'... ---")
try:
    connection = mysql.connector.connect(**db_config)
    if connection.is_connected():
        print("✅ 成功连接到MySQL服务器")
        cursor = connection.cursor()

        table_name = "Table16_TSX_SpeciesMonitoringTable"
        print(f"正在删除旧表 '{table_name}' (如果存在)...")
        cursor.execute(f"DROP TABLE IF EXISTS {table_name}")
        print("旧表已删除。")

        # 根据您提供的数据类型创建表的SQL语句
        create_table_16 = f"""
        CREATE TABLE {table_name} (
            ID INT PRIMARY KEY,
            Binomial TEXT,
            CommonName TEXT,
            FamilyCommonName TEXT,
            `Class` TEXT,
            `Order` TEXT,
            Family TEXT,
            Genus TEXT,
            Species TEXT,
            Subspecies TEXT,
            FunctionalGroup TEXT,
            EPBCStatus TEXT,
            IUCNStatus TEXT,
            MaxStatus TEXT,
            NationalPriorityTaxa TEXT,
            State TEXT,
            Region TEXT,
            RegionCentroidLatitude DOUBLE,
            RegionCentroidLongitude DOUBLE,
            -- 添加空间数据列，并设置临时默认值以支持LOAD DATA
            coords POINT NOT NULL DEFAULT (POINT(0,0)),
            SPATIAL INDEX(coords)
        ) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
        """
        # 注意: `Class` 和 `Order` 是SQL的保留关键字，所以用反引号 `` 将它们括起来
        
        cursor.execute(create_table_16)
        connection.commit()
        print(f"✅ 表 '{table_name}' 的结构创建成功。")

except Error as e:
    print(f"❌ 创建表结构时发生错误: {e}")

finally:
    if 'connection' in locals() and connection.is_connected():
        cursor.close()
        connection.close()
        print("🔌 已关闭用于创建表结构的MySQL连接。\n")

--- [任务 1/4] 正在创建表 'Table16_TSX_SpeciesMonitoringTable'... ---
✅ 成功连接到MySQL服务器
正在删除旧表 'Table16_TSX_SpeciesMonitoringTable' (如果存在)...
旧表已删除。
✅ 表 'Table16_TSX_SpeciesMonitoringTable' 的结构创建成功。
🔌 已关闭用于创建表结构的MySQL连接。



### Step 3 - 将数据导入 `Table16_TSX_SpeciesMonitoringTable`
使用 `LOAD DATA LOCAL INFILE` 将CSV文件中的数据高效地批量导入到刚刚创建的数据库表中。

In [3]:
try:
    # 重新建立连接以导入数据
    connection = mysql.connector.connect(**db_config)
    if connection.is_connected():
        print("✅ 成功连接到MySQL服务器，准备导入Table16数据。")
        cursor = connection.cursor()
        
        table_name = "Table16_TSX_SpeciesMonitoringTable"
        csv_path = '02_wrangled_data/Table16_TSX_SpeciesMonitoringTable.csv'

        # 定义加载数据的查询
        load_data_query_16 = f"""
        LOAD DATA LOCAL INFILE '{csv_path}'
        INTO TABLE {table_name}
        CHARACTER SET utf8mb4
        FIELDS TERMINATED BY ','
        OPTIONALLY ENCLOSED BY '"'
        LINES TERMINATED BY '\\r\\n'
        IGNORE 1 LINES
        (
            ID, Binomial, CommonName, FamilyCommonName, `Class`, `Order`, Family,
            Genus, Species, Subspecies, FunctionalGroup, EPBCStatus, IUCNStatus,
            MaxStatus, NationalPriorityTaxa, State, Region,
            RegionCentroidLatitude, RegionCentroidLongitude
        );
        """

        cursor.execute(load_data_query_16)
        connection.commit()
        print(f"✅ Table16数据导入成功！影响行数: {cursor.rowcount}。")

except Error as e:
    print(f"❌ Table16数据导入时发生错误: {e}")

finally:
    if 'connection' in locals() and connection.is_connected():
        cursor.close()
        connection.close()
        print("🔌 已关闭用于导入Table16数据的MySQL连接。")

✅ 成功连接到MySQL服务器，准备导入Table16数据。
✅ Table16数据导入成功！影响行数: 937。
🔌 已关闭用于导入Table16数据的MySQL连接。


### Step 4 - 填充空间数据列 (coords)
此步骤将使用已导入的经纬度数据来填充 `coords` 空间列。

In [4]:
try:
    # 重新建立连接以更新空间列
    connection = mysql.connector.connect(**db_config)
    if connection.is_connected():
        print("✅ 成功连接到MySQL服务器，准备更新空间列。")
        cursor = connection.cursor()

        table_name = "Table16_TSX_SpeciesMonitoringTable"
        
        # SQL语句：从经纬度填充 'coords' 列 (POINT函数使用 经度, 纬度 的顺序)
        update_spatial_column = f"""
        UPDATE {table_name}
        SET coords = POINT(RegionCentroidLongitude, RegionCentroidLatitude)
        WHERE RegionCentroidLongitude IS NOT NULL AND RegionCentroidLatitude IS NOT NULL;
        """

        cursor.execute(update_spatial_column)
        connection.commit()
        print(f"✅ 空间列 'coords' 填充成功！更新行数: {cursor.rowcount}。")

except Error as e:
    print(f"❌ 更新空间列时发生错误: {e}")

finally:
    if 'connection' in locals() and connection.is_connected():
        cursor.close()
        connection.close()
        print("🔌 已关闭用于更新空间列的MySQL连接。")

✅ 成功连接到MySQL服务器，准备更新空间列。
✅ 空间列 'coords' 填充成功！更新行数: 937。
🔌 已关闭用于更新空间列的MySQL连接。


### Step 5 - 验证导入的数据
最后，我们连接数据库查询总行数，并预览前几行数据，确保所有内容都已正确导入，特别是 `coords` 列。

In [5]:
try:
    connection = mysql.connector.connect(**db_config)
    if connection.is_connected():
        print("\n✅ 成功连接到MySQL服务器，准备验证Table16数据。")
        cursor = connection.cursor()
        
        table_name = "Table16_TSX_SpeciesMonitoringTable"

        # 获取表中的总行数
        cursor.execute(f"SELECT COUNT(*) FROM {table_name}")
        row_count = cursor.fetchone()[0]
        print(f"📊 表 '{table_name}' 当前包含 {row_count} 行。")

        # 获取并打印前5行以供预览
        print(f"\n--- '{table_name}' 表前5行数据预览 ---")
        # 使用 ST_AsText() 以可读格式显示POINT数据
        query = f"""
        SELECT ID, Binomial, Region, 
               RegionCentroidLatitude, RegionCentroidLongitude, ST_AsText(coords) 
        FROM {table_name} 
        LIMIT 5
        """
        cursor.execute(query)
        rows = cursor.fetchall()
        
        # 打印表头
        print(f"{'ID':<6} | {'Binomial':<45} | {'Region':<20} | {'coords'}")
        print("-" * 100)
        for row in rows:
            # 格式化输出 (ID, Binomial, Region, ST_AsText(coords))
            print(f"{row[0]:<6} | {row[1]:<45} | {row[2]:<20} | {row[5]}")

except Error as e:
    print(f"❌ 验证Table16数据时发生错误: {e}")

finally:
    if 'connection' in locals() and connection.is_connected():
        cursor.close()
        connection.close()
        print("\n🔌 已关闭用于验证Table16数据的MySQL连接。")


✅ 成功连接到MySQL服务器，准备验证Table16数据。
📊 表 'Table16_TSX_SpeciesMonitoringTable' 当前包含 937 行。

--- 'Table16_TSX_SpeciesMonitoringTable' 表前5行数据预览 ---
ID     | Binomial                                      | Region               | coords
----------------------------------------------------------------------------------------------------
4714   | Banksia_ionthocarpa_subsp_chrysophoenix       | Katanning            | POINT(117.1792762 -32.41332852)
4715   | Banksia_ionthocarpa_subsp_chrysophoenix       | Katanning            | POINT(117.1792762 -32.41332852)
4716   | Banksia_ionthocarpa_subsp_chrysophoenix       | Katanning            | POINT(117.1792762 -32.41332852)
4717   | Banksia_ionthocarpa_subsp_chrysophoenix       | Katanning            | POINT(117.1792762 -32.41332852)
4718   | Banksia_ionthocarpa_subsp_ionthocarpa         | Fitzgerald           | POINT(119.1504387 -34.23074081)

🔌 已关闭用于验证Table16数据的MySQL连接。


### Step 6 - 空间查询示例: 查找墨尔本市中心附近的植物监测区域
以下SQL查询展示了如何利用 `coords` 列及其空间索引来高效地查找在指定坐标点（此处为墨尔本市中心）特定半径范围内的所有植物监测区域。

#### 中文说明版
```sql
-- 设置目标坐标（墨尔本市中心：经度144.9631, 纬度-37.8136）和搜索半径（100公里）
SET @center_point = POINT(144.9631, -37.8136);
SET @radius_meters = 100 * 1000; -- 100公里转换为米

SELECT
    ID,
    Binomial,
    CommonName,
    Region,
    State,
    -- 使用 ST_Distance_Sphere 计算精确的球面距离（单位：米）
    -- 并将其转换为公里以便阅读
    (ST_Distance_Sphere(coords, @center_point) / 1000) AS distance_in_km
FROM
    Table16_TSX_SpeciesMonitoringTable
WHERE
    -- 在 WHERE 子句中直接使用该函数进行高效筛选
    -- MySQL会利用空间索引来优化这个查询，避免全表扫描
    ST_Distance_Sphere(coords, @center_point) <= @radius_meters
ORDER BY
    distance_in_km ASC; -- 按距离从近到远排序
```

#### English Version
```sql
-- Set the target coordinates (Melbourne CBD: Longitude 144.9631, Latitude -37.8136) and search radius (100 km)
SET @center_point = POINT(144.9631, -37.8136);
SET @radius_meters = 100 * 1000; -- Convert 100 km to meters

SELECT
    -- Select key identifiers for the monitoring site
    ID,
    Binomial,
    CommonName,
    Region,
    State,

    -- Calculate the great-circle distance on a sphere, returning the result in meters.
    -- Then, convert it to kilometers for better readability.
    (ST_Distance_Sphere(coords, @center_point) / 1000) AS distance_in_km
FROM
    -- Specify the table containing the threatened species monitoring data.
    Table16_TSX_SpeciesMonitoringTable
WHERE
    -- Filter results to include only records within the specified radius of the central point.
    -- This operation is highly efficient as it leverages the SPATIAL INDEX on the 'coords' column,
    -- preventing a full table scan.
    ST_Distance_Sphere(coords, @center_point) <= @radius_meters
ORDER BY
    -- Sort the results by distance, from nearest to farthest.
    distance_in_km ASC;