## 关于Palmer Archipelago（南极洲）企鹅数据

### 数据集简介

Palmer Archipelago企鹅数据由克里斯汀·高曼博士和长期生态研究网络（LTER）成员在南极洲帕尔默站收集并提供。这些数据来源于真实的科研活动，使得分析结果具有实际意义。

该数据集包含了南极洲Palmer Archipelago地区的三种企鹅物种：Adélie、Gentoo和Chinstrap。数据集最初是为了研究南极企鹅的觅食行为及其与环境变化的关系而收集的。

### 数据集特征
- **物种**：Adélie、Gentoo和Chinstrap
- **测量指标**：包括鳍长、体重、喙长和喙深等身体尺寸数据。
- **数据实例**：总共344个实例，分别对应三种不同的企鹅物种。

#### 详细内容
该数据集包含了三种企鹅物种（Adelie、Chinstrap和Gentoo）的观察数据，涉及多个特征，包括：
- **物种类型 species**
- **所在岛屿 island**
- **体重 body_mass_g**
- **喙的长度和宽度 culmen_length_mm, culmen_depth_mm**
- **脚蹼长度 flipper_length_mm**
- **性别 sex**

### 分析方法
使用随机森林和支持向量机进行分类, 以识别企鹅种类、分析身体特征相关性、性别与岛屿差异，并建立预测模型。结果显示，这些方法在识别企鹅种类上表现出色，尤其是支持向量机具有最高的准确性。


In [None]:
import pandas as pd


data = pd.read_csv("./dat/Palmer Archipelago (Antarctica) penguin data/penguins_size.csv", header=None)
data.columns = ["species", "island", "culmen_length_mm", "culmen_depth_mm", "flipper_length_mm", "body_mass_g", "sex"]
# 删除第一行, 即头部
data.drop(0, inplace=True)
# 清除缺失值
data.dropna(inplace=True)

# 标签和特征
data_taget = data["species"]
data_features = data.iloc[:, 1:]

print("特征值:")
data_features.head(10)

特征值:


Unnamed: 0,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
1,Torgersen,39.1,18.7,181,3750,MALE
2,Torgersen,39.5,17.4,186,3800,FEMALE
3,Torgersen,40.3,18.0,195,3250,FEMALE
5,Torgersen,36.7,19.3,193,3450,FEMALE
6,Torgersen,39.3,20.6,190,3650,MALE
7,Torgersen,38.9,17.8,181,3625,FEMALE
8,Torgersen,39.2,19.6,195,4675,MALE
13,Torgersen,41.1,17.6,182,3200,FEMALE
14,Torgersen,38.6,21.2,191,3800,MALE
15,Torgersen,34.6,21.1,198,4400,MALE


In [39]:
# 将字符数据替换为数值

count = 0
islands_map = dict()
for island in data_features["island"].unique():
    islands_map[island] = count
    count += 1

# 替换island列
data_features = data_features.replace({"island": islands_map})

count = 0
genders_map = dict()
for sex in data_features["sex"].unique():
    genders_map[sex] = count
    count += 1

# 替换sex列
data_features = data_features.replace({"sex": genders_map})

data_features.head(10)

  data_features = data_features.replace({"island": islands_map})
  data_features = data_features.replace({"sex": genders_map})


Unnamed: 0,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
1,0,39.1,18.7,181,3750,0
2,0,39.5,17.4,186,3800,1
3,0,40.3,18.0,195,3250,1
5,0,36.7,19.3,193,3450,1
6,0,39.3,20.6,190,3650,0
7,0,38.9,17.8,181,3625,1
8,0,39.2,19.6,195,4675,0
13,0,41.1,17.6,182,3200,1
14,0,38.6,21.2,191,3800,0
15,0,34.6,21.1,198,4400,0


In [40]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler


# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data_features, data_taget, test_size=0.3, random_state=42)

# 特征缩放
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

X_train

array([[-0.38815646,  0.752437  , -0.76559187,  1.42029818,  1.10049995,
        -0.99600227],
       [-0.38815646,  0.6022236 , -1.2799601 ,  0.77409178,  0.63981636,
         0.97068018],
       [-0.38815646, -1.23789063, -0.04547633, -1.16452741, -0.74223442,
         0.97068018],
       ...,
       [-0.38815646, -0.84358044,  0.31458143, -0.59012172, -1.23363026,
         0.97068018],
       [-0.38815646,  0.24546676, -1.07421281,  1.34849747,  0.97765099,
        -0.99600227],
       [-0.38815646, -1.14400725, -0.04547633, -1.45173025, -1.2643425 ,
         0.97068018]])

In [41]:
from sklearn.metrics import classification_report, accuracy_score


# 随机森林分类器
from sklearn.ensemble import RandomForestClassifier

# 模型拟合
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# 模型预测
predictions = model.predict(X_test)

# 模型评估
print("准确度:", accuracy_score(y_test, predictions))
print("\n分类报告:\n", classification_report(y_test, predictions))


准确度: 0.9801980198019802

分类报告:
               precision    recall  f1-score   support

      Adelie       0.98      0.98      0.98        49
   Chinstrap       0.94      0.94      0.94        18
      Gentoo       1.00      1.00      1.00        34

    accuracy                           0.98       101
   macro avg       0.97      0.97      0.97       101
weighted avg       0.98      0.98      0.98       101



In [42]:
# 支持向量机分类器
from sklearn.svm import SVC


# 模型拟合, 使用多项式核
model = SVC(kernel="poly")
model.fit(X_train, y_train)

# 模型预测
predictions = model.predict(X_test)

# 模型评估
print("准确度:", accuracy_score(y_test, predictions))
print("\n分类报告:\n", classification_report(y_test, predictions))

准确度: 1.0

分类报告:
               precision    recall  f1-score   support

      Adelie       1.00      1.00      1.00        49
   Chinstrap       1.00      1.00      1.00        18
      Gentoo       1.00      1.00      1.00        34

    accuracy                           1.00       101
   macro avg       1.00      1.00      1.00       101
weighted avg       1.00      1.00      1.00       101



在`scikit-learn`的`classification_report`中，会提供以下几个关键指标来评估分类模型的性能：

1. **Accuracy（准确率）**：
   - 定义：正确预测的样本数占总样本数的比例。
   - 公式：$ \text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{Total Samples}} $
   - 解释：衡量模型整体预测正确的比例。

2. **Precision（精确率）**：
   - 定义：在模型预测为正类的样本中，真正为正类的比例。
   - 公式：$ \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} $
   - 解释：衡量模型在预测正类时的准确性。

3. **Recall（召回率）**：
   - 定义：在真实为正类的样本中，模型成功预测为正类的比例。
   - 公式：$ \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} $
   - 解释：衡量模型能够找到所有正类样本的能力。

4. **F1-Score（F1分数）**：
   - 定义：精确率和召回率的调和平均数。
   - 公式：$ \text{F1-Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $
   - 解释：综合衡量模型的精确率和召回率，F1分数越高，说明模型在精确率和召回率之间的平衡越好。

5. **Support（支持度）**：
   - 定义：每个类别的样本数量。
   - 解释：显示每个类别的样本数，有助于理解不同类别的分布情况。

在这些指标中，TP（True Positive）表示真正例，即模型正确预测为正类的样本；TN（True Negative）表示真负例，即模型正确预测为负类的样本；FP（False Positive）表示假正例，即模型错误预测为正类的样本；FN（False Negative）表示假负例，即模型错误预测为负类的样本。

### 示例输出：
```
              precision    recall  f1-score   support
           0       0.67      0.67      0.67         3
           1       0.00      0.00      0.00         1
           2       1.00      1.00      1.00         6
    accuracy                           0.80        10
   macro avg       0.56      0.56      0.56        10
weighted avg       0.80      0.80      0.80        10
```
- **precision**：每个类别的精确率。
- **recall**：每个类别的召回率。
- **f1-score**：每个类别的F1分数。
- **support**：每个类别的支持度（样本数量）。
- **accuracy**：整体准确率。
- **macro avg**：宏平均，不考虑类别不平衡，计算每个指标的算术平均值。
- **weighted avg**：加权平均，考虑类别不平衡，根据每个类别的支持度计算加权平均值。
