# 机器学习基础概念

本节将介绍机器学习的基本概念和术语，帮助读者理解后续章节的内容。

## 数据集

数据集是机器学习的基础。一个典型的数据集由样本和特征组成。

In [None]:
import numpy as np
import pandas as pd

# 创建示例数据集
data = {'特征1': [1, 2, 3, 4, 5], '特征2': [5, 4, 3, 2, 1], '标签': [1, 0, 1, 0, 1]}
df = pd.DataFrame(data)
df

## 模型

模型是指用来进行预测或分类的数学函数。模型通过学习数据中的模式来做出预测。

In [None]:
from sklearn.linear_model import LogisticRegression

# 准备数据
X = df[['特征1', '特征2']]
y = df['标签']

# 创建并训练模型
model = LogisticRegression()
model.fit(X, y)

# 进行预测
predictions = model.predict(X)
predictions

## 评估

评估是指通过某些指标来衡量模型的性能。常见的评估指标包括准确率、精确率、召回率等。

In [None]:
from sklearn.metrics import accuracy_score

# 计算准确率
accuracy = accuracy_score(y, predictions)
accuracy

## 交叉验证

交叉验证是一种评估模型性能的方法，通过将数据集划分为多个子集，反复训练和测试模型，得到更可靠的性能评估。

In [11]:
from sklearn.model_selection import cross_val_score

# 进行交叉验证，设置 cv=3 以避免样本数不足的问题
scores = cross_val_score(model, X, y, cv=2)
scores

ValueError: Found input variables with inconsistent numbers of samples: [150, 100]

通过以上内容，我们了解了机器学习的一些基本概念和术语。在接下来的章节中，我们将深入探讨数据处理和特征工程等主题。