# 数据、数据元素、数据项、数据对象

## 数据(Data)
是能**输入**计算机且能被计算机**处理**的<span style="color:red">各种符号的集合</span>
- 信息的载体
- 是对客观事物符号化的表示
- 能够被计算机识别、存储和加工
包括：
- **数值型**的数据：整数、浮点数等
- **非数值型**的数据：文字、图像、图形、声音等

## 数据元素(Data Element)
- 数据的**基本单位**，在计算机程序中通常作为一个整体进行考虑和处理
- 也简称为元素、记录(线性表)、结点（树）或顶点（图）
- 一个数据元素可由若干个**数据项**(data item)组成

## 数据项(Data Item)
- 构成数据元素的不可分割的**最小单位**
- 数据、数据元素、数据项三者之间的关系
  - 数据 > 数据元素 > 数据项
  - 例：学生xx表 > 一行学生记录 > 学号、姓名 ...

## 数据对象(Data Object)
是**性质相同的数据元素的集合**，是数据的一个子集
- 例，整数的数据对象是集合 {0,±1,±2,±3, ...}
- 例，字母字符数据对象是集合 {'A', 'B', ..., 'Z', 'a', 'b', ..., 'z'}
- 学籍表也可看作一个数据对象, 如5年级5班同学集合 {xxx}

## 数据元素与数据对象
数据元素：组成数据的**基本单位**
- 与**数据**的关系：是集合的**个体**

数据对象：**性质相同的数据元素的集合**
- 与**数据**的关系：是集合的**子集**

# 数据结构(Data Structure)
数据元素不是孤立存在的，它们之间存在着某种关系，**数据元素相互之间的关系称为<span style="color:red;">结构<span>**
- 是指相互之间存在一种或多种特定关系对的数据元素集合
- 或者说，数据结构是**带结构**的数据元素的集合

数据结构包括以下 3 点内容：
1. 数据元素之间的逻辑关系，也称为**逻辑结构**
2. 数据元素及其关系在计算机中存储的表示（又称为映射），称为数据的**物理结构**或数据的**存储结构**
3. 数据的**运算和实现**，即可理解为对数据元素的可以施加的操作以及这些操作在相对应的存储结构上的实现

## 数据结构的两个层次
- **逻辑结构**
  - 描述数据元素之间的逻辑关系
  - 与数据的存储无关，独立于计算机
  - 是从具体问题抽象出来的数学模型
- **物理结构**（存储结构）
  - 数据元素及其关系在计算机存储器中的结构（存储方式）
  - 是数据结构在计算机中的表示
- 逻辑结构与存储结构的关系
  - 存储结构是逻辑关系的映像与数据元素本身的映像
  - 逻辑结构是数据结构的抽象，存储结构是数据结构的实现
  - 两者综合起来建立了数据元素之间的结构关系

## 逻辑结构的种类-划分方式 1
- 线性结构，有且仅有一个开始结点和一个终端结点，并且所有结点都最多只有一个直接前趋和一个直接后继
  - 一对一，如：线性表、栈、队列、串
  - ![image.png](attachment:db058de3-047f-40b3-a353-13b9969405c9.png)
- 非线性结构，一个结点可能有多个直接前趋和直接后继
  - 一对多，如：树
  - 多对多，如：图

## 逻辑结构的种类-划分方式 2
四类基本逻辑结构
![image.png](attachment:73dc9055-6839-42ef-be52-aea718d706e6.png)
- **集合结构**：结构中的数据元素之间除了**同属于一个集合**的关系之外，无任何其他联系
- **线性结构**：结构中的数据元素之间存在着**一对一**的线性关系
- **树形结构**：结构中的数据元素之间存在着**一对多**的层次关系
- **图状结构**或**网状结构**：结构中的数据元素之间存在着**多对多**的任意关系

## 存储结构的种类
四类基本存储结构
- **顺序存储结构**
- **链式存储结构**
- **索引存储结构**
  - 索引存储结构是一种数据存储结构，通常用于加快数据检索速度。在索引存储结构中，会创建一个索引（index），该索引包含指向实际数据位置的引用，以便快速定位和访问数据。
在 Python 中，索引存储结构可以通过使用各种数据结构来实现，例如列表、字典、集合等。
- **散列存储结构**
  - 如 python 中通常通过字典(Dictionary)这种数据结构来实现，这种键值对(key-value pair)的集合，每个键都映射到一个值。Python 字典是通过哈希表(Hash Table)来实现，这是的查找、插入和删除等操作具有很高的效率。

### 顺序存储结构
- ![image.png](attachment:99a2764f-1c9d-4afc-b720-f3a3fa379afd.png)
- 用一组**连续**的存储单元**依次**存储数据元素，数据元素之间的逻辑关系由元素的**存储位置**来表示
- python 是用列表(List)数据结构来实现顺序存储
- 如 ["apple", "orange", "banana", ...]
- ![image.png](attachment:ffb6b4b0-ed0d-4641-aa78-a47f19d7b068.png)

### 链式存储结构
- ![image.png](attachment:a08d3cb5-5bb1-40dd-96c7-2414af1963fe.png)
- 用一组**任意**的存储单元存储数据元素，数据元素之间的逻辑关系由**指针**来表示
- 指针，或称为引用，也就是存储值的存储单元的地址
- python 没有内置函数来实现链式结构，不过可以自定义类，也就是结点的抽象数据类型来实现
- 链式存储结构通常使用节点（Node）来表示存储的数据单元，并通过节点之间的指针（引用）来构建链表。每个节点包含数据和指向下一个节点的引用。
- ![image.png](attachment:2e5632d9-133a-4989-96ca-142699c8202f.png)
- **思考**：根据上图，用伪代码写出该数据集的逻辑结构

以下是一个简单的示例，演示如何在 Python 中实现链式存储结构：

In [None]:
# 定义链表节点类
class Node:
    def __init__(self, data=None):
        self.data = data
        self.next = None

# 定义链表类
class LinkedList:
    def __init__(self):
        self.head = None

    # 在链表末尾添加新节点
    def append(self, data):
        new_node = Node(data)
        if not self.head:
            self.head = new_node
            return
        current = self.head
        while current.next:
            current = current.next
        current.next = new_node

    # 打印链表元素
    def print_list(self):
        current = self.head
        while current:
            print(current.data, end=" -> ")
            current = current.next
        print("None")

# 创建链表实例并操作
linked_list = LinkedList()
linked_list.append(10)
linked_list.append(20)
linked_list.append(30)

# 打印链表元素
print("链表元素：")
linked_list.print_list()

### 索引存储结构
在存储结点信息的同时，还建立附加的**索引表**
- 索引表中的每一项称为一个**索引项**
- 索引项的**一般形式**是：(关键字，地址)
- 关键字是能**唯一标识**一个结点的那些数据项
- 若每个结点在索引表中都有一个索引项，则该索引表称之为**稠密索引**(Dense Index)
- 若一组结点在索引表中值对应一个索引项，则该索引表称之**稀疏索引**(Sparse Index)

举例说明：
假设我们将《动物世界》的百科全书按照大主题分成了10个部分，每个部分包含10页内容。稀疏索引就像是一个索引册，每一页代表一部分，告诉你“哺乳动物”这一主题在哪一页开始。

简单总结：
- 稠密索引：像书的页码索引，提供了详细的信息，占用空间大，但查找速度快。
- 稀疏索引：像书的主题索引，提供了大致信息，占用空间小，但查找速度相对慢。

### 散列存储结构
根据结点的关键字直接计算出该节点的存储地址。如 Python 字典的 Hash Table 实现算法。

比喻：邮局信箱
情景描述：
想象一下，你在学校里有一个专门用来存放信件的邮局信箱。每个同学有一个编号，信件会根据同学的编号放入相应的邮箱中。这样，当你想找到某个同学的信件时，只需要知道他的编号，就能迅速找到对应的邮箱。

散列存储的类比：

- 数据存放方式：每个同学的邮箱就像散列存储中的一个位置，而同学的编号就相当于散列函数计算出的索引。
- 快速查找：通过同学的编号，你可以直接定位到他的邮箱，就像散列存储能够快速定位到数据所在的位置。
- **碰撞**处理：假如两个同学被分配到了同一个邮箱，邮局会采取措施来解决这种情况，比如在邮箱内部再放一个小盒子来存放第二个同学的信件。这就类似于散列存储中的碰撞处理机制。

简单总结：

散列存储就像是一个巨大的邮箱系统，通过编号（散列函数计算出的索引）将数据（信件）存放到合适的邮箱中，实现快速的访问和查找。
就像你可以通过同学的编号快速找到对应的邮箱一样，散列存储可以通过散列函数计算出的索引快速找到数据所在的位置。


# 数据类型和抽象数据类型
在使用高级程序设计语言编写程序时，必须对程序中出现的每个变量、常量或表达式，明确说明它们所属的**数据类型**
- 例如，Python 中：
  - 提供 int,float,str,bool 等基本数据类型
  - 提供 list,tuple,set,dict 等构造数据类型
  - 提供 None 表示空值或空对象，区别与 0,"",False,[],(),{}
  - 可以使用类 Class (是一种抽象的数据类型)来定义自定义数据类型,允许创建自定义的数据结构包括属性和方法(这个可以理解为封装)
- 一些最基本的数据结构可以用数据类型来实现，如数组、字符串等
- 而另一些常用的数据结构，如栈、队列、树、图等，不能直接用数据类型来表示
- 高级语言中的数据类型明显地或隐式地规定了在程序执行期间表达的所有可能**取值范围**，以及在这些数值范围上所**允许的操作**。

总结，数据类型的作用：
- 约束变量或常量的**取值范围**
- 约束变量或常量的**操作**

In [None]:
# 定义一个自定义类
class Person:
    def __init__(self, name, age):
        self.name = name
        self.age = age

    def greet(self):
        return f"Hello, my name is {self.name} and I am {self.age} years old."

# 创建一个 Person 实例
alice = Person("Harry", 11)

# 调用自定义类的方法
print(alice.greet())

## 数据类型(Data Type)
- 定义：**数据类型**是一组性质相同的**值的集合**以及定义于这个值集合上的**所有操作**的总成
  - 数据类型 = 值的集合 + 值集合上的所有操作
  - 例如，Python 类 = 数据属性 + 方法(函数)属性

## 抽象数据类型(ADT, Abstract Data Type)
- 抽象：从具体事务抽出、概括出它们共同的方面、本质属性与关系等，而将个别的、非本质的方面、属性与关系舍弃，这种思维过程，称为抽象。
- ![image.png](attachment:9901112c-7f4e-424a-9292-08c1608996ef.png)
- 定义：是指一个数学模型以及定义在此数学模型上的一组操作
- 由用户定义，从问题抽象出**数据模型**（逻辑结构）
- 还包括定义在数据模型上的一组**抽象运算**（相关操作）
- 不考虑计算机内的具体存储结构与运算的具体实现算法

### 抽象数据类型的形式定义
抽象数据类型可用(D,S,P)**三元组**表示：
- D 是数据对象
- S 是数据对象上的关系集
- P 是对数据对象的基本操作集

一个抽象数据类型的定义格式：
```
ADT 抽象数据类型名{
  数据对象:<数据对象的定义>
  数据关系:<数据关系的定义>
  基本操作:<基本操作的定义>
} ADT 抽象数据类型名

注意：基本操作的一个示例
Circle(&C, r, x, y)  # 这里的 & 表示该 Circle 方法返回结果仍是 C 对象

```

特别的，在 Python 里，就是用 Class 构造出自定义的数据类型