## 6. DataFrame 的基本属性

In [1]:
import numpy as np
import pandas as pd

#### 1. 创建一个示例 DataFrame

In [2]:
data = {
    "name": ["Alice", "Bob", "Charlie"],
    "age": [25, 30, 35],
    "city": ["New York", "Los Angeles", "Chicago"]
}
df = pd.DataFrame(data, index=["S001", "S002", "S003"])
df

Unnamed: 0,name,age,city
S001,Alice,25,New York
S002,Bob,30,Los Angeles
S003,Charlie,35,Chicago


#### 2. 核心属性

##### 2.1 .index 属性：获取 DataFrame 的行索引, 返回值为 Index 对象

In [3]:
df.index

Index(['S001', 'S002', 'S003'], dtype='object')

##### 2.2 .columns 属性：获取 DataFrame 的列索引，返回值为 Index 对象，本质上columns也是一个特殊的index

In [4]:
df.columns

Index(['name', 'age', 'city'], dtype='object')

##### 2.3 .shape 属性：获取 DataFrame 的形状，返回值为一个元组 (行数, 列数)

In [5]:
df.shape

(3, 3)

##### 2.4 .size 属性：获取 DataFrame 的元素总数，等于行数*列数

In [6]:
df.size

9

##### 2.5 .ndim 属性：获取 DataFrame 的维度数，DataFrame 永远是二维的，所以返回值恒为2

In [7]:
df.ndim

2

##### 2.6 .dtypes 属性：获取 DataFrame 中每一列的数据类型，返回值为一个 Series，索引为列名，值为对应列的数据类型

In [8]:
df.dtypes

name    object
age      int64
city    object
dtype: object

##### 2.7 .values 属性：获取 DataFrame 的值，返回值为一个二维的 ndarray，不包含行列索引信息

In [9]:
df.values

array([['Alice', 25, 'New York'],
       ['Bob', 30, 'Los Angeles'],
       ['Charlie', 35, 'Chicago']], dtype=object)

#### 3. 其他检查方法

##### 3.1 .head(n) & .tail(n) 方法：查看 DataFrame 的前 n 行或后 n 行，默认 n=5

In [10]:
df.head(2)

Unnamed: 0,name,age,city
S001,Alice,25,New York
S002,Bob,30,Los Angeles


In [11]:
df.tail(2)

Unnamed: 0,name,age,city
S002,Bob,30,Los Angeles
S003,Charlie,35,Chicago


##### 3.2 .info() 方法：查看 DataFrame 的简要信息，包括行数、列数、每列的数据类型和非空值数量

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, S001 to S003
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    3 non-null      object
 1   age     3 non-null      int64 
 2   city    3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes
