# 掌握DataFrame的常规操作

In [None]:
import pandas as pd

In [None]:
# 设置每列最大宽度（比如 100）
pd.set_option('display.max_colwidth', 100)

# 设置显示的最大列数（比如 20）
pd.set_option('display.max_columns', 20)

# 设置显示宽度（比如 1000）
pd.set_option('display.width', 1000)


## 什么是DataFrame

DataFrame 是 Pandas 中最核心的数据结构之一，可以理解为一个 二维表格，类似于 Excel 表格或数据库中的数据表。它由 行（index） 和 列（columns） 组成，每列可以是不同的数据类型。

DataFrame 的主要特点：
- 结构清晰：每一列都有列名，每一行都有索引。
- 支持多种数据类型：如整数、浮点数、字符串、布尔值等。
- 灵活的数据操作：可以轻松进行筛选、排序、分组、合并、统计等操作。
- 与其他格式兼容：可以从 CSV、Excel、SQL、JSON 等格式读取或导出数据。


创建一个简单的 DataFrame 示例

In [None]:
import pandas as pd

data = {
    '姓名': ['张三', '李四', '王五'],
    '年龄': [25, 30, 28],
    '城市': ['北京', '上海', '广州']
}

df = pd.DataFrame(data)
print(df)

## 查看DataFrame的常用属性

In [None]:
musicdata0 = pd.read_table('./pd_data/musicdata.csv', sep=',', encoding='gbk')

In [None]:
print(musicdata0.index)  #信息表的索引


|  参数| 含义 | 
---|---|
| start=0 | 起始值，从0开始 | 
| stop=3008 | 结束值（不包含），即索引到 3007 为止 | 
| step=1 | 步长，每次递增 1 | 


这段 RangeIndex(start=0, stop=3008, step=1) 表示一个从 0 到 3007 的整数序列，总共 3008 个索引值。


In [None]:
print(musicdata0.values)  #信息表的所有值

In [None]:
print(musicdata0.columns)  #信息表的列名

- object 是 Pandas 中的通用字符串类型


In [None]:
print(musicdata0.dtypes)  #信息表的数据类型

In [None]:
print(musicdata0.size)  #信息表的元素个数

In [None]:
print(musicdata0.ndim)  #信息表的维度数

In [None]:
print(musicdata0.shape)  #信息表的形状

In [None]:
print(musicdata0.T.shape)  #使用T属性进行转置

## 对DataFrame数据进行增删改查

### 查看DataFrame数据

In [None]:
# 使用字典访问的方式取出musicdata中的某一列
format = musicdata0['format']

In [None]:
print(format)

In [None]:
print(format.shape)

In [None]:
# 使用访问属性的方式取出musicdata中的number_of_records
number_of_records = musicdata0.number_of_records

In [None]:
print(number_of_records)

In [None]:
print(number_of_records.shape)

In [None]:
# 访问信息表中metric的前五个元素
metric5 = musicdata0['metric'][:5]

In [None]:
print(metric5)

In [None]:
# 访问信息表中format和metric列的前五个元素
format_metric = musicdata0[['format', 'metric']][:5]

In [None]:
print(format_metric)

In [None]:
# 访问数据表1-6行的元素
musicdata5 = musicdata0[:][1:6]

In [None]:
print(musicdata5)

In [None]:
# 使用head方法访问前5行数据
print(musicdata0.head())

In [None]:
# 使用tail方法访问后5行数据
print(musicdata0.tail())

使用loc和iloc方法

在 Pandas 中，loc 和 iloc 是两个非常重要的索引方法，用于从 DataFrame 或 Series 中选取数据。它们的区别在于：一个是按标签选取，一个是按位置选取。


loc —— 按标签（名称）选取

用法：

```df.loc[行标签, 列标签]```


特点：
- 使用行索引名称和列名来定位数据。
- 支持布尔条件筛选。


iloc —— 按位置（整数索引）选取

用法：

```df.iloc[行位置, 列位置]```


特点：
- 使用整数位置来定位数据。
- 类似于 Python 的列表切片。


In [None]:
format1 = musicdata0.loc[:, 'format']

In [None]:
print(format1)

In [None]:
format2 = musicdata0.iloc[:, 0]

In [None]:
print(format2)

In [None]:
format_metric1 = musicdata0.loc[:, ['format', 'metric']]

In [None]:
print(format_metric1)

In [None]:
format_metric2 = musicdata0.iloc[:, [0, 1]]

In [None]:
print(format_metric2)

In [None]:
print(musicdata0.loc[3, ['format', 'metric']])

In [None]:
print(musicdata0.loc[2: 6, ['format', 'metric']])

In [None]:
print(musicdata0.iloc[3, [0, 1]])

In [None]:
print(musicdata0.iloc[2: 7, [0, 1]])

In [None]:
print(musicdata0.loc[musicdata0['metric'] == 'Units', ['format', 'metric']])  #musicdata0中metric为“Units”的format

In [None]:
print(musicdata0.iloc[musicdata0['metric'] == 'Units', [1, 4]])  #musicdata0中metric为“Units”的第1、4列数据
#NotImplementedError: iLocation based boolean indexing on an integer type is not available

In [None]:
print(musicdata0.iloc[(musicdata0['metric'] == 'Units').values, [1, 4]])  #musicdata0中metric为“Units”的第1、4列数据

### 更改DataFrame中的数据

In [None]:
print(musicdata0.loc[musicdata0['format'] == 'CD', 'format'])

In [None]:
# 将format值为CD的变换为数值1
musicdata0.loc[musicdata0['format'] == 'CD', 'format']=1

In [None]:
print(musicdata0.loc[musicdata0['format'] == 1, 'format'])

### 为DataFrame新增数据

In [None]:
# 为信息表新增number列，并设置递增
musicdata0['number'] = range(1, len(musicdata0) + 1)

In [None]:
print(musicdata0)

In [None]:
# 为信息表新增T列
musicdata0['T'] = '0'

In [None]:
print(musicdata0)

### 删除某列或某行数据

在 Pandas 中，drop() 是一个非常常用的方法，用于删除行或列，无论是按标签名还是按位置。它非常灵活，适用于数据清洗、结构调整等场景。


drop() 方法的基本语法：

```df.drop(labels, axis=0 or 1, inplace=False)```

|参数|说明| 
|---|---|
| labels |要删除的行或列的名称或列表| 
| axis |0 表示删除行，1 表示删除列| 
| inplace |是否直接在原 DataFrame 上修改，默认 False（返回新对象）| 


In [None]:
print(musicdata0.columns)

In [None]:
musicdata0.drop(labels='T', axis=1, inplace=True)

In [None]:
print( musicdata0.columns)

In [None]:
print(len(musicdata0))

In [None]:
musicdata0.drop(labels=range(1, 4), axis=0, inplace=True)  #删除1-3行

In [None]:
print(len(musicdata0))

## 描述分析DataFrame数据

In [None]:
import numpy as np

In [None]:
print(np.mean(musicdata0['number_of_records']))  #信息表中number_of_records的平均值，使用np.mean方法


In [None]:
print(musicdata0['number_of_records'].mean())  #信息表中number_of_records的平均值，使用pandas的mean方法

In [None]:
print(musicdata0['value_actual'].describe())  #信息表value_actual的描述性统计

In [None]:
print(musicdata0.isnull().sum())  # 每列缺失值数量

In [None]:
print(musicdata0.info())  # 总览数据类型和缺失情况

In [None]:
print(musicdata0['format'].value_counts()[:6])  #信息表format频数统计前6行结果

In [None]:
print(musicdata0['format'].value_counts())

In [None]:
musicdata0['metric'] = musicdata0['metric'].astype('category')

什么是分类类型（category）？

分类类型适用于那些值重复率高、种类有限的列，比如性别、城市、产品类型等。相比字符串（object），分类类型会为每个唯一值分配一个整数编码，从而节省内存。


In [None]:
print(musicdata0['metric'].dtypes) 

In [None]:
print(musicdata0['metric'].describe())  #信息表metric的描述统计结果
    