## 8. 数据结构转换

In [1]:
import pandas as pd

df = pd.read_csv('../../02 Programming for Data Science/LO3/autompg.csv')
df.head()

Unnamed: 0,mpg,cyl,displ,hp,weight,accel,yr,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino


In [7]:
df.duplicated(subset=["name"]).sum()
# 注意：数据中存在重复的 name 值，因此在使用 pivot 方法时会报错。

np.int64(91)

#### 1. 长表和宽表定义
长表（Long Format）和宽表（Wide Format）是两种常见的数据表示方式。
- 长表：每一行表示一个观测值，通常包含多个变量。 适用于时间序列数据或重复测量数据。
- 宽表：每一行表示一个变量，观测值以列的形式展开。 适用于跨多个变量的单次测量数据。

#### 2. 长表转宽表

##### 2.1 使用 pivot 方法
注意：pivot 方法要求数据中没有重复的索引/列组合，否则会报错，推荐使用 pivot_table 方法。
方法参数：
1. index：指定用于行索引的列，默认值为 None。
2. columns：指定用于列索引的列。
3. values：指定用于填充数据的列。

In [13]:
# 注意：由于数据中存在重复的 name 值，因此在使用 pivot 方法时会报错。
# df_wide = df.pivot(
#     index=None,
#     columns="name",
#     values=["mpg", "cyl", "displ", "hp", "weight", "accel", "yr", "origin"]
# )
# df_wide.head()

##### 2.2 使用 pivot_table 方法
方法参数：
1. index：指定用于行索引的列，默认值为 None。
2. columns：指定用于列索引的列。
3. values：指定用于填充数据的列。
4. aggfunc：指定用于聚合数据的函数，默认值为 'mean', 遇到重复的索引/列组合时会应用该函数进行聚合。

In [15]:
df_wide = pd.pivot_table(
    df,
    index=None,
    columns="name",
    values=["mpg", "cyl", "displ", "hp", "weight", "accel", "yr", "origin"],
    aggfunc='mean'
)
df_wide.head()

name,amc ambassador brougham,amc ambassador dpl,amc ambassador sst,amc concord,amc concord d/l,amc concord dl 6,amc gremlin,amc hornet,amc hornet sportabout (sw),amc matador,...,volvo 145e (sw),volvo 244dl,volvo 245,volvo 264gl,volvo diesel,vw dasher (diesel),vw pickup,vw rabbit,vw rabbit c (diesel),vw rabbit custom
accel,11.0,8.5,11.5,18.65,15.1,18.2,14.75,16.275,13.5,15.58,...,14.5,14.5,15.7,13.6,19.6,23.7,24.6,14.45,21.7,14.0
cyl,8.0,8.0,8.0,5.0,6.0,6.0,6.0,6.0,6.0,6.8,...,4.0,4.0,4.0,6.0,6.0,4.0,4.0,4.0,4.0,4.0
displ,360.0,390.0,304.0,191.5,258.0,232.0,223.75,223.75,258.0,271.2,...,121.0,121.0,130.0,163.0,145.0,90.0,97.0,94.0,90.0,89.0
hp,175.0,190.0,150.0,90.0,120.0,90.0,97.5,96.75,110.0,118.0,...,112.0,98.0,102.0,125.0,76.0,48.0,52.0,73.0,48.0,71.0
mpg,13.0,15.0,17.0,21.85,18.1,20.2,19.5,19.375,18.0,15.7,...,18.0,22.0,20.0,17.0,30.7,43.4,44.0,35.25,44.3,31.9


#### 3. 宽表转长表
使用 melt 方法
方法参数：
1. id_vars：指定用于行索引的列，默认值为 None。
2. value_vars：指定用于值的列，默认值为 None，表示使用除 id_vars 之外的所有列。
3. var_name：指定用于变量名称的列名，默认值为 None。
4. value_name：指定用于值的列名称，默认值为 'value'。

In [22]:
df_long = df_wide.melt(
    id_vars=None,
    value_vars=df_wide.columns[1:],
    var_name="name",
    value_name='value'
)
df_long.head()

Unnamed: 0,name,value
0,amc ambassador dpl,8.5
1,amc ambassador dpl,8.0
2,amc ambassador dpl,390.0
3,amc ambassador dpl,190.0
4,amc ambassador dpl,15.0


#### 4. 多级索引变形
使用 stack 和 unstack 方法
- stack 方法：将列索引转换为行索引，适用于将宽表转换为长表。
- unstack 方法：将行索引转换为列索引，适用于将长表转换为宽表。

In [23]:
df_wide.stack()

       name                   
accel  amc ambassador brougham    11.00
       amc ambassador dpl          8.50
       amc ambassador sst         11.50
       amc concord                18.65
       amc concord d/l            15.10
                                  ...  
yr     vw dasher (diesel)         80.00
       vw pickup                  82.00
       vw rabbit                  78.00
       vw rabbit c (diesel)       80.00
       vw rabbit custom           79.00
Length: 2408, dtype: float64

In [24]:
df_long.unstack()

name   0       amc ambassador dpl
       1       amc ambassador dpl
       2       amc ambassador dpl
       3       amc ambassador dpl
       4       amc ambassador dpl
                      ...        
value  2395                  71.0
       2396                  31.9
       2397                   2.0
       2398                1925.0
       2399                  79.0
Length: 4800, dtype: object