In [2]:
import pandas as pd
musicdata = pd.read_table('musicdata.csv', sep=',', encoding='gbk') 
# 输出转换前的原始date列的类型
print('进行转换前date的类型为：', musicdata['date'].dtypes)
# 使用to_datetime函数将data列的数据类型转换成标准时间类型
musicdata['date'] = pd.to_datetime(musicdata['date'])
print('进行转换后date的类型为：', musicdata['date'].dtypes)


进行转换前date的类型为： object
进行转换后date的类型为： datetime64[ns]


print('最小时间为：', pd.Timestamp.min)  # 查询计算机中最早的时间信息
print('最大时间为：', pd.Timestamp.max)  # 查询计算机中最晚的时间信息

In [27]:
# 将data列数据格式转换成DatetimeIndex格式
dateIndex = pd.DatetimeIndex(musicdata['date'])
print('转换为DatetimeIndex后数据的类型为：\n', type(dateIndex))

# 将data列数据格式转换成PeriodIndex格式
periodIndex = pd.PeriodIndex(musicdata['date'], freq='S')
print('转换为PeriodIndex后数据的类型为：\n', type(periodIndex))


转换为DatetimeIndex后数据的类型为：
 <class 'pandas.core.indexes.datetimes.DatetimeIndex'>
转换为PeriodIndex后数据的类型为：
 <class 'pandas.core.indexes.period.PeriodIndex'>


In [28]:
#提取数据中的年、月、日
year1 = [i.year for i in musicdata['date']]
print('date中的年份数据前5个为：', year1[:5])
month1 = [i.month for i in musicdata['date']]
print('date中的月份数据前5个为：', month1[:5])
day1 = [i.day for i in musicdata['date']]
print('date中的日期数据前5个为：', day1[:5])


date中的年份数据前5个为： [2020, 2020, 2020, 2020, 2020]
date中的月份数据前5个为： [7, 7, 7, 6, 6]
date中的日期数据前5个为： [31, 23, 13, 30, 23]


In [29]:
# 提取DatetimeIndex中的前5个星期标号数据
print('dateIndex中的星期标号数据前5个为：\n',dateIndex.weekday[:5])      
# 提取PeriodIndex中的前5个星期标号数据
print('periodIndex中的星期标号数据前5个为：',periodIndex.weekday[:5])

dateIndex中的星期标号数据前5个为：
 Int64Index([4, 3, 0, 1, 1], dtype='int64', name='date')
periodIndex中的星期标号数据前5个为： Int64Index([4, 3, 0, 1, 1], dtype='int64', name='date')


In [4]:
# 将date数据向后平移一天
time1 = musicdata['date'] - pd.Timedelta(days=1) 
print('date加上一天前前5行数据为：\n', musicdata['date'][:5])
print('date加上一天前前5行数据为：\n', time1[:5])


date加上一天前前5行数据为：
 0   2020-07-31 22:01:00
1   2020-07-23 06:12:00
2   2020-07-13 09:30:00
3   2020-06-30 14:26:00
4   2020-06-23 20:21:00
Name: date, dtype: datetime64[ns]
date加上一天前前5行数据为：
 0   2020-07-30 22:01:00
1   2020-07-22 06:12:00
2   2020-07-12 09:30:00
3   2020-06-29 14:26:00
4   2020-06-22 20:21:00
Name: date, dtype: datetime64[ns]


In [32]:
# 将data数据与指定的时间数据进行相减
timeDelta = musicdata['date'] - pd.to_datetime('2020-1-1')
print('date减去2020年1月1日0点0时0分后的数据：\n', timeDelta[:5])
print('date减去time1后的数据类型为：', timeDelta.dtypes)


date减去2020年1月1日0点0时0分后的数据：
 0   212 days 22:01:00
1   204 days 06:12:00
2   194 days 09:30:00
3   181 days 14:26:00
4   174 days 20:21:00
Name: date, dtype: timedelta64[ns]
date减去time1后的数据类型为： timedelta64[ns]


In [33]:
import pandas as pd
musicdata = pd.read_csv('musicdata.csv')

musicdataGroup = musicdata[['format', 'metric', 'value_actual']].groupby(by='format')
print('分组后的音乐行业收入信息表为:', musicdataGroup)


分组后的音乐行业收入信息表为: <pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000141D6E30340>


In [34]:
print('音乐行业收入信息表分组后前5组每组的均值为：\n', musicdataGroup.mean(). head())

print('音乐行业收入信息表分组后前5组每组的标准差为：\n', musicdataGroup.std().head())

print('音乐行业收入信息表分组后前5组每组的大小为：\n', musicdataGroup.size().head())


音乐行业收入信息表分组后前5组每组的均值为：
                  value_actual
format                       
8 - Track          511.177231
CD                4733.432621
CD Single           45.346843
Cassette          1403.643775
Cassette Single    126.793441
音乐行业收入信息表分组后前5组每组的标准差为：
                  value_actual
format                       
8 - Track          984.411165
CD                5645.536764
CD Single           85.966719
Cassette          1919.217701
Cassette Single    158.928097
音乐行业收入信息表分组后前5组每组的大小为：
 format
8 - Track          141
CD                 141
CD Single          141
Cassette           141
Cassette Single    141
dtype: int64


In [35]:
import numpy as np
print('音乐销售价格的总和与均值为：\n',
      musicdata[['number_of_records', 'value_actual']].agg([np.sum, np.mean]))

音乐销售价格的总和与均值为：
       number_of_records  value_actual
sum              3008.0  1.055524e+06
mean                1.0  7.812912e+02


In [36]:
print('音乐行业收入信息表中各类型音乐产品销售数量总和与售价的均值为：\n',
      musicdata.agg({'number_of_records': np.sum, 'value_actual': np.mean}))

音乐行业收入信息表中各类型音乐产品销售数量总和与售价的均值为：
 number_of_records    3008.000000
value_actual          781.291237
dtype: float64


In [37]:
print('音乐行业收入信息表中各类型音乐产品销售数量总和与售价的均值为：\n',
      musicdata.agg({'number_of_records': np.sum, 'value_actual': [np.mean, np.sum]}))

音乐行业收入信息表中各类型音乐产品销售数量总和与售价的均值为：
       number_of_records  value_actual
sum              3008.0  1.055524e+06
mean                NaN  7.812912e+02


In [38]:
# 自定义函数求两倍的和
def DoubleSum(data):
     s = data.sum() * 2
     return s
print('音乐行业收入信息表的实际销售价格两倍总和为：\n',
      musicdata.agg({'value_actual': DoubleSum}, axis=0))

音乐行业收入信息表的实际销售价格两倍总和为：
 value_actual    2.111049e+06
dtype: float64


In [39]:
# 自定义函数求两倍的和
def DoubleSum1(data):
    s = np.sum(data) * 2
    return s
print('音乐行业收入信息表的销售数量两倍总和为：\n',
      musicdata.agg({'number_of_records': DoubleSum1}, axis=0).head())

print('音乐行业收入信息表记录售卖量与实际售价的和的两倍为：\n',
      musicdata[['number_of_records', 'value_actual']].agg(DoubleSum1))

音乐行业收入信息表的销售数量两倍总和为：
    number_of_records
0                  2
1                  2
2                  2
3                  2
4                  2
音乐行业收入信息表记录售卖量与实际售价的和的两倍为：
 number_of_records    6.016000e+03
value_actual         2.111049e+06
dtype: float64


In [40]:
print('音乐行业收入信息表分组后前3组每组的均值为：\n', 
      musicdataGroup.agg(np.mean).head(3))

print('音乐行业收入信息表分组后前3组每组的标准差为：\n', 
      musicdataGroup.agg(np.std).head(3))

音乐行业收入信息表分组后前3组每组的均值为：
            value_actual
format                 
8 - Track    511.177231
CD          4733.432621
CD Single     45.346843
音乐行业收入信息表分组后前3组每组的标准差为：
            value_actual
format                 
8 - Track    984.411165
CD          5645.536764
CD Single     85.966719


In [41]:
print('音乐行业收入信息表分组前3组每种销售形式的记录数和销售价格均值为：\n',
      musicdataGroup.agg([('number_of_records', 'count'), 
                          ('value_actual', 'mean')]).head(3))

音乐行业收入信息表分组前3组每种销售形式的记录数和销售价格均值为：
                value_actual             
          number_of_records value_actual
format                                  
8 - Track                59   511.177231
CD                      111  4733.432621
CD Single                96    45.346843


  musicdataGroup.agg([('number_of_records', 'count'),


In [42]:
print('音乐行业收入信息表的销售数量和销售价格均值为：\n',    
      musicdata[['number_of_records', 'value_actual']].apply(np.mean))

音乐行业收入信息表的销售数量和销售价格均值为：
 number_of_records      1.000000
value_actual         781.291237
dtype: float64


In [43]:
print('音乐行业收入信息表分组后前3组每组的均值为：','\n', 
      musicdataGroup.apply(np.mean).head(3))

print('音乐行业收入信息表分组后前3组每组的标准差为：','\n', 
      musicdataGroup.apply(np.std).head(3))

音乐行业收入信息表分组后前3组每组的均值为： 
            value_actual
format                 
8 - Track    511.177231
CD          4733.432621
CD Single     45.346843
音乐行业收入信息表分组后前3组每组的标准差为： 
            value_actual
format                 
8 - Track    976.033045
CD          5620.048883
CD Single     85.517803


  return mean(axis=axis, dtype=dtype, out=out, **kwargs)
  return mean(axis=axis, dtype=dtype, out=out, **kwargs)
  return std(axis=axis, dtype=dtype, out=out, ddof=ddof, **kwargs)


In [44]:
print('音乐行业收入信息表销售数量和销售价格的两倍为：\n',
      musicdata[['number_of_records', 'value_actual']].transform(
            lambda x: x * 2).head(4))

音乐行业收入信息表销售数量和销售价格的两倍为：
    number_of_records  value_actual
0                  2           NaN
1                  2           NaN
2                  2           NaN
3                  2           NaN


In [45]:
print('音乐行业收入信息表分组后实现组内离差标准化后前5行为：\n', 
      musicdataGroup.transform(lambda x: (x.mean()
             - x.min()) / (x.max() - x.min())).head())

音乐行业收入信息表分组后实现组内离差标准化后前5行为：
    value_actual
0      0.240644
1      0.240644
2      0.240644
3      0.240644
4      0.240644


  musicdataGroup.transform(lambda x: (x.mean()


In [None]:
import pandas as pd
musicdata = pd.read_csv('musicdata.csv')

musicdataPivot = pd.pivot_table(musicdata[[
      'format', 'number_of_records', 'value_actual']],
      index='format')
print('以foramt作为分组键创建的订单透视表为：\n', musicdataPivot.head())

In [None]:
import numpy as np
musicdataPivot1 = pd.pivot_table(musicdata[[
      'format', 'number_of_records', 'value_actual']],
      index='format', aggfunc=np.sum)
print('以format作为分组键创建的销售数量与实际销售加工总和透视表为：\n',
       musicdataPivot1.head())

In [None]:
musicdataPivot2 = pd.pivot_table(musicdata[[
      'format', 'metric', 
      'number_of_records', 'value_actual']],
      index=['format', 'metric'],
      aggfunc=np.sum)
print('以format和metric作为分组键创建的销售数量/与销售价格总和透视表为：\n', 
      musicdataPivot2.head())

In [6]:
musicdataPivot3 = pd.pivot_table(musicdata[[
      'format', 'metric', 'number_of_records', 'value_actual']],
      index='format', columns='metric', aggfunc=np.sum)
print('以format和metric作为行列分组键创建的透视表前5行4列为：\n',
      musicdataPivot3.iloc[:5, :4])

以format和metric作为行列分组键创建的透视表前5行4列为：
                 number_of_records                         value_actual
metric                      Units Value Value (Adjusted)         Units
format                                                                
8 - Track                    47.0  47.0             47.0    900.300000
CD                           47.0  47.0             47.0  14802.624448
CD Single                    47.0  47.0             47.0    357.718686
Cassette                     47.0  47.0             47.0   6194.300000
Cassette Single              47.0  47.0             47.0    724.200000


In [7]:
musicdataPivot4 = pd.pivot_table(musicdata[[
      'format', 'metric', 'number_of_records', 'value_actual']],
      index = 'format', values='value_actual', aggfunc=np.sum)
print('以format作为行分组键value_actual作为值创建的透视表前5行为：\n', 
      musicdataPivot4.head())

以format作为行分组键value_actual作为值创建的透视表前5行为：
                   value_actual
format                        
8 - Track         30159.456658
CD               525411.020880
CD Single          4353.296903
Cassette         157208.102797
Cassette Single    7227.226130


In [51]:
musicdataPivot5 = pd.pivot_table(musicdata[[
      'format', 'metric', 'number_of_records', 'value_actual']],
      index='format', columns='metric', aggfunc=np.sum, fill_value=0)
print('空值填0后以format和metric为行列分组键创建透视表前5行4列为：\n', 
      musicdataPivot5.iloc[:5, :4])

空值填0后以format和metric为行列分组键创建透视表前5行4列为：
                 number_of_records                         value_actual
metric                      Units Value Value (Adjusted)         Units
format                                                                
8 - Track                      47    47               47    900.300000
CD                             47    47               47  14802.624448
CD Single                      47    47               47    357.718686
Cassette                       47    47               47   6194.300000
Cassette Single                47    47               47    724.200000


In [52]:
musicdataPivot6 = pd.pivot_table(musicdata[[
      'format', 'metric', 'number_of_records', 'value_actual']],
      index='format', columns='metric', aggfunc=np.sum,
      fill_value=0, margins=True)
print('添加margins后以format和metric为分组键的透视表前5行后4列为：\n',
      musicdataPivot6.iloc[:5, -4:])
 

添加margins后以format和metric为分组键的透视表前5行后4列为：
                  value_actual                                               
metric                  Units          Value Value (Adjusted)            All
format                                                                      
8 - Track          900.300000    5618.700000     23640.456658   30159.456658
CD               14802.624448  205083.959093    305524.437339  525411.020880
CD Single          357.718686    1549.562534      2446.015682    4353.296903
Cassette          6194.300000   48701.700000    102312.102797  157208.102797
Cassette Single    724.200000    2325.900000      4177.126130    7227.226130


In [53]:
musicdataCross = pd.crosstab(index=musicdata['format'],
      columns=musicdata['metric'],
      values=musicdata['value_actual'], aggfunc = np.sum)
print('以format和metric为分组键value_actual为值的透视表前5行4列为：\n', 
      musicdataCross.iloc[:5, :4])

以format和metric为分组键value_actual为值的透视表前5行4列为：
 metric                  Units          Value  Value (Adjusted)
format                                                        
8 - Track          900.300000    5618.700000      23640.456658
CD               14802.624448  205083.959093     305524.437339
CD Single          357.718686    1549.562534       2446.015682
Cassette          6194.300000   48701.700000     102312.102797
Cassette Single    724.200000    2325.900000       4177.126130
