# 查看DataFrame的常用属性

DataFrame的基础属性如下:

      values，可以获取元素；  
      index，可以获取索引；   
      column，可以获取列名；   
      dtypes，可以获取类型。   

除了上述4个基本属性外，还可以通过size、ndim和shape属性获取DataFrame的元素个数、维度数和数据形状（行列数目）。
T属性能够实现DataFrame的转置（行列转换）。在某些特殊场景下，某些函数方法只能作用于列或行，此时即可试着用转置来解决这一问题。


In [2]:
# 代码3-9
from sqlalchemy import create_engine
import pandas as pd
# 创建数据库连接
engine = create_engine('mysql+pymysql://root:adou@127.0.0.1:3306/testdb?charset=utf8') 
musicdata = pd.read_sql_table('musicdata', con=engine)
print('音乐行业收入信息表的索引为：', musicdata.index)

print('音乐行业收入信息表的所有值为：\n', musicdata.values)

print('音乐行业收入信息表的列名为：\n', musicdata.columns)

print('音乐行业收入信息表的数据类型为：\n', musicdata.dtypes)

音乐行业收入信息表的索引为： RangeIndex(start=0, stop=3008, step=1)
音乐行业收入信息表的所有值为：
 [['CD' 'Units' '2020/7/31 22:01' '1' None]
 ['CD' 'Units' '2020/7/23 6:12' '1' None]
 ['CD' 'Units' '2020/7/13 9:30' '1' None]
 ...
 ['Vinyl Single' 'Value (Adjusted)' '2013/10/12 16:06' '1' '6.33967756']
 ['Vinyl Single' 'Value (Adjusted)' '2013/10/9 17:27' '1' '5.386196747']
 ['Vinyl Single' 'Value (Adjusted)' '2013/9/24 15:31' '1' '6.795945687']]
音乐行业收入信息表的列名为：
 Index(['format', 'metric', 'date', 'number_of_records', 'value_actual'], dtype='object')
音乐行业收入信息表的数据类型为：
 format               object
metric               object
date                 object
number_of_records    object
value_actual         object
dtype: object


#### 1 查看dataFrame的基本属性

In [4]:
# 代码3-10
# 查看DataFrame的元素个数、维度数、形状
print('音乐行业收入信息表的元素个数为：', musicdata.size) 
print('音乐行业收入信息表的维度数为：', musicdata.ndim)
print('音乐行业收入信息表的形状为：', musicdata.shape)

# 代码3-11
print('音乐行业收入信息表转置前形状为：', musicdata.shape)
print('音乐行业收入信息表转置后形状为：', musicdata.T.shape)

音乐行业收入信息表的元素个数为： 15040
音乐行业收入信息表的维度数为： 2
音乐行业收入信息表的形状为： (3008, 5)
音乐行业收入信息表转置前形状为： (3008, 5)
音乐行业收入信息表转置后形状为： (5, 3008)


In [5]:
# 代码3-12
# 使用字典访问的方式取出musicdata中的某一列
format = musicdata['format']
print('音乐行业收入信息表中的format的形状为：', format.shape)

音乐行业收入信息表中的format的形状为： (3008,)


In [6]:
# 代码3-13
# 使用访问属性的方式取出musicdata中的number_of_records
number_of_records = musicdata.number_of_records
print('音乐行业收入信息表中的number_of_records的形状为:', number_of_records.shape)

音乐行业收入信息表中的number_of_records的形状为: (3008,)


#### 2查看数据

##### （1）可以按照列表取出series，series的操作类似于数组

In [7]:
# 代码3-14
metric5 = musicdata['metric'][:5]
print('音乐行业收入信息表中的metric前5个元素为：\n', metric5)

音乐行业收入信息表中的metric前5个元素为：
 0    Units
1    Units
2    Units
3    Units
4    Units
Name: metric, dtype: object


In [8]:
# 代码3-15
format_metric = musicdata[['format', 'metric']][:5]
print('音乐行业收入信息表中的format和metric前5个元素为：\n', format_metric)


音乐行业收入信息表中的format和metric前5个元素为：
   format metric
0     CD  Units
1     CD  Units
2     CD  Units
3     CD  Units
4     CD  Units


In [9]:
# 代码3-16
musicdata5 = musicdata[:][1:6]
print('音乐行业收入信息表的1～6行元素为：\n', musicdata5)

音乐行业收入信息表的1～6行元素为：
   format metric             date number_of_records value_actual
1     CD  Units   2020/7/23 6:12                 1         None
2     CD  Units   2020/7/13 9:30                 1         None
3     CD  Units  2020/6/30 14:26                 1         None
4     CD  Units  2020/6/23 20:21                 1         None
5     CD  Units  2020/6/20 13:41                 1         None


In [10]:
# 代码3-17
print('音乐行业收入信息表中前5行数据为:\n', musicdata.head())

print('音乐行业收入信息表中后5行元素为：\n', musicdata.tail())

音乐行业收入信息表中前5行数据为:
   format metric             date number_of_records value_actual
0     CD  Units  2020/7/31 22:01                 1         None
1     CD  Units   2020/7/23 6:12                 1         None
2     CD  Units   2020/7/13 9:30                 1         None
3     CD  Units  2020/6/30 14:26                 1         None
4     CD  Units  2020/6/23 20:21                 1         None
音乐行业收入信息表中后5行元素为：
             format            metric              date number_of_records  \
3003  Vinyl Single  Value (Adjusted)    2013/12/8 3:10                 1   
3004  Vinyl Single  Value (Adjusted)   2013/11/21 1:50                 1   
3005  Vinyl Single  Value (Adjusted)  2013/10/12 16:06                 1   
3006  Vinyl Single  Value (Adjusted)   2013/10/9 17:27                 1   
3007  Vinyl Single  Value (Adjusted)   2013/9/24 15:31                 1   

     value_actual  
3003  6.205390253  
3004  5.198931395  
3005   6.33967756  
3006  5.386196747  
3007  6.795945687  


##### （2）除了可以使用基本的查看方式查看访问DataFrame中的数据之外，还可以通过loc()方法和iloc()方法进行访问。


pandas主要提供了三种属性用来选取行/列数据：

        属性名	                属性   
         ix	           根据整数索引或者行标签选取数据   
        iloc	           根据位置的整数索引选取数据   
        loc                根据行标签选取数据   

In [11]:
# 代码3-18
format1 = musicdata.loc[:, 'format']
print('使用loc()方法提取format列的size为：', format1.size)

format2 = musicdata.iloc[:, 3]
print('使用iloc()方法提取第3列的size为：', format2.size)

使用loc()方法提取format列的size为： 3008
使用iloc()方法提取第3列的size为： 3008


In [15]:
# 代码3-19
format_metric1 = musicdata.loc[:, ['format', 'metric']]
print('使用loc()方法提取format和metric列的size为：', format_metric1.size) 

format_metric2 = musicdata.iloc[:, [1, 3]]
print('使用iloc()方法提取第1和第3列的size为：', format_metric2.size)  

使用loc()方法提取format和metric列的size为： 6016
使用iloc()方法提取第1和第3列的size为： 6016


In [25]:
# 代码3-20
print('列名为format和metric的行名为3的数据为：\n',
      musicdata.loc[3, ['format', 'metric']])

print('列名为format和metric行名为2,3,4,5,6的数据为：\n',
      musicdata.loc[2: 6, ['format', 'metric']])



列名为format和metric的行名为3的数据为：
 format       CD
metric    Units
Name: 3, dtype: object
列名为format和metric行名为2,3,4,5,6的数据为：
   format metric
2     CD  Units
3     CD  Units
4     CD  Units
5     CD  Units
6     CD  Units


In [None]:
print('列位置为1和3，行位置为3的数据为：\n', musicdata.iloc[3, [1, 3]])

print('列位置为1和3，行位置为2,3,4,5,6的数据为：\n',
      musicdata.iloc[2: 7, [1, 3]])

In [22]:
print('musicdata中metric为“Units”的format为：\n',
       musicdata.loc[musicdata['metric'] == 'Units', ['format', 'metric']])

musicdata中metric为“Units”的format为：
                  format metric
0                    CD  Units
1                    CD  Units
2                    CD  Units
3                    CD  Units
4                    CD  Units
..                  ...    ...
841  Paid Subscriptions  Units
842  Paid Subscriptions  Units
843  Paid Subscriptions  Units
844  Paid Subscriptions  Units
845  Paid Subscriptions  Units

[846 rows x 2 columns]


    DataFrame的数据查看与访问基本方法虽然能够基本满足数据查看要求，但是终究还是不够灵活。pandas提供了loc()和iloc()两种更加灵活的方法来实现数据访问。
        loc()方法是针对DataFrame索引名称的切片方法，如果传入的不是索引名称，那么切片操作将无法执行。
        利用loc()方法，能够实现所有单层索引切片操作。
        iloc()方法接收的必须是行索引和列索引的位置。

    loc使用范围比iloc更广更实用，loc可以使用切片、名称(index,columns)、也可以切片和名称混合使用；但是loc不能使用不存在的索引来充当切片取值,像-1
    iloc只能用整数来取数

loc()方法的内部还可以传入表达式，结果会返回满足表达式的所有值。  
iloc()方法不能接收表达式，原因在于，iloc()方法可以接收的数据类型并不包括Series。根据Series的构成，应取出该Series的values。  
总体来说，loc()方法更加灵活多变，代码的可读性更高；iloc()方法的代码简洁，但可读性不高。在数据分析工作中具体使用哪一种方法，应根据情况而定，大多数时候建议使用loc()方法。  


In [41]:
#错误的写法  iloc只能用整数来取数
print('musicdata中metric为“Units”的第1、4列数据为：\n',
     musicdata.iloc[musicdata['metric'] == 'Units', [1, 4]])

NotImplementedError: iLocation based boolean indexing on an integer type is not available

In [28]:
print('musicdata中metric为“Units”的第1、4列数据为：\n',
      musicdata.iloc[(musicdata['metric'] == 'Units').values, [1, 4]])

print(musicdata.iloc[(musicdata['metric'] == 'Units').values])

musicdata中metric为“Units”的第1、4列数据为：
     metric value_actual
0    Units         None
1    Units         None
2    Units         None
3    Units         None
4    Units         None
..     ...          ...
841  Units         10.8
842  Units         22.7
843  Units         35.3
844  Units         50.2
845  Units         None

[846 rows x 2 columns]
                 format metric             date number_of_records value_actual
0                    CD  Units  2020/7/31 22:01                 1         None
1                    CD  Units   2020/7/23 6:12                 1         None
2                    CD  Units   2020/7/13 9:30                 1         None
3                    CD  Units  2020/6/30 14:26                 1         None
4                    CD  Units  2020/6/23 20:21                 1         None
..                  ...    ...              ...               ...          ...
841  Paid Subscriptions  Units   2014/2/13 6:47                 1         10.8
842  Paid Subscripti

***

##### 3. 更改DataFrame中的数据


    更改DataFrame中的数据的原理是将这部分数据提取出来，重新赋值为新的数据。  
    需要注意的是，数据更改是直接对DataFrame原数据更改，操作无法撤销。  
    如果不希望直接对原数据做出更改，那么需要对更改条件进行确认或对数据进行备份。  


In [29]:
# 代码3-23
# 将format值为CD的变换为数值1
print('更改前musicdata中format为CD的数据为：\n',
      musicdata.loc[musicdata['format'] == 'CD', 'format'])
musicdata.loc[musicdata['format'] == 'CD', 'format']=1
print('更改后musicdata中format为1的数据为：\n',
     musicdata.loc[musicdata['format'] == 1, 'format'])

更改前musicdata中format为CD的数据为：
 0       CD
1       CD
2       CD
3       CD
4       CD
        ..
2016    CD
2017    CD
2018    CD
2019    CD
2020    CD
Name: format, Length: 141, dtype: object
更改后musicdata中format为1的数据为：
 0       1
1       1
2       1
3       1
4       1
       ..
2016    1
2017    1
2018    1
2019    1
2020    1
Name: format, Length: 141, dtype: object


***

#### 4.为DataFrame增添数据


        为DataFrame添加一列的方法非常简单，只需要新建一个列索引，并对该索引下的数据进行赋值操作即可。如果新增的一列值是相同的，那么可以直接为其赋值一个常量。


In [33]:
# 代码3-24
# 转换为时间序列数据
dates = pd.to_datetime(musicdata['date'])
# 建立月份列
musicdata['month'] = dates.map(lambda x: x.month)
# 查看前5行
print('musicdata新增列month的前10行为：\n', musicdata[:][1:10])

musicdata新增列month的前5行为：
   format metric             date number_of_records value_actual  month
1      1  Units   2020/7/23 6:12                 1         None      7
2      1  Units   2020/7/13 9:30                 1         None      7
3      1  Units  2020/6/30 14:26                 1         None      6
4      1  Units  2020/6/23 20:21                 1         None      6
5      1  Units  2020/6/20 13:41                 1         None      6
6      1  Units   2020/5/24 7:03                 1         None      5
7      1  Units  2020/5/22 17:44                 1         None      5
8      1  Units   2020/5/14 9:30                 1         None      5
9      1  Units  2020/4/30 21:28                 1         None      4


lamda使用 参考
https://blog.csdn.net/weixin_45666566/article/details/106164212

In [35]:
# 代码3-25
musicdata['day'] = 15
print('musicdata新增列day的前5行为：\n', musicdata[:][1:10])

musicdata新增列day的前5行为：
   format metric             date number_of_records value_actual  month  day
1      1  Units   2020/7/23 6:12                 1         None      7   15
2      1  Units   2020/7/13 9:30                 1         None      7   15
3      1  Units  2020/6/30 14:26                 1         None      6   15
4      1  Units  2020/6/23 20:21                 1         None      6   15
5      1  Units  2020/6/20 13:41                 1         None      6   15
6      1  Units   2020/5/24 7:03                 1         None      5   15
7      1  Units  2020/5/22 17:44                 1         None      5   15
8      1  Units   2020/5/14 9:30                 1         None      5   15
9      1  Units  2020/4/30 21:28                 1         None      4   15


***
#### 5. 删除某列或某行数据 

删除某列或某行数据需要用到pandas提供的方法drop()。

DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')


labels   接收单一标签。表示要删除的索引或列标签。无默认值   
axis     接收0或1。表示操作的轴向。默认为0   
level    接收int或索引名。表示标签所在级别。默认为None   
inplace  接收bool。表示操作是否对原数据生效。默认为False  


 



***
### （1）删除行

In [36]:
# 代码3-26
print('删除day前musicdata的列索引为：\n', musicdata.columns)
musicdata.drop(labels='day', axis=1, inplace=True)   
print('删除day后musicdata的列索引为：\n', musicdata.columns)

删除day前musicdata的列索引为：
 Index(['format', 'metric', 'date', 'number_of_records', 'value_actual',
       'month', 'day'],
      dtype='object')
删除day后musicdata的列索引为：
 Index(['format', 'metric', 'date', 'number_of_records', 'value_actual',
       'month'],
      dtype='object')


    注意：axis=0 和 axis=1 分别是 Pandas 中两个非常常见的参数。它们用于指定操作的方向，即按行还是按列进行操作。具体来说：

    axis=0 表示按照行的方向（从上到下）进行操作，也就是对每一列进行操作。
    axis=1 表示按照列的方向进行操作，也就是对每一行进行操作。
    以下面的数据框为例：


In [39]:
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})
print(df)
#axis=0 操作列
mean_by_column = df.mean(axis=0)
print(mean_by_column)
#假设我们想要计算每一行的均值。这时候就需要用到 axis=1 参数。
mean_by_row = df.mean(axis=1)
print(mean_by_row)

   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9
A    2.0
B    5.0
C    8.0
dtype: float64
0    4.0
1    5.0
2    6.0
dtype: float64


    总结

在 Pandas 中，许多方法都会有 axis 参数。这个参数用于指定操作的方向。需要根据具体需求选择合适的方向，才能得到正确的结果。
通常来说，axis=0 表示对列进行操作，axis=1 表示对行进行操作。

***
#### （2）删除行

In [40]:
# 代码3-27
print('删除1～3行前musicdata的长度为：', len(musicdata))
musicdata.drop(labels=range(1, 4), axis=0, inplace=True)
print('删除1～3行后musicdata的长度为：', len(musicdata))  

删除1～3行前musicdata的长度为： 3008
删除1～3行后musicdata的长度为： 3005
