# Pandas补充知识点

## Rank

### 主要代码

In [1]:
import pandas as pd
import numpy as np

In [2]:
a = pd.DataFrame(np.arange(15).reshape(3,5),columns = list("abdce"))
a =a.sort_index(axis=1,ascending=False)

In [3]:
a

Unnamed: 0,e,d,c,b,a
0,4,2,3,1,0
1,9,7,8,6,5
2,14,12,13,11,10


In [4]:
a.iloc[[1,1],[1,2]] = 6

In [5]:
a

Unnamed: 0,e,d,c,b,a
0,4,2,3,1,0
1,9,6,6,6,5
2,14,12,13,11,10


In [6]:
# 默认相同数值取平均值(2+3+4)/3,升序排列, 不累加
a.rank(axis=1, method="average")

Unnamed: 0,e,d,c,b,a
0,5.0,3.0,4.0,2.0,1.0
1,5.0,3.0,3.0,3.0,1.0
2,5.0,3.0,4.0,2.0,1.0


In [7]:
# first, 按照出现顺序进行排序，自动忽视相同数据的处理
a.rank(axis=1, method="first")

Unnamed: 0,e,d,c,b,a
0,5.0,3.0,4.0,2.0,1.0
1,5.0,2.0,3.0,4.0,1.0
2,5.0,3.0,4.0,2.0,1.0


In [8]:
# 相同数值，排序相同，且顺序累加, method 为dense ： 类似于min，但后续增长的时候每次就增加1，即并列第一名
a.rank(axis=1, method="dense")

Unnamed: 0,e,d,c,b,a
0,5.0,3.0,4.0,2.0,1.0
1,3.0,2.0,2.0,2.0,1.0
2,5.0,3.0,4.0,2.0,1.0


In [9]:
# 排序
a.rank(axis=1, method="dense", ascending=False)

Unnamed: 0,e,d,c,b,a
0,1.0,3.0,2.0,4.0,5.0
1,1.0,2.0,2.0,2.0,3.0
2,1.0,3.0,2.0,4.0,5.0


In [10]:
# 取最小，不累加
a.rank(axis=1, method="min")

Unnamed: 0,e,d,c,b,a
0,5.0,3.0,4.0,2.0,1.0
1,5.0,2.0,2.0,2.0,1.0
2,5.0,3.0,4.0,2.0,1.0


In [11]:
# 取最大，不累加
a.rank(axis=1, method="max")

Unnamed: 0,e,d,c,b,a
0,5.0,3.0,4.0,2.0,1.0
1,5.0,4.0,4.0,4.0,1.0
2,5.0,3.0,4.0,2.0,1.0


### 其他参数
 
<p><strong>numeric_only</strong> ：Include only float, int, boolean data. Valid only for DataFrame or Panel objects 。boolean, default None</p><p><strong>ascending</strong>：是否为升序，默认为True <br> <strong>na_option</strong>：用于处理NaN值</p> 
<ol><li><strong>‘keep’</strong>：leave NA values where they are</li><li><strong>‘top’</strong>：smallest rank if ascending</li><li><strong>‘bottom’</strong>：smallest rank if dscending</li></ol> 
<p><strong>pct</strong>:名次是否为百分数</p>
                </div>

## parse_dates参数解析

将csv中的时间字符串转换成日期格式

In [21]:
import pandas as pd

In [22]:
"""
指定parse_dates = [ ['time', 'date'] ]，即将[ ['time', 'date'] ]两列的字符串先合并后解析方可。合并后的新列会以下划线'_'连接原列名命名
本例中解析后的命名为：time_date,解析得到的日期格式列会作为DataFrame的第一列。
在index_col指定表格中的第几列作为Index时需要小心。如本例中，指定参数index_col=0，
则此时会以新生成的time_date列而不是name作为Index。因此保险的方法是指定列名，如index_col = 'name'
结果：
            time_date     name
0 2019-10-10 21:33:30    'Bob'
1 2019-10-10 21:30:15  'Jerry'
2 2019-10-10 21:25:30    'Tom'
3 2019-10-10 21:20:10  'Vince'
4 2019-10-10 21:40:15   'Hank'
"""
df=pd.read_csv('./data/Test.csv',parse_dates=[['time','date']])
print(df)

            time_date     name
0 2019-10-10 21:33:30    'Bob'
1 2019-10-10 21:30:15  'Jerry'
2 2019-10-10 21:25:30    'Tom'
3 2019-10-10 21:20:10  'Vince'
4 2019-10-10 21:40:15   'Hank'


In [26]:
"""
如果写成了parse_dates=['time', 'date'] ，pd.read_csv()会分别对'time', 'date'进行字符串转日期，此外还会造成一个小小的麻烦。
由于本例中的Time时间列格式为'HH:MM:SS'，
parse_dates默认调用dateutil.parser.parse解析为Datetime格式，在解析time这一列时，会自作主张在前面加上一个当前日期。
结果：
      name                time         date
0    'Bob' 2019-10-17 21:33:30   2019-10-10
1  'Jerry' 2019-10-17 21:30:15   2019-10-10
2    'Tom' 2019-10-17 21:25:30   2019-10-10
3  'Vince' 2019-10-17 21:20:10   2019-10-10
4   'Hank' 2019-10-17 21:40:15   2019-10-10
【注】：read_csv()方法指定parse_dates会使得读取csv文件的时间大大增加
"""
df=pd.read_csv('./data/Test.csv',parse_dates=['time','date'])
print(df)

      name                time       date
0    'Bob' 2022-01-29 21:33:30 2019-10-10
1  'Jerry' 2022-01-29 21:30:15 2019-10-10
2    'Tom' 2022-01-29 21:25:30 2019-10-10
3  'Vince' 2022-01-29 21:20:10 2019-10-10
4   'Hank' 2022-01-29 21:40:15 2019-10-10


In [28]:
"""
infer_datetime_format=True可显著减少read_csv命令日期解析时间
"""
df=pd.read_csv('./data/Test.csv',parse_dates=[['time','date']],infer_datetime_format=True)
df

Unnamed: 0,time_date,name
0,2019-10-10 21:33:30,'Bob'
1,2019-10-10 21:30:15,'Jerry'
2,2019-10-10 21:25:30,'Tom'
3,2019-10-10 21:20:10,'Vince'
4,2019-10-10 21:40:15,'Hank'


In [29]:
"""
keep_date_col=True/False参数则是用来指定解析为日期格式的列是否保留下来，True保留，False不保留
本例中=True即原解析的列time和date被保留下来
结果：
            time_date     name      time        date
0 2019-10-10 21:33:30    'Bob'  21:33:30  2019-10-10
1 2019-10-10 21:30:15  'Jerry'  21:30:15  2019-10-10
2 2019-10-10 21:25:30    'Tom'  21:25:30  2019-10-10
3 2019-10-10 21:20:10  'Vince'  21:20:10  2019-10-10
4 2019-10-10 21:40:15   'Hank'  21:40:15  2019-10-10
"""
df=pd.read_csv('./data/Test.csv',parse_dates=[['time','date']],infer_datetime_format=True,keep_date_col=True)
print(df)


            time_date     name      time        date
0 2019-10-10 21:33:30    'Bob'  21:33:30  2019-10-10
1 2019-10-10 21:30:15  'Jerry'  21:30:15  2019-10-10
2 2019-10-10 21:25:30    'Tom'  21:25:30  2019-10-10
3 2019-10-10 21:20:10  'Vince'  21:20:10  2019-10-10
4 2019-10-10 21:40:15   'Hank'  21:40:15  2019-10-10
