### 1. 问题
#### 【问题一】 如何更改列或行的顺序？如何交换奇偶行（列）的顺序？

In [42]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'A':np.arange(11,16),'B':np.arange(21,26),'C':np.arange(31,36),'D':np.arange(41,46),
                   'E':np.arange(51,56)}, index=list('abcde'))
#交换行a和b的顺序
df.reindex(['b','a','c','d','e'])
#交换列A和B的顺序
df.reindex(columns=['B','A','C','D','E'])
#将列D置于位置1
df.insert(loc=1, column='D', value=df.pop('D'))
df

Unnamed: 0,A,D,B,C,E
a,11,41,21,31,51
b,12,42,22,32,52
c,13,43,23,33,53
d,14,44,24,34,54
e,15,45,25,35,55


#### 【问题二】 如果要选出DataFrame的某个子集，请给出尽可能多的方法实现。

In [64]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'A':np.arange(11,16),'B':np.arange(21,26),'C':np.arange(31,36),'D':np.arange(41,46),
                   'E':np.arange(51,56)}, index=list('abcde'))
#取出第2行
df.iloc[1]

#取出2-4行
df.iloc[1:4]

#取出第2列
df.iloc[:, 1]

#取出2-4列
df.iloc[:, 1:4]

#取出label='c'的行
df.loc['c']

#取出label='c'、'e'的行
df.loc[['c', 'e']]

#取出label='C'的列
df.loc[:, 'C']
df['C']

#取出label='C'、'E'的列
df.loc[:, ['C', 'E']]
df[['C', 'E']]

33


Unnamed: 0,C,E
a,31,51
b,32,52
c,33,53
d,34,54
e,35,55


#### 【问题三】 query函数比其他索引方法的速度更慢吗？在什么场合使用什么索引最高效？

In [84]:
import pandas as pd
import numpy as np

df = pd.read_csv("data/Company_data.csv", index_col='日期', parse_dates=['日期'])
%timeit df[df['证券代码']==300001]
%timeit df.query('证券代码==300001')

842 µs ± 2.66 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
3.45 ms ± 91.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


#### 【问题四】 单级索引能使用Slice对象吗？能的话怎么使用，请给出一个例子。

In [85]:
import pandas as pd
import numpy as np

df = pd.read_csv("data/Company_data.csv", index_col='日期', parse_dates=['日期'])
df.loc['2011':'2015']

Unnamed: 0_level_0,证券代码,收入类型,收入额
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2011-12-31,1,1,
2011-12-31,1,2,-1.675391e+09
2011-12-31,1,3,4.209000e+09
2011-12-31,1,4,1.156000e+07
2011-12-31,1,5,2.257000e+09
...,...,...,...
2015-12-31,900957,14,0.000000e+00
2015-12-31,900957,15,1.830678e+07
2015-12-31,900957,16,0.000000e+00
2015-12-31,900957,17,0.000000e+00


#### 【问题五】 如何快速找出某一列的缺失值所在索引？

In [105]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'A':np.arange(11,16),'B':[21,np.nan,23,np.nan,25],'C':np.arange(31,36),'D':np.arange(41,46),
                   'E':np.arange(51,56)}, index=list('abcde'))
list(set(df['B'].index) - set(df['B'].dropna().index))

['b', 'd']

#### 【问题六】 索引设定中的所有方法分别适用于哪些场合？怎么直接把某个DataFrame的索引换成任意给定同长度的索引？

In [3]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'A':np.arange(11,16),'B':[21,np.nan,23,np.nan,25],'C':np.arange(31,36),'D':np.arange(41,46),
                   'E':np.arange(51,56)}, index=list('abcde'))
df.set_index(np.array(['a1', 'b1', 'c1', 'd1', 'e1']))

Unnamed: 0,A,B,C,D,E
a1,11,21.0,31,41,51
b1,12,,32,42,52
c1,13,23.0,33,43,53
d1,14,,34,44,54
e1,15,25.0,35,45,55


#### 【问题七】 多级索引有什么适用场合？

In [15]:
#多级索引可以部分替代groupby的分组聚合处理功能
import numpy as np
import pandas as pd
df = pd.read_csv('data/table.csv',index_col='ID')
df
#计算各个班级的数学平均成绩
#方法1：groupby
print(df.groupby(['School', 'Class'])['Math'].mean())
#方法2：multiindex
df_using_mul = df.set_index(['School','Class'])
print(df_using_mul['Math'].mean(level=['School', 'Class']))

School  Class
S_1     C_1      63.78
        C_2      64.30
        C_3      63.16
S_2     C_1      58.56
        C_2      62.80
        C_3      63.06
        C_4      53.80
Name: Math, dtype: float64
School  Class
S_1     C_1      63.78
        C_2      64.30
        C_3      63.16
S_2     C_1      58.56
        C_2      62.80
        C_3      63.06
        C_4      53.80
Name: Math, dtype: float64


#### 【问题八】 什么时候需要重复元素处理？

### 2. 练习
#### 【练习一】 现有一份关于UFO的数据集，请解决下列问题：
#### （a）在所有被观测时间超过60s的时间中，哪个形状最多？

In [20]:
df = pd.read_csv('data/UFO.csv')
df[df['duration (seconds)'] > 60]['shape'].value_counts().index[0]

'light'

#### （b）对经纬度进行划分：-180°至180°以30°为一个划分，-90°至90°以18°为一个划分，请问哪个区域中报告的UFO事件数量最多？

In [50]:
longitude_interval = pd.cut(df['longitude'], bins=np.linspace(-180,180,13))
latitude_interval = pd.cut(df['latitude'], bins=np.linspace(-90,90,11))
df1 = df.join(longitude_interval, rsuffix='_interval').join(latitude_interval, rsuffix='_interval')
df1.set_index(['longitude_interval', 'latitude_interval']).index.value_counts().head()

((-90.0, -60.0], (36.0, 54.0])      27891
((-120.0, -90.0], (18.0, 36.0])     14280
((-120.0, -90.0], (36.0, 54.0])     11960
((-90.0, -60.0], (18.0, 36.0])       9923
((-150.0, -120.0], (36.0, 54.0])     9658
dtype: int64

#### 【练习二】 现有一份关于口袋妖怪的数据集，请解决下列问题：
#### （a）双属性的Pokemon占总体比例的多少？

In [79]:
df = pd.read_csv('data/Pokemon.csv')
#方法1
df[~df['Type 2'].isna()].shape[0] / df.shape[0]
#方法2
df['Type 2'].count() / df.shape[0]

0.5175

#### （b）在所有种族值（Total）不小于580的Pokemon中，非神兽（Legendary=False）的比例为多少？

In [85]:
df[df['Total'] >= 580]['Legendary'].value_counts(normalize=True)

True     0.575221
False    0.424779
Name: Legendary, dtype: float64

#### （c）在第一属性为格斗系（Fighting）的Pokemon中，物攻排名前三高的是哪些？

In [99]:
df[df['Type 1'] == 'Fighting'].sort_values(by='Attack', ascending=False).iloc[:3]

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
498,448,LucarioMega Lucario,Fighting,Steel,625,70,145,88,140,70,112,4,False
594,534,Conkeldurr,Fighting,,505,105,140,95,55,65,45,5,False
74,68,Machamp,Fighting,,505,90,130,80,65,85,55,1,False


#### （d）请问六项种族指标（HP、物攻、特攻、物防、特防、速度）极差的均值最大的是哪个属性（只考虑第一属性，且均值是对属性而言）？

In [111]:
df['range'] = df.loc[:, 'HP':'Speed'].max(axis=1) - df.loc[:, 'HP':'Speed'].min(axis=1)
df.groupby('Type 1')['range'].mean().idxmax()

'Steel'

#### （e）哪个属性（只考虑第一属性）的神兽比例最高？该属性神兽的种族值也是最高的吗？

In [175]:
def count_legendary(s):
    return(s[s.values == True].count() / s.count())
    
print(df.groupby('Type 1')['Legendary'].apply(count_legendary).idxmax())
df.query('Legendary == True').groupby('Type 1')['Total'].mean().idxmax()

Flying


'Normal'