检查dataframe是否有缺失值

In [1]:
import pandas as pd
import numpy as np
df = pd.DataFrame({
    'a':[1.2,2,3,4],
    'b':list('abcd')
})

print('缺失:', df.isnull().values.any())
df.iat[0,0] = np.nan
print('缺失:', df.isnull().values.any())

缺失: False
缺失: True


设置dataframe输出的行数和列数

In [7]:
df = pd.DataFrame(np.arange(20).reshape(-1, 5), columns=list('abcde'))
df.head()
df[list('cbdae')]
pd.set_option('display.max_columns', 4) #设置指定选项的值  最后的变成4行5列的数
pd.set_option('display.max_rows', 4) # pd.get_option检索指定选项的值。
# 设置之后
df

Unnamed: 0,a,b,...,d,e
0,0,1,...,3,4
1,5,6,...,8,9
2,10,11,...,13,14
3,15,16,...,18,19


In [8]:
pd.set_option('display.max_columns', 10)
pd.set_option('display.max_rows', 10)


Unnamed: 0,a,b,c,d,e
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


设置dataframe输出时不使用科学记数法

In [9]:
pd.DataFrame(np.random.random(4)**10, columns=['random'])


Unnamed: 0,random
0,2.257503e-05
1,1.133973e-06
2,6.257791e-14
3,0.0003998987


In [10]:
pd.set_option('display.float_format', lambda x: '%.4f' % x)
pd.DataFrame(np.random.random(4)**10, columns=['random'])

Unnamed: 0,random
0,0.7106
1,0.0723
2,0.4871
3,0.4295


In [11]:
# 恢复默认值
pd.set_option('display.float_format', None)
pd.DataFrame(np.random.random(4)**10, columns=['random'])

Unnamed: 0,random
0,1.3694699999999999e-24
1,2.217354e-08
2,1.384369e-06
3,4.872242e-06


如何在删除负值后将dataframe重新整形为最大可能的正方形
将df重塑为最大可能的正方形，并删除负值。如果需要，删除最小值。结果中正数的顺序应保持与原始顺序相同

In [15]:
df = pd.DataFrame(np.random.randint(-20, 50, 100).reshape(10,-1))
print(df)

    0   1   2   3   4   5   6   7   8   9
0  -8 -12 -17   2   3  -7  19  24  31  30
1  39  28  44  43  -6  -9  -7  15  47  34
2  -6  -2  24  46  28  38 -12  45  -1  37
3  37  19  45 -15  48  -2  -7   8  11   7
4  -6  -3  38  39  30  -1  25  35  25  -3
5  38  30  28 -14  13  44  21  38  14  28
6  18  36  -9 -17  23 -16  44 -12  11   0
7   9   5   4  10  17   6 -10   6  47 -14
8  43  28  47  26  37  31  16  -5 -18   7
9  12  30  17  46  -3 -16 -11   4  -3 -14


In [17]:
# 步骤1:删除负数
arr = df[df > 0].values.flatten()
arr_qualified = arr[~np.isnan(arr)]
arr_qualified

array([ 2.,  3., 19., 24., 31., 30., 39., 28., 44., 43., 15., 47., 34.,
       24., 46., 28., 38., 45., 37., 37., 19., 45., 48.,  8., 11.,  7.,
       38., 39., 30., 25., 35., 25., 38., 30., 28., 13., 44., 21., 38.,
       14., 28., 18., 36., 23., 44., 11.,  9.,  5.,  4., 10., 17.,  6.,
        6., 47., 43., 28., 47., 26., 37., 31., 16.,  7., 12., 30., 17.,
       46.,  4.])

In [18]:
# 步骤2: 计算正方形的边长

n = int(np.floor(arr_qualified.shape[0]**.5))
n

8

In [19]:
# 步骤3: 整形为要求的正方形
top_indexes = np.argsort(arr_qualified)[::-1]
output = np.take(arr_qualified, sorted(top_indexes[:n**2])).reshape(n, -1)
print(output)

[[19. 24. 31. 30. 39. 28. 44. 43.]
 [15. 47. 34. 24. 46. 28. 38. 45.]
 [37. 37. 19. 45. 48.  8. 11.  7.]
 [38. 39. 30. 25. 35. 25. 38. 30.]
 [28. 13. 44. 21. 38. 14. 28. 18.]
 [36. 23. 44. 11.  9.  5. 10. 17.]
 [ 6.  6. 47. 43. 28. 47. 26. 37.]
 [31. 16.  7. 12. 30. 17. 46.  4.]]


交换dataframe的两行

In [20]:
df = pd.DataFrame(np.arange(25).reshape(5, -1))
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19
4,20,21,22,23,24


In [21]:
a, b = df.iloc[1, :].copy(), df.iloc[2, :].copy()
df.iloc[1, :], df.iloc[2, :] = b, a
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,10,11,12,13,14
2,5,6,7,8,9
3,15,16,17,18,19
4,20,21,22,23,24


dataframe行倒序排序

In [24]:
df.iloc[::-1, :]

Unnamed: 0,0,1,2,3,4
4,20,21,22,23,24
3,15,16,17,18,19
2,5,6,7,8,9
1,10,11,12,13,14
0,0,1,2,3,4


对分类数据进行one-hot编码
One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，
每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。
One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。
然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。

In [25]:
df = pd.DataFrame(np.arange(25).reshape(5,-1), columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19
4,20,21,22,23,24


计算 每行的最近行(使用欧几里得距离)

In [27]:
nearest = {}
for i, row in df.iterrows():
    c = ((df - row)**2).sum(axis = 1).argsort()
    for j in c:
        if j != i:
            break
    nearest[i] = j
print(nearest)

{0: 1, 1: 0, 2: 1, 3: 2, 4: 3}
