In [1]:
import pandas as pd
import numpy as np

#### 重复值判断和处理

DataFrame/Series.duplicated(subset,keep = 'first')  
subset:用于识别重复值的列表前或者标签序列，默认识别所有  
keep：重复数据的查找方式  
-first:从前往后找，除了第一个数据外，其余都被标记为重复数据  
-last:与first相反
-False:所有相同的数据都被标记为重复数据

In [2]:
df = pd.DataFrame({
    'id':[1,2,3,3,4],
    'name':['小明','刘华','张三','张三','李四'],
    'age':[18,18,20,20,1]
}
)
df

Unnamed: 0,id,name,age
0,1,小明,18
1,2,刘华,18
2,3,张三,20
3,3,张三,20
4,4,李四,1


In [3]:
# 默认keep参数为first，即从前往后找，除了第一个数据外，其余都被标记为重复数据
df.duplicated()
# 只有数据全部重复的时候才会被判断为重复值

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [4]:
# 注意keep可选参数没有True
df.duplicated(keep=False)

0    False
1    False
2     True
3     True
4    False
dtype: bool

In [5]:
# 直接获取到重复值
df[df.duplicated()]

Unnamed: 0,id,name,age
3,3,张三,20


In [6]:
# 统计df中的重复值的数据量
df.duplicated(keep = False).sum()

2

In [7]:
# 对某一列数据进行重复值统计
df['age'].duplicated()

0    False
1     True
2    False
3     True
4    False
Name: age, dtype: bool

2.删除重复值  
DataFrame/Series.drop_duplicates(subset = None, keep = 'first', inplace = False)   
subset:用于识别的列或者列标签，默认时识别所有  
keep：重复数据的查找方式
-first:从前往后找，除了第一个数据外，其余都被标记为重复数据
-last:与first相反 -False:所有相同的数据都被标记为重复数据
-False:所有相同的数据都被标记为重复数据  
**注意**：keep中没有True参数

In [8]:
help(df.drop_duplicates)

Help on method drop_duplicates in module pandas.core.frame:

drop_duplicates(subset: 'Hashable | Sequence[Hashable] | None' = None, keep: "Literal['first'] | Literal['last'] | Literal[False]" = 'first', inplace: 'bool' = False, ignore_index: 'bool' = False) -> 'DataFrame | None' method of pandas.core.frame.DataFrame instance
    Return DataFrame with duplicate rows removed.
    
    Considering certain columns is optional. Indexes, including time indexes
    are ignored.
    
    Parameters
    ----------
    subset : column label or sequence of labels, optional
        Only consider certain columns for identifying duplicates, by
        default use all of the columns.
    keep : {'first', 'last', False}, default 'first'
        Determines which duplicates (if any) to keep.
        - ``first`` : Drop duplicates except for the first occurrence.
        - ``last`` : Drop duplicates except for the last occurrence.
        - False : Drop all duplicates.
    inplace : bool, default False
  

In [9]:
df.drop_duplicates()

Unnamed: 0,id,name,age
0,1,小明,18
1,2,刘华,18
2,3,张三,20
4,4,李四,1


In [10]:
df

Unnamed: 0,id,name,age
0,1,小明,18
1,2,刘华,18
2,3,张三,20
3,3,张三,20
4,4,李四,1


In [11]:
# 根据指定列来删除数据
df.drop_duplicates('age')

Unnamed: 0,id,name,age
0,1,小明,18
2,3,张三,20
4,4,李四,1


#### str属性

In [12]:
s = pd.Series(['a','ab','aba','abac','abaca'])
s

0        a
1       ab
2      aba
3     abac
4    abaca
dtype: object

In [13]:
# 如果需要对数据总的字符串进行相关操作，那么需要使用数据对象.str.函数名的方式
s.str.count('a')

0    1
1    1
2    2
3    2
4    3
dtype: int64

In [14]:
df2 = pd.DataFrame({
    'A':['你好','好的','数据中的字符串'],
    'B':['道可道','北冥有鱼','其名为鲲']
})
df2

Unnamed: 0,A,B
0,你好,道可道
1,好的,北冥有鱼
2,数据中的字符串,其名为鲲


In [15]:
# 统计某列中的字符出现字数，需要Series才可以调用str
df2['A'].str.count('好')

0    1
1    1
2    0
Name: A, dtype: int64

In [16]:
#小写字母转大写
s.str.upper()

0        A
1       AB
2      ABA
3     ABAC
4    ABACA
dtype: object

In [17]:
# df.str 会报错

#### 异常值处理

In [18]:
data = [87,77,92,68,80,78,84,77,81,60,77,92,86,876,80,81,75,77,72,81,
        72,84,86,80,68,77,87,9976,77,78,92,75,80,78,123,3,1223,1232,-6000]
df3 = pd.DataFrame(data,columns=['value'])
df3

Unnamed: 0,value
0,87
1,77
2,92
3,68
4,80
5,78
6,84
7,77
8,81
9,60


In [19]:
# 计算平均值
u = df3['value'].mean()
u

255.69230769230768

In [20]:
# 标准差
data_std = df3['value'].std()
data_std

1898.5443752884132

In [21]:
df3['value'].describe()

count      39.000000
mean      255.692308
std      1898.544375
min     -6000.000000
25%        77.000000
50%        80.000000
75%        86.500000
max      9976.000000
Name: value, dtype: float64

In [22]:
# 异常值：小于μ-3σ以及大于μ+3σ的数据
# 小于μ-3σ的数据
d = df3['value']<u - 3*data_std
d.sum()

1

In [23]:
# 大于μ+3σ的数据
d1 = df3['value']>u + 3*data_std
d1.sum()

1

In [24]:
df3[df3['value']>u + 3*data_std]

Unnamed: 0,value
27,9976


In [25]:
# 化简、合并
error = df3[np.abs(df3['value'] - u) > 3*data_std]
error

Unnamed: 0,value
27,9976
38,-6000


#### 分组和聚合

DataFrame/Series.groupby(by, axis = 0, sort = True)  
by: 用于进行分组的依据  
axis：数据处理的方向  
sort：是否对分组标签进行排序  

In [26]:
df4 = pd.DataFrame({
    'key':['c','c','a','a','b','b','a','c'],
    'Data':[1,0,1,2,3,4,7,8]
})
df4

Unnamed: 0,key,Data
0,c,1
1,c,0
2,a,1
3,a,2
4,b,3
5,b,4
6,a,7
7,c,8


In [27]:
df4.groupby('key')
# groupby会对数据进行分组并返回groupby对象，该对象实际上没有进行计算，只是包含一些关于分组键中的数据
# 使用Series调用groupby返回的是SeriesGroupBy,使用DataFrame调用groupby返回的是DataFrameGroupBy对象

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002DA091E0B08>

In [28]:
# 如果需要查看到groupby分组的结果那么需要使用循环进行获取
group_by = df4.groupby('key')
for i in group_by:
    print(i)

('a',   key  Data
2   a     1
3   a     2
6   a     7)
('b',   key  Data
4   b     3
5   b     4)
('c',   key  Data
0   c     1
1   c     0
7   c     8)


In [29]:
se = pd.Series(['第一组','第二组','第一组','第二组','第三组'])
se

0    第一组
1    第二组
2    第一组
3    第二组
4    第三组
dtype: object

In [30]:
# 使用不等长的Series来进行分组  
group_by1 = df4.groupby(se)
for i in group_by1:
    print(i)
# 由于se中只有5行数据，所以在进行分组的时候只会对df4中的前5行数据进行操作

('第一组',   key  Data
0   c     1
2   a     1)
('第三组',   key  Data
4   b     3)
('第二组',   key  Data
1   c     0
3   a     2)


In [31]:
# 使用字典来进行分组
# 字典格式：{‘数据对象中的列名’：‘值为自定义的分组名’}
df5 = pd.DataFrame({
    'a':[1,2,3],
    'b':[4,5,6],
    'c':[7,8,9],
    'e':[12,15,6],
    'f':[4.2,5.0,9.3]
})
df5

Unnamed: 0,a,b,c,e,f
0,1,4,7,12,4.2
1,2,5,8,15,5.0
2,3,6,9,6,9.3


In [32]:
groupby_dict = {
    'a':'第一组',
    'b':'第二组',
    'c':'第一组',
    'd':'第三组',
    'e':'第一组',
    'f':'第三组'
}
groupby_dict

{'a': '第一组', 'b': '第二组', 'c': '第一组', 'd': '第三组', 'e': '第一组', 'f': '第三组'}

In [33]:
groupby2 = df5.groupby(groupby_dict,axis = 1)
for i in groupby2:
    print(i)


('第一组',    a  c   e
0  1  7  12
1  2  8  15
2  3  9   6)
('第三组',      f
0  4.2
1  5.0
2  9.3)
('第二组',    b
0  4
1  5
2  6)


使用函数的方式进行分组  
使用函数的方式进行分组会比前2中方式更灵活。任何一个被当做分组键的函数都会在每一个索引值上被调用。  
函数的返回值就是用于分组的名称 


In [34]:
df6 = pd.DataFrame({
    'as':[1,2,3,1,1.0],
    'baf':[4,5,6,-2,-3.0],
    'cza':[7,8,9,10,12],
    'e':[12,15,6,3.0,3.6],
    'f':[4.2,5.0,9.3,0,1]
},index = ['Sun','Jack','Alice','Helen','Job'])
df6

Unnamed: 0,as,baf,cza,e,f
Sun,1.0,4.0,7,12.0,4.2
Jack,2.0,5.0,8,15.0,5.0
Alice,3.0,6.0,9,6.0,9.3
Helen,1.0,-2.0,10,3.0,0.0
Job,1.0,-3.0,12,3.6,1.0


In [35]:
# 使用Python内置函数来进行分组
group_by5 = df6.groupby(len) #使用内置函数时不需要加引号和括号  
for i in group_by5:
    print(i)

(3,       as  baf  cza     e    f
Sun  1.0  4.0    7  12.0  4.2
Job  1.0 -3.0   12   3.6  1.0)
(4,        as  baf  cza     e    f
Jack  2.0  5.0    8  15.0  5.0)
(5,         as  baf  cza    e    f
Alice  3.0  6.0    9  6.0  9.3
Helen  1.0 -2.0   10  3.0  0.0)


In [36]:
# 使用Python内置函数来进行分组
group_by6 = df6.groupby(len,axis = 1) #使用内置函数时不需要加引号和括号  
for i in group_by6:
    print(i)

(1,           e    f
Sun    12.0  4.2
Jack   15.0  5.0
Alice   6.0  9.3
Helen   3.0  0.0
Job     3.6  1.0)
(2,         as
Sun    1.0
Jack   2.0
Alice  3.0
Helen  1.0
Job    1.0)
(3,        baf  cza
Sun    4.0    7
Jack   5.0    8
Alice  6.0    9
Helen -2.0   10
Job   -3.0   12)


In [37]:
df7 = pd.DataFrame({
    'as':[1,2,3,1,1.0],
    'baf':[4,5,6,-2,-3.0],
    'cza':[7,8,9,10,12],
    'e':[12,15,6,3.0,3.6],
    'f':[4.2,5.0,9.3,0,1]
})
df7

Unnamed: 0,as,baf,cza,e,f
0,1.0,4.0,7,12.0,4.2
1,2.0,5.0,8,15.0,5.0
2,3.0,6.0,9,6.0,9.3
3,1.0,-2.0,10,3.0,0.0
4,1.0,-3.0,12,3.6,1.0


In [38]:
# 使用自定义函数进行分组
def fz(x):
    if x%2 == 0:
        return '偶数行'
    else:
        return '奇数行'
data = df7.groupby(fz)
for i in data:
    print(i)
# 在使用函数进行分组的时候，函数传入的值都似乎行索引或列索引，具体是哪个索引根据axis的值发送变化

('偶数行',     as  baf  cza     e    f
0  1.0  4.0    7  12.0  4.2
2  3.0  6.0    9   6.0  9.3
4  1.0 -3.0   12   3.6  1.0)
('奇数行',     as  baf  cza     e    f
1  2.0  5.0    8  15.0  5.0
3  1.0 -2.0   10   3.0  0.0)


#### 聚合

数据聚合一般是指对分组中的数据进行某些操作，比如说求平均值、最大值、方差等，并且操作后会得到一个结果集合

In [43]:
df9 = pd.DataFrame({
    'key':['男生','女生','男生','男生','女生','男生','女生'],
    'cj':[60,85,67,89,np.nan,68,98],
    'weight':[120,115,135,134,123,89,100]
})
df9

Unnamed: 0,key,cj,weight
0,男生,60.0,120
1,女生,85.0,115
2,男生,67.0,135
3,男生,89.0,134
4,女生,,123
5,男生,68.0,89
6,女生,98.0,100


In [40]:
# 分组
# 1.可以使用数据对象的一些列；2.使用Python内置函数或自定义函数；
# 3.使用字典的方式进行分组；4.使用Series对象来进行分组
df9.groupby('key').min() #先按照key进行分组，再求返回每个组最小值

Unnamed: 0_level_0,cj,weight
key,Unnamed: 1_level_1,Unnamed: 2_level_1
女生,65,100
男生,60,89


In [41]:
for i in df9.groupby('key'):print(i)

('女生',   key  cj  weight
1  女生  85     115
4  女生  65     123
6  女生  98     100)
('男生',   key  cj  weight
0  男生  60     120
2  男生  67     135
3  男生  89     134
5  男生  68      89)


In [42]:
np.nan+10**10

nan

In [44]:
# 如果参与计算的数据中有nan值，那么在计算的时候会自动过滤这个空值# 
df9.groupby('key').mean()

Unnamed: 0_level_0,cj,weight
key,Unnamed: 1_level_1,Unnamed: 2_level_1
女生,91.5,112.666667
男生,71.0,119.5


面向列的聚合方法：  
当内置函数无法满足聚合的要求时，可以自定义一个函数，将它传个agg（），就可以实现对DataFrame和Series对象聚合运算  
语法:  
DataFrame.agg(func=None,axis = 0)  
func:用于计算的函数，可以是内置函数也可以是自定义函数

In [56]:
data_f = pd.DataFrame(np.arange(36).reshape(6,6),columns = list('abcdef'))
data_f

Unnamed: 0,a,b,c,d,e,f
0,0,1,2,3,4,5
1,6,7,8,9,10,11
2,12,13,14,15,16,17
3,18,19,20,21,22,23
4,24,25,26,27,28,29
5,30,31,32,33,34,35


In [57]:
data_f['key'] = pd.Series(list('ABABAB'),name = 'key')
data_f

Unnamed: 0,a,b,c,d,e,f,key
0,0,1,2,3,4,5,A
1,6,7,8,9,10,11,B
2,12,13,14,15,16,17,A
3,18,19,20,21,22,23,B
4,24,25,26,27,28,29,A
5,30,31,32,33,34,35,B


In [58]:
data_group = data_f.groupby('key')
for i in data_group:
    print(i)

('A',     a   b   c   d   e   f key
0   0   1   2   3   4   5   A
2  12  13  14  15  16  17   A
4  24  25  26  27  28  29   A)
('B',     a   b   c   d   e   f key
1   6   7   8   9  10  11   B
3  18  19  20  21  22  23   B
5  30  31  32  33  34  35   B)


In [59]:
data_f.agg(sum) #axis=0

a          90
b          96
c         102
d         108
e         114
f         120
key    ABABAB
dtype: object

In [62]:
data_f1 = pd.DataFrame(np.arange(36).reshape(6,6),columns = list('abcdef'))
data_f1

Unnamed: 0,a,b,c,d,e,f
0,0,1,2,3,4,5
1,6,7,8,9,10,11
2,12,13,14,15,16,17
3,18,19,20,21,22,23
4,24,25,26,27,28,29
5,30,31,32,33,34,35


In [63]:
data_f1.agg(sum,axis =1) #axis=1

0     15
1     51
2     87
3    123
4    159
5    195
dtype: int64

In [65]:
# 自定义函数  
def max_min(x):# 形参x是每列的数据
    # 无论是在聚合的时候使用自定义函数还是分组的时候使用一定一定要有返回值
    return x.max()-x.min()
data_f1.agg(max_min)

a    30
b    30
c    30
d    30
e    30
f    30
dtype: int32

In [66]:
# 对不同的列使用不同的函数
data_f.agg({
    #格式：‘列名’：函数名
    'a':'sum',
    'b':'mean',
    'c':'var',
    'd':max_min,
    'e':max_min,
    'f':max_min,
    'key':'sum'
})
# 对于自定义函数而言不需要写引号，pandas内置函数需要引号

a          90
b        16.0
c       126.0
d          30
e          30
f          30
key    ABABAB
dtype: object

In [67]:
# 对同一列使用多个函数
data_f1.agg([max_min,sum])

Unnamed: 0,a,b,c,d,e,f
max_min,30,30,30,30,30,30
sum,90,96,102,108,114,120


#### 分组级运算

transform(fuc,axis = 0)  
func:计算函数  
axis:轴方向，函数应用的方向

In [68]:
#这里使用了数据对象本身的数据来进行了分组，所以结果中没有分组依据的数据
data_f.groupby('key').transform('mean')

Unnamed: 0,a,b,c,d,e,f
0,12.0,13.0,14.0,15.0,16.0,17.0
1,18.0,19.0,20.0,21.0,22.0,23.0
2,12.0,13.0,14.0,15.0,16.0,17.0
3,18.0,19.0,20.0,21.0,22.0,23.0
4,12.0,13.0,14.0,15.0,16.0,17.0
5,18.0,19.0,20.0,21.0,22.0,23.0


In [70]:
for i in data_f.groupby('key'):print(i)

('A',     a   b   c   d   e   f key
0   0   1   2   3   4   5   A
2  12  13  14  15  16  17   A
4  24  25  26  27  28  29   A)
('B',     a   b   c   d   e   f key
1   6   7   8   9  10  11   B
3  18  19  20  21  22  23   B
5  30  31  32  33  34  35   B)


In [71]:
data_f1

Unnamed: 0,a,b,c,d,e,f
0,0,1,2,3,4,5
1,6,7,8,9,10,11
2,12,13,14,15,16,17
3,18,19,20,21,22,23
4,24,25,26,27,28,29
5,30,31,32,33,34,35


In [73]:
s = pd.Series(['A','C','B','A','B','C'])
s

0    A
1    C
2    B
3    A
4    B
5    C
dtype: object

In [75]:
for i in data_f1.groupby(s):print(i)

('A',     a   b   c   d   e   f
0   0   1   2   3   4   5
3  18  19  20  21  22  23)
('B',     a   b   c   d   e   f
2  12  13  14  15  16  17
4  24  25  26  27  28  29)
('C',     a   b   c   d   e   f
1   6   7   8   9  10  11
5  30  31  32  33  34  35)


In [76]:
data_f.groupby(s).transform('mean')

  """Entry point for launching an IPython kernel.


Unnamed: 0,a,b,c,d,e,f
0,9.0,10.0,11.0,12.0,13.0,14.0
1,18.0,19.0,20.0,21.0,22.0,23.0
2,18.0,19.0,20.0,21.0,22.0,23.0
3,9.0,10.0,11.0,12.0,13.0,14.0
4,18.0,19.0,20.0,21.0,22.0,23.0
5,18.0,19.0,20.0,21.0,22.0,23.0
