In [1]:
import pandas as pd

#读入数据
data = pd.read_csv('data.csv')
data.head()

Unnamed: 0,year,name,gender,count
0,1880,Mary,F,7065
1,1880,Anna,F,2604
2,1880,Emma,F,2003
3,1880,Elizabeth,F,1939
4,1880,Minnie,F,1746


In [2]:
#查看各列数据类型、数据框行列数
print(data.dtypes)
print()
print(data.shape)

year       int64
name      object
gender    object
count      int64
dtype: object

(1957046, 4)


# 二、非聚合类方法

## 2.1 map()

* 字典映射

In [3]:
#定义F->女性，M->男性的映射字典
gender2xb = {'F': '女性', 'M': '男性'}
#利用map()方法得到对应gender列的映射列
data.gender.map(gender2xb)

0          女性
1          女性
2          女性
3          女性
4          女性
           ..
1957041    男性
1957042    男性
1957043    男性
1957044    男性
1957045    男性
Name: gender, Length: 1957046, dtype: object

* lambda函数

In [4]:
#因为已经知道数据gender列性别中只有F和M所以编写如下lambda函数
data.gender.map(lambda x:'女性' if x is 'F' else '男性')

0          女性
1          女性
2          女性
3          女性
4          女性
           ..
1957041    男性
1957042    男性
1957043    男性
1957044    男性
1957045    男性
Name: gender, Length: 1957046, dtype: object

* 常规函数

In [5]:
def gender_to_xb(x):

    return '女性' if x is 'F' else '男性'

data.gender.map(gender_to_xb)

0          女性
1          女性
2          女性
3          女性
4          女性
           ..
1957041    男性
1957042    男性
1957043    男性
1957044    男性
1957045    男性
Name: gender, Length: 1957046, dtype: object

* 特殊对象

In [6]:
data.gender.map("This kid's gender is {}".format)

0          This kid's gender is F
1          This kid's gender is F
2          This kid's gender is F
3          This kid's gender is F
4          This kid's gender is F
                    ...          
1957041    This kid's gender is M
1957042    This kid's gender is M
1957043    This kid's gender is M
1957044    This kid's gender is M
1957045    This kid's gender is M
Name: gender, Length: 1957046, dtype: object

## 2.2 apply()

* 单列数据

In [7]:
data.gender.apply(lambda x:'女性' if x is 'F' else '男性')

0          女性
1          女性
2          女性
3          女性
4          女性
           ..
1957041    男性
1957042    男性
1957043    男性
1957044    男性
1957045    男性
Name: gender, Length: 1957046, dtype: object

* 输入多列数据

In [8]:
def generate_descriptive_statement(year, name, gender, count):
    year, count = str(year), str(count)
    gender = '女性' if gender is 'F' else '男性'
    
    return '在{}年，叫做{}性别为{}的新生儿有{}个。'.format(year, name, gender, count)

data.apply(lambda row:generate_descriptive_statement(row['year'],
                                                      row['name'],
                                                      row['gender'],
                                                      row['count']),
           axis = 1)

0               在1880年，叫做Mary性别为女性的新生儿有7065个。
1               在1880年，叫做Anna性别为女性的新生儿有2604个。
2               在1880年，叫做Emma性别为女性的新生儿有2003个。
3          在1880年，叫做Elizabeth性别为女性的新生儿有1939个。
4             在1880年，叫做Minnie性别为女性的新生儿有1746个。
                          ...                
1957041           在2018年，叫做Zylas性别为男性的新生儿有5个。
1957042           在2018年，叫做Zyran性别为男性的新生儿有5个。
1957043           在2018年，叫做Zyrie性别为男性的新生儿有5个。
1957044           在2018年，叫做Zyron性别为男性的新生儿有5个。
1957045           在2018年，叫做Zzyzx性别为男性的新生儿有5个。
Length: 1957046, dtype: object

* 输出多列数据

In [9]:
data.apply(lambda row: (row['name'][0], row['name'][1:]), axis=1)

0               (M, ary)
1               (A, nna)
2               (E, mma)
3          (E, lizabeth)
4             (M, innie)
               ...      
1957041        (Z, ylas)
1957042        (Z, yran)
1957043        (Z, yrie)
1957044        (Z, yron)
1957045        (Z, zyzx)
Length: 1957046, dtype: object

In [10]:
a, b = zip(*data.apply(lambda row: (row['name'][0], row['name'][1:]), axis=1))
print(a[:10])
print(b[:10])

('M', 'A', 'E', 'E', 'M', 'M', 'I', 'A', 'B', 'S')
('ary', 'nna', 'mma', 'lizabeth', 'innie', 'argaret', 'da', 'lice', 'ertha', 'arah')


* 结合tqdm给apply()过程添加进度条

In [11]:
from tqdm import tqdm

def generate_descriptive_statement(year, name, gender, count):
    year, count = str(year), str(count)
    gender = '女性' if gender is 'F' else '男性'
    
    return '在{}年，叫做{}性别为{}的新生儿有{}个。'.format(year, name, gender, count)

#启动对紧跟着的apply过程的监视
tqdm.pandas(desc='apply')
data.progress_apply(lambda row:generate_descriptive_statement(row['year'],
                                                      row['name'],
                                                      row['gender'],
                                                      row['count']),
          axis = 1)

  from pandas import Panel
apply: 100%|██████████████████████████████████████████████████████████████| 1957046/1957046 [00:42<00:00, 46199.84it/s]


0               在1880年，叫做Mary性别为女性的新生儿有7065个。
1               在1880年，叫做Anna性别为女性的新生儿有2604个。
2               在1880年，叫做Emma性别为女性的新生儿有2003个。
3          在1880年，叫做Elizabeth性别为女性的新生儿有1939个。
4             在1880年，叫做Minnie性别为女性的新生儿有1746个。
                          ...                
1957041           在2018年，叫做Zylas性别为男性的新生儿有5个。
1957042           在2018年，叫做Zyran性别为男性的新生儿有5个。
1957043           在2018年，叫做Zyrie性别为男性的新生儿有5个。
1957044           在2018年，叫做Zyron性别为男性的新生儿有5个。
1957045           在2018年，叫做Zzyzx性别为男性的新生儿有5个。
Length: 1957046, dtype: object

* 结合tqdm_notebook()给apply()过程添加美观进度条

In [12]:
from tqdm._tqdm_notebook import tqdm_notebook

tqdm_notebook.pandas(desc='apply')
data.progress_apply(lambda row:generate_descriptive_statement(row['year'],
                                                      row['name'],
                                                      row['gender'],
                                                      row['count']),
          axis = 1)

Please use `tqdm.notebook.*` instead of `tqdm._tqdm_notebook.*`
  """Entry point for launching an IPython kernel.


HBox(children=(FloatProgress(value=0.0, description='apply', max=1957046.0, style=ProgressStyle(description_wi…




0               在1880年，叫做Mary性别为女性的新生儿有7065个。
1               在1880年，叫做Anna性别为女性的新生儿有2604个。
2               在1880年，叫做Emma性别为女性的新生儿有2003个。
3          在1880年，叫做Elizabeth性别为女性的新生儿有1939个。
4             在1880年，叫做Minnie性别为女性的新生儿有1746个。
                          ...                
1957041           在2018年，叫做Zylas性别为男性的新生儿有5个。
1957042           在2018年，叫做Zyran性别为男性的新生儿有5个。
1957043           在2018年，叫做Zyrie性别为男性的新生儿有5个。
1957044           在2018年，叫做Zyron性别为男性的新生儿有5个。
1957045           在2018年，叫做Zzyzx性别为男性的新生儿有5个。
Length: 1957046, dtype: object

## 2.3 applymap()

In [13]:
def lower_all_string(x):
    if isinstance(x, str):
        return x.lower()
    else:
        return x

data.applymap(lower_all_string)

Unnamed: 0,year,name,gender,count
0,1880,mary,f,7065
1,1880,anna,f,2604
2,1880,emma,f,2003
3,1880,elizabeth,f,1939
4,1880,minnie,f,1746
...,...,...,...,...
1957041,2018,zylas,m,5
1957042,2018,zyran,m,5
1957043,2018,zyrie,m,5
1957044,2018,zyron,m,5


In [14]:
data.applymap(lower_all_string).shape == data.shape

True

# 三、聚合类方法

## 3.1 利用groupby()进行分组

In [15]:
#按照年份和性别对婴儿姓名数据进行分组
groups = data.groupby(by=['year','gender'])
#查看groups类型
type(groups)

pandas.core.groupby.generic.DataFrameGroupBy

In [16]:
#利用列表解析提取分组结果
groups = [group for group in groups]
groups[0]

((1880, 'F'),
      year       name gender  count
 0    1880       Mary      F   7065
 1    1880       Anna      F   2604
 2    1880       Emma      F   2003
 3    1880  Elizabeth      F   1939
 4    1880     Minnie      F   1746
 ..    ...        ...    ...    ...
 937  1880        Ula      F      5
 938  1880     Vannie      F      5
 939  1880     Verona      F      5
 940  1880     Vertie      F      5
 941  1880      Wilma      F      5
 
 [942 rows x 4 columns])

* 直接调用聚合函数

In [17]:
#求每个分组中最高频次
data.groupby(by=['year','gender'])['count'].max()

year  gender
1880  F          7065
      M          9655
1881  F          6919
      M          8769
1882  F          8148
                ...  
2016  M         19117
2017  F         19800
      M         18798
2018  F         18688
      M         19837
Name: count, Length: 278, dtype: int64

In [18]:
#使用reset_index(drop=False)还原数据框
data.groupby(by=['year','gender'])['count'].max().reset_index(drop=False)

Unnamed: 0,year,gender,count
0,1880,F,7065
1,1880,M,9655
2,1881,F,6919
3,1881,M,8769
4,1882,F,8148
...,...,...,...
273,2016,M,19117
274,2017,F,19800
275,2017,M,18798
276,2018,F,18688


* 结合apply()

In [19]:
import numpy as np

def find_most_name(df):
    return str(np.max(df['count']))+'-'+df['name'][df['count'].idxmax()]

data.groupby(['year','gender']).apply(find_most_name).reset_index(drop=False)

Unnamed: 0,year,gender,0
0,1880,F,7065-Mary
1,1880,M,9655-John
2,1881,F,6919-Mary
3,1881,M,8769-John
4,1882,F,8148-Mary
...,...,...,...
273,2016,M,19117-Noah
274,2017,F,19800-Emma
275,2017,M,18798-Liam
276,2018,F,18688-Emma


## 3.2 利用agg()进行更灵活的聚合

* 聚合Series

In [20]:
#求count列的最小值、最大值以及中位数
data['count'].agg(['min','max','median'])

min           5.0
max       99689.0
median       12.0
Name: count, dtype: float64

* 聚合数据框

In [21]:
data.agg({'year': ['max','min'], 'count': ['mean','std']})

Unnamed: 0,year,count
max,2018.0,
mean,,179.685621
min,1880.0,
std,,1522.803579


* 聚合groupby()结果

In [22]:
data.groupby(['year','gender']).agg({'count':['min','max','median']}).reset_index(drop=False)

Unnamed: 0_level_0,year,gender,count,count,count
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,max,median
0,1880,F,5,7065,13.0
1,1880,M,5,9655,12.0
2,1881,F,5,6919,13.5
3,1881,M,5,8769,13.0
4,1882,F,5,8148,13.0
...,...,...,...,...,...
273,2016,M,5,19117,12.0
274,2017,F,5,19800,12.0
275,2017,M,5,18798,11.0
276,2018,F,5,18688,12.0


In [23]:
data.groupby(['year','gender']).agg(
    min_count=pd.NamedAgg(column='count', aggfunc='min'),
    max_count=pd.NamedAgg(column='count', aggfunc='max'),
    median=pd.NamedAgg(column='count', aggfunc='median')).reset_index(drop=False)

Unnamed: 0,year,gender,min_count,max_count,median
0,1880,F,5,7065,13.0
1,1880,M,5,9655,12.0
2,1881,F,5,6919,13.5
3,1881,M,5,8769,13.0
4,1882,F,5,8148,13.0
...,...,...,...,...,...
273,2016,M,5,19117,12.0
274,2017,F,5,19800,12.0
275,2017,M,5,18798,11.0
276,2018,F,5,18688,12.0
