Series: Series 是一种一维数组对象，包含了一个值序列，并且包含了数据标签，称为索引（index），可通过索引来访问数组中的数据。  
`pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)`

In [1]:
import pandas as pd
obj = pd.Series([1, -2, 3, -4]) #仅有一个数组构成
print(obj)

0    1
1   -2
2    3
3   -4
dtype: int64


创建Series时指定索引

In [2]:
i = ["a", "c", "d", "a"]
v = [2, 4, 5, 7]
t = pd.Series(v, index = i, name = "col")
print(t)

a    2
c    4
d    5
a    7
Name: col, dtype: int64


Series位置和标签的使用

In [3]:
val=[2,4,5,6]
idx1=range(10,14)
idx2="hello the cruel world".split()
s0=pd.Series(val)
s1=pd.Series(val,index=idx1)
t=pd.Series(val,index=idx2)
print(s0.index)
print(s1.index)
print(t.index)
print(s0[0])
print(s1[10])
print('default:',t[0],'label:',t["hello"])

RangeIndex(start=0, stop=4, step=1)
RangeIndex(start=10, stop=14, step=1)
Index(['hello', 'the', 'cruel', 'world'], dtype='object')
2
2
default: 2 label: 2


如果数据被存放在一个Python字典中，也可以直接通过这个字典来创建Series。

In [4]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
print(obj3)


Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


键值和指定的索引不匹配

In [5]:
sdata = {"a" : 100, "b" : 200, "e" : 300}
letter = ["a", "b","c"  , "e" ]
obj =  pd.Series(sdata, index = letter)
print(obj)


a    100.0
b    200.0
c      NaN
e    300.0
dtype: float64


不同索引数据的自动对齐

In [6]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj1 = pd.Series(sdata)
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj2 = pd.Series(sdata, index = states)
print(obj1+obj2)


California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


Series索引的修改

In [7]:
obj = pd.Series([4,7,-3,2])
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
print(obj)


Bob      4
Steve    7
Jeff    -3
Ryan     2
dtype: int64


DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。  
`pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
`


In [8]:
data = {
    'name':['张三', '李四', '王五', '小明'],
    'sex':['female', 'female', 'male', 'male'],
    'year':[2001, 2001, 2003, 2002],
    'city':['北京', '上海', '广州', '北京']
}
df = pd.DataFrame(data)
print(df)


  name     sex  year city
0   张三  female  2001   北京
1   李四  female  2001   上海
2   王五    male  2003   广州
3   小明    male  2002   北京


DataFrame的索引  



In [9]:
df1 = pd.DataFrame(data, columns = ['name', 'year', 'sex', 'city'])
print(df1)


  name  year     sex city
0   张三  2001  female   北京
1   李四  2001  female   上海
2   王五  2003    male   广州
3   小明  2002    male   北京


跟Series一样，如果传入的列在数据中找不到，就会产生NA值  
DataFrame创建时的空缺值

In [10]:
df2 = pd.DataFrame(data, columns = ['name', 'year', 'sex', 'city','address'])
print(df2)


  name  year     sex city address
0   张三  2001  female   北京     NaN
1   李四  2001  female   上海     NaN
2   王五  2003    male   广州     NaN
3   小明  2002    male   北京     NaN


DataFrame构造函数的columns函数给出列的名字，index给出label标签  
DataFrame创建时指定列名


In [11]:
df3 = pd.DataFrame(data, columns = ['name', 'sex', 'year', 'city'], index = ['a', 'b', 'c', 'd'])
print(df3)


  name     sex  year city
a   张三  female  2001   北京
b   李四  female  2001   上海
c   王五    male  2003   广州
d   小明    male  2002   北京


DataFrame的属性  

| **函数** | **返回值**           |
| -------- | -------------------- |
| values   | 元素                 |
| index    | 索引                 |
| columns  | 列名                 |
| dtypes   | 类型                 |
| size     | 元素个数             |
| ndim     | 维度数               |
| shape    | 数据形状（行列数目） |

### 索引对象  
Pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。构建Series或 DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index。
显示DataFrame的索引和列。
  

In [12]:
print(df) 
print(df.index)
print(df.columns)


  name     sex  year city
0   张三  female  2001   北京
1   李四  female  2001   上海
2   王五    male  2003   广州
3   小明    male  2002   北京
RangeIndex(start=0, stop=4, step=1)
Index(['name', 'sex', 'year', 'city'], dtype='object')


DataFrame的Index


In [13]:
print('name' in df.columns)
print('f' in df.index)


True
False


每个索引都有一些方法和属性，它们可用于设置逻辑并回答有关该索引所包含的数据的常见问题。  

| 方法         | 说明                                               |
| ------------ | -------------------------------------------------- |
| append       | 连接另一个Index对象，产生一个新的Index             |
| diff         | 计算差集，并得到一个Index                          |
| intersection | 计算交集                                           |
| union        | 计算并集                                           |
| isin         | 计算一个指示各值是否都包含在参数集合中的布尔型数组 |
| delete       | 删除索引i处的元素，并得到新的Index                 |
| drop         | 删除传入的值，并得到新的Index                      |
| insert       | 将元素插入到索引i处，并得到新的Index               |
| is_monotonic | 当各元素均大于等于前一个元素时，返回True           |
| is.unique    | 当Index没有重复值时，返回True                      |
| unique       | 计算Index中唯一值的数组                            |

DataFrame的基础属性有values、index、columns、dtypes、ndim和shape，分别可以获取DataFrame的元素、索引、列名、类型、维度和形状  


In [14]:
print(df)
print('信息表的所有值为：\n',df.values)
print('信息表的列为：\n',df.columns)
print('信息表的元素个数为：\n',df.size)
print('信息表的维度为：\n',df.ndim)
print('信息表的形状为：\n',df.shape)

  name     sex  year city
0   张三  female  2001   北京
1   李四  female  2001   上海
2   王五    male  2003   广州
3   小明    male  2002   北京
信息表的所有值为：
 [['张三' 'female' 2001 '北京']
 ['李四' 'female' 2001 '上海']
 ['王五' 'male' 2003 '广州']
 ['小明' 'male' 2002 '北京']]
信息表的列为：
 Index(['name', 'sex', 'year', 'city'], dtype='object')
信息表的元素个数为：
 16
信息表的维度为：
 2
信息表的形状为：
 (4, 4)


### 重新索引  
索引对象是无法修改的，因此，重新索引是指对索引重新排序而不是重新命名，如果某个索引值不存在的话，会引入缺失值。


In [15]:
obj=pd.Series([7.2,-4.3,4.5,3.6],index=['b','a','d','c'])
print(obj)
obj.reindex(['a','b','c','d','e'])

b    7.2
a   -4.3
d    4.5
c    3.6
dtype: float64


a   -4.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

对于重建索引引入的缺失值，可以利用fill_value参数填充。  
重建索引时填充缺失值。

In [16]:
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value = 0)


a   -4.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

对于顺序数据，比如时间序列，重新索引时可能需要进行插值或填值处理，利用参数method选项可以设置：  
method = ‘ffill’或‘pad’，表示前向值填充  
method = ‘bfill’或‘backfill’，表示后向值填充  
缺失值的前向填充

In [17]:
import numpy as np
obj1=pd.Series(['blue','red','black'],index=[0,2,4])
obj1.reindex(np.arange(6),method='ffill')

0     blue
1     blue
2      red
3      red
4    black
5    black
dtype: object

缺失值的后向填充

In [18]:
obj2=pd.Series(['blue','red','black'],index=[0,2,4])
obj2.reindex(np.arange(6),method='backfill')

0     blue
1      red
2      red
3    black
4    black
5      NaN
dtype: object

DataFrame数据

In [19]:
df4 = pd.DataFrame(np.arange(9).reshape(3,3),
index = ['a','c','d'],columns = ['one','two','four'])
print(df4)


   one  two  four
a    0    1     2
c    3    4     5
d    6    7     8


reindex操作

In [20]:
df4.reindex(index=['a','b','c','d'],columns=['one','two','three','four'])

Unnamed: 0,one,two,three,four
a,0.0,1.0,,2.0
b,,,,
c,3.0,4.0,,5.0
d,6.0,7.0,,8.0


传入fill_value = n用n代替缺失值

In [21]:
df4.reindex(index=['a','b','c','d'],columns=['one','two','three','four'],fill_value=100)

Unnamed: 0,one,two,three,four
a,0,1,100,2
b,100,100,100,100
c,3,4,100,5
d,6,7,100,8


reindex函数参数    

| 参数             | 使用说明                                                     |
| ---------------- | ------------------------------------------------------------ |
| index            | 用于索引的新序列                                             |
| method           | 插值（填充）方式                                             |
| fill_value       | 缺失值替换值                                                 |
| limit            | 最大填充量                                                   |
| level       copy | 在Multiindex的指定级别上匹配简单索引，否则选取其子集  默认为True，无论如何都复制；如果为False，则新旧相等时就不复制 |  

如果不希望使用默认的行索引，则可以在创建的时候通过Index参数来设置。
在DataFrame数据中，如果希望将列数据作为索引，则可以通过set_index方法来实现。 
重建索引   


In [22]:
df5=df1.set_index('city')
print(df5)

     name  year     sex
city                   
北京     张三  2001  female
上海     李四  2001  female
广州     王五  2003    male
北京     小明  2002    male


### DataFrame数据的查询
1. 选取列:  
    通过列索引或以属性的方式可以单独获取DataFrame的列数据，返回的数据类型为Series。


In [23]:
w1=df5[['name','year']]
display(w1)
#选择非int64类型的列
display(df5.select_dtypes(exclude=['int64']).head())
#选择int64和object类型的列
df5.select_dtypes(include=['int64','object']).head()

Unnamed: 0_level_0,name,year
city,Unnamed: 1_level_1,Unnamed: 2_level_1
北京,张三,2001
上海,李四,2001
广州,王五,2003
北京,小明,2002


Unnamed: 0_level_0,name,sex
city,Unnamed: 1_level_1,Unnamed: 2_level_1
北京,张三,female
上海,李四,female
广州,王五,male
北京,小明,male


Unnamed: 0_level_0,name,year,sex
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
北京,张三,2001,female
上海,李四,2001,female
广州,王五,2003,male
北京,小明,2002,male


2. 选取行  
    通过切片形式可以选取一行或多行数据。


In [24]:
print(df)
print('显示前2行:\n',df[:2])
print('显示第2-3两行:\n',df[2:3])

  name     sex  year city
0   张三  female  2001   北京
1   李四  female  2001   上海
2   王五    male  2003   广州
3   小明    male  2002   北京
显示前2行:
   name     sex  year city
0   张三  female  2001   北京
1   李四  female  2001   上海
显示第2-3两行:
   name   sex  year city
2   王五  male  2003   广州


选取通过DataFrame提供的head和tail方法可以得到多行数据，但是用这两种方法得到的数据都是从开始或者末尾获取连续的数据， 而利用sample可以随机抽取数据并显示。  
head（） #默认获取前5行  
head（n）#获取前n行  
tail（）#默认获取后5行  
head（n）#获取后n行  
sample（n）#随机抽取n行显示  
sample(frac=0.6)     #随机抽取60%的行


3. 选取行和列
DataFrame.loc(行索引名称或条件，列索引名称)
DataFrame.iloc(行索引位置，列索引位置)


In [25]:
#显示name和year两列
display(df5.loc[:,['name','year']])
#显示北京和上海行中的name和year两列
display(df5.loc[['北京','上海'],['name','year']])
#显示year>=2002的name和year信息
display(df5.loc[df5['year']>=2002,['name','year']])

Unnamed: 0_level_0,name,year
city,Unnamed: 1_level_1,Unnamed: 2_level_1
北京,张三,2001
上海,李四,2001
广州,王五,2003
北京,小明,2002


Unnamed: 0_level_0,name,year
city,Unnamed: 1_level_1,Unnamed: 2_level_1
北京,张三,2001
北京,小明,2002
上海,李四,2001


Unnamed: 0_level_0,name,year
city,Unnamed: 1_level_1,Unnamed: 2_level_1
广州,王五,2003
北京,小明,2002


DataFrame行和列的选取还可以通过Pandas的query方法实现。  


In [26]:
display(df5.query('year>2001'))
display(df5.query('year>2001&year<2003'))

Unnamed: 0_level_0,name,year,sex
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
广州,王五,2003,male
北京,小明,2002,male


Unnamed: 0_level_0,name,year,sex
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
北京,小明,2002,male


4. 布尔选择  
    可以对DataFrame中的数据进行布尔方式选择。


In [27]:
df5[df5['year']==2001]

Unnamed: 0_level_0,name,year,sex
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
北京,张三,2001,female
上海,李四,2001,female


### DataFrame数据的编辑
1. 增加数据   
增加一行直接通过append方法传入字典结构数据即可。     
这种方法已经失效，要用pd.concat()


In [28]:
data1={'city':'兰州','name':'李红','year':2005,'sex':'female'}
# df.concat(data1,ignore_index=True)
pd.concat([df5,pd.DataFrame([data1])],ignore_index=True)

Unnamed: 0,name,year,sex,city
0,张三,2001,female,
1,李四,2001,female,
2,王五,2003,male,
3,小明,2002,male,
4,李红,2005,female,兰州


增加列时，只需为要增加的列赋值即可创建一个新的列。若要指定新增列的位置，可以用insert函数。


In [29]:
df['score']=[85,78,96,80]
df.insert(1,'No',['001','002','003','004'])
df

Unnamed: 0,name,No,sex,year,city,score
0,张三,1,female,2001,北京,85
1,李四,2,female,2001,上海,78
2,王五,3,male,2003,广州,96
3,小明,4,male,2002,北京,80


2. 删除数据  
删除数据直接用drop方法，通过axis参数确定是删除的是行还是列。默认数据删除不修改原数据，需要在原数据删除行列需要设置参数inplace = True。



In [30]:
df5['age']=[20,20,20,20]
df5['C']=[85,78,96,80]
df5

Unnamed: 0_level_0,name,year,sex,age,C
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
北京,张三,2001,female,20,85
上海,李四,2001,female,20,78
广州,王五,2003,male,20,96
北京,小明,2002,male,20,80


In [31]:
print(df5.drop('广州'))

     name  year     sex  age   C
city                            
北京     张三  2001  female   20  85
上海     李四  2001  female   20  78
北京     小明  2002    male   20  80


In [32]:
df5.drop('age',axis=1,inplace=True)
print(df5)

     name  year     sex   C
city                       
北京     张三  2001  female  85
上海     李四  2001  female  78
广州     王五  2003    male  96
北京     小明  2002    male  80


3. 修改数据  
修改数据时直接对选择的数据赋值即可。    
需要注意的是，数据修改是直接对DataFrame数据修改，操作无法撤销，因此更改数据时要做好数据备份。


In [33]:
val=np.arange(10,60).reshape(10,5)
col=["ax","bx","cx","dx","ex"]
idx=list("abcdefghij")
df1=pd.DataFrame(val,index=idx,columns=col)
# print(df1>30)
print(df1[df1>30])
df1[df1>30]=100
# print(df1)

     ax    bx    cx    dx    ex
a   NaN   NaN   NaN   NaN   NaN
b   NaN   NaN   NaN   NaN   NaN
c   NaN   NaN   NaN   NaN   NaN
d   NaN   NaN   NaN   NaN   NaN
e   NaN  31.0  32.0  33.0  34.0
f  35.0  36.0  37.0  38.0  39.0
g  40.0  41.0  42.0  43.0  44.0
h  45.0  46.0  47.0  48.0  49.0
i  50.0  51.0  52.0  53.0  54.0
j  55.0  56.0  57.0  58.0  59.0


还可以使用replace进行数据的替换，用法如下：  
DataFrame.replace(to_replace=None,value=None,inplace=False,limit=None,regex=False,method='pad')    
其中主要参数to_replace表示被替换的值，value表示替换后的值。同时替换多个值时使用字典数据，如DataFrame.replace({'B':'E','C':'F'})表示将表中的B替换为E，C替换为F。  


4. 修改列名   
Pandas通过DataFrame.rename()函数，传入需要修改列名的字典形式来修改列名。


In [34]:
df5.rename(columns={'no':'number'},inplace=True)
display(df5)

Unnamed: 0_level_0,name,year,sex,C
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
北京,张三,2001,female,85
上海,李四,2001,female,78
广州,王五,2003,male,96
北京,小明,2002,male,80


### 算术运算  
Pandas的数据对象在进行算术运算时，如果有相同索引则进行算术运算，如果没有，则会自动进行数据对齐，但会引入缺失值。


In [35]:
obj1=pd.Series([5.1,-2.6,7.8,10],index=['a','c','g','f'])
print('obj1:\n',obj1)
obj2=pd.Series([2.6,-2.8,3.7,-1.9],index=['a','b','g','h'])
print('obj2:\n',obj2)
print(obj1+obj2)

obj1:
 a     5.1
c    -2.6
g     7.8
f    10.0
dtype: float64
obj2:
 a    2.6
b   -2.8
g    3.7
h   -1.9
dtype: float64
a     7.7
b     NaN
c     NaN
f     NaN
g    11.5
h     NaN
dtype: float64


DataFrame类型的数据相加

In [36]:
a=np.arange(6).reshape(2,3)
b=np.arange(4).reshape(2,2)
df1=pd.DataFrame(a,columns=['a','b','e'],index=['A','C'])
print('df1:\n',df1)
df2=pd.DataFrame(b,columns=['a','b'],index=['A','D'])
print('df2:\n',df2)
print('df1+df2:\n',df1+df2)

df1:
    a  b  e
A  0  1  2
C  3  4  5
df2:
    a  b
A  0  1
D  2  3
df1+df2:
      a    b   e
A  0.0  2.0 NaN
C  NaN  NaN NaN
D  NaN  NaN NaN


### 函数应用和映射  
已定义好的函数可以通过以下三种方法应用到数据：     
1. map函数：将函数套用到Series的每个元素中；   
2. apply函数，将函数套用到DataFrame的行或列上，行与列通过axis参数设置；  
3. applymap函数，将函数套用到DataFrame的每个元素上  

  
将水果价格表中的“元”去掉。

In [37]:
data={'fruit':['apple','grape','banana'],'price':['30元','43元','28元']}
df1=pd.DataFrame(data)
print(df1)
def f(x):
    return x.split('元')[0]
df1['price']=df1['price'].map(f)
print('修改后的数据表:\n',df1)

    fruit price
0   apple   30元
1   grape   43元
2  banana   28元
修改后的数据表:
     fruit price
0   apple    30
1   grape    43
2  banana    28


In [38]:
data={'fruit':['apple','grape','banana'],'price':['30元','43元','28元']}
df1=pd.DataFrame(data)
print(df1)
def f(x):
    return x.split('元')[0]
df1['price']=df1['price'].map(f)
print('修改后的数据表:\n',df1)

    fruit price
0   apple   30元
1   grape   43元
2  banana   28元
修改后的数据表:
     fruit price
0   apple    30
1   grape    43
2  banana    28


apply函数的使用方法

In [39]:
df2=pd.DataFrame(np.random.randn(3,3),columns=['a','b','c'])
index=['app','win','mac']
print(df2)
df2.apply(np.mean)

          a         b         c
0 -0.162052  0.927964 -0.677067
1  0.165990  1.095560 -0.021343
2  0.308484  0.757136  1.632360


a    0.104141
b    0.926887
c    0.311317
dtype: float64

applymap函数的用法

In [40]:
print(df2)
df2.applymap(lambda x:'%.3f'%x)

          a         b         c
0 -0.162052  0.927964 -0.677067
1  0.165990  1.095560 -0.021343
2  0.308484  0.757136  1.632360


Unnamed: 0,a,b,c
0,-0.162,0.928,-0.677
1,0.166,1.096,-0.021
2,0.308,0.757,1.632


### 排序  
sort_index方法：对索引进行排序，默认为升序，降序排序时加参数 ascending=False。    
sort_values方法：对数值进行排序。by参数设置待排序的列名



In [41]:
wy=pd.Series([1,-2,4,-4],index=['c','b','a','d'])
print(wy)
print('排序后的 Series:\n',wy.sort_index())

c    1
b   -2
a    4
d   -4
dtype: int64
排序后的 Series:
 a    4
b   -2
c    1
d   -4
dtype: int64


In [42]:
print('值排序后的 Series:\n',wy.sort_values())

值排序后的 Series:
 d   -4
b   -2
c    1
a    4
dtype: int64


对于DataFrame数据排序，通过指定轴方向，使用sort_index函数对行或列索引进行排序。如果要进行列排序，则通过sort_values函数把列名传给by参数即可。  
### 排序  
对于DataFrame数据排序，通过指定轴方向，使用sort_index函数对行或列索引进行排序。如果要进行列排序，则通过sort_values函数把列名传给by参数即可。


In [43]:
df=pd.DataFrame({'b':[1,2,3,4],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3])
print(df)
df1=df.sort_values(by='b')
print(df1)
df2=df.sort_values(by=['b','a'],axis=0,ascending=[False,True])
print(df2)
df3=df.sort_values(by=3,axis=1)
print(df3)
df4=df3.sort_values(by=[3,0],axis=1,ascending=[True,False])
print(df4)

   b  a  c
2  1  4  1
0  2  3  3
1  3  2  8
3  4  1  2
   b  a  c
2  1  4  1
0  2  3  3
1  3  2  8
3  4  1  2
   b  a  c
3  4  1  2
1  3  2  8
0  2  3  3
2  1  4  1
   a  c  b
2  4  1  1
0  3  3  2
1  2  8  3
3  1  2  4
   a  c  b
2  4  1  1
0  3  3  2
1  2  8  3
3  1  2  4


In [44]:
df5=df.sort_index()
print(df5)
df.sort_index(axis=1)
# df.sort_index(by=['b','a'],ascending=[False,True])
# df.sort_index(by=['a','b'],ascending=[False,True])

   b  a  c
0  2  3  3
1  3  2  8
2  1  4  1
3  4  1  2


Unnamed: 0,a,b,c
2,4,1,1
0,3,2,3
1,2,3,8
3,1,4,2


### 汇总与统计  
1. 数据汇总   
在DataFrame中，可以通过sum方法对每列进行求和汇总，与Excel中的sum函数类似。如果设置axis = 1指定轴方向，可以实现按行汇总。



In [45]:
df=pd.DataFrame({'b':[1,2,3,2],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3])
print(df)
print(df.sum())
print(df.sum(axis=1))

   b  a  c
2  1  4  1
0  2  3  3
1  3  2  8
3  2  1  2
b     8
a    10
c    14
dtype: int64
2     6
0     8
1    13
3     5
dtype: int64


2. 数据描述与统计  
利用describe方法会对每个数值型的列数据进行统计


In [46]:
print(df.describe())

              b         a         c
count  4.000000  4.000000  4.000000
mean   2.000000  2.500000  3.500000
std    0.816497  1.290994  3.109126
min    1.000000  1.000000  1.000000
25%    1.750000  1.750000  1.750000
50%    2.000000  2.500000  2.500000
75%    2.250000  3.250000  4.250000
max    3.000000  4.000000  8.000000


对于类别型特征的描述性统计，可以使用频数统计表。Pandas库中通过unique方法获取不重复的数组，利用value_counts方法实现频数统计。


In [47]:
obj=pd.Series(['a','b','c','a','d','c'])
print(obj.unique())
print(obj.value_counts())

['a' 'b' 'c' 'd']
a    2
c    2
b    1
d    1
Name: count, dtype: int64


### 数据分组   
**groupby方法**  
groupby方法可以根据索引或字段对数据进行分组。  
格式为：  
`DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)`


| 参数名称   | 参数说明                                                   |
| ---------- | ---------------------------------------------------------- |
| by         | 可以传入函数、字典、Series等，用于确定分组的依据           |
| axis       | 接收int，表示操作的轴方向，默认为0                         |
| level      | 接收int或索引名，代表标签所在级别，默认为None              |
| as_index   | 接收boolean，表示聚合后的标签是否以DataFrame索引输出       |
| sort       | 接收boolean，表示对分组依据和分组标签排序，默认为True      |
| group_keys | 接收boolean，表示是否显示分组标签的名称，默认为True        |
| squeeze    | 接收boolean，表示是否在允许情况下对返回数据降维，默认False |


In [48]:
import pandas as pd
import numpy as np
df=pd.DataFrame({'key1':['a','a','b','b','a'],'key2':['yes','no','yes','yes','no'],'data1':np.random.randn(5),'data2':np.random.randn(5)})
grouped=df['data1'].groupby(df['key1'])
print(grouped.size())
print(grouped.mean())

key1
a    3
b    2
Name: data1, dtype: int64
key1
a   -0.440542
b    0.849526
Name: data1, dtype: float64


2. 按列名分组    
DataFrame数据的列索引名可以作为分组键，但需要注意的是用于分组的对象必须是DataFrame数据本身，否则搜索不到索引名称会报错。


In [49]:
groupk1=df.groupby('key2')[['data1','data2']].mean()
groupk1

Unnamed: 0_level_0,data1,data2
key2,Unnamed: 1_level_1,Unnamed: 2_level_1
no,-0.803525,-0.441184
yes,0.661492,0.24923


3. 按列表或元组分组   
分组键还可以是长度和DataFrame行数相同的列表或元组，相当于将列表或元组看做DataFrame的一列，然后将其分组。


In [50]:
wlist=['w','w','y','w','y']
df.groupby(wlist).sum()

Unnamed: 0,key1,key2,data1,data2
w,aab,yesnoyes,-0.403168,1.784686
y,ba,yesno,0.780596,-1.919366


4. 按字典分组  
如果原始的DataFrame中的分组信息很难确定或不存在，可以通过字典结构，定义分组信息。


In [51]:
df=pd.DataFrame(np.random.normal(size=(6,5)),index=['a','b','c','A','B','c'])
print("数据为:\n",df)
wdict={'a':'one','A':'one','b':'two','B':'two','c':'three'}
print("分组汇总后的结果为:\n",df.groupby(wdict).sum())

数据为:
           0         1         2         3         4
a  2.415958 -0.780980  0.249095  1.550790  0.748732
b  0.499885  1.455544 -2.249211 -0.962832  0.300178
c  0.137306  1.148110  0.509337 -2.122079  1.068068
A -2.235334  0.271234 -0.420076 -0.021235 -2.685905
B -1.262361  0.295175  0.617395 -0.105362 -0.233192
c -1.020704  0.773052 -1.093057 -0.871411  0.378995
分组汇总后的结果为:
               0         1         2         3         4
one    0.180623 -0.509746 -0.170982  1.529555 -1.937173
three -0.883397  1.921163 -0.583719 -2.993491  1.447063
two   -0.762476  1.750719 -1.631816 -1.068194  0.066985


5. 按函数分组    
函数作为分组键的原理类似于字典，通过映射关系进行分组，但是函数更加灵活。


In [52]:
def judge(x):
    if x>=0:
        return 'a'
    else:
        return 'b'
df=pd.DataFrame(np.random.randn(4,4))
print(df)
print(df[3].groupby(df[3].map(judge)).sum())

          0         1         2         3
0 -0.625177 -1.026162 -0.314257 -1.379268
1 -0.152461 -0.470528 -1.001508 -0.395118
2  2.766713  1.142807 -0.794778 -1.059266
3  1.283312  1.292631  0.386387  1.004410
3
a    1.004410
b   -2.833651
Name: 3, dtype: float64
