### 复习python基础语法

查看知识点思维导图





## Pandas基本语法

2008年，为满足需要高性能，灵活的数据分析工具，开发商Wes McKinney开始开发Pandas。

- 在Pandas之前，Python主要用于数据迁移和准备。它对数据分析的贡献更小。 Pandas解决了这个问题。 使用Pandas可以完成数据处理和分析的五个典型步骤，而不管数据的来源 - ***加载，准备，操作，模型和分析***。

- Pandas是通过代码来实现**Excel和数据库**的基本功能，并提供了更丰富的分析函数

- Python Pandas用于广泛的领域，包括金融，经济，统计，分析等学术和商业领域。

<img style="float: center;" src="img/pandasoutline.png" width=600>

### 导入
习惯上，我们这样导入pandas:

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pandas import Series,DataFrame

### Series

#### 创建
<img style="float: center;" src="img/series.png" width=600 height=600>

带索引的一维数组。 通过list或者ndarray可以创建Series，Pandas会自动创建整型索引。

In [2]:
list1=[1,2,3,4]  # python的list 
list1

[1, 2, 3, 4]

In [3]:
nparray1=np.array(list1)  #NumPy的ndarray
nparray1

array([1, 2, 3, 4])

In [4]:
series1=Series(list1)  # Pandas的 Series，使用list创建
series1
# series1.values     # series底层是基于ndarray管理数据的，所以 list数据传进来也会转换为 ndrray

0    1
1    2
2    3
3    4
dtype: int64

In [5]:
series2=Series(nparray1) # Pandas的 Series，使用ndarray创建
series2
# series2.values

0    1
1    2
2    3
3    4
dtype: int64

In [6]:
s=Series([1,3,5,777,6,1.5]) #值的类型会自动统一，因为它的值就是按ndaary存储管理的
s

0      1.0
1      3.0
2      5.0
3    777.0
4      6.0
5      1.5
dtype: float64

In [7]:
s.values # 值是 ndarray来存储

array([  1. ,   3. ,   5. , 777. ,   6. ,   1.5])

In [8]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [9]:
s.sort_values()

0      1.0
5      1.5
1      3.0
2      5.0
4      6.0
3    777.0
dtype: float64

#### 索引自定义

In [10]:
s2 = pd.Series([3,51,5,2,6],index=['a','b','c','d','e'])#自己定义索引
s2

a     3
b    51
c     5
d     2
e     6
dtype: int64

In [11]:
s2.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [12]:
s2.index = ['one','two','three','four','five'] #整体更换索引，但不能单独替换某个索引指
s2

one       3
two      51
three     5
four      2
five      6
dtype: int64

In [13]:
s2.index[2]='x'  #，但不能单独替换某个自定义索引值， 索引是 元组Tuple类型，不能修改值

TypeError: Index does not support mutable operations

In [14]:
#使用字典类型初始化，会自动带有 自定义标签
sdata = {'Ohio':35000, 'Texas':7000, 'Orange':10902}
s3 = pd.Series(sdata)
s3

Ohio      35000
Texas      7000
Orange    10902
dtype: int64

#### 值的读取和修改

In [15]:
s2 = pd.Series([3,51,5,2,6],index=['a','b','c','d','e'])#自己定义索引
s2

a     3
b    51
c     5
d     2
e     6
dtype: int64

In [16]:
s2['d']  #使用索引读取值

2

In [17]:
s2[3]  #也可以使用位置（Series默认有整数索引，list和ndarray也有）来读取值，类似 字符串、list、ndarray一样的操作

2

In [18]:
s2['d']=100  #类似 list一样修改值，相关的操作都支持
s2

a      3
b     51
c      5
d    100
e      6
dtype: int64

In [19]:
s2[0:3]  #使用切片的方式来读取值，按照位置，类似 字符串、list、ndarray一样的操作

a     3
b    51
c     5
dtype: int64

In [20]:
pd.isnull(s3) #判断空值
#pd.notnull(s3) 上面一样功能
#s3.isnull()    上面一样功能

Ohio      False
Texas     False
Orange    False
dtype: bool

### DataFrame

<img style="float: center;" src="img/dataframe.png" width=600 height=600>
二维数组，通过NumPy的数组ndarray可以创建一个DataFrame。

* DataFrame可以对应Excel里一个表格，数据库里一张表 

In [21]:
dates=pd.date_range('20130101',periods=6)#生成一个时间类型的索引序列
print(dates)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))
df

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')


Unnamed: 0,A,B,C,D
2013-01-01,0.295626,-1.046529,-2.070924,0.207803
2013-01-02,1.593907,1.214734,2.201508,-1.806104
2013-01-03,1.372561,1.017685,-1.202874,-0.983028
2013-01-04,-0.939182,1.277851,-0.513078,0.178664
2013-01-05,0.02639,0.37818,1.677854,2.01824
2013-01-06,-0.1244,0.453993,0.2187,-1.646511


也可以通过字典来创建DataFrame

In [22]:
df2=pd.DataFrame({'A':1.,
                 'B':pd.Timestamp('20130102'),
                 'C':pd.Series(1,index=list(range(4)),dtype='float32'),
                 'D':np.array([3]*4,dtype='int32'),
                 'E':pd.Categorical(['test','train','test','train']),
                 'F':'foo'})
print(df2)

     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo


In [23]:
df2.dtypes #每一列（column）类型可以不同      ndarray：要求所有数据类型一样

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

* 从 CSV文件里读

In [24]:
student_df=pd.read_csv('data/student.csv')
print(student_df[:10])
student_df

   Student ID    name   age   gender
0         1100  Kelly     22  Female
1         1101    Clo     21  Female
2         1102  Tilly     22  Female
3         1103   Tony     24    Male
4         1104  David     20    Male
5         1105  Catty     22  Female
6         1106      M      3  Female
7         1107      N     43    Male
8         1108      A     13    Male
9         1109      S     12    Male


Unnamed: 0,Student ID,name,age,gender
0,1100,Kelly,22,Female
1,1101,Clo,21,Female
2,1102,Tilly,22,Female
3,1103,Tony,24,Male
4,1104,David,20,Male
5,1105,Catty,22,Female
6,1106,M,3,Female
7,1107,N,43,Male
8,1108,A,13,Male
9,1109,S,12,Male


### 查看数据
查看数据的顶部和底部

In [25]:
print(student_df.head(3)) 
print(student_df.tail(5))

   Student ID    name   age   gender
0         1100  Kelly     22  Female
1         1101    Clo     21  Female
2         1102  Tilly     22  Female
    Student ID    name   age   gender
9          1109      S     12    Male
10         1110  David     33    Male
11         1111     Dw      3  Female
12         1112      Q     23    Male
13         1113      W     21  Female


查看索引，列名，以及纯的NumPy数据

In [26]:
print(student_df.index)
print(student_df.columns)
print(student_df.values)

RangeIndex(start=0, stop=14, step=1)
Index(['Student ID ', 'name ', 'age ', 'gender'], dtype='object')
[[1100 'Kelly ' 22 'Female']
 [1101 'Clo ' 21 'Female']
 [1102 'Tilly ' 22 'Female']
 [1103 'Tony ' 24 'Male']
 [1104 'David ' 20 'Male']
 [1105 'Catty ' 22 'Female']
 [1106 'M ' 3 'Female']
 [1107 'N ' 43 'Male']
 [1108 'A ' 13 'Male']
 [1109 'S ' 12 'Male']
 [1110 'David ' 33 'Male']
 [1111 'Dw ' 3 'Female']
 [1112 'Q ' 23 'Male']
 [1113 'W ' 21 'Female']]


```DataFrame.describe()```提供了便捷的数据统计

1、count：返回数组的个数，如上述为4个元素，所以返回为4；

2、mean：返回数组的平均e79fa5e98193e59b9ee7ad9431333433623135值，1 3 5 9的平均值为4.5；

3、std：返回数组的标准差；

4、min：返回数组的最小值；

5、25%，50%，75%：返回数组的三个不同百分位置的数值，也就是统计学中的四分位数。

6、 max：最大值

In [27]:
print(student_df)
print(student_df.describe())# 描述性统计

    Student ID    name   age   gender
0          1100  Kelly     22  Female
1          1101    Clo     21  Female
2          1102  Tilly     22  Female
3          1103   Tony     24    Male
4          1104  David     20    Male
5          1105  Catty     22  Female
6          1106      M      3  Female
7          1107      N     43    Male
8          1108      A     13    Male
9          1109      S     12    Male
10         1110  David     33    Male
11         1111     Dw      3  Female
12         1112      Q     23    Male
13         1113      W     21  Female
       Student ID        age 
count      14.0000  14.000000
mean     1106.5000  20.142857
std         4.1833  10.479703
min      1100.0000   3.000000
25%      1103.2500  14.750000
50%      1106.5000  21.500000
75%      1109.7500  22.750000
max      1113.0000  43.000000


转置矩阵

In [28]:
df  #再回到最开始创建的那个DataFrame，这个数据好演示

Unnamed: 0,A,B,C,D
2013-01-01,0.295626,-1.046529,-2.070924,0.207803
2013-01-02,1.593907,1.214734,2.201508,-1.806104
2013-01-03,1.372561,1.017685,-1.202874,-0.983028
2013-01-04,-0.939182,1.277851,-0.513078,0.178664
2013-01-05,0.02639,0.37818,1.677854,2.01824
2013-01-06,-0.1244,0.453993,0.2187,-1.646511


In [29]:
df1=df.T 
print(df1)
df1.describe()

   2013-01-01  2013-01-02  2013-01-03  2013-01-04  2013-01-05  2013-01-06
A    0.295626    1.593907    1.372561   -0.939182    0.026390   -0.124400
B   -1.046529    1.214734    1.017685    1.277851    0.378180    0.453993
C   -2.070924    2.201508   -1.202874   -0.513078    1.677854    0.218700
D    0.207803   -1.806104   -0.983028    0.178664    2.018240   -1.646511


Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
count,4.0,4.0,4.0,4.0,4.0,4.0
mean,-0.653506,0.801011,0.051086,0.001064,1.025166,-0.274555
std,1.126387,1.784964,1.331968,0.967838,0.970969,0.944968
min,-2.070924,-1.806104,-1.202874,-0.939182,0.02639,-1.646511
25%,-1.302627,0.459525,-1.03799,-0.619604,0.290232,-0.504928
50%,-0.419363,1.404321,0.017328,-0.167207,1.028017,0.04715
75%,0.229759,1.745807,1.106404,0.453461,1.76295,0.277523
max,0.295626,2.201508,1.372561,1.277851,2.01824,0.453993


沿某一轴排序

In [30]:
print(df.sort_index(axis=0,ascending=False))  #axis=0 表示行索引排序 ，axis=1 表示列操作

                   A         B         C         D
2013-01-06 -0.124400  0.453993  0.218700 -1.646511
2013-01-05  0.026390  0.378180  1.677854  2.018240
2013-01-04 -0.939182  1.277851 -0.513078  0.178664
2013-01-03  1.372561  1.017685 -1.202874 -0.983028
2013-01-02  1.593907  1.214734  2.201508 -1.806104
2013-01-01  0.295626 -1.046529 -2.070924  0.207803


In [31]:
df.sort_index?

[0;31mSignature:[0m
[0mdf[0m[0;34m.[0m[0msort_index[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0maxis[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mlevel[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mascending[0m[0;34m:[0m [0mbool[0m [0;34m=[0m [0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0minplace[0m[0;34m:[0m [0mbool[0m [0;34m=[0m [0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mkind[0m[0;34m:[0m [0mstr[0m [0;34m=[0m [0;34m'quicksort'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mna_position[0m[0;34m:[0m [0mstr[0m [0;34m=[0m [0;34m'last'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msort_remaining[0m[0;34m:[0m [0mbool[0m [0;34m=[0m [0;32mTrue[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mignore_index[0m[0;34m:[0m [0mbool[0m [0;34m=[0m [0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mkey[0m[0;34m:[0m [0mUnion[0m[0;34m[[0m[0mCallable[0m[0;34m[

按照值进行排序

In [32]:
print(df.sort_values(by='A'))  # 每一行是同时排序

                   A         B         C         D
2013-01-04 -0.939182  1.277851 -0.513078  0.178664
2013-01-06 -0.124400  0.453993  0.218700 -1.646511
2013-01-05  0.026390  0.378180  1.677854  2.018240
2013-01-01  0.295626 -1.046529 -2.070924  0.207803
2013-01-03  1.372561  1.017685 -1.202874 -0.983028
2013-01-02  1.593907  1.214734  2.201508 -1.806104


### 数据选择

类似Excel中选择一部分数据

**注意：**尽管Python标准库和NumPy的语句在选择和设置数据时更直观和方便交互。但是在生产环境中，我们更建议使用Pandas的数据访问函数：```.at, .iat, .loc, .iloc```

#### 数据获取
选择一列，返回Series。等同于df.A

In [33]:
df

Unnamed: 0,A,B,C,D
2013-01-01,0.295626,-1.046529,-2.070924,0.207803
2013-01-02,1.593907,1.214734,2.201508,-1.806104
2013-01-03,1.372561,1.017685,-1.202874,-0.983028
2013-01-04,-0.939182,1.277851,-0.513078,0.178664
2013-01-05,0.02639,0.37818,1.677854,2.01824
2013-01-06,-0.1244,0.453993,0.2187,-1.646511


In [34]:
dataframe2=df[['A','B']]#列名
dataframe2

Unnamed: 0,A,B
2013-01-01,0.295626,-1.046529
2013-01-02,1.593907,1.214734
2013-01-03,1.372561,1.017685
2013-01-04,-0.939182,1.277851
2013-01-05,0.02639,0.37818
2013-01-06,-0.1244,0.453993


使用```[]```来切分多行数据，按行切分

In [35]:
print(df[0:3])   # 按照位置来取值，后面不包含
print(df['20130102':'20130104'])  # 按照索引标签来取值，两头都包含


                   A         B         C         D
2013-01-01  0.295626 -1.046529 -2.070924  0.207803
2013-01-02  1.593907  1.214734  2.201508 -1.806104
2013-01-03  1.372561  1.017685 -1.202874 -0.983028
                   A         B         C         D
2013-01-02  1.593907  1.214734  2.201508 -1.806104
2013-01-03  1.372561  1.017685 -1.202874 -0.983028
2013-01-04 -0.939182  1.277851 -0.513078  0.178664


#### 根据标签选择 loc
使用标签（index的名字，coloumn的名字）来得到特定的一行,loc根据两个方向的index来选取，行列通过逗号隔开

In [36]:
#dates 是 df的 index
df.loc['2013-01-01']

A    0.295626
B   -1.046529
C   -2.070924
D    0.207803
Name: 2013-01-01 00:00:00, dtype: float64

使用标签来得到多个指定的列

In [37]:
print(df.loc[ '20130102':'20130104',  ['A','B']]) 

                   A         B
2013-01-02  1.593907  1.214734
2013-01-03  1.372561  1.017685
2013-01-04 -0.939182  1.277851


用标签来切片时，**端点的值都是被包含在内的** (和字符串按位置的切片不同)

In [None]:
print(df.loc['20130102':'20130104',['A']])

选择的返回值可以降低维度

In [38]:
df.loc['20130102',['A','B']]

A    1.593907
B    1.214734
Name: 2013-01-02 00:00:00, dtype: float64

In [39]:
df.isnull()

Unnamed: 0,A,B,C,D
2013-01-01,False,False,False,False
2013-01-02,False,False,False,False
2013-01-03,False,False,False,False
2013-01-04,False,False,False,False
2013-01-05,False,False,False,False
2013-01-06,False,False,False,False


选择一个标量

In [40]:
df.loc[dates[0],'A']

0.29562622524353865

#### 根据位置进行选择  iloc
根据整数下标来选择数据；iloc  根据 index的具体位置 ，从0开始的整数序列

In [41]:
print(df)
df.iloc[3]

                   A         B         C         D
2013-01-01  0.295626 -1.046529 -2.070924  0.207803
2013-01-02  1.593907  1.214734  2.201508 -1.806104
2013-01-03  1.372561  1.017685 -1.202874 -0.983028
2013-01-04 -0.939182  1.277851 -0.513078  0.178664
2013-01-05  0.026390  0.378180  1.677854  2.018240
2013-01-06 -0.124400  0.453993  0.218700 -1.646511


A   -0.939182
B    1.277851
C   -0.513078
D    0.178664
Name: 2013-01-04 00:00:00, dtype: float64

用整数来切片，类似于Python标准库和NumPy

In [42]:
print(df.iloc[3:5,0:2])

                   A         B
2013-01-04 -0.939182  1.277851
2013-01-05  0.026390  0.378180


用整数列表来进行选择，与Python标准库和NumPy类似

In [43]:
print(df.iloc[[1,2,4],[0,2]])

                   A         C
2013-01-02  1.593907  2.201508
2013-01-03  1.372561 -1.202874
2013-01-05  0.026390  1.677854


对行进行切片选择

In [44]:
print(df.iloc[1:3,:])

                   A         B         C         D
2013-01-02  1.593907  1.214734  2.201508 -1.806104
2013-01-03  1.372561  1.017685 -1.202874 -0.983028


对列进行切片选择

In [45]:
print(df.iloc[:,1:3])

                   B         C
2013-01-01 -1.046529 -2.070924
2013-01-02  1.214734  2.201508
2013-01-03  1.017685 -1.202874
2013-01-04  1.277851 -0.513078
2013-01-05  0.378180  1.677854
2013-01-06  0.453993  0.218700


获取某个标量

In [46]:
df.iloc[1,1]

1.214734385720026

.loc for label based indexing 基于标签取一组数据

.at 按照标签获取一个具体的值

.iloc for positional indexing 基于位置取一组数据

.iat 按照位置获取一个而具体的值


In [47]:
print(df.loc['2013-01-01','A':'B'])
print(df.iloc[0,0:2])

A    0.295626
B   -1.046529
Name: 2013-01-01 00:00:00, dtype: float64
A    0.295626
B   -1.046529
Name: 2013-01-01 00:00:00, dtype: float64


#### 布尔索引，过滤数据
使用某列值来选择数据

In [48]:
df.A>0

2013-01-01     True
2013-01-02     True
2013-01-03     True
2013-01-04    False
2013-01-05     True
2013-01-06    False
Freq: D, Name: A, dtype: bool

In [49]:
print(df[df.A<0])  #可以进行按照条件过滤数据  
dfa=df[df.A>0]
print(dfa[dfa.B>0]) 

                   A         B         C         D
2013-01-04 -0.939182  1.277851 -0.513078  0.178664
2013-01-06 -0.124400  0.453993  0.218700 -1.646511
                   A         B         C         D
2013-01-02  1.593907  1.214734  2.201508 -1.806104
2013-01-03  1.372561  1.017685 -1.202874 -0.983028
2013-01-05  0.026390  0.378180  1.677854  2.018240


从DataFrame中选择满足某条件的数据

In [None]:
df

In [None]:
print(df[df>0])

使用```isin()```函数来过滤数据

In [None]:
df2=df.copy()
df2['E']=['one','one','two','three','four','three']
print(df2)
print(df2[df2['E'].isin(['two','four'])]) # 类别数据的过滤

#### 设置与修改数据
设置一个新列并设置索引

In [None]:
s1=pd.Series([1,2,3,4,5,6],index=pd.date_range('20130102',periods=6))
df['F']=s1
df

根据标签来设置值
at函数, 具体到某个元素

根据指定行index及列label，快速定位DataFrame的元素，选择列时仅支持列名

In [None]:
df.at[dates[0],'A']=0
print(df)

In [None]:
df.at?

根据位置的来设置值
与at的功能相同，只使用索引参数

In [None]:
df.iat[0,1]=0
print(df)

在过滤的同时进行赋值

In [None]:
df2=df.copy()
df2[df2>0]=-df2
print(df2)

### 处理缺失数据
Pandas主要使用```np.nan```来表示缺失数据。这个值不会加入在计算中。
重新索引允许你对某一轴的索引进行更改/添加/删除操作。这会返回操作数据的拷贝对象。

In [None]:
df1=df.reindex(index=dates[0:4],columns=list(df.columns)+['E'])
df1.loc[dates[0]:dates[1],'E']=1
df1

删除含有缺失数据的行

In [None]:
# print(df1.dropna(how='all')) #这一行所有值都为空时删除
print(df1.dropna(how='any'))#这一行有任意值为空时删除

In [None]:
print(df1.dropna(how='any',axis=1))  #删除有空值的列

填充缺失数据

In [None]:
print(df1['E'].fillna(value=5))  

In [None]:
DataFrame.fillna?

In [None]:
print(df1['E'].fillna(method='ffill'))  

In [None]:
df1  #上面并没有对df1本身做修改，返回了修改后的结果

In [None]:
df1['E']=df1['E'].fillna(method='ffill')  # 用修改后结果为 df1 赋值
df1['E']

获取数据中是```nan```的位置

In [None]:
print(pd.isnull(df1))

### 基础操作
#### 基本的统计
操作默认排除了缺失的数据  
执行一个描述性的统计

In [None]:
print(df)
df.sum()  #默认按列，每一列一般是一种数据类型

在另外的轴执行该操作

In [None]:
df.mean(1)  #横向

In [None]:
print(df)
df.mean(1)  #只对数值型平均

#### 直方图

In [None]:
s=pd.Series(['blue','red','yellow','blue','black'])
print(s)
print(s.value_counts()) #统计每个值出现的次数

### 数据合并
#### 数据拼接concat   各个DataFrame的coloumn都是一样的
Pandas提供了许多工具来根据索引逻辑和线性代数关系组合Series、DataFrame和Panel。
用```concat()```组合Pandas数据

In [None]:
df=pd.DataFrame(np.random.randn(10,4))
print(df)
pieces=[df[:3],df[3:7],df[7:]]  #按行拆分
print(pieces[0])



In [None]:
print(pd.concat(pieces))   #拼接还原

#### 数据关联 Merge     来自不同的来源，DataFrame的 column不同，但是有相同index
合并

<img style="float: center;" src="img/merge.png" width=400>

In [None]:
left=pd.DataFrame({'姓名':['小明','小强'],'身高cm':[180,175]})
right=pd.DataFrame({'姓名':['小明','小刚'],'体重g':[120,130]})
print(left)
print(right)
print(pd.merge(left,right,on='姓名'))

In [None]:
print(pd.merge(left,right,on='姓名',how='left'))

#### 添加数据（Append）
给DataFrame添加行

In [None]:
df=pd.DataFrame(np.random.randn(8,4),columns=['A','B','C','D'])
print(df)
s=df.iloc[3]
print(df.append(s,ignore_index=True))

### 分组
分组包含以下的一个或多个流程：
 - 分组 根据某种标准分组数据
 - 应用 对每个组应用一个函数
 - 组合 把分组的结果组合成一个整体结构

In [None]:
df=pd.DataFrame({'Month':['May','July','May','May','May','July','May','May'],'Team' : ['team_one', 'team_one', 'team_two', 'team_three',
                              'team_two', 'team_two', 'team_one', 'team_three'],
                       'Score1' : np.random.randn(8),
                      'Score2' : np.random.randn(8)})
df

分组并对分组后的结果求和

In [None]:
print(df.groupby(['Team']).sum())

In [None]:
df_group= df.groupby('Team')   #分组
dataframe1=df_group.get_group('team_one')  #取 B==‘one’的分组为一个新的dataframe
dataframe1

根据多个列进行分组可以如下操作

In [None]:
print(df.groupby(['Month','Team']).sum())

### 时间序列
Pandas拥有易用、强大且高效的方法来在频率变换中执行重采样操作（例如：把秒级别的数据转换成5分钟级别的数据）。这通常在金融应用中使用，但不仅限于金融应用。

In [None]:
rng=pd.date_range('1/1/2012',periods=100,freq='S')   # 构造一个日期序列， 开始 1/1/2012  ， 100个时间点, 频率S 表示秒
print(rng)
ts=pd.Series(np.random.randint(0,500,len(rng)),index=rng)  #构造一个随机数序列  长度100
print(ts.head(5))


In [None]:
ts_sample=ts.resample('60s').sum()    #按照5秒重采样 聚合，  sum表示采样后按求和运算
ts_sample

表现时区

In [None]:
rng=pd.date_range('3/6/2012 00:00',periods=5,freq='D')
ts=pd.Series(np.random.randn(len(rng)),rng)
print(ts)
ts_utc=ts.tz_localize('UTC')
ts_utc

转换到其他时区

In [None]:
ts_utc.tz_convert('US/Eastern')

转换时间间隔的表现形式

In [None]:
rng=pd.date_range('1/1/2012',periods=5,freq='S')
ts=pd.Series(np.random.randn(len(rng)),index=rng)
print(ts)
ps=ts.to_period('D')   # Q M D
print(ps)


### 绘图

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
ts=pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2000',periods=1000))
ts=ts.cumsum()
ts.plot()

在DataFrame上，```plot()```是一个函数可以方便地对数据的每个列进行绘图

In [None]:
df=pd.DataFrame(np.random.randn(1000,4),index=ts.index,columns=['A','B','C','D'])
df=df.cumsum()
df.plot()


### 数据获取与导出
#### CSV
保存数据到csv文件中

In [None]:
df1.to_csv('foo.csv')

从csv中读取数据

In [None]:
df=pd.read_csv('foo.csv')
print(df[:10])
df

#### Excel
生成Excel文件（需要自己安装openpyxl库```pip3 install openpyxl```）

In [None]:
df.to_excel('foo.xlsx',sheet_name='Sheet01')

从Excel中读取数据

In [None]:
print(pd.read_excel('foo.xlsx', 'Sheet01',
                    index_col=None, na_values=['NA'])[:10])

### Pandas主要功能小结
    快速高效的DataFrame对象，具有默认和自定义的索引。
    将数据从不同文件格式加载到内存中的数据对象的工具。
    丢失数据的数据对齐和综合处理。
    重组和摆动日期集。
    基于标签的切片，索引和大数据集的子集。
    可以删除或插入来自数据结构的列。
    按数据分组进行聚合和转换。
    高性能合并和数据加入。
    时间序列功能。

## 本节小练习：
通过pandas 加载 lesson1 中  lesson1 catering_sales.csv

将案例使用pandas编写

