# Pandas模块使用

>Pandas模块是Python用于数据导入及整理的模块，对数据挖掘前期数据的处理工作十分有用。

Pandas模块的数据结构主要有两：1、Series ；2、DataFrame ，下面将分别从这两方面介绍：

## 1.Series

## 2.DataFrame

**DataFrame是一个【表格型】的数据结构。**
DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。

+ 行索引：index
+ 列索引：columns
+ 值：values

### 2.1 DataFrame的创建

#### 2.1.1 使用nparray创建DataFrame

In [1]:
import numpy as np
import pandas as pd

table1 = pd.DataFrame(data=np.random.randint(60,100,size=(2,3)),
         index=['期中','期末'],
         columns=['张三','李四','王老五'])

In [2]:
table1

Unnamed: 0,张三,李四,王老五
期中,80,85,63
期末,64,80,82


#### 2.1.2 使用字典创建

>最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。

此外，DataFrame会自动加上每一行的索引。

使用字典创建的DataFrame后，则columns参数将不可被使用。

同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。

In [4]:
import pandas as pd

dic={
    '期中':[50,60,70],
    '期末':[80,90,89]
}
#使用字典创建一个DataFrame
table2 = pd.DataFrame(data=dic,index=['张三','李四','王老五'])


In [5]:
table2

Unnamed: 0,期中,期末
张三,50,80
李四,60,90
王老五,70,89


#### 2.1.3 DataFrame属性：values、columns、index、shape

> 查看上面table2的属性

In [6]:
table2.shape

(3, 2)

In [7]:
table2.index

Index(['张三', '李四', '王老五'], dtype='object')

In [8]:
table2.columns

Index(['期中', '期末'], dtype='object')

In [9]:
table2.values

array([[50, 80],
       [60, 90],
       [70, 89]], dtype=int64)

### 2.2 DataFrame的索引

#### 2.2.1 对列进行索引

+ 通过类似字典的方式 df[‘q’]
+ 通过属性的方式 df.q

In [10]:
#修改列索引
table2.columns=['qizhong','qimo']
table2

Unnamed: 0,qizhong,qimo
张三,50,80
李四,60,90
王老五,70,89


In [13]:
table2['qizhong']

张三     50
李四     60
王老五    70
Name: qizhong, dtype: int64

In [14]:
table2.qizhong

张三     50
李四     60
王老五    70
Name: qizhong, dtype: int64

In [17]:
table2[['qizhong','qimo']]

Unnamed: 0,qizhong,qimo
张三,50,80
李四,60,90
王老五,70,89


#### 2.2.2 对行进行索引

+ 使用.loc[]加index来进行行索引
+ 使用.iloc[]加整数来进行行索引 

In [18]:
table2.loc['李四']

qizhong    60
qimo       90
Name: 李四, dtype: int64

In [20]:
table2.iloc[1]

qizhong    60
qimo       90
Name: 李四, dtype: int64

#### 2.2.3 对元素进行索引

+ 使用列索引  ?
+ 使用行索引(iloc[3,1] or loc[‘C’,’q’]) 行索引在前，列索引在后

In [22]:
table2.loc['王老五','qimo']

89

### 2.3 切片

#### 2.3.1 使用中括号

In [25]:
table2['张三':'李四']

Unnamed: 0,qizhong,qimo
张三,50,80
李四,60,90


>【注意】 直接用中括号时：
+ 索引表示的是列索引
+ 切片表示的是行切片

#### 2.3.2 使用loc和iloc中

In [28]:
table2.loc['李四','qizhong':'qimo']  #结合numpy中的二维数组理解

qizhong    60
qimo       90
Name: 李四, dtype: int64