# pandas快速入门
## 学习目标
+ 能够知道 DataFrame 和 Series 数据结构
+ 能够加载 csv 和 tsv 数据集
+ 能够区分 DataFrame 的行列标签和行列位置编号
+ 能够获取 DataFrame 指定行列的数据

## 1.DataFrame 和 Series 简介
pandas是用于数据分析的开源Python库，可以实现数据加载，清洗，转换，统计处理，可视化等功能。

pandas最基本的两种数据结构：

1. DataFrame

    + 用来处理结构化数据（SQL数据表，Excel表格）
    + 可以简单理解为一张数据表(带有行标签和列标签)
    
2. Series

    + 用来处理单列数据，也可以以把DataFrame看作由Series对象组成的字典或集合
    + 可以简单理解为数据表的一行或一列
    
    ![Pandas数据结构](./pic/chapter02-01.png)
    
## 2.加载数据集(csv和tsv)

### 2.1 csv和tsv文件格式简介
csv 和 tsv 文件都是存储一个二维表数据的文件类型。
>注意：其中csv文件每一列的列元素之间以逗号进行分割，tsv文件每一行的列元素之间以\t进行分割。

 ![csv和tsv对比](./pic/chapter02-02.png)
 
 ### 2.2 加载数据集(tsv和csv)
 1. 导入pandas包

In [2]:
# 在 ipynb 文件中导入 pandas
import pandas as pd

2. 加载 csv 文件数据集

In [None]:
tips = pd.read_csv('./data/tips.csv')
print(tips)

3. 加载 tsv 文件数据集

In [None]:
# sep参数指定tsv文件的列元素分隔符为\t，默认sep参数是,
china = pd.read_csv('./data/china.tsv', sep='\t')
china

In [None]:
type(china)

## 3. DataFrame 的行列标签和行列位置编号
### 3.1 DataFrame 的行标签和列标签
1. 如果所示，分别是 DataFrame 的行标签和列标签
 ![DataFrame行列标签](./pic/chapter02-06.png)

2. 获取 DataFrame 的行标签

In [None]:
# 获取 DataFrame 的行标签
china.index

3. 获取 DataFrame 的列标签

In [None]:
# 获取 DataFrame 的列标签
china.columns

4. 设置 DataFrame 的行标签

In [None]:
# 注意：DataFrame设置行标签时，并不会改变原来的DataFrame，而是返回的副本
china_df = china.set_index('year')
china_df

### 3.2DataFrame 的行位置编号和列位置编号
DataFrame 除了行标签和列标签之外，还具有行列位置编号。
>行位置编号：从上到下，第1行编号为0，第二行编号为1，…，第n行编号为n-1

>列位置编号：从左到右，第1列编号为0，第二列编号为1，…，第n列编号为n-1

![行列位置编号](./pic/chapter02-10.png)

>注意：默认情况下，行标签和行位置编号是一样的。
## 4. DataFrame 获取指定行列的数据
以下示例都使用加载的 gapminder.tsv 数据集进行操作，注意将 year 这一列设置为行标签。

In [3]:
gapminder = pd.read_csv('./data/gapminder.tsv', sep='\t')
gapminder_df = gapminder.set_index('year')
gapminder_df
china_df = gapminder_df[gapminder_df['country']=='China']
china_df

Unnamed: 0_level_0,country,continent,lifeExp,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1952,China,Asia,44.0,556263527,400.448611
1957,China,Asia,50.54896,637408000,575.987001
1962,China,Asia,44.50136,665770000,487.674018
1967,China,Asia,58.38112,754550000,612.705693
1972,China,Asia,63.11888,862030000,676.900092
1977,China,Asia,63.96736,943455000,741.23747
1982,China,Asia,65.525,1000281000,962.42138
1987,China,Asia,67.274,1084035000,1378.904018
1992,China,Asia,68.69,1164970000,1655.784158
1997,China,Asia,70.426,1230075000,2289.234136


### 4.1 loc函数获取指定行列的数据
基本格式：

| 语法 | 说明 |
| ---- | ---- |
| df.loc[[行标签1, ...], [列标签1, ...]] | 根据行标签和列标签获取对应行的对应列的数据，结果为：DataFrame |
| df.loc[[行标签1, ...]] | 根据行标签获取对应行的所有列的数据结果为：DataFrame |
| df.loc[:, [列标签1, ...]] | 根据列标签获取所有行的对应列的数据结果为：DataFrame |
| df.loc[行标签] | 1）如果结果只有一行，结果为：Series 2）如果结果有多行，结果为：DataFrame |
| df.loc[[行标签]] | 无论结果是一行还是多行，结果为DataFrame |
| df.loc[[行标签], 列标签] | 1）如果结果只有一列，结果为：Series，行标签作为 Series 的索引标签 2）如果结果有多列，结果为：DataFrame |
| df.loc[行标签, [列标签]] | 1）如果结果只有一行，结果为：Series，列标签作为 Series 的索引标签 2）如果结果有多行，结果为DataFrame |
| df.loc[行标签, 列标签] | 1）如果结果只有一行一列，结果为单个值 2）如果结果有多行一列，结果为：Series，行标签作为 Series 的索引标签 3）如果结果有一行多列，结果为：Series，列标签作为 Series 的索引标签 4）如果结果有多行多列，结果为：DataFrame |


#### 演示示例：
1. 示例1：获取行标签为 1952, 1962, 1972 行的 country、pop、gdpPercap 列的数据
2. 示例2：获取行标签为 1952, 1962, 1972 行的所有列的数据
3. 示例3：获取所有行的 country、pop、gdpPercap 列的数据
4. 示例4：获取行标签为 1957 行的所有列的数据
5. 示例5：获取行标签为 1957 行的 lifeExp 列的数据



#### 示例实现：

In [4]:
# 示例1：获取行标签为 1952, 1962, 1972 行的 country、pop、gdpPercap 列的数据
china_df.loc[[1952, 1962, 1972], ['country', 'pop', 'gdpPercap']]

Unnamed: 0_level_0,country,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1952,China,556263527,400.448611
1962,China,665770000,487.674018
1972,China,862030000,676.900092


In [5]:
# 示例2：获取行标签为 1952, 1962, 1972 行的所有列的数据
china_df.loc[[1952, 1962, 1972]]

Unnamed: 0_level_0,country,continent,lifeExp,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1952,China,Asia,44.0,556263527,400.448611
1962,China,Asia,44.50136,665770000,487.674018
1972,China,Asia,63.11888,862030000,676.900092


In [6]:
# 示例3：获取所有行的 country、pop、gdpPercap 列的数据
china_df.loc[:, ['country', 'pop', 'gdpPercap']]

Unnamed: 0_level_0,country,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1952,China,556263527,400.448611
1957,China,637408000,575.987001
1962,China,665770000,487.674018
1967,China,754550000,612.705693
1972,China,862030000,676.900092
1977,China,943455000,741.23747
1982,China,1000281000,962.42138
1987,China,1084035000,1378.904018
1992,China,1164970000,1655.784158
1997,China,1230075000,2289.234136


In [7]:
# 示例4：获取行标签为 1957 行的所有列的数据
china_df.loc[1957]

country          China
continent         Asia
lifeExp         50.549
pop          637408000
gdpPercap      575.987
Name: 1957, dtype: object

In [8]:
# 示例4：获取行标签为 1957 行的所有列的数据
china_df.loc[[1957]]

Unnamed: 0_level_0,country,continent,lifeExp,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1957,China,Asia,50.54896,637408000,575.987001


In [31]:
# 示例5：获取行标签为 1957 行的 lifeExp 列的数据
# china_df.loc[[1957], 'lifeExp']
#或
# china_df.loc[1957, ['lifeExp']]
#或
china_df.loc[1957, 'lifeExp']

50.54896

In [40]:
china_df.loc()

<pandas.core.indexing._LocIndexer at 0x1e5576326d8>

### 4.2 iloc函数获取指定行列的数据
基本格式：

|语法|说明|
|----|----|
|df.iloc[[行位置1, ...], [列位置1, ...]]|根据行位置和列位置获取对应行的对应列的数据，结果为：DataFrame|
|df.iloc[[行位置1, ...]]|根据行位置获取对应行的所有列的数据结果为：DataFrame|
|df.iloc[:, [列位置1, ...]]|根据列位置获取所有行的对应列的数据结果为：DataFrame|
|df.iloc[行位置]|结果只有一行，结果为：Series|
|df.iloc[[行位置]]|结果只有一行，结果为：DataFrame|
|df.iloc[[行位置], 列位置]|结果只有一行一列，结果为：Series，行标签作为 Series 的索引标签|
|df.iloc[行位置, [行位置]]|结果只有一行一列，结果为：Series，列标签作为 Series 的索引标签|
|df.iloc[行位置, 行位置]|结果只有一行一列，结果为单个值|

#### 演示示例：
1. 示例1：获取行位置为 0, 2, 4 行的 0、1、2 列的数据
2. 示例2：获取行位置为 0, 2, 4 行的所有列的数据
3. 示例3：获取所有行的列位置为 0、1、2 列的数据
4. 示例4：获取行位置为 1 行的所有列的数据
5. 示例5：获取行位置为 1 行的列位置为 2 列的数据

#### 示例实现：

In [12]:
# 示例1：获取行位置为 0, 2, 4 行的 0、1、2 列的数据
china_df.iloc[[0, 2, 4], [0, 1, 2]]

Unnamed: 0_level_0,country,continent,lifeExp
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1952,China,Asia,44.0
1962,China,Asia,44.50136
1972,China,Asia,63.11888


In [13]:
# 示例2：获取行位置为 0, 2, 4 行的所有列的数据
china_df.iloc[[0, 2, 4]]

Unnamed: 0_level_0,country,continent,lifeExp,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1952,China,Asia,44.0,556263527,400.448611
1962,China,Asia,44.50136,665770000,487.674018
1972,China,Asia,63.11888,862030000,676.900092


In [14]:
# 示例3：获取所有行的列位置为 0、1、2 列的数据
china_df.iloc[:, [0, 1, 2]]

Unnamed: 0_level_0,country,continent,lifeExp
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1952,China,Asia,44.0
1957,China,Asia,50.54896
1962,China,Asia,44.50136
1967,China,Asia,58.38112
1972,China,Asia,63.11888
1977,China,Asia,63.96736
1982,China,Asia,65.525
1987,China,Asia,67.274
1992,China,Asia,68.69
1997,China,Asia,70.426


In [15]:
# 示例4：获取行位置为 1 行的所有列的数据
china_df.iloc[1]

country          China
continent         Asia
lifeExp         50.549
pop          637408000
gdpPercap      575.987
Name: 1957, dtype: object

In [16]:
# 示例4：获取行位置为 1 行的所有列的数据
china_df.iloc[[1]]

Unnamed: 0_level_0,country,continent,lifeExp,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1957,China,Asia,50.54896,637408000,575.987001


In [19]:
# 示例5：获取行位置为 1 行的列位置为 2 列的数据
china_df.iloc[[1], 2]
# 或
china_df.iloc[1, [2]]
# 或
china_df.iloc[1, 2]

50.54896

### 4.3 loc和iloc的切片操作
#### 基本格式：

|语法|说明|
|---|---|
|df.loc[起始行标签:结束行标签, 起始列标签:结束列标签]|根据行列标签范围获对应行的对应列的数据，包含起始行列标签和结束行列标签|
|df.iloc[起始行位置:结束行位置, 起始列位置:结束列位置]|根据行列标签位置获对应行的对应列的数据，包含起始行列位置，但不包含结束行列位置|

#### 演示示例：

示例1：获取 china_df 中前三行的前三列的数据，分别使用上面介绍的loc和iloc实现
![示例1](./pic/chapter02-23.png)

#### 示例实现：

In [21]:
# 示例1：获取 china_df 中前三行的前三列的数据，分别使用上面介绍的loc和iloc实现
china_df.loc[1952:1962, 'country':'lifeExp']
# 或
china_df.iloc[0:3, 0:3]

Unnamed: 0_level_0,country,continent,lifeExp
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1952,China,Asia,44.0
1957,China,Asia,50.54896
1962,China,Asia,44.50136


### 4.4 [] 语法获取指定行列的数据
#### 基本格式：

|语法|说明|
|----|----|
|df[['列标签1', '列标签2', ...]]|根据列标签获取所有行的对应列的数据，结果为：DataFrame|
|df['列标签']|根据列标签获取所有行的对应列的数据:1）如果结果只有一列，结果为：Series，行标签作为 Series 的索引标 2）如果结果有多列，结果为：DataFrame|
|df[['列标签']]|根据列标签获取所有行的对应列的数据，结果为：DataFrame|
|df[起始行位置:结束行位置]|根据指定范围获取对应行的所有列的数据，不包括结束行位置|

#### 演示示例：

1. 示例1：获取所有行的 country、pop、gdpPercap 列的数据
2. 示例2：获取所有行的 pop 列的数据
3. 示例3：获取前三行的数据
4. 示例4：从第一行开始，每隔一行获取一行数据，一共获取3行

#### 示例实现：

In [22]:
# 示例1：获取所有行的 country、pop、gdpPercap 列的数据
china_df[['country', 'pop', 'gdpPercap']]

Unnamed: 0_level_0,country,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1952,China,556263527,400.448611
1957,China,637408000,575.987001
1962,China,665770000,487.674018
1967,China,754550000,612.705693
1972,China,862030000,676.900092
1977,China,943455000,741.23747
1982,China,1000281000,962.42138
1987,China,1084035000,1378.904018
1992,China,1164970000,1655.784158
1997,China,1230075000,2289.234136


In [25]:
# 示例2：获取所有行的 pop 列的数据
china_df['pop']
type(china_df['pop'])

pandas.core.series.Series

In [27]:
# 示例2：获取所有行的 pop 列的数据
china_df[['pop']]
type(china_df[['pop']])          

pandas.core.frame.DataFrame

In [28]:
# 示例3：获取前三行的数据
china_df[0:3]

Unnamed: 0_level_0,country,continent,lifeExp,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1952,China,Asia,44.0,556263527,400.448611
1957,China,Asia,50.54896,637408000,575.987001
1962,China,Asia,44.50136,665770000,487.674018


In [30]:
# 示例4：从第一行开始，每隔一行获取一行数据，一共获取3行
china_df[0:6:2]

Unnamed: 0_level_0,country,continent,lifeExp,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1952,China,Asia,44.0,556263527,400.448611
1962,China,Asia,44.50136,665770000,487.674018
1972,China,Asia,63.11888,862030000,676.900092


# 总结
+ 能够知道 DataFrame 和 Series 数据结构
+ 能够加载 csv 和 tsv 数据集
+ 能够区分 DataFrame 的行列标签和行列位置编号
+ 能够获取 DataFrame 指定行列的数据
    + loc
    + iloc
    + loc和iloc的切片操作
    + []