## 1.1 简介

    Pandas 是一个用于数据分析的开源Python库。它让Python能处理电子表格等数据，提供了数据快速价值、操作、对齐与合并等功能。
目标：
- 加载带分隔符带简单数据文件
- 计算加载带行数和列数
- 确定加载哪类数据
- 通过获取行和列带子集来查看数据带不同部分

## 1.2 加载数据集
    当给定一个数据集时，首先要加载它并查看其结构和内容。

In [1]:
import pandas
# 默认情况下，read_csv 函数会读取逗号分隔文件
# Gapminder数据使用制表符分隔
# 可已吧sep参赛设置为\t, 显示指明使用制表符分隔
df = pandas.read_csv("./data/gapminder.tsv", sep="\t")
# 调用head()方法，只显示前5行数据
print(df.head())

       country continent  year  lifeExp       pop   gdpPercap
0  Afghanistan      Asia  1952   28.801   8425333  779.445314
1  Afghanistan      Asia  1957   30.332   9240934  820.853030
2  Afghanistan      Asia  1962   31.997  10267083  853.100710
3  Afghanistan      Asia  1967   34.020  11537966  836.197138
4  Afghanistan      Asia  1972   36.088  13079460  739.981106


调用Pandas的函数时，往往需要为pandas起各别名pd，下面的代码与前面的相同。

In [2]:
import pandas as pd
df = pandas.read_csv("./data/gapminder.tsv", sep="\t")
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [3]:
# 获取行数和列数
print(df.shape)

(1704, 6)


In [4]:
# shape是属性，而非方法
# 如下用法会引发错误
print(df.shape())

TypeError: 'tuple' object is not callable

In [5]:
# 获取列名
print(df.columns)
# 列名的类型是字符串
print(type(df.columns[0]))

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')
<class 'str'>


Pandas的DataFrame对象和其他语言中的DataFrame对象相似，每列的类型必须相同，而每行可以包含混合类型。当前例子中，可以使用DataFrame的dtypes属性和info方法来验证。

In [6]:
# 每列的dtype
print(df.dtypes)
# 获取更多数据信息
print(df.info())

country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
dtype: object
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB
None


### Pandas类型和Python类型

|Pandas类型|Python类型|说明|
|---------|---------|----|
|object|string|最常用的数据类型|
|int64|int|整型|
|float64|float|带小数的数字|
|datetime64|datetime|Python标准库包含datetime，但默认不加载，需要导入才能使用|

## 1.3 查看列、行和单元格
    前面介绍列如何加载简单的数据文件，下面查看其内容。可以把DateFramed的内容全部输出。但当今数据规模一般都很大，全部输出不现实，而且很有可能难以理解。查看数据都最佳方法是分别查看数据的各个子集。前面讲过，可以使用DateFrame的head方法查看数据的前5行。这对于查看数据是否正确加载，了解每列、列名及其内容非常有用。不过，有时只需查看数据的特定行、列或值。

### 1.3.1 获取列子集
    如果想查看数据中的多列，可以通过名称、位置或范围来指定。

1. 根据名称获取列子集

In [10]:
# 只获取country列，并将其保存到一个变量中
print(df.head())
country_df = df['country']

       country continent  year  lifeExp       pop   gdpPercap
0  Afghanistan      Asia  1952   28.801   8425333  779.445314
1  Afghanistan      Asia  1957   30.332   9240934  820.853030
2  Afghanistan      Asia  1962   31.997  10267083  853.100710
3  Afghanistan      Asia  1967   34.020  11537966  836.197138
4  Afghanistan      Asia  1972   36.088  13079460  739.981106
0    Afghanistan
1    Afghanistan
2    Afghanistan
3    Afghanistan
4    Afghanistan
Name: country, dtype: object


In [11]:
# 显示前5行
print(country_df.head())

0    Afghanistan
1    Afghanistan
2    Afghanistan
3    Afghanistan
4    Afghanistan
Name: country, dtype: object


In [12]:
# 显示后5行
print(country_df.tail())

1699    Zimbabwe
1700    Zimbabwe
1701    Zimbabwe
1702    Zimbabwe
1703    Zimbabwe
Name: country, dtype: object


通过列名指定多列，需要向方括内传入一个Python列表。

In [14]:
# 查看country、continent、year列
subset = df[['country', 'continent', 'year']]
print(subset.head())

       country continent  year
0  Afghanistan      Asia  1952
1  Afghanistan      Asia  1957
2  Afghanistan      Asia  1962
3  Afghanistan      Asia  1967
4  Afghanistan      Asia  1972


In [15]:
print(subset.tail())

       country continent  year
1699  Zimbabwe    Africa  1987
1700  Zimbabwe    Africa  1992
1701  Zimbabwe    Africa  1997
1702  Zimbabwe    Africa  2002
1703  Zimbabwe    Africa  2007


### 1.3.2 获取行子集
    获取行子集有多种方法，比如通过行名或行索引。
|获取行子集的方法|说明|
|----|----|
|loc|基于索引标签获取行子集（行名）|
|iloc|基于行索引获取行子集（行号）|
|ix（Pandas v0.20不支持）|基于索引标签或行索引获取行子集|

1. 通过行索引标签获取行子集：loc

In [16]:
print(df.head())

       country continent  year  lifeExp       pop   gdpPercap
0  Afghanistan      Asia  1952   28.801   8425333  779.445314
1  Afghanistan      Asia  1957   30.332   9240934  820.853030
2  Afghanistan      Asia  1962   31.997  10267083  853.100710
3  Afghanistan      Asia  1967   34.020  11537966  836.197138
4  Afghanistan      Asia  1972   36.088  13079460  739.981106
