Pandas 是非常著名的开源数据处理库，其基于 NumPy 开发，该工具是 Scipy 生态中为了解决数据分析任务而设计。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的函数和方法。

特有的数据结构是 Pandas 的优势和核心。简单来讲，我们可以将任意格式的数据转换为 Pandas 的数据类型，并使用 Pandas 提供的一系列方法进行转换、操作，最终得到我们期望的结果。

所以，我们首先需要了解并熟悉 Pandas 支持的数据类型。


数据类型
Pandas 的数据类型主要有以下几种，它们分别是：Series（一维数组），DataFrame（二维数组），Panel（三维数组），Panel4D（四维数组），PanelND（更多维数组）。其中 Series 和 DataFrame 应用的最为广泛，几乎占据了使用频率 90% 以上。

Series
Series 是 Pandas 中最基本的一维数组形式。其可以储存整数、浮点数、字符串等类型的数据。Series 基本结构如下：

In [6]:
import pandas as pd
pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

Series([], dtype: object)

其中，data 可以是字典，或者NumPy 里的 ndarray 对象等。index 是数据索引，索引是 Pandas 数据结构中的一大特性，它主要的功能是帮助我们更快速地定位数据。

下面，我们基于 Python 字典新建一个示例 Series。

s=pd.Series({'a':1,'b':2,'c':3})
s

可以看到，Series 的索引是自动创建的，且按照顺序排列。我们也可以自定义索引。

In [7]:
type(s)

pandas.core.series.Series

由于 Pandas 基于 NumPy 开发。那么 NumPy 的数据类型 ndarray 多维数组自然就可以转换为 Pandas 中的数据。而 Series 则可以基于 NumPy 中的一维数据转换

In [8]:
import numpy as np
s=pd.Series(np.random.randn(5),index=['a','b','c','d','e'])
s

a    1.324701
b    0.591546
c   -0.043139
d   -0.591737
e   -1.308017
dtype: float64

如上所示，我们给出了 NumPy 生成的一维随机数组，最终得到的 Series 索引默认从 0 开始，而数值类型为 float64。

DataFrame

DataFrame 是 Pandas 中最为常见、最重要且使用频率最高的数据结构。DataFrame 和平常的电子表格或 SQL 表结构相似。你可以把 DataFrame 看成是 Series 的扩展类型，它仿佛是由多个 Series 拼合而成。它和 Series 的直观区别在于，数据不但具有行索引，且具有列索引。


DataFrame 的基本结构如下：

In [10]:
pd.DataFrame(data=None, index=None, columns=None)

区别于 Series，其增加了 columns 列索引。DataFrame 可以由以下多个类型的数据构建：

一维数组、列表、字典或者 Series 字典。
二维或者结构化的 numpy.ndarray。
一个 Series 或者另一个 DataFrame。
例如，我们首先使用一个由 Series 组成的字典来构建 DataFrame。

In [11]:
d={'one':pd.Series([1,2,3],index=['a','b','c']),
   'two':pd.Series([1,2,3,4],index=['a','b','c','d'])}
d

{'one': a    1
 b    2
 c    3
 dtype: int64,
 'two': a    1
 b    2
 c    3
 d    4
 dtype: int64}

当不指定索引时，DataFrame 的索引同样是从 0 开始。我们也可以直接通过一个列表构成的字典来生成 DataFrame。

In [12]:
d={'one':[1,2,3,4],
   'two':[4,3,2,1]}
d

{'one': [1, 2, 3, 4], 'two': [4, 3, 2, 1]}

或者反过来，由带字典的列表生成 DataFrame。

In [13]:
df = pd.DataFrame([{'one': 1, 'two': 4},
                   {'one': 2, 'two': 5},
                   {'one': 3, 'two': 6}])
df

Unnamed: 0,one,two
0,1,4
1,2,5
2,3,6


NumPy 的多维数组非常常用，同样可以基于二维数值来构建一个 DataFrame。

In [14]:
pd.DataFrame(np.random.randint(5, size=(2, 4))) 

Unnamed: 0,0,1,2,3
0,3,0,4,0
1,0,2,3,1


Pandas 常用的 Series 和 DataFrame 数据类型。Series 实际上可以被初略看出是只有 1 列数据的 DataFrame。当然，这个说法不严谨，二者的核心区别仍然是 Series 没有列索引。你可以观察如下所示由 NumPy 一维随机数组生成的 Series 和 DataFrame。

In [15]:
pd.Series(np.random.randint(5, size=(5,)))

0    3
1    4
2    0
3    1
4    4
dtype: int32

In [16]:
pd.DataFrame(np.random.randint(5, size=(5,)))

Unnamed: 0,0
0,1
1,2
2,1
3,0
4,2


数据读取

想要使用 Pandas 来分析数据，那么首先需要读取数据。大多数情况下，数据都来源于外部的数据文件或者数据库。Pandas 提供了一系列的方法来读取外部数据，非常全面。下面，我们以最常用的 CSV 数据文件为例进行介绍。

读取数据 CSV 文件的方法是 pandas.read_csv()，你可以直接传入一个相对路径，或者是网络 URL。

In [20]:
df = pd.read_csv("https://labfile.oss.aliyuncs.com/courses/906/los_census.csv")
df

URLError: <urlopen error [SSL: UNEXPECTED_EOF_WHILE_READING] EOF occurred in violation of protocol (_ssl.c:1006)>

由于 CSV 存储时是一个二维的表格，那么 Pandas 会自动将其读取为 DataFrame 类型。

现在你应该就明白了，DataFrame 是 Pandas 构成的核心。一切的数据，无论是外部读取还是自行生成，我们都需要先将其转换为 Pandas 的 DataFrame 或者 Series 数据类型。实际上，大多数情况下，这一切都是设计好的，无需执行额外的转换工作。

pd.read_ 前缀开始的方法还可以读取各式各样的数据文件，且支持连接数据库。这里，我们不再依次赘述，你可以阅读  官方文档相应章节 熟悉这些方法以及搞清楚这些方法包含的参数。

为什么要将数据转换为 Series 或者 DataFrame 结构？

因为 Pandas 针对数据操作的全部方法都是基于 Pandas 支持的数据结构设计的。也就是说，只有 Series 或者 DataFrame 才能使用 Pandas 提供的方法和函数进行处理。所以，学习真正数据处理方法之前，我们需要将数据转换生成为 Series 或 DataFrame 类型。

基本操作

通过上面的内容，我们已经知道一个 DataFrame 结构大致由 3 部分组成，它们分别是列名称、索引和数据。
接下来，我们就学习针对 DataFrame 的基本操作。本次课程中，我们不会刻意强调 Series，因为你在 DataFrame 上学习的大多数方法和技巧都适用于对 Series 进行处理，二者同根同源。

有些时候，我们读取的文件很大。如果全部输出预览这些文件，既不美观，又很耗时。还好，Pandas 提供了 head() 和 tail() 方法，它可以帮助我们只预览一小块数据。

In [None]:
df.head()#默认显示前5行

In [None]:
df.tail()#默认显示后5行

Pandas 还提供了统计和描述性方法，方便你从宏观的角度去了解数据集。describe() 相当于对数据集进行概览，会输出该数据集每一列数据的计数、最大值、最小值等。

In [None]:
df.describe()

Pandas 基于 NumPy 开发，所以任何时候你都可以通过 .values 将 DataFrame 转换为 NumPy 数组。

In [None]:
df.values

你可以同时使用 Pandas 和 NumPy 提供的 API 对同一数据进行操作，并在二者之间进行随意转换。这就是一个非常灵活的工具生态圈。

除了 .values，DataFrame 支持的常见属性可以通过  官方文档相应章节 查看。其中常用的有：

In [None]:
df.index #查看索引

In [None]:
df.columns #查看列名

In [None]:
df.dtypes #查看数据类型

In [None]:
df.shape #查看形状

数据选择
在数据预处理过程中，我们往往会对数据集进行切分，只将需要的某些行、列，或者数据块保留下来，输出到下一个流程中去。这也就是所谓的数据选择，或者数据索引。

由于 Pandas 的数据结构中存在索引、标签，所以我们可以通过多轴索引完成对数据的选择。

基于索引数字选择
当我们新建一个 DataFrame 之后，如果未自己指定行索引或者列对应的标签，那么 Pandas 会默认从 0 开始以数字的形式作为行索引，并以数据集的第一行作为列对应的标签。其实，这里的「列」也有数字索引，默认也是从 0 开始，只是未显示出来。

所以，我们首先可以基于数字索引对数据集进行选择。这里用到的 Pandas 中的 .iloc 方法。该方法可以接受的类型有：

整数。例如：5
整数构成的列表或数组。例如：[1, 2, 3]
布尔数组。
可返回索引值的函数或参数。
下面，我们使用上方的示例数据进行演示。

首先，我们可以选择前 3 行数据。这和 Python 或者 NumPy 里面的切片很相似

In [None]:
df.iloc[:3]

In [None]:
df.iloc[1:3]

In [None]:
df.iloc[1:3,0:2]

In [None]:
df.iloc[[0,2],[1,3]]

那么选择多行，是不是 df.iloc[1, 3, 5] 这样呢？

答案是错误的。df.iloc[] 的 [[行]，[列]] 里面可以同时接受行和列的位置，如果你直接键入 df.iloc[1, 3, 5] 就会报错。

所以，很简单。如果你想要选择 2，4，6 行，可以这样做

In [None]:
df.iloc[[1,3,5]]

基于标签名称选择
除了根据数字索引选择，还可以直接根据标签对应的名称选择。这里用到的方法和上面的 iloc 很相似，少了个 i 为 df.loc[]。

df.loc[] 可以接受的类型有：

单个标签。例如：2 或 'a'，这里的 2 指的是标签而不是索引位置。
列表或数组包含的标签。例如：['A', 'B', 'C']。
切片对象。例如：'A':'E'，注意这里和上面切片的不同之处，首尾都包含在内。
布尔数组。
可返回标签的函数或参数。
下面，我们来演示 df.loc[] 的用法。先选择前 3 行：

In [None]:
df.loc[0:2]

选择1、3、5行

In [None]:
df.loc[[0,2,4]]

选择2——4列

In [None]:
df.loc[:,'Total Population':'Total Males']

选择1、3行和Median Age后面的列：

In [None]:
df.loc[[0,2],'Median Age':]