# Pandas基础

## 简介

`Pandas`最初是为了弥补Python在科学计算上速度慢和资源消耗大的缺点。随着不断的发展，`Pandas`越来越成熟和稳定，已经成为了Python在科学计算中的重要模块之一，广泛的应用于数据分析、机器学习和深度学习等领域。

`Pandas`是在`NumPy`的基础上进行开发的，因此`Pandas`采用了大量的`NumPy`编码风格，但它在性能上要优于`NumPy`。

`NumPy`比较适合处理统一的数值数组数据，而`Pandas`更加专门用来处理表格和混杂数据。

`Pandas`主要包含了两个数据结构：

1. 一维数组（Series）

2. 二维数组（DataFrame）

In [None]:
!pip install pandas
!pip install openpyxl

导入`pandas`模块，设置别名为`pd`。注意不要修改为别的名字，`pd`已经成为了约定俗成的规范。

In [None]:
import pandas as pd

## 特点

`Pandas`的创始人Wes McKinney总结了它的9个特性：

1. 对表格类型数据的读取和输出速度非常快

2. 时间序列处理

3. 数据队列

4. 处理缺失数据

5. 分组运算

6. 分级索引

7. 数据的合并和加入

8. 数据透视表

9. 数据归纳和分析

## 读取数据

### 读取Excel文件

In [None]:
data = pd.read_excel('data/sales.xlsx')
data

数据分析领域一般都会使用CSV文件来保存数据，而不是Excel。

原因如下：

1. CSV是纯文本文件，它可以更容易地使用编程语言读写

2. CSV文件比Excel更小、更高效，因为它只有数据，没有格式

3. Excel需要安装办公软件（如Office）才能打开，而CSV使用任何文本编辑器即可打开

4. CSV更适合版本控制

### 读取CSV文件

`pd.read_csv()`用于读取CSV文件，该函数有四五十个参数。

以下列举几个常用的参数：

| 参数 | 说明 |
| --- | --- |
| filepath_or_buffer | 文件路径或URL |
| sep | 分隔符，默认为`,` |
| header | 指定第几行为表头，默认为`0` |
| names | 指定列名 |
| nrows | 指定读取多少行数据 |
| skiprows | 指定忽略哪些行 |
| encoding | 字符集类型，默认为`utf-8` |
| engine | 数据分析引擎，默认为`c`，`c`引擎虽然快，但是`python`引擎功能更多 |
| na_filter | 是否检查缺失值 |

可以从本地的文件中读取：

In [None]:
data = pd.read_csv('data/sales.csv')
data

也可以从URL中读取：

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv')
data

`header`参数指定某一行为表头。

In [None]:
data = pd.read_csv('data/sales.csv', header=3)
data

由于`pd.read_csv()`会默认将读取到的第1行内容作为列名。因此在这种情况下，为了避免让第3行变成列名，需要使用`names`参数设置列名。

In [None]:
data = pd.read_csv('data/sales.csv', header=3, names=['日期', '商品', '类别', '数量', '单价', '总销售额'])
data

对于一些本身就没有列名的数据文件，可以将`header`参数设置为`None`，并手动设置`names`参数。

In [None]:
data = pd.read_csv('data/sales_no_header.csv', header=None, names=['日期', '商品', '类别', '数量', '单价', '总销售额'])
data

`nrows`参数用于指定读取多少行数据。

In [None]:
data = pd.read_csv('data/sales.csv', nrows=4)
data

`skiprows`参数用于指定忽略哪些行。

In [None]:
data = pd.read_csv('data/sales.csv', skiprows=[1, 3, 4])
data

当数据集中含有缺失值的时候，读取后默认为`NaN (Not a Number)`，有时候也称`NA (Not Available)`。

In [None]:
data = pd.read_csv('data/sales_na.csv')
data