## Pandas

[Pandas](https://pandas.pydata.org/) 是一个用于数据处理和分析的Python库，它提供了大量快速、灵活和方便使用的数据结构，目的是使结构化（表格、多维、混杂形式等）和时间序列数据的处理既简单又直观。

Pandas适用的数据类型一般包括：

* 列数据为不同数据类型的表格数据，如Excel表格数据和SQL表格数据

* 有序和无序时间序列数据

* 具有行和列的任意矩阵数据（同类型或异类）

* 观察/统计数据集的任何其他形式

安装Pandas：

```bash
    conda install -n 虚拟环境名 pandas
```

------

Pandas里面的最主要的两个数据结构为Series和DataFrame。一个Series实际上是指一列数据，DataFrame是多维的表格数据，有多个列数据构成：

<img src="./img/pandas.jpg"/>

有许多方法可以创建一个DataFrame，这里推荐使用Python的字典：

In [None]:
import pandas as pd
data = {
    'Chinese': [90, 91, 93, 94],
    'English': [90, 80, 70, 85]
}

score = pd.DataFrame(data)
score

然后加入index：

In [None]:
score = pd.DataFrame(data, index=['James', 'Lucy', 'Lily', 'David'])
score

然后可以查看某个人的分数：

In [None]:
score.loc['Lucy']

### 数据读入

Python可以读入CSV文本数据、EXCEL表格数据、Json格式的数据、SQL数据库的数据等。

#### 读入CSV文本数据
使用read_csv()函数可直接读取CSV文本文件：

In [None]:
score = pd.read_csv('.\misc\score.csv', index_col=0)
score

#### 读入EXCEL数据
首先需要安装xlrd库然后使用read_excel()函数：


In [None]:
score = pd.read_excel('.\misc\score.xlsx',index_col=0)
score

### 数据操作

#### 查看数据

当读入一定的数据后，可以使用df.info()查看数据整体情况：

In [None]:
score.info()

可使用head()函数来查看数据，其默认输出数据的前五行，也可以通过给定参数来输出指定的行数：

In [None]:
score.head()

In [None]:
score.head(7)

也可以使用tail()函数来查看倒数5行的数据，或者用户指定行数：

In [None]:
score.tail(6)

#### 处理和分析数据
可以按照指定的列和方式来排序，如从上个例子中找到英语分最高的人：

In [None]:
Sorted = score.sort_values(['English'], ascending=False)
Sorted.head(1)

增加和删除列：


In [None]:
score['Music'] = 88
score['Music'] += 2
score

In [None]:
del score['Music']
score


数据的访问、切片和提取，如访问和提取列数据：

In [None]:
score['Music'] = 88
subset = score[['Chinese','Music']]
subset

访问和提取行数据：可用 .loc 和 .iloc 函数，前者通过名字访问，后者通过索引号访问：

In [None]:
Lucy = score.loc['Lucy']
Lucy

In [None]:
Lucy = score.iloc[1]
Lucy

条件选择：

In [None]:
score[score['Chinese'] > 90]

### 数据展示

In [None]:
from matplotlib import pyplot as plt
score[['Chinese','English']].plot.bar()
plt.ylabel("Scores")