# 数据分析常用库——Pandas库

![pandas](image/pandas.png)

它是一个擅长用来对数据进行收集、清洗和分析的python第三方库。

早期多用于时间序列的分析，在金融领域使用较多，目前已经扩展到所有需要对数据进行处理的场景中。

## 1. Pandas的诞生


作为pandas的主要发明者，韦斯·麦金尼(Wes McKinney)讲述了他的个人经历：

<img src="image/WesMcKinney.png" alt="img" width=300>


"I'm an American computer programmer and the Director of Ursa Labs. I studied theoretical mathematics at MIT (graduating in late 2006) before becoming very interested in programming and tools for data analysis, especially for industry use cases, in 2007.

From August 2007 to July 2010, I worked on the front office quant research team at AQR Capital Management, a large quantitative investment manager in Greenwich, CT. During this time, I led a very successful effort to migrate research and production model building and research processes to the Python programming language. I started building pandas on April 6, 2008, as part of a skunkworks effort to reproduce some econometric research in Python. As part of my work, we formed a new Research Development team for the global macro group to drive software innovation in the front office.

I joined the PhD program in the Statistical Science Department at Duke University before taking leave in Summer 2011 to explore ways to develop open source software (such as pandas) in a sustainable way. I discovered that entrepreneurship often makes more sense than consulting to fund open source with more leverage."

--- Wes McKinney, The creater of Pandas.


### 练习：Pandas的诞生
读完之后，你能回答一下问题么：
1. pandas是什么时间发明出来的？
2. 最早pandas是为了做什么用的？

## 2. Panda和NumPy的不同

Pandas和NumPy是两个在数据分析和科学计算领域广泛使用的Python库。

Pandas的设计目标是为了处理和分析结构化数据，如表格数据。因此，Pandas提供了一种称为DataFrame的数据结构，它类似于数据库中的表格或Excel中的电子表格。DataFrame可以容纳不同类型的数据，并且可以根据行和列进行灵活的选择和操作。

Pandas提供了多种方法来选择和过滤数据，如使用标签、位置、条件等进行选择。这种设计是为了方便用户根据特定的条件或需求进行数据选取和操作。同时，Pandas还提供了丰富的统计和分析函数，使得数据的处理和分析更加方便和高效。

相比之下，NumPy更侧重于数值计算和科学计算。NumPy提供了一种称为数组（array）的数据结构，它是一个多维的数值容器。NumPy的数组在内存中是连续存储的，因此可以高效地进行数值计算和操作。

总的来说，Pandas的设计目标是为了处理和分析结构化数据，而NumPy的设计目标是提供高性能的数值计算功能。

## 3. 你的pandas版本


如何加载pandas呢？想必你已经知道了。
```python
import pandas as pd
```

如果需要了解你的pandas的版本号，请输入以下命令：
```python
pd.__version__
```

如果import过程中出现失败，显示未找到pandas，可能没有安装。请在jupyter-lab新建一个Terminal（终端）。

在终端下，输入命令
```bash
pip install pandas --user
```

如果网速比较慢，可以打断以上命令，使用`ctrl+c`。然后指定pypi镜像地址：`https://mirrors.aliyun.com/pypi/simple`，输入命令如下：
```bash
pip install pandas --user -i https://mirrors.aliyun.com/pypi/simple
```

## 4. cheatsheet 

在网上搜索关键词"**cheatsheet** + **pandas**"，可以搜索到一些制作精良的pandas快速手册，方便随时查找所需的方法和用法。

请点击，附录：Pandas-Cheat-Sheet.pdf文件

## 附录


### 练习：Pandas的诞生
读完之后，你能回答一下问题么：
1. pandas是什么时间发明出来的？
2. 最早pandas是为了做什么用的？

Pandas的主要作者是Wes McKinney。他是一位美国计算机科学家和开发者，于2008年创建了Pandas库。Wes McKinney在创建Pandas之前曾在金融和量化交易领域工作，他发现现有的数据处理工具在处理结构化数据方面存在一些不便之处，于是决定开发一个更适合数据分析和处理的库，这就是Pandas的起源。他的贡献使得Pandas成为了数据科学领域中最受欢迎和广泛使用的Python库之一。