# 介绍

在本微课程中，您将全面了解 **[pandas](https://pandas.pydata.org)**，这是最受欢迎的数据分析 Python 库。


在本教程中，您将学习如何创建自己的数据，以及如何处理现有数据。

# 入门

要使用 pandas，您通常会从以下代码行开始：

In [1]:
import pandas as pd

# 创建数据

在 Pandas 库中有两个核心对象：**DataFrame** 和 **Series**。

### DataFrame

**DataFrame** 是一个表格。它包含一个个体 _entries_ 的数组，每个条目具有特定的 _value_。每个条目对应于一个行（或 _record_）和一个 _column_。

例如，考虑以下简单的 DataFrame：

In [2]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


在这个例子中，“0, No” 条目的值为 131。 “0, Yes” 条目的值为 50，依此类推。

DataFrame 条目不限于整数。例如，这是一个值为字符串的 DataFrame：

In [3]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


我们使用 `pd.DataFrame()` 构造函数来生成这些 DataFrame 对象。声明新对象的语法是一个字典，其键是列名（在这个例子中是 `Bob` 和 `Sue`），值是条目的列表。这是构造新 DataFrame 的标准方式，也是你最有可能遇到的方式。

字典列表构造器为 *column labels* 赋值，但对于 *row labels* 只是使用从 0 开始的递增计数（0, 1, 2, 3, ...）。有时这是可以的，但通常我们会想要自己指定这些标签。

DataFrame 中使用的 *row labels* 列表被称为 **Index**。我们可以通过在构造函数中使用 `index` 参数来为其赋值：

In [4]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


### Series

相比之下，Series 是一系列数据值。如果 DataFrame 是一个表格，那么 Series 就是一个列表。事实上，您可以仅仅使用一个列表来创建 Series：

In [5]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Series 本质上是 DataFrame 的单个列。因此，您可以使用与之前相同的方式为 Series 分配行标签，使用一个 `index` 参数。然而，Series 没有列名，它只有一个总体的 `name`：

In [6]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

Series 和 DataFrame 密切相关。将 DataFrame 视为实际上只是一堆“粘在一起”的 Series 是很有帮助的。在本教程的下一节中我们会更多地了解这一点。

# 读取数据文件

能够手动创建 DataFrame 或 Series 是很方便的。但是，大多数情况下，我们实际上不会手动创建自己的数据。相反，我们将使用已经存在的数据。

数据可以以多种不同的形式和格式存储。其中最基本的是简单的 CSV 文件。当您打开一个 CSV 文件时，您会得到类似于这样的东西：

```
Product A,Product B,Product C,
30,21,9,
35,34,1,
41,11,11
```

因此，CSV 文件是由逗号分隔的值组成的表格。因此得名：“逗号分隔值”，或 CSV。

现在让我们暂时放下我们的玩具数据集，看看当我们将实际数据读入 DataFrame 时，它是什么样子。我们将使用 `pd.read_csv()` 函数将数据读入 DataFrame。操作如下：

In [7]:
wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv")

我们可以使用 `shape` 属性来检查生成的 DataFrame 的大小：

In [8]:
wine_reviews.shape

(129971, 14)

因此，我们的新 DataFrame 有 130,000 条记录，分布在 14 个不同的列中。这几乎是 200 万个条目！

我们可以使用 `head()` 命令来检查生成的 DataFrame 的内容，该命令获取前五行：

In [9]:
wine_reviews.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


`pd.read_csv()` 函数功能强大，有超过 30 个可选参数可以指定。例如，在这个数据集中，您可以看到 CSV 文件有一个内置的索引，但 pandas 没有自动识别到。为了让 pandas 使用该列作为索引（而不是从头开始创建一个新的索引），我们可以指定一个 `index_col`。

In [10]:
wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
