Pandas是建立在Numpy上較新式的套件,它提供對於 DataFrame高效率的實作,DataFrame本質上是多維度陣列附加上列和欄標籤,經常存放著異質的型態或缺失的資料,而且提供這些標籤資料一個便利的儲存介面

Data Indexing and Selection
在這裡，我們將介紹在Pandas Series和DataFrame對像中訪問和修改值的類似方法。如果您使用過NumPy模式，Pandas中的相應模式將會非常熟悉，儘管有一些需要注意的我們將從一維Series對象的簡單情況開始，然後轉到更複雜的二維DataFrame對象。

串聯數據選擇
正如我們在上一節中看到的那樣，Series對像在很多方面起作用，比如一維NumPy數組，並且在許多方面像標準的Python字典。如果我們記住這兩個重疊的類比，它將幫助我們理解這些數組中數據索引和選擇的模式。

In [1]:
import numpy as np
import pandas as pd

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

此顯式索引定義為Series對象提供了其他功能。例如，索引不必是整數，但可以包含任何所需類型的值。例如，如果我們願意，我們可以使用字符串作為索引：

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [4]:
data['b']

0.5

我們甚至可以使用非連續或非連續的索引：

In [5]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [6]:
data[5]

0.5

數據可以是標量，重複填充指定的索引：

In [7]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

data可以是字典，其中index默認為已排序的字典鍵：

In [8]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

構造DataFrame對象
Pandas DataFrame可以以多種方式構建。這裡我們舉幾個例子。

來自單個Series對象
DataFrame是Series對象的集合，單列DataFrame可以從單個Series中構造：

In [12]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [11]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [13]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

既然我們已經使用了之前的種群系列，我們可以使用字典來構造包含此信息的單個二維對象：

In [15]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [16]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [17]:
states.columns

Index(['population', 'area'], dtype='object')

In [18]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135
