<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="figures/PDSH-cover-small.png">

*このノートブックには、Jake VanderPlas による [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) からの抜粋が含まれています。コンテンツは利用可能です [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do).*

※テキストは[CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode)で、コードは[CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode)で公開しています。このコンテンツが役立つと思われる場合は、[CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode) による作業のサポートを検討してください!*

<!--ナビゲーション-->
< [Data Manipulation with Pandas](03.00-Introduction-to-Pandas.ipynb) | [Data Manipulation with Pandas](03.00-Introduction-to-Pandas.ipynb) | [Data Manipulation with Pandas](03.00-Introduction-to-Pandas.ipynb) >

<a href="https://colab.research.google.com/github/vitroid/PythonDataScienceHandbook/blob/ja/notebooks/03.01-Introducing-Pandas-Objects.ipynb"><img align="left" src=" https://colab.research.google.com/assets/colab-badge.svg" alt="Colab で開く" title="Google Colaboratory で開いて実行する"></a>


# Pandas オブジェクトの紹介

非常に基本的なレベルでは、Pandas オブジェクトは、行と列が単純な整数インデックスではなくラベルで識別される NumPy 構造化配列の拡張バージョンと考えることができます。
この章の過程で見ていくように、Pandas は基本的なデータ構造の上に多数の便利なツール、メソッド、および機能を提供しますが、以下のほとんどすべては、これらの構造が何であるかを理解する必要があります。
したがって、先に進む前に、これら 3 つの基本的な Pandas データ構造を紹介しましょう: ``Series``、``DataFrame``、および ``Index`` です。

標準の NumPy と Pandas のインポートでコード セッションを開始します。

In [1]:
import numpy as np
import pandas as pd

## Pandas シリーズ オブジェクト

Pandas ``Series`` は、インデックス付きデータの一次元配列です。
次のように、リストまたは配列から作成できます。

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

出力に見られるように、Series は値のシーケンスとインデックスのシーケンスの両方をラップしており、values 属性と index 属性でアクセスできます。
``values`` は単純におなじみの NumPy 配列です:

In [3]:
data.values

array([ 0.25,  0.5 ,  0.75,  1.  ])

``index`` は ``pd.Index`` 型の配列のようなオブジェクトです。これについては後で詳しく説明します。

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

NumPy 配列と同様に、おなじみの Python 角かっこ表記を介して、関連付けられたインデックスによってデータにアクセスできます。

In [5]:
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

ただし、後でわかるように、Pandas ``Series`` は、エミュレートする 1 次元の NumPy 配列よりもはるかに一般的で柔軟です。

### 一般化された NumPy 配列としての ``Series``

これまで見てきたことから、 ``Series`` オブジェクトは基本的に 1 次元の NumPy 配列と互換性があるように見えるかもしれません。
本質的な違いは、インデックスの存在です。Numpy 配列には、値にアクセスするために使用される *暗黙的に定義された* 整数インデックスがありますが、Pandas ``Series`` には、値に関連付けられた *明示的に定義された* インデックスがあります。

この明示的なインデックス定義により、Series オブジェクトに追加機能が与えられます。たとえば、インデックスは整数である必要はありませんが、任意のタイプの値で構成できます。
たとえば、必要に応じて、文字列をインデックスとして使用できます。

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

また、アイテムへのアクセスは期待どおりに機能します。

In [8]:
data['b']

0.5

非連続または非連続のインデックスを使用することもできます。

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [10]:
data[5]

0.5

### 専門辞書としてのシリーズ

このように、Pandas ``Series`` は Python 辞書の特殊化のように考えることができます。
ディクショナリは、任意のキーを任意の値のセットにマップする構造であり、「シリーズ」は、型付きキーを型付き値のセットにマップする構造です。
この型付けは重要です: NumPy 配列の背後にある型固有のコンパイル済みコードが、特定の操作について Python リストよりも効率的になるように、Pandas ``Series`` の型情報により、特定の操作について Python 辞書よりもはるかに効率的になります。オペレーション。

``Series`` 辞書としての類推は、Python 辞書から直接 ``Series`` オブジェクトを構築することによって、さらに明確にすることができます:

In [11]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
dtype: int64

デフォルトでは、並べ替えられたキーからインデックスが取得される ``Series`` が作成されます。
ここから、典型的なディクショナリ スタイルのアイテム アクセスを実行できます。

In [12]:
population['California']

38332521

ただし、ディクショナリとは異なり、Series はスライスなどの配列スタイルの操作もサポートしています。

In [13]:
population['California':'Illinois']

California    38332521
Florida       19552860
Illinois      12882135
dtype: int64

[Data Indexing and Selection](03.02-Data-Indexing-and-Selection.ipynb) で、Pandas のインデックス作成とスライスの癖について説明します。

### シリーズオブジェクトの構築

Pandas ``Series`` を最初から構築する方法をいくつか見てきました。それらはすべて、次のバージョンの一部です。

```python
>>> pd.Series(data, index=index)
```

ここで ``index`` はオプションの引数で、 ``data`` は多くのエンティティの 1 つです。

たとえば、data はリストまたは NumPy 配列にすることができます。この場合、index はデフォルトで整数シーケンスになります。

In [14]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

``data`` はスカラーにすることができ、指定されたインデックスを埋めるために繰り返されます:

In [15]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

``data`` は辞書にすることができ、その中で ``index`` はデフォルトでソートされた辞書キーになります:

In [16]:
pd.Series({2:'a', 1:'b', 3:'c'})

1    b
2    a
3    c
dtype: object

いずれの場合も、別の結果が優先される場合は、インデックスを明示的に設定できます。

In [17]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

この場合、明示的に識別されたキーのみが ``Series`` に取り込まれていることに注意してください。

## Pandas DataFrame オブジェクト

Pandas の次の基本構造は ``DataFrame`` です。
前のセクションで説明した ``Series`` オブジェクトのように、 ``DataFrame`` は NumPy 配列の一般化、または Python 辞書の特殊化と考えることができます。
ここでは、これらの視点のそれぞれについて見ていきます。

### 一般化された NumPy 配列としての DataFrame
``Series`` が柔軟なインデックスを持つ 1 次元配列の類似物である場合、``DataFrame`` は柔軟な行インデックスと柔軟な列名の両方を持つ 2 次元配列の類似物です。
2 次元配列を整列された 1 次元列の順序付けられたシーケンスと考えることができるように、DataFrame は整列された ``Series`` オブジェクトのシーケンスと考えることができます。
ここで、「整列」とは、同じインデックスを共有することを意味します。

これを実証するために、まず、前のセクションで説明した 5 つの州のそれぞれのエリアをリストする新しい ``Series`` を作成しましょう。

In [18]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
dtype: int64

前の ``population`` シリーズと一緒にこれを取得したので、辞書を使用して、この情報を含む単一の 2 次元オブジェクトを作成できます。

In [19]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


``Series`` オブジェクトと同様に、``DataFrame`` にはインデックス ラベルへのアクセスを提供する ``index`` 属性があります。

In [20]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

さらに、 ``DataFrame`` には ``columns`` 属性があり、これは列ラベルを保持する ``Index`` オブジェクトです:

In [21]:
states.columns

Index(['area', 'population'], dtype='object')

したがって ``DataFrame`` は、行と列の両方がデータにアクセスするための一般化されたインデックスを持つ 2 次元の NumPy 配列の一般化と考えることができます。

### 特殊な辞書としての DataFrame

同様に、 ``DataFrame`` も辞書の特殊化と考えることができます。
ディクショナリがキーを値にマップするのに対し、 ``DataFrame`` は列名を列データの ``Series`` にマップします。
たとえば、 ``area'`` 属性を要求すると、先ほど見たエリアを含む ``Series`` オブジェクトが返されます:

In [22]:
states['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

ここで潜在的な混乱点に注意してください: 2 次元の NumPy 配列では、``data[0]`` は最初の *行* を返します。 ``DataFrame`` の場合、 ``data['col0']`` は最初の *column* を返します。
このため、おそらく ``DataFrame`` を一般化された配列ではなく、一般化された辞書として考えたほうがよいでしょう。
[Data Indexing and Selection](03.02-Data-Indexing-and-Selection.ipynb) で ``DataFrame`` をインデックス化するより柔軟な方法を検討します。

### DataFrame オブジェクトの構築

Pandas ``DataFrame`` はさまざまな方法で構築できます。
ここでは、いくつかの例を示します。

#### 単一の Series オブジェクトから

``DataFrame`` は ``Series`` オブジェクトのコレクションであり、単一列の ``DataFrame`` は単一の ``Series`` から構築できます:

In [23]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Florida,19552860
Illinois,12882135
New York,19651127
Texas,26448193


#### 辞書のリストから

辞書の任意のリストを ``DataFrame`` にすることができます。
簡単なリスト内包表記を使用して、いくつかのデータを作成します。

In [24]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


ディクショナリ内の一部のキーが欠落している場合でも、Pandas はそれらを ``NaN`` (つまり、「数値ではない」) 値で埋めます。

In [25]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### Series オブジェクトの辞書から

前に見たように、 ``DataFrame`` は ``Series`` オブジェクトの辞書からも構築できます:

In [26]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


#### 二次元 NumPy 配列から

データの 2 次元配列が与えられると、指定された列とインデックス名を持つ ``DataFrame`` を作成できます。
省略した場合、それぞれに整数インデックスが使用されます。

In [27]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.865257,0.213169
b,0.442759,0.108267
c,0.04711,0.905718


#### NumPy 構造化配列から

[Structured Data: NumPy's Structured Arrays](02.09-Structured-Data-NumPy.ipynb) で構造化配列について説明しました。
Pandas の ``DataFrame`` は構造化された配列のように動作し、構造化された配列から直接作成できます:

In [28]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.0), (0, 0.0), (0, 0.0)], 
      dtype=[('A', '<i8'), ('B', '<f8')])

In [29]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## Pandas インデックス オブジェクト

ここで、 Series オブジェクトと DataFrame オブジェクトの両方に、データの参照と変更を可能にする明示的な *index* が含まれていることを見てきました。
この ``Index`` オブジェクトは、それ自体が興味深い構造であり、*不変配列* または *順序付けられたセット* (技術的には ``Index`` オブジェクトが含む可能性があるため、マルチセット) のいずれかと考えることができます。繰り返される値)。
これらのビューは、 ``Index`` オブジェクトで利用可能な操作にいくつかの興味深い結果をもたらします。
簡単な例として、整数のリストから ``Index`` を構築してみましょう:

In [30]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### 不変配列としてのインデックス

``Index`` は多くの点で配列のように機能します。
たとえば、標準の Python インデックス表記を使用して、値またはスライスを取得できます。

In [31]:
ind[1]

3

In [32]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

``Index`` オブジェクトには、NumPy 配列でおなじみの多くの属性もあります:

In [33]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


``Index`` オブジェクトと NumPy 配列の違いの 1 つは、インデックスが不変であることです。つまり、通常の方法で変更することはできません。

In [34]:
ind[1] = 0

TypeError: Index does not support mutable operations

この不変性により、複数の ``DataFrame`` と配列の間でインデックスを共有することがより安全になり、不注意によるインデックスの変更による副作用の可能性がなくなります。

### 順序付きセットとしてのインデックス

Pandas オブジェクトは、集合演算の多くの側面に依存するデータセット間の結合などの操作を容易にするように設計されています。
``Index`` オブジェクトは、Python の組み込みの ``set`` データ構造で使用される規則の多くに従っているため、和集合、積集合、差、およびその他の組み合わせを使い慣れた方法で計算できます。

In [35]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [36]:
indA & indB  # intersection

Int64Index([3, 5, 7], dtype='int64')

In [37]:
indA | indB  # union

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [38]:
indA ^ indB  # symmetric difference

Int64Index([1, 2, 9, 11], dtype='int64')

これらの操作は、例えば ``indA.intersection(imdB)`` などのオブジェクト メソッドを介してアクセスすることもできます。

<!--ナビゲーション-->
< [Data Manipulation with Pandas](03.00-Introduction-to-Pandas.ipynb) | [Data Manipulation with Pandas](03.00-Introduction-to-Pandas.ipynb) | [Data Manipulation with Pandas](03.00-Introduction-to-Pandas.ipynb) >

<a href="https://colab.research.google.com/github/vitroid/PythonDataScienceHandbook/blob/ja/notebooks/03.01-Introducing-Pandas-Objects.ipynb"><img align="left" src=" https://colab.research.google.com/assets/colab-badge.svg" alt="Colab で開く" title="Google Colaboratory で開いて実行する"></a>
