[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/drillan/python-data-analysis/blob/main/docs/pandas/series.ipynb)

# DataFrame

DataFrameはインデックスと呼ばれるラベルを持った列ごとに同一のデータ型を持つ2次元のデータです。 `DataFrame` オブジェクトを生成するには Series クラスの引数に次のようなデータを渡します。

- 構造化、均質なデータ
    - リスト
    - タプル
    - `numpy.ndarray`
- 辞書
    - list-likeオブジェクト
    - dataclass
    - Series
- イテラブルオブジェクト
- DataFrame

> https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html



次のコードでは `DataFrame` オブジェクトを生成しています。

In [1]:
import numpy as np
import pandas as pd

df = pd.DataFrame([[1, 2], [10, 20]])  # list
df = pd.DataFrame(((1, 2)), ((10, 20)))  # tuple
df = pd.DataFrame(np.array((((1, 2)), ((10, 20)))))  # ndarray

`type()` を実行すると、 `DataFrame` 型であることが確認できます。

In [2]:
type(df)

pandas.core.frame.DataFrame

標準出力やREPLにはデータのインデックス（ラベル）と値が表示されます。デフォルトではインデックスは自動で0からの自然数が割り当てられます。

DataFrameの場合は行と列それぞれにインデックスが割り振られます。

In [3]:
print(df)

    0   1
0   1   2
1  10  20


DataFrameはREPLではHTMLのデーブルにレンダリングされます。

In [4]:
df

Unnamed: 0,0,1
0,1,2
1,10,20


次のコードではコンストラクタに辞書を渡してDataFrameを生成しています。この場合、辞書のキーが列のインデックス（ラベル）となります。

In [5]:
pd.DataFrame({"col1": [1, 2], "col2": [10, 20]})

Unnamed: 0,col1,col2
0,1,10
1,2,20


次のコードではコンストラクタにイテラブルオブジェクトである `range` オブジェクトを渡してDataFrameを生成しています。

In [6]:
pd.DataFrame([range(2), range(10, 12)])

Unnamed: 0,0,1
0,0,1
1,10,11


次のコードではコンストラクタにSeriesを渡してDataFrameを生成しています。データが存在しない値はNaN（欠損値）で埋められます。

In [7]:
pd.DataFrame([pd.Series([1, 2]), pd.Series(2)])

Unnamed: 0,0,1
0,1.0,2.0
1,2.0,


## 値とインデックス

DataFrameから値を取得するには `values` 属性にアクセスします。値は `numpy.ndarray` 型で管理されます。

In [8]:
df.values

array([[ 1,  2],
       [10, 20]])

DataFrameから **行の** インデックス（ラベル）を取得するには `index` 属性にアクセスします。

In [9]:
df.index

RangeIndex(start=0, stop=2, step=1)

DataFrameから **列の** インデックス（ラベル）を取得するには `columns` 属性にアクセスします。

In [10]:
df.columns

RangeIndex(start=0, stop=2, step=1)

生成したDataFrameからインデックスを変更するには `index` 属性および `columns` 属性にarray-likeオブジェクトを代入します。

In [11]:
df.index = ["r1", "r2"]
df.columns = ["c1", "c2"]
df

Unnamed: 0,c1,c2
r1,1,2
r2,10,20
