# pandasの使い方

ここでは、pandasの基本的な使い方を学習します。

基本のデータ型である2つについて解説します。

- Series(1次元データ)
- DataFrame(2次元データ)

In [1]:
import pandas as pd

`pandas` ライブラリは一般的に `pd` という別名でインポートします。

## Series型

`Series` はインデックスと呼ばれるラベルを持った同一のデータ型を持つ1次元のデータです。 
`Series` オブジェクトを生成するには `Series` クラスの引数に次のようなデータを渡します。

- リスト
- タプル
- 辞書
- 配列 (`numpy.ndarray`)
- etc (イテラブル)

pandasではこのようなデータを総称して「array-like」と呼びます。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

In [2]:
ser = pd.Series([1, 3, 5])
ser

0    1
1    3
2    5
dtype: int64

`Series` にはインデックスと呼ばれるラベルが付きます。辞書のキーに似ており、添字にインデックスを指定することで要素にアクセスできます。

In [3]:
ser[1]

3

`Series` クラスの引数 ``index`` にデータarray-like)を渡すことで、オブジェクト生成時にインデックスが割り当てられます。インデックスの値は重複しても問題ありません。

In [4]:
ix_ser = pd.Series([1, 2, 3], index=["a", "b", "b"])
ix_ser

a    1
b    2
b    3
dtype: int64

In [5]:
ix_ser["a"]

1

## DataFrame型

`DataFrame` は行と列にラベルを持つ2次元のデータです。
`DataFrame` オブジェクトを生成するには `DataFrame` クラスの引数に次のようなデータを渡します。

- リスト
- タプル
- 辞書
- dataclass
- 配列 (numpy.ndarray)
- etc(イテラブル)

pandasではこのようなデータを総称して「list-like」と呼びます。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame

In [6]:
df = pd.DataFrame([[1, 10], [2, 20], [3, 30]])
df

Unnamed: 0,0,1
0,1,10
1,2,20
2,3,30


添字を指定すると、指定した列にアクセスできます。

In [7]:
df[1]

0    10
1    20
2    30
Name: 1, dtype: int64

`DataFrame` は行と列にそれぞれインデックスをもちます。行のインデックスは `index` 属性、列のインデックスは `columns` 属性からアクセスできます。

In [8]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [9]:
df.columns

RangeIndex(start=0, stop=2, step=1)

`DataFrame` クラスの引数 `index` にデータ(array-like)を渡すことで、オブジェクト生成時に「行」のインデックスが割り当てられ、引数 `columns` にデータ(array-like)を渡すことで、「列」のインデックスが割り当てられます。

In [10]:
pd.DataFrame([[1, 10], [2, 20], [3, 30]], index=["a", "b", "c"], columns=["A", "B"])

Unnamed: 0,A,B
a,1,10
b,2,20
c,3,30


`DataFrame` 生成に辞書を渡すと、辞書のキーが列名(columns)になります。

In [11]:
pd.DataFrame({"A": [1, 2, 3], "B": [10, 20, 30]}, index=["a", "b", "c"])

Unnamed: 0,A,B
a,1,10
b,2,20
c,3,30
