# 6.2の途中からPandasについて

今回は，**pandas**ライブライを使って簡単なデータ分析を行う．  
pandasはPythonでデータ操作や分析を行う上で重要なライブラリである．

pandasのインストールとインポートについて
Google Colabではすでにpandasがインストールされているので，インストールのみをする．

```python
import pandas as pd
```
一般的にpandasはpdとして扱われる
`DataFrame`と`Series`オブジェクトについて学ぶ．

まずは，名前データを扱う一次元データを作成しする．

## インポート
必要なライブラリやモジュールをインポートする

In [None]:
import pandas as pd

## Seriesオブジェクト
- Series：一次元のコンテナの辞書型，単一の行や列としての一次元のデータ構造
- コンテナとは：オブジェクトの集まりを表現するデータ構造

In [None]:
name_series = pd.Series(['田中', ' 北野'])
name_series

0     田中
1     北野
dtype: object

## DataFrameオブジェクト
- DataFrame
  - Excelのような表敬式のデータ型
  - 二次元データを表す
  - SeriesをまとめてDataFrameとして扱うこともできる

In [None]:
people = pd.DataFrame({
    '名前' : name_series,
    '年齢' : [22, 28]})

people

Unnamed: 0,名前,年齢
0,田中,22
1,北野,28


## DataFrameから列単位で取り出す
DataFrameから列単位でSeriesとして取り出すことができる．キーを指定して取り出す

```python
people['年齢']
```
もしくは
```python
people.年齢
```
同じ結果になる

In [None]:
people['年齢']

0    22
1    28
Name: 年齢, dtype: int64

In [None]:
people.年齢

0    22
1    28
Name: 年齢, dtype: int64

## インデックスラベル（行名）
`Series`や`DataFrame`の引数に`index`を指定することで，デフォルトでない値を指定することができる

In [None]:
name_series = pd.Series(['田中', '北野'], index = [10, 20])
name_series

10    田中
20    北野
dtype: object

## `loc`と`iloc`属性によるデータの選択
- loc属性
  - ラベルを用いて行や列にアクセスするための属性
  - 行や列のラベルを指定して特定のデータにアクセスする際に使用
- iloc属性
  - インデックスを用いて行や列にアクセスするための属性
  - 行や列の位置（インデックス）を指定して特定のデータにアクセスする際に使用

In [None]:
# 事前準備
people = pd.DataFrame({
    '年齢' : [21, 34, 23, 44, 19],
    '身長' : [180, 158, 174, 181, 169],
    '体重' : [74, 61, 65, 82, 70]
},
    index = ['田中', '北野', '高橋', '岡田', '長谷川'])

people

Unnamed: 0,年齢,身長,体重
田中,21,180,74
北野,34,158,61
高橋,23,174,65
岡田,44,181,82
長谷川,19,169,70


`loc`属性でデータを選択と`iloc`属性でデータを選択

In [None]:
# loc属性を利用する方法
people.loc['北野']

年齢     34
身長    158
体重     61
Name: 北野, dtype: int64

In [None]:
# iloc属性を利用する方法
people.iloc[1]

年齢     34
身長    158
体重     61
Name: 北野, dtype: int64

必要な列に絞って取得することも可能

In [None]:
# loc属性を利用する方法
people.loc['高橋', ['年齢', '体重']]

年齢    23
体重    65
Name: 高橋, dtype: int64

In [None]:
# iloc属性を利用する方法
people.iloc[2, [0, 2]]

年齢    23
体重    65
Name: 高橋, dtype: int64

スライス記法`[start:end]`を使ってデータの取り出し

In [None]:
# loc属性を利用する方法
people.loc['高橋':'長谷川']

Unnamed: 0,年齢,身長,体重
高橋,23,174,65
岡田,44,181,82
長谷川,19,169,70


In [None]:
# iloc属性を利用する方法
people.iloc[2:5]

Unnamed: 0,年齢,身長,体重
高橋,23,174,65
岡田,44,181,82
長谷川,19,169,70
