### Pandas
- Numpy: 数値の集合を扱うライブラリ
- Pandas: 数値だけではなく，文字列データも扱うことができる

### Pandasの構造
- SeriesとDataFrameの2種類の構造を扱える
  - Series: リストのようなデータ構造
  - DataFrame: テーブル（表形式）のようなデータ構造 

### DataFrameの構造
- 以下の名前で定義されている
    - 横方向のデータを『行』
        - 行のラベルを『インデックス』 
    - 縦方向のデータを『列』
        - 列のラベルを『カラム』 

- 以下の表の場合

|   | A   | B   | C   |
|---|-----|-----|-----|
| 0 | 123 | 456 | 789 |
| 1 | AAA | XXX | XYZ |

- インデックス: [0, 1]
- カラム: ['A', 'B', 'C']

- Pandasは『pd』としてインポートすることが多い
  - 以降の説明ではpdとして扱う

### Seriesデータの作成
1. ディクショナリを用意
2. pd.Series(ディクショナリデータ)

In [1]:
# サンプル1 PandasによるSeriesの定義
import pandas as pd

# ディクショナリを定義
scores = {'Taro': 78, 'Jiro': 98} # キー: 名前（文字列データ），値: 成績（数値）
data = pd.Series(scores)

print(data)

Taro    78
Jiro    98
dtype: int64


### DataFrameデータの作成
1. ディクショナリを複数用意
   - キーをカラム，値をリストにする
      - リストのインデックスがDataFrameのインデックスに対応する 
2. pd.DataFrame(ディクショナリデータ)

In [2]:
# サンプル2 PandasによるDataFrameの定義
import pandas as pd

# ディクショナリを定義
# キー: カラム，値: リストデータ
table = {'Name': 'Taro',
         'Score': 78,
         'Grade': 'B'
         }

# 1つしかデータが無い場合，[]を付ける
data = pd.DataFrame([table]) 

print(data)

   Name  Score Grade
0  Taro     78     B


In [3]:
# サンプル2 PandasによるDataFrameの定義
import pandas as pd

# ディクショナリを定義
# キー: カラム，値: リストデータ
table = {'Name': ['Taro', 'Jiro'],
         'Score': [78, 98],
         'Grade': ['B', 'AA']
         }

# 複数データの場合，[]を付けない
data = pd.DataFrame(table)

print(data)

   Name  Score Grade
0  Taro     78     B
1  Jiro     98    AA


### Seriesデータの参照
- インデックス（要素番号）で参照
- スライスで参照
- キーで参照
- 複数キーで参照

In [4]:
# サンプル3 PandasによるSeriesの参照
import pandas as pd

# ディクショナリを定義
scores = {'Taro': 78, 'Jiro': 98, 'Saburo': 60, 'Shiro': 100}
data = pd.Series(scores)

print('Seriesの中身を表示')
print(data)

print('.ilocを使用して，インデックスで参照（値しか取り出せない）')
print(data.iloc[0])
print(data.iloc[-1])
print('.ilocを使用して，スライスで参照（中身を取り出す）')
print(data.iloc[0:3])
print(data.iloc[2:])
print('キーで参照（値しか取り出せない）')
print(data['Jiro'])
print('複数キーで参照（中身を取り出す）')
print(data[['Jiro', 'Shiro']]) # 2重リストであることに注意

Seriesの中身を表示
Taro       78
Jiro       98
Saburo     60
Shiro     100
dtype: int64
.ilocを使用して，インデックスで参照（値しか取り出せない）
78
100
.ilocを使用して，スライスで参照（中身を取り出す）
Taro      78
Jiro      98
Saburo    60
dtype: int64
Saburo     60
Shiro     100
dtype: int64
キーで参照（値しか取り出せない）
98
複数キーで参照（中身を取り出す）
Jiro      98
Shiro    100
dtype: int64


In [5]:
# サンプル4 Series参照を利用してデータを取り出す
import pandas as pd

# ディクショナリを定義
scores = {'Taro': 78, 'Jiro': 98, 'Saburo': 60, 'Shiro': 100}
data = pd.Series(scores)

data2 = data[1:3]
print(data2)

Jiro      98
Saburo    60
dtype: int64


- Series変数名.index
  - インデックスを取得できる
- Series変数名.values
  - 値を取得できる 

In [6]:
# サンプル5 Seriesのインデックスと値を取り出す
import pandas as pd

# ディクショナリを定義
scores = {'Taro': 78, 'Jiro': 98, 'Saburo': 60, 'Shiro': 100}
data = pd.Series(scores)

print(data.index)
print(data.values)

Index(['Taro', 'Jiro', 'Saburo', 'Shiro'], dtype='object')
[ 78  98  60 100]


### Seriesに対する要素の追加・削除
- Seriesに要素を追加する場合，追加する要素もSeriesとしなければならない
  - Series変数名[‘インデックス名’] = 値 とする
- Seriesから要素を削除する場合，Series変数名 = Series変数名.drop('インデックス名')とする
  - 指定したインデックスが削除される 

In [7]:
# サンプル5 Seriesの要素追加・削除
import pandas as pd

# ディクショナリを定義
scores = {'Taro': 78, 'Jiro': 98, 'Saburo': 60, 'Shiro': 100}
data = pd.Series(scores)
print('追加前')
print(data)

# 追加する
print('追加後')
data['Goro'] = 59
print(data)

# 削除する
print('削除後')
data = data.drop('Taro')
print(data)

追加前
Taro       78
Jiro       98
Saburo     60
Shiro     100
dtype: int64
追加後
Taro       78
Jiro       98
Saburo     60
Shiro     100
Goro       59
dtype: int64
削除後
Jiro       98
Saburo     60
Shiro     100
Goro       59
dtype: int64


### Seriesのフィルタリング
- Seriesに格納されているデータに対して，条件を満たしている（True）要素だけを取り出すことができる
   - Series変数名[条件式] と書くことで，条件を満たしている要素を取り出せる
   - この場合の条件式では andを使えない場合，複数の条件を付けたい場合
      - Series変数名[条件式1][条件式2] と書く

In [8]:
# サンプル6 Seriesフィルタリング
import pandas as pd

# ディクショナリを定義
scores = {'Taro': 78, 'Jiro': 98, 'Saburo': 60, 'Shiro': 100, 'Goro': 59, 'Rokuro': 30}
data = pd.Series(scores)

# 値が60以上のデータを取り出す
print(data[data >= 60])

# 値が60以上70未満のデータを取り出す
print(data[data >= 60][data < 70])

Taro       78
Jiro       98
Saburo     60
Shiro     100
dtype: int64
Saburo    60
dtype: int64


### Seiresのソート
- 大きさ順にデータを並び替えることをソートとぶ
  - 小さいものから大きいものに並び替えることを昇順ソートとよぶ
  - 大きいものから小さいものに並び替えることを降順ソートとよぶ
- インデックスのソート: series_sort_index()
- 値のソート: series_sort_values()
  - 基本的には昇順ソートであるが，括弧の中に ascending=False と書くことで降順ソートになる   

In [9]:
# サンプル6 Seriesソート
import pandas as pd

# ディクショナリを定義
scores = {'Taro': 78, 'Jiro': 98, 'Saburo': 60, 'Shiro': 100, 'Goro': 59, 'Rokuro': 30}
data = pd.Series(scores)

result1 = data.sort_index()
print(result1) # 昇順（文字列の場合）: A → Zに並び替え

result2 = data.sort_index(ascending=False)
print(result2) # 降順（文字列の場合）: Z → Aに並び替え

result3 = data.sort_values()
print(result3) # 昇順

result4 = data.sort_values(ascending=False)
print(result4) # 降順

Goro       59
Jiro       98
Rokuro     30
Saburo     60
Shiro     100
Taro       78
dtype: int64
Taro       78
Shiro     100
Saburo     60
Rokuro     30
Jiro       98
Goro       59
dtype: int64
Rokuro     30
Goro       59
Saburo     60
Taro       78
Jiro       98
Shiro     100
dtype: int64
Shiro     100
Jiro       98
Taro       78
Saburo     60
Goro       59
Rokuro     30
dtype: int64


### Seriesの作成（応用）
- 2つのリストからもSeriesを作成できる
   - リストの要素数は等しくする必要がある
- pd.Series(値リスト変数, index=インデックスリスト変数)

In [10]:
import pandas as pd

name = ['Taro', 'Jiro', 'Saburo']
score = [78, 98, 60]

data = pd.Series(score, index=name)

print(data)

Taro      78
Jiro      98
Saburo    60
dtype: int64


### DataFrameの作成（応用）
- pd.DataFrame(Seriesリスト)で，DataFrameを作成できる．

In [11]:
import pandas as pd

indexName = ['Name', 'Score', 'Grade']
data1 = ['Taro', 78, 'B']
data2 = ['Jiro', 98, 'AA']
data3 = ['Saburo', 60, 'C']

series1 = pd.Series(data1, index=indexName)
series2 = pd.Series(data2, index=indexName)
series3 = pd.Series(data3, index=indexName)

dataTable = pd.DataFrame([series1, series2, series3])

print(dataTable)

     Name  Score Grade
0    Taro     78     B
1    Jiro     98    AA
2  Saburo     60     C


### DataFrameにおける行の追加
- pd.concat([追加されたいDataFrame, 追加したいDataFrame], ignore_index=True)とすることで，行を追加することが出来る

In [12]:
import pandas as pd

indexName = ['Name', 'Score', 'Grade']
data1 = ['Taro', 78, 'B']
data2 = ['Jiro', 98, 'AA']
data3 = ['Saburo', 60, 'C']

series1 = pd.Series(data1, index=indexName)
series2 = pd.Series(data2, index=indexName)
series3 = pd.Series(data3, index=indexName)

dataTable = pd.DataFrame([series1, series2, series3])

print(dataTable)

newData = {'Name': 'Shiro', 'Score': 100, 'Grade': 'AA'}

# 1データなので[]を付ける
newTable = pd.DataFrame([newData])
dataTable = pd.concat([dataTable, newTable], ignore_index=True)
print(dataTable)

     Name  Score Grade
0    Taro     78     B
1    Jiro     98    AA
2  Saburo     60     C
     Name  Score Grade
0    Taro     78     B
1    Jiro     98    AA
2  Saburo     60     C
3   Shiro    100    AA


### DataFrameにおける列の追加
- DataFrame変数名['新しい列名'] = データリスト とすることで，新しい列を追加することができる

In [13]:
import pandas as pd

indexName = ['Name', 'Score', 'Grade']
data1 = ['Taro', 78, 'B']
data2 = ['Jiro', 98, 'AA']
data3 = ['Saburo', 60, 'C']

series1 = pd.Series(data1, index=indexName)
series2 = pd.Series(data2, index=indexName)
series3 = pd.Series(data3, index=indexName)

dataTable = pd.DataFrame([series1, series2, series3])

print(dataTable)

dataTable['Data'] = ['12/7', '12/7', '12/7']
print(dataTable)

     Name  Score Grade
0    Taro     78     B
1    Jiro     98    AA
2  Saburo     60     C
     Name  Score Grade  Data
0    Taro     78     B  12/7
1    Jiro     98    AA  12/7
2  Saburo     60     C  12/7


### DataFrameの参照 (locを使用)
- データフレーム変数.loc[インデックスのリスト，カラムのリスト]で該当する範囲のデータフレームを参照できる

In [14]:
import pandas as pd

indexName = ['Name', 'Score', 'Grade']
data1 = ['Taro', 78, 'B']
data2 = ['Jiro', 98, 'AA']
data3 = ['Saburo', 60, 'C']

series1 = pd.Series(data1, index=indexName)
series2 = pd.Series(data2, index=indexName)
series3 = pd.Series(data3, index=indexName)
dataTable = pd.DataFrame([series1, series2, series3])
dataTable['Data'] = ['12/7', '12/7', '12/7']
print(dataTable)

# インデックス0, 1のNameに該当するデータを取り出す
selectData = dataTable.loc[[0, 1], ['Name']]
print(selectData)

# インデックス1, 2のNameとGradeに該当するデータを取り出す
selectData = dataTable.loc[[1, 2], ['Name', 'Grade']]
print(selectData)

     Name  Score Grade  Data
0    Taro     78     B  12/7
1    Jiro     98    AA  12/7
2  Saburo     60     C  12/7
   Name
0  Taro
1  Jiro
     Name Grade
1    Jiro    AA
2  Saburo     C


### DataFrameの参照 (ilocを使用)
- DataFrame変数.iloc[行番号のリスト，列番号のリスト]で該当する範囲のDataFrameを参照できる
  - 行も列も0から始めることができる
  - スライスで指定することもできる

In [15]:
import pandas as pd

indexName = ['Name', 'Score', 'Grade']
data1 = ['Taro', 78, 'B']
data2 = ['Jiro', 98, 'AA']
data3 = ['Saburo', 60, 'C']

series1 = pd.Series(data1, index=indexName)
series2 = pd.Series(data2, index=indexName)
series3 = pd.Series(data3, index=indexName)
dataTable = pd.DataFrame([series1, series2, series3])
dataTable['Data'] = ['12/7', '12/7', '12/7']
print(dataTable)

# 0行目, 1行目の0列目に該当するデータを取り出す
selectData = dataTable.iloc[[0, 1], [0]]
print(selectData)

# 1行目, 2行目と1列目，2列目に該当するデータを取り出す
selectData = dataTable.iloc[[1, 2], [1,2]]
print(selectData)

     Name  Score Grade  Data
0    Taro     78     B  12/7
1    Jiro     98    AA  12/7
2  Saburo     60     C  12/7
   Name
0  Taro
1  Jiro
   Score Grade
1     98    AA
2     60     C


### DataFrameの参照 (atを使用)
- DataFrame変数.at[インデックス，カラム名]で値そのものを取り出すことができる
- この方法を用いることで，その箇所に値を代入および更新できる

In [16]:
import pandas as pd

table = {'Name': ['Taro', 'Jiro', 'Saburo', 'Shiro', 'Goro'],
         'Score': [78, 98, 60, 100, 59],
         'Grade': ['B', 'AA', 'C', 'AA', 'D']
         }

data = pd.DataFrame(table)
print(data)

# インデックス4の'Name'の値そのものを取り出す
print(data.at[4, 'Name'])

# インデックス4の'Name'に'Rokuro'を代入する
data.at[4, 'Name'] = 'Rokuro'
print(data)

# インデックス4の'Score'に30を加え，'Grade'も修正する
data.at[4, 'Score'] += 30
data.at[4, 'Grade'] = 'A'
print(data)

     Name  Score Grade
0    Taro     78     B
1    Jiro     98    AA
2  Saburo     60     C
3   Shiro    100    AA
4    Goro     59     D
Goro
     Name  Score Grade
0    Taro     78     B
1    Jiro     98    AA
2  Saburo     60     C
3   Shiro    100    AA
4  Rokuro     59     D
     Name  Score Grade
0    Taro     78     B
1    Jiro     98    AA
2  Saburo     60     C
3   Shiro    100    AA
4  Rokuro     89     A


### DataFrameの削除
- DataFrame変数.drop()にインデックスやカラムを指定することで，該当する箇所が削除されたDataFrameを生成できる
- 列を削除する場合，axis=1を付ける

In [17]:
import pandas as pd

table = {'Name': ['Taro', 'Jiro', 'Saburo', 'Shiro', 'Goro'],
         'Score': [78, 98, 60, 100, 59],
         'Grade': ['B', 'AA', 'C', 'AA', 'D']
         }

data = pd.DataFrame(table)
print(data)

# インデックス1を削除したDataFrameを生成
difData1 = data.drop(1)
print(difData1)

# インデックス1, 2を削除したDataFrameを生成
difData2 = data.drop([1, 2])
print(difData2)

# Scoreカラムを削除したDataFrameを生成
difData3 = data.drop('Score', axis=1)
print(difData3)

# ScoreとGradeカラムを削除したDataFrameを生成
difData4 = data.drop(['Score', 'Grade'], axis=1)
print(difData4)

     Name  Score Grade
0    Taro     78     B
1    Jiro     98    AA
2  Saburo     60     C
3   Shiro    100    AA
4    Goro     59     D
     Name  Score Grade
0    Taro     78     B
2  Saburo     60     C
3   Shiro    100    AA
4    Goro     59     D
    Name  Score Grade
0   Taro     78     B
3  Shiro    100    AA
4   Goro     59     D
     Name Grade
0    Taro     B
1    Jiro    AA
2  Saburo     C
3   Shiro    AA
4    Goro     D
     Name
0    Taro
1    Jiro
2  Saburo
3   Shiro
4    Goro


### DataFrameのソート
- DataFrame変数.sort_values(by='カラム または カラムリスト', ascending=True)とすることで，そのカラムに対して昇順にソートされたDataFrameを作成できる
- 降順にソートする場合，ascending=False とする

In [18]:
import pandas as pd

table = {'Name': ['Taro', 'Jiro', 'Saburo', 'Shiro', 'Goro'],
         'Score': [78, 98, 60, 100, 59],
         'Grade': ['B', 'AA', 'C', 'AA', 'D']
         }

data = pd.DataFrame(table)
print(data)

# Scoreに対して，昇順にソートする
data1 = data.sort_values(by='Score', ascending=True)
print(data1)

# Scoreに対して，降順にソートする
data2 = data.sort_values(by='Score', ascending=False)
print(data2)

# 第一優先度をGrade，第二優先度をNameとして，昇順にソートする
data3 = data.sort_values(by=['Grade', 'Name'], ascending=True)
print(data3)

     Name  Score Grade
0    Taro     78     B
1    Jiro     98    AA
2  Saburo     60     C
3   Shiro    100    AA
4    Goro     59     D
     Name  Score Grade
4    Goro     59     D
2  Saburo     60     C
0    Taro     78     B
1    Jiro     98    AA
3   Shiro    100    AA
     Name  Score Grade
3   Shiro    100    AA
1    Jiro     98    AA
0    Taro     78     B
2  Saburo     60     C
4    Goro     59     D
     Name  Score Grade
1    Jiro     98    AA
3   Shiro    100    AA
0    Taro     78     B
2  Saburo     60     C
4    Goro     59     D


### DataFrameのフィルタリング
- DataFrameもSeriesと同様にフィルタリングを行うことができる
- DataFrame変数.loc[DataFrame変数['カラム']を含む条件式]とすることで，条件に一致する行を取り出したDataFrameを生成できる

In [19]:
import pandas as pd

table = {'Name': ['Taro', 'Jiro', 'Saburo', 'Shiro', 'Goro'],
         'Score': [78, 98, 60, 100, 59],
         'Grade': ['B', 'AA', 'C', 'AA', 'D']
         }

data = pd.DataFrame(table)
print(data)

# GradeがAAの行を取り出す
data1 = data.loc[data['Grade'] == 'AA']
print(data1)

# Scoreが60以上の行を取り出す
data2 = data.loc[data['Score'] >= 60]
print(data2)

     Name  Score Grade
0    Taro     78     B
1    Jiro     98    AA
2  Saburo     60     C
3   Shiro    100    AA
4    Goro     59     D
    Name  Score Grade
1   Jiro     98    AA
3  Shiro    100    AA
     Name  Score Grade
0    Taro     78     B
1    Jiro     98    AA
2  Saburo     60     C
3   Shiro    100    AA


### 演習問題（6問）

1. 以下の表をDataFrameで格納しなさい
- 面積の単位: km^2

|   | 区名  | 男性人口 | 女性人口 | 面積 |
|---|-----|------|------|--------------|
| 0 | 北区  | 136796 | 152853 | 63.57        |
| 1 | 東区  | 125766 | 139143 | 56.97        |
| 2 | 中央区 | 114521 | 137522 | 46.42        |
| 3 | 豊平区 | 104556 | 121721 | 46.23        |
| 4 | 西区  | 100182 | 117271 | 75.1         |
| 5 | 白石区 | 99844  | 111638 | 34.47        |
| 6 | 手稲区 | 66755  | 75548  | 56.77        |
| 7 | 南区  | 62208  | 72842  | 657.48       |
| 8 | 厚別区 | 56078  | 67700  | 24.38        |
| 9 | 清田区 | 52396  | 58762  | 59.87        |

2. 1で作成したDataFrameを使用して，総男性人口数，総女性人口数，総人口数を求めるプログラムを作成しなさい

3. 1で作成したDataFrameを使用して，男性人口数，女性人口数が10万人以上の区だけを格納するDataFrameを作成しなさい

4. 1で作成したDataFrameを使用して，以下のDataFrameを作成しなさい．

|   | 区名  | 面積 |
|---|-------|------------------|
| 0 | 北区   | 63.57        |
| 1 | 東区   | 56.97        |
| 2 | 中央区 | 46.42        |
| 3 | 豊平区 | 46.23        |
| 4 | 西区  | 75.1         |
| 5 | 白石区 | 34.47        |
| 6 | 手稲区 | 56.77        |
| 7 | 南区  | 657.48       |
| 8 | 厚別区 | 24.38        |
| 9 | 清田区 | 59.87        |

5. 4で作成したDataFrameを使用して，面積を降順にソートしたDataFrameを作成しなさい．

6. 5で作成したDataFrameを使用して，札幌市面積全体に占める割合である『カラム名: 面積比』の列を追加し，面積比を埋めたDataFrameを作成しなさい．