## pandasのインポート

In [1]:
import pandas as pd

## csvファイルの読み込み
「1920年から2015年までの全国の人口推移のデータ」を使用します。

In [2]:
df = pd.read_csv('data.csv', encoding='shift-jis')
df

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
0,1,北海道,大正,9.0,1920.0,2359183,1244322,1114861
1,2,青森県,大正,9.0,1920.0,756454,381293,375161
2,3,岩手県,大正,9.0,1920.0,845540,421069,424471
3,4,宮城県,大正,9.0,1920.0,961768,485309,476459
4,5,秋田県,大正,9.0,1920.0,898537,453682,444855
...,...,...,...,...,...,...,...,...
934,43,熊本県,平成,27.0,2015.0,1786170,841046,945124
935,44,大分県,平成,27.0,2015.0,1166338,551932,614406
936,45,宮崎県,平成,27.0,2015.0,1104069,519242,584827
937,46,鹿児島県,平成,27.0,2015.0,1648177,773061,875116


私のGitHubに「nikkei.csv」としてアップロードしてあるので、下記コマンドでダウンロードすれば簡単に準備できます。

```curl https://raw.githubusercontent.com/nakachan-ing/python-references/master/Pandas/data.csv -O```

## データ型を調べる
列ごとのデータ型を```dtypes```属性で調べることができます。

In [45]:
df.dtypes

都道府県コード      int64
都道府県名       object
元号          object
和暦（年）      float64
西暦（年）      float64
人口（総数）       int64
人口（男）        int64
人口（女）        int64
dtype: object

## 行数、列数を取得する
```shape```属性で行数と列数をまとめて取得することができます。

In [47]:
df.shape
# (行数, 列数)

(939, 8)

## 列を取得する
データフレームからカラム名を指定して、シリーズ（Series）として取得します。

In [7]:
series_population = df['人口（総数）']
series_population

0      2359183
1       756454
2       845540
3       961768
4       898537
        ...   
934    1786170
935    1166338
936    1104069
937    1648177
938    1433566
Name: 人口（総数）, Length: 939, dtype: int64

In [8]:
type(series_population)

pandas.core.series.Series

### ポイント
- ```df['カラム名']```でカラム名に対するデータを取得できます。
- 取得したデータを```type()```で確認すると、```Series```であることが確認できます。

In [9]:
df_population = df[['人口（総数）']]
df_population

Unnamed: 0,人口（総数）
0,2359183
1,756454
2,845540
3,961768
4,898537
...,...
934,1786170
935,1166338
936,1104069
937,1648177


- 二重括弧[[]]でカラム名を指定することで、データフレームとして取得することができます。

In [10]:
type(df_population)

pandas.core.frame.DataFrame

In [11]:
df_population_by_gender = df[['人口（男）', '人口（女）']]
df_population_by_gender

Unnamed: 0,人口（男）,人口（女）
0,1244322,1114861
1,381293,375161
2,421069,424471
3,485309,476459
4,453682,444855
...,...,...
934,841046,945124
935,551932,614406
936,519242,584827
937,773061,875116


- 二重括弧内にコンマ続きでカラム名を指定すると、複数の列を取得することができます。

## 行と列を取得する:loc()
行や列のラベルを指定して値を取得します。

In [12]:
df.head(10)

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
0,1,北海道,大正,9.0,1920.0,2359183,1244322,1114861
1,2,青森県,大正,9.0,1920.0,756454,381293,375161
2,3,岩手県,大正,9.0,1920.0,845540,421069,424471
3,4,宮城県,大正,9.0,1920.0,961768,485309,476459
4,5,秋田県,大正,9.0,1920.0,898537,453682,444855
5,6,山形県,大正,9.0,1920.0,968925,478328,490597
6,7,福島県,大正,9.0,1920.0,1362750,673525,689225
7,8,茨城県,大正,9.0,1920.0,1350400,662128,688272
8,9,栃木県,大正,9.0,1920.0,1046479,514255,532224
9,10,群馬県,大正,9.0,1920.0,1052610,514106,538504


In [23]:
# dfの中から行のインデックスが「９」のデータ（都道府県が群馬）を取得する
df.loc[9]

都道府県コード         10
都道府県名          群馬県
元号              大正
和暦（年）          9.0
西暦（年）       1920.0
人口（総数）     1052610
人口（男）       514106
人口（女）       538504
Name: 9, dtype: object

### ポイント
- ```loc[]```の角括弧内には、行、列の順番で指定します。

In [21]:
# dfの中から行のインデックスが「9」、カラム名が「都道府県名」のデータを取得する
df.loc[9, '都道府県名']

'群馬県'

- ```loc[]```を使用して列を取得することもできます。
- 行にコロンを指定すると「全ての行」を意味します。
- 列（カラム）の指定するときに角括弧内にコンマ続きでカラムを指定すると、複数の列を取得することができます。

In [31]:
df.loc[:, ['人口（総数）', '人口（男）', '人口（女）']]

Unnamed: 0,人口（総数）,人口（男）,人口（女）
0,2359183,1244322,1114861
1,756454,381293,375161
2,845540,421069,424471
3,961768,485309,476459
4,898537,453682,444855
...,...,...,...
934,1786170,841046,945124
935,1166338,551932,614406
936,1104069,519242,584827
937,1648177,773061,875116


- 連続する複数の列（カラム）の値を取得する場合、取得したい両端のカラム名をコロンで繋ぐと同様に取得することができます。

In [32]:
df.loc[:, '人口（総数）':'人口（女）']

Unnamed: 0,人口（総数）,人口（男）,人口（女）
0,2359183,1244322,1114861
1,756454,381293,375161
2,845540,421069,424471
3,961768,485309,476459
4,898537,453682,444855
...,...,...,...
934,1786170,841046,945124
935,1166338,551932,614406
936,1104069,519242,584827
937,1648177,773061,875116


## 列を取得する:iloc()
```iloc[]```を使用すると、列（カラム）を列番号で指定することができます。

In [40]:
# 人口（総数）の列番号は「5」、人口（女）の列番号は「7」のため、「5:8（7+1）」と列番号を指定する
df.iloc[:, 5:8]

Unnamed: 0,人口（総数）,人口（男）,人口（女）
0,2359183,1244322,1114861
1,756454,381293,375161
2,845540,421069,424471
3,961768,485309,476459
4,898537,453682,444855
...,...,...,...
934,1786170,841046,945124
935,1166338,551932,614406
936,1104069,519242,584827
937,1648177,773061,875116


### ポイント
- 列番号は「0」から始まります。
- 連続する複数の列（カラム）の値を取得する場合、カラム名の代わりに列番号をコンマで繋ぎます。
- ただし、コンマの後ろの列番号の手前までを取得するため、「+1」した列番号を指定します。
- 列番号を取得するには、```columns.get_loc()```を使用します。

In [52]:
df.columns.get_loc('人口（総数）')

5