# 目標

 - 単純なデミリタ(区切り文字)付きデータファイルをロードする
 - ロードした列や行の数を調べる
 - ロードしたデータの型を判定する
 - 行や列の絞り込みによって、データの各部を見る

# インポート

In [10]:
import pandas as pd

# データセットの取得
今回は、Gapminderデータセットを使用する(www.gapminder.org)  
リポジトリ : www.github.com/jennybc/gapminder
今回使用するデータのリンク : https://github.com/chendaniely/pandas_for_everyone/blob/master/data/gapminder.tsv

In [11]:
df = pd.read_csv('/content/drive/MyDrive/研究室/自習/pandas ライブラリ活用入門/my_project/data/gapminder.tsv', sep='\t')
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


In [34]:
# DataFrameに入っているのか確認
print(f"type(df)={type(df)}")

# 行と列の個数を取る
print(f"df.shape=\n{df.shape}\n")

# 列の名前を見る
print(f"df.columns=\n{df.columns}\n")

# 各列の型を見る
print(f"df.dtypes=\n{df.dtypes}\n")

# データの詳しい情報を見る
print(f"df.info()=\n{df.info()}\n")

type(df)=<class 'pandas.core.frame.DataFrame'>
df.shape=
(1704, 6)

df.columns=
Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')

df.dtypes=
country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
dtype: object

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB
df.info()=
None



# 列、行、セルを見る
printで出力することができるが、データが膨大すぎて難しい
⇒部分的にデータの様々な部分集合を調べるのが最良

## 列を絞り込む

In [35]:
# countryの列だけ取り出す
country_df = df['country']

# 最初の5行を表示
print(f"country_df.head()=\n{country_df.head()}\n")

# 最後の5個を表示
print(f"country_df.tail()=\n{country_df.tail()}\n")

country_df.head()=
0    Afghanistan
1    Afghanistan
2    Afghanistan
3    Afghanistan
4    Afghanistan
Name: country, dtype: object

country_df.tail()=
1699    Zimbabwe
1700    Zimbabwe
1701    Zimbabwe
1702    Zimbabwe
1703    Zimbabwe
Name: country, dtype: object



In [36]:
# countryとcontinentとyearのデータを見る
subset = df[['country','continent','year']]

print(f"subset.head()=\n{subset.head()}\n")

print(f"subset.tail()=\n{subset.tail()}\n")

subset.head()=
       country continent  year
0  Afghanistan      Asia  1952
1  Afghanistan      Asia  1957
2  Afghanistan      Asia  1962
3  Afghanistan      Asia  1967
4  Afghanistan      Asia  1972

subset.tail()=
       country continent  year
1699  Zimbabwe    Africa  1987
1700  Zimbabwe    Africa  1992
1701  Zimbabwe    Africa  1997
1702  Zimbabwe    Africa  2002
1703  Zimbabwe    Africa  2007



## 行を絞り込む

### インデックスラベルによる行の抽出
---

In [41]:
print(f"df.head()=\n{df.head()}\n")

df.head()=
       country continent  year  lifeExp       pop   gdpPercap
0  Afghanistan      Asia  1952   28.801   8425333  779.445314
1  Afghanistan      Asia  1957   30.332   9240934  820.853030
2  Afghanistan      Asia  1962   31.997  10267083  853.100710
3  Afghanistan      Asia  1967   34.020  11537966  836.197138
4  Afghanistan      Asia  1972   36.088  13079460  739.981106



出力結果では、一番左に行番号が存在している。  
これをインデックスラベルという行番号となっている  
行を絞るには、DataFrameオブジェクトのloc属性を使える

In [46]:
# 最初の行を抽出する
print(f"df.loc[0]=\n{df.loc[0]}\n")

# 最後の行を抽出する方法
# shapeから得られる最初の値で、行数が得られる
number_of_raws = df.shape[0]
last_row_index = number_of_raws - 1

# 最終行のインデックスを使って絞り込む
print(f"df.loc[last_raw_index]=\n{df.loc[last_row_index]}\n")

# 望みの結果を得る方法は数多くある
print(f"df.tail(n=1)=\n{df.tail(n=1)}\n")

df.loc[0]=
country      Afghanistan
continent           Asia
year                1952
lifeExp           28.801
pop              8425333
gdpPercap     779.445314
Name: 0, dtype: object

df.loc[last_raw_index]=
country        Zimbabwe
continent        Africa
year               2007
lifeExp          43.487
pop            12311143
gdpPercap    469.709298
Name: 1703, dtype: object

df.tail(n=1)=
       country continent  year  lifeExp       pop   gdpPercap
1703  Zimbabwe    Africa  2007   43.487  12311143  469.709298



In [49]:
subset_loc = df.loc[0]
subset_head = df.head(n=1)

# locを使って得られる1行の型
print(f"type(subset_loc)=\n{type(subset_loc)}\n")

# headを使って得られる1行の型
print(f"type(subset_head)=\n{type(subset_head)}\n")

type(subset_loc)=
<class 'pandas.core.series.Series'>

type(subset_head)=
<class 'pandas.core.frame.DataFrame'>



### 複数行の抽出
---

In [51]:
# 1と100行と1000行を選択する
print(f"df.loc[[0, 99, 999]]=\n{df.loc[[0, 99, 999]]}\n")

df.loc[[0, 99, 999]]=
         country continent  year  lifeExp       pop    gdpPercap
0    Afghanistan      Asia  1952   28.801   8425333   779.445314
99    Bangladesh      Asia  1967   43.453  62821884   721.186086
999     Mongolia      Asia  1967   51.253   1149500  1226.041130



### インデックス番号による行の抽出 : iloc
ilocはインデックス番号による絞り込みに使われる

In [55]:
# 2番目の行を見る
print(f"df.iloc[1]=\n{df.iloc[1]}\n")

# 最後の行を見る
print(f"df.iloc[-1]=\n{df.iloc[-1]}\n")

# 1行、100行、1000行目をみる
print(f"df.iloc[0,99,999]=\n{df.iloc[[0,99,999]]}\n")

df.iloc[1]=
country      Afghanistan
continent           Asia
year                1957
lifeExp           30.332
pop              9240934
gdpPercap      820.85303
Name: 1, dtype: object

df.iloc[-1]=
country        Zimbabwe
continent        Africa
year               2007
lifeExp          43.487
pop            12311143
gdpPercap    469.709298
Name: 1703, dtype: object

df.iloc[0,99,999]=
         country continent  year  lifeExp       pop    gdpPercap
0    Afghanistan      Asia  1952   28.801   8425333   779.445314
99    Bangladesh      Asia  1967   43.453  62821884   721.186086
999     Mongolia      Asia  1967   51.253   1149500  1226.041130



### ixによる行の抽出(pandas v0.20 以前)
---
v0.20以降は使えなくなている



## 組み合わせで絞りこむ
---
属性のloc, ilocは行か、列か、その両方を絞り込む際に使うことができる  


```
df.loc[[rows],[columns]]
df.iloc[[rows],[columns]]
```
という形式で記述する


### 複数列の抽出
---
Pythonのスライス構文を使う必要がある  
<スライス構文>  
1個の「:」を使い、コロンのみだとその属性は「すべて」となる。

In [57]:
# locで絞りこむ
subset_loc = df.loc[:, ['year', 'pop']]
print(f"subset_loc.head()=\n{subset_loc.head()}\n")

# ilocで絞りこむ
subset_iloc = df.iloc[:, [2,4,-1]]
print(f"subset_iloc.head()=\n{subset_iloc.head()}\n")

subset_loc.head()=
   year       pop
0  1952   8425333
1  1957   9240934
2  1962  10267083
3  1967  11537966
4  1972  13079460

subset_iloc.head()=
   year       pop   gdpPercap
0  1952   8425333  779.445314
1  1957   9240934  820.853030
2  1962  10267083  853.100710
3  1967  11537966  836.197138
4  1972  13079460  739.981106



### 範囲による複数列の抽出
---
Pythonのrange関数を使用して、最初と最後の値のみを指定すれば、抽出が可能

In [65]:
# 0~4までの整数を含む範囲を作成
small_range = list(range(5))
print(f"small_rang=\n{small_range}\n")

# その範囲でDataFrameオブジェクトを絞り込む
subset_range = df.iloc[:, small_range]
print(f"subset_range.head()=\n{subset_range.head()}\n")

# 別の記法
print(f"df.iloc[:, range(5)].head()=\n{df.iloc[:, range(5)].head()}\n")

small_rang=
[0, 1, 2, 3, 4]

subset_range.head()=
       country continent  year  lifeExp       pop
0  Afghanistan      Asia  1952   28.801   8425333
1  Afghanistan      Asia  1957   30.332   9240934
2  Afghanistan      Asia  1962   31.997  10267083
3  Afghanistan      Asia  1967   34.020  11537966
4  Afghanistan      Asia  1972   36.088  13079460

df.iloc[:, range(5)].head()=
       country continent  year  lifeExp       pop
0  Afghanistan      Asia  1952   28.801   8425333
1  Afghanistan      Asia  1957   30.332   9240934
2  Afghanistan      Asia  1962   31.997  10267083
3  Afghanistan      Asia  1967   34.020  11537966
4  Afghanistan      Asia  1972   36.088  13079460



In [68]:
# 0~5に至る1つおきの整数を含むを作成
small_range2 = list(range(0, 6, 2))
subset_range2 = df.iloc[:, small_range2]
print(f"subset_range2.head()=\n{subset_range2.head()}\n")

subset_range2.head()=
       country  year       pop
0  Afghanistan  1952   8425333
1  Afghanistan  1957   9240934
2  Afghanistan  1962  10267083
3  Afghanistan  1967  11537966
4  Afghanistan  1972  13079460



### 複数列のスライシング
---
スライシング構文(:)は、range関数の構文と同様に使用することができる