# Pandasの復習

練習問題は、[gotty21/basic_pandas-64-knocks](https://github.com/gotty21/basic_pandas-64-knocks)をから抜粋しました。

公式ドキュメントを参照しながら解いてください。

* [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html)
* [pandas documentation](https://pandas.pydata.org/docs/index.html)

## 事前準備

データフレームを初期化するための関数`initialize()`を作ります。作業前にこの2つのセルを実行しましょう。

`openpyxl`はExcelファイルの読み込みに必要です。必要に応じてインストールしてください。

In [1]:
%pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5
Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd

def initialize(flag=0):
    if flag == 0:
        return pd.read_csv("./data/main.csv")
    if flag == 1:
        return pd.read_csv("./data/add.csv")
    if flag == 2:
        return pd.read_excel("./data/data.xlsx")
    else:
        print("Please specify numbers between 0 to 2.")
        return None

## データの読み込み・確認

### pandasインポート

【演習】pandasライブラリをpdという名前でインポートしてください。

In [3]:
# your code goes here
import pandas as pd

In [4]:
# answer

import pandas as pd

### csvファイルの読み込み

`./data/main.csv`を読み込んでデータフレームを作成し、dfという変数に格納します。

In [5]:
# your code goes here
df = initialize(0)

In [None]:
file = "./data/main.csv"
df = pd.read_csv(file)

【演習】

`./data/add.csv`を読み込んでデータフレームを作成し、addという変数に格納してください。


In [None]:
# your code goes here
add = initialize(1)

### DataFrameのサイズの確認

【演習】dfのサイズを確認してください。

In [6]:
# 次の一行でデータフレームdfを初期化します。演習を行う前に都度実行してください。

df = initialize(0)

In [10]:
# your code goes here
df.size

22000

### DataFrameのレコード数の確認

【演習】dfのレコード数を確認してください。

In [9]:
df = initialize(0)

In [None]:
# your code goes here
df.shape[0]

## ラベル

### DataFrameのカラム名の取得

【演習】dfのcolumn名をリスト形式で取得してください。

In [None]:
df = initialize(0)

In [11]:
# your code goes here
df.columns

Index(['SK_ID_CURR', 'TARGET', 'NAME_CONTRACT_TYPE', 'CODE_GENDER',
       'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'CNT_CHILDREN', 'AMT_INCOME_TOTAL',
       'FLAG_MOBIL', 'REGION_POPULATION_RELATIVE', 'OWN_CAR_AGE'],
      dtype='object')

### DataFrameのカラム名の一部を変更

【演習】dfのcolumn名CODE_GENDERをGENDERに変更してください。

In [14]:
df = initialize(0)

In [12]:
# your code goes here
df.rename(columns={"CODE_GENDER": "GENDER"}, inplace=True)
df.columns

Index(['SK_ID_CURR', 'TARGET', 'NAME_CONTRACT_TYPE', 'GENDER', 'FLAG_OWN_CAR',
       'FLAG_OWN_REALTY', 'CNT_CHILDREN', 'AMT_INCOME_TOTAL', 'FLAG_MOBIL',
       'REGION_POPULATION_RELATIVE', 'OWN_CAR_AGE'],
      dtype='object')

### DataFrameのカラム名をすべて変更

【演習】column名をno1～no11というstr型の名前に変更してください。「リスト内包表記」を使用すると簡単です。調べてみてください。

In [15]:
df = initialize(0)

In [17]:
# your code goes here
df.rename(columns={
    original_name: f"no{idx + 1}" for idx, original_name in enumerate(df.columns)
}, inplace=True)

df.columns

Index(['no1', 'no2', 'no3', 'no4', 'no5', 'no6', 'no7', 'no8', 'no9', 'no10',
       'no11'],
      dtype='object')

## 各列のデータの確認

###  任意の列のユニーク（一意）な要素を確認

In [18]:
df = initialize(0)

【演習】dfのCODE_GENDER列のユニークな要素を確認してください。

In [19]:
# your code goes here
df["CODE_GENDER"].unique()

array(['M', 'F'], dtype=object)

### 各列のユニークな要素の数を確認

【演習】dfの各列のユニークな要素の数を出力してください。

In [None]:
df = initialize(0)

In [21]:
# your code goes here
for col in df.columns:
    print(f"{col}: {len(df[col].unique())}")

SK_ID_CURR: 2000
TARGET: 2
NAME_CONTRACT_TYPE: 2
CODE_GENDER: 2
FLAG_OWN_CAR: 2
FLAG_OWN_REALTY: 2
CNT_CHILDREN: 5
AMT_INCOME_TOTAL: 139
FLAG_MOBIL: 1
REGION_POPULATION_RELATIVE: 78
OWN_CAR_AGE: 37


### 任意の列のユニークな要素の数とその出現回数を確認

【演習】dfのCNT_CHILDREN列の要素とその出現回数を確認してください。

In [22]:
df = initialize(0)

In [23]:
# your code goes here
df["CNT_CHILDREN"].value_counts()

CNT_CHILDREN
0    1414
1     388
2     170
3      26
4       2
Name: count, dtype: int64

## データの取り出し

### 任意の１つの列の取り出し

【演習】dfのTARGETの列のみ表示してください。

In [None]:
df = initialize(0)

In [24]:
# your code goes here
df["TARGET"]

0       1
1       0
2       0
3       0
4       0
       ..
1995    1
1996    0
1997    0
1998    0
1999    0
Name: TARGET, Length: 2000, dtype: int64

【演習】dfの左から3番目の列のみ表示してください。

In [None]:
df = initialize(0)

In [28]:
# your code goes here
df.iloc[:, 3]

0       M
1       F
2       M
3       F
4       M
       ..
1995    F
1996    M
1997    F
1998    F
1999    M
Name: CODE_GENDER, Length: 2000, dtype: object

### 複数の列の取り出し

【演習】dfのTARGET列とCODE_GENDER列のみ表示してください。

In [29]:
df = initialize(0)

In [32]:
# your code goes here
df[["TARGET", "CODE_GENDER"]]

Unnamed: 0,TARGET,CODE_GENDER
0,1,M
1,0,F
2,0,M
3,0,F
4,0,M
...,...,...
1995,1,F
1996,0,M
1997,0,F
1998,0,F


【演習】dfのTARGET列とCODE_GENDER列までの列を表示してください。

In [33]:
df = initialize(0)

In [34]:
# your code goes here
target_col_idx = df.columns.get_loc("TARGET")
code_gender_col_idx = df.columns.get_loc("CODE_GENDER")
df.iloc[:,
        target_col_idx:code_gender_col_idx + 1]


Unnamed: 0,TARGET,NAME_CONTRACT_TYPE,CODE_GENDER
0,1,Cash loans,M
1,0,Cash loans,F
2,0,Revolving loans,M
3,0,Cash loans,F
4,0,Cash loans,M
...,...,...,...
1995,1,Cash loans,F
1996,0,Cash loans,M
1997,0,Revolving loans,F
1998,0,Revolving loans,F


### 条件検索

【演習】CODE_GENDER列が'F'かつAMT_INCOME_TOTAL列が500000以上のデータポイントを表示してください。

In [37]:
df = initialize(0)

In [40]:
# your code goes here
df[(df["CODE_GENDER"] == "F") & (df["AMT_INCOME_TOTAL"] >= 500000)]


Unnamed: 0,SK_ID_CURR,TARGET,NAME_CONTRACT_TYPE,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,FLAG_MOBIL,REGION_POPULATION_RELATIVE,OWN_CAR_AGE
332,100380,0,Cash loans,F,N,Y,0,630000.0,1,0.072508,
930,101073,1,Cash loans,F,Y,N,0,540000.0,1,0.008474,18.0
1064,101235,0,Revolving loans,F,N,Y,0,720000.0,1,0.010147,
1568,101839,0,Cash loans,F,N,N,0,630000.0,1,0.020713,
1586,101857,0,Cash loans,F,N,Y,0,720000.0,1,0.04622,
1644,101929,1,Revolving loans,F,Y,Y,0,697500.0,1,0.04622,7.0
1723,102015,0,Cash loans,F,N,Y,0,1935000.0,1,0.007114,
1793,102097,0,Revolving loans,F,Y,Y,1,540000.0,1,0.032561,16.0


## ソート

### 任意の一列で昇順ソート

【演習】dfのAMT_INCOME_TOTALの列で昇順ソートして表示してください。

In [39]:
df = initialize(0)

In [41]:
# your code goes here
df.sort_values("AMT_INCOME_TOTAL", ascending=True)

Unnamed: 0,SK_ID_CURR,TARGET,NAME_CONTRACT_TYPE,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,FLAG_MOBIL,REGION_POPULATION_RELATIVE,OWN_CAR_AGE
1678,101965,0,Cash loans,F,N,N,0,25650.0,1,0.018850,
495,100572,0,Cash loans,F,N,Y,0,31500.0,1,0.031329,
283,100326,1,Cash loans,M,Y,Y,0,36000.0,1,0.018209,27.0
1221,101442,0,Cash loans,F,N,N,0,36000.0,1,0.018850,
651,100743,0,Cash loans,F,N,Y,0,38250.0,1,0.018850,
...,...,...,...,...,...,...,...,...,...,...,...
1064,101235,0,Revolving loans,F,N,Y,0,720000.0,1,0.010147,
319,100366,0,Revolving loans,M,Y,Y,0,765000.0,1,0.002506,3.0
1238,101461,0,Cash loans,M,Y,Y,0,810000.0,1,0.072508,5.0
1504,101769,0,Revolving loans,M,Y,Y,0,1080000.0,1,0.072508,7.0


### 任意の一列で降順ソート


【演習】dfのAMT_INCOME_TOTALの列で降順ソート表示してください。

In [None]:
df = initialize(0)

In [42]:
# your code goes here
df.sort_values("AMT_INCOME_TOTAL", ascending=False)


Unnamed: 0,SK_ID_CURR,TARGET,NAME_CONTRACT_TYPE,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,FLAG_MOBIL,REGION_POPULATION_RELATIVE,OWN_CAR_AGE
1723,102015,0,Cash loans,F,N,Y,0,1935000.0,1,0.007114,
1504,101769,0,Revolving loans,M,Y,Y,0,1080000.0,1,0.072508,7.0
1238,101461,0,Cash loans,M,Y,Y,0,810000.0,1,0.072508,5.0
319,100366,0,Revolving loans,M,Y,Y,0,765000.0,1,0.002506,3.0
1586,101857,0,Cash loans,F,N,Y,0,720000.0,1,0.046220,
...,...,...,...,...,...,...,...,...,...,...,...
651,100743,0,Cash loans,F,N,Y,0,38250.0,1,0.018850,
1221,101442,0,Cash loans,F,N,N,0,36000.0,1,0.018850,
283,100326,1,Cash loans,M,Y,Y,0,36000.0,1,0.018209,27.0
495,100572,0,Cash loans,F,N,Y,0,31500.0,1,0.031329,


## 統計量

### 基本統計量

【演習】dfのAMT_INCOME_TOTAL列の平均、中央値、合計、最大値、最小値、最頻値をそれぞれ出力してください。

In [43]:
df = initialize(0)

In [48]:
# your code goes here
print(f"mean: {df['AMT_INCOME_TOTAL'].mean()}")
print(f"median: {df['AMT_INCOME_TOTAL'].median()}")
print(f"sum: {df['AMT_INCOME_TOTAL'].sum()}")
print(f"max: {df['AMT_INCOME_TOTAL'].max()}")
print(f"min: {df['AMT_INCOME_TOTAL'].min()}")
print(f"mode: {df['AMT_INCOME_TOTAL'].mode()}")

mean: 170118.76182749998
median: 144000.0
sum: 340237523.655
max: 1935000.0
min: 25650.0
mode: 0    112500.0
Name: AMT_INCOME_TOTAL, dtype: float64


### 要約統計量

【演習】dfのAMT_INCOME_TOTAL列の要約統計量を出力してください。

In [None]:
df = initialize(0)

In [49]:
# your code goes here
df["AMT_INCOME_TOTAL"].describe()

count    2.000000e+03
mean     1.701188e+05
std      1.017594e+05
min      2.565000e+04
25%      1.125000e+05
50%      1.440000e+05
75%      2.025000e+05
max      1.935000e+06
Name: AMT_INCOME_TOTAL, dtype: float64

### groupby

【演習】dfのCODE_GENDERで集約し、それぞれのAMT_INCOME_TOTALの最大値を出力してください。

In [None]:
df = initialize(0)

In [50]:
# your code goes here
df.groupby("CODE_GENDER")[["AMT_INCOME_TOTAL"]].max()

Unnamed: 0_level_0,AMT_INCOME_TOTAL
CODE_GENDER,Unnamed: 1_level_1
F,1935000.0
M,1080000.0


【演習】dfのCODE_GENDERごとにNAME_CONTRACT_TYPEで集約し、各グループ内の平均と分散を出力してください。また、出力を見やすくするためにindexをリセットしてください。

In [53]:
df = initialize(0)

In [56]:
# your code goes here
# dfのCODE_GENDERごとにNAME_CONTRACT_TYPEで集約し、各グループ内の平均と分散を出力してください。また、出力を見やすくするためにindexをリセットしてください。
grouped_df = df.groupby(
    ["CODE_GENDER", "NAME_CONTRACT_TYPE"]
)
print(grouped_df["AMT_INCOME_TOTAL"].agg(["mean", "std"]))
print(grouped_df["AMT_INCOME_TOTAL"].agg(["mean", "std"]).reset_index())

                                         mean            std
CODE_GENDER NAME_CONTRACT_TYPE                              
F           Cash loans          156289.567886   96264.039839
            Revolving loans     158903.500000  110220.798071
M           Cash loans          189622.313091   91758.722010
            Revolving loans     240020.270270  174150.943016
  CODE_GENDER NAME_CONTRACT_TYPE           mean            std
0           F         Cash loans  156289.567886   96264.039839
1           F    Revolving loans  158903.500000  110220.798071
2           M         Cash loans  189622.313091   91758.722010
3           M    Revolving loans  240020.270270  174150.943016


## ファイル出力

### csvファイルに出力

【演習】dfを、行番号、列番号なしで、`./data`ディレクトリ内に`output.csv`という名前で出力してください。

In [57]:
df = initialize(0)

In [58]:
# your code goes here
df.to_csv("./data/output.csv", index=False)

---

この演習は以上です。