# 1. PANDASの基本

In [None]:
# Pandasは、Numpyをベースに作られたデータ操作・分析ツールです。
# Pandasは、DataFrameと呼ばれるデータ構造を使用します（PythonのMicrosoft excelと考えてください）。
# データフレームは、プログラマがデータを表形式（行と列）で保存、操作することを可能にします。
# 系列とデータフレーム？系列は、DataFrameの1つの列とみなされます。


In [None]:
import pandas as pd 

In [None]:
# 以下のように2つのリストを定義してみましょう。
my_list = ['AAPL','AMZN','T']
my_list


In [None]:
label   = ['stock#1', 'stock#2', 'stock#3']
label

In [None]:
type(my_list)

In [None]:
type(label)

In [None]:
# Pandasの1次元の "series "を作ってみましょう。
# 系列はデータと関連するラベルで構成されることに注意してください 

x_series = pd.Series(data = my_list, index = label)

In [None]:
# 系列を見てみましょう
x_series

In [None]:
# データ型を取得しよう
type(x_series)

In [None]:
# 2次元のPandas DataFrameを定義しよう
# pythonの辞書からpandasのデータフレームを作ることができることに注意してください。

bank_client_df = pd.DataFrame({'Bank client ID':[111, 222, 333, 444], 
                               'Bank Client Name':['Chanel', 'Steve', 'Mitch', 'Ryan'], 
                               'Net worth [$]':[3500, 29000, 10000, 2000], 
                               'Years with bank':[3, 4, 9, 5]})
bank_client_df

In [None]:
# データ型を取得しましょう 
type(bank_client_df)

In [None]:
# .head()を使って最初の数行だけを見ることができます。
bank_client_df.head(2)

In [None]:
# .tail()を使うと、最後の数行だけを表示することができます。
bank_client_df.tail(1)

**ミニチャレンジ#1:**
- ポルフォリオは、株式、債券、ETFなどの有価証券のコレクションを含みます。3つの異なる銘柄のティッカーシンボル、株式数、1株あたりの価格を保持する「portfolio_df」という名前のデータフレームを定義します（銘柄は自由に選択できます）**。
- すべての銘柄を含むポートフォリオの合計金額を算出します。


# 2. pandasとcsvおよびhtmlデータ

In [None]:
# Google Drive上のデータにアクセスするには、ドライブをマウントしてコンテンツにアクセスする必要がある
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Pandasを使ってcsvファイルを読み込んでデータをDataFrameに格納する
bank_df = pd.read_csv('/content/drive/My Drive/Colab Notebooks/Python & ML in Finance/Part 1. Python Programming Fundamentals/bank_client_information.csv')

In [None]:
bank_df

In [None]:
# インデックスのないcsvファイルに書き込む
bank_df.to_csv('sample_output.csv', index = False)

In [None]:
# インデックス付きのcsvファイルに書き込む
bank_df.to_csv('sample_output.csv', index = True)

In [None]:
# read_htmlを使って表形式のデータを読み込む
house_prices_df = pd.read_html('https://www.livingin-canada.com/house-prices-canada.html')

In [None]:
house_prices_df[0]

In [None]:
house_prices_df[1]

**ミニチャレンジ #2:**
- Pandasを使って表形式の米国退職者データを読み取るコードを書いてください**。
- **ここからデータを使用することができます: https://www.ssa.gov/oact/progdata/nra.html** 


# 3. パンダの操作

In [None]:
# DataFrameから列を削除する
bank_client_df = pd.DataFrame({'Bank client ID':[111, 222, 333, 444], 
                               'Bank Client Name':['Chanel', 'Steve', 'Mitch', 'Ryan'], 
                               'Net worth [$]':[3500, 29000, 10000, 2000], 
                               'Years with bank':[3, 4, 9, 5]})
bank_client_df

In [None]:
# ある条件を満たす特定の行をピックアップ 
df_loyal = bank_client_df[ (bank_client_df['Years with bank'] >= 5) ]
df_loyal

In [None]:
# DataFrameから列を削除する
del bank_client_df['Bank client ID']
bank_client_df

**ミニチャレンジ#3:**
- **"bank_client_df "データフレームを使用して、pandasのオペレーションを活用し、最低5000ドルの富裕層のみを選択します**。
- **純資産が5000以上のすべての顧客の純資産の合計は何ですか？


# 4. 関数を使ったpandas

In [None]:
# データフレームを以下のように定義してみましょう。

bank_client_df = pd.DataFrame({'Bank client ID':[111, 222, 333, 444], 
                               'Bank Client Name':['Chanel', 'Steve', 'Mitch', 'Ryan'], 
                               'Net worth [$]':[3500, 29000, 10000, 2000], 
                               'Years with bank':[3, 4, 9, 5]})
bank_client_df

In [None]:
# 全てのクライアントの純資産（株式）を固定値10%で増加させる関数を定義します（単純化のため）。
def networth_update(balance):
    return balance * 1.1   # 株価が10%上昇したと仮定する。

In [None]:
# データフレームに関数を適用することができます 
bank_client_df['Net worth [$]'].apply(networth_update)


In [None]:
bank_client_df['Bank Client Name'].apply(len)

In [None]:
bank_client_df['Years with bank'].sum()

**ミニチャレンジ #4:**
- **株価を2倍にして100ドルを加算する関数を定義する**。
- **その関数をDataFrameに適用する**。
- **すべての顧客を合わせた最新の総純資産を計算する**。


# 5. 並べ替えと順序付け

In [None]:
# データフレームを以下のように定義してみましょう。
bank_client_df = pd.DataFrame({'Bank client ID':[111, 222, 333, 444], 
                               'Bank Client Name':['Chanel', 'Steve', 'Mitch', 'Ryan'], 
                               'Net worth [$]':[3500, 29000, 10000, 2000], 
                               'Years with bank':[3, 4, 9, 5]})
bank_client_df

In [None]:
# データフレーム内の値を銀行との付き合いの年数に応じてソートできます。
bank_client_df.sort_values(by = 'Years with bank') 

In [None]:
# メモリ上では何も変わっていないことに注意してください！inplaceがTrueに設定されていることを確認する必要があります。

bank_client_df

In [None]:
# メモリ上で変更が行われたことを確認するために、inplace = True を設定します。
bank_client_df.sort_values(by = 'Years with bank', inplace = True) 

In [None]:
# これで変更（順序付け）が行われたことに注意してください 
bank_client_df

**ミニチャレンジ #5:**
- **顧客を銀行との付き合いの年数ではなく、純資産でソートします。インメモリで値を更新するようにしてください。


In [None]:
# 6. pandasでの連結と結合

# 6. CONCATENATING AND MERGING WITH PANDAS

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 1, 2, 3])

In [None]:
df1

In [None]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
index=[4, 5, 6, 7]) 

In [None]:
df2

In [None]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
index=[8, 9, 10, 11])

In [None]:
df3

In [None]:
pd.concat([df1, df2, df3])

In [None]:
# 辞書からデータフレームを作る
# ID=1,2,3,4,5の銀行顧客のリストを持つdataframeを定義してみましょう。

raw_data = {'Bank Client ID': ['1', '2', '3', '4', '5'],
            'First Name': ['Nancy', 'Alex', 'Shep', 'Max', 'Allen'], 
            'Last Name': ['Rob', 'Ali', 'George', 'Mitch', 'Steve']}

Bank_df_1 = pd.DataFrame(raw_data, columns = ['Bank Client ID', 'First Name', 'Last Name'])
Bank_df_1

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve


In [None]:
# 別の顧客リスト（ID = 6, 7, 8, 9, 10）用に別のデータフレームを定義してみましょう。
raw_data = {
        'Bank Client ID': ['6', '7', '8', '9', '10'],
        'First Name': ['Bill', 'Dina', 'Sarah', 'Heather', 'Holly'], 
        'Last Name': ['Christian', 'Mo', 'Steve', 'Bob', 'Michelle']}
Bank_df_2 = pd.DataFrame(raw_data, columns = ['Bank Client ID', 'First Name', 'Last Name'])
Bank_df_2

Unnamed: 0,Bank Client ID,First Name,Last Name
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Sarah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


In [None]:
# 銀行の顧客に関する追加情報（年収）を取得したと仮定します。
# 取得したデータは，IDが1〜10のすべての顧客を対象としていることに注意してください

 
raw_data = {
        'Bank Client ID': ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10'],
        'Annual Salary [$/year]': [25000, 35000, 45000, 48000, 49000, 32000, 33000, 34000, 23000, 22000]}
bank_df_salary = pd.DataFrame(raw_data, columns = ['Bank Client ID','Annual Salary [$/year]'])
bank_df_salary

Unnamed: 0,Bank Client ID,Annual Salary [$/year]
0,1,25000
1,2,35000
2,3,45000
3,4,48000
4,5,49000
5,6,32000
6,7,33000
7,8,34000
8,9,23000
9,10,22000


In [None]:
# 1番と2番のデータフレームを連結してみましょう。
# クライアントIDが1から10まであることに注意してください

bank_df_all = pd.concat([Bank_df_1, Bank_df_2])
bank_df_all

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Sarah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


In [None]:
# 「銀行のクライアントID」に関するすべてのデータをマージしよう
bank_df_all = pd.merge(bank_df_all, bank_df_salary, on = 'Bank Client ID')


In [None]:
bank_df_all

Unnamed: 0,Bank Client ID,First Name,Last Name,Annual Salary [$/year]
0,1,Nancy,Rob,25000
1,2,Alex,Ali,35000
2,3,Shep,George,45000
3,4,Max,Mitch,48000
4,5,Allen,Steve,49000
5,6,Bill,Christian,32000
6,7,Dina,Mo,33000
7,8,Sarah,Steve,34000
8,9,Heather,Bob,23000
9,10,Holly,Michelle,22000


**ミニチャレンジ #6:**
- **あなたが銀行の新しい顧客になったと仮定しましょう**。
- **クライアントID（11を選択）、名前、姓、年収などのお客様の情報を含む新しいデータフレームを定義します**。
- **この新しいデータフレームを元のデータフレーム "bank_df_all "に追加します**。


# EXCELLENT JOB!

# mini challenge solutions

**ミニチャレンジ#1の解答:**
- **ポートフォリオは、株式、債券、ETFなどの有価証券のコレクションを含みます。3種類の銘柄のティッカーシンボル、株式数、一株あたりの価格を保持する「portfolio_df」というデータフレームを定義します（銘柄は自由に選択してください）**。
- すべての銘柄を含めたポートフォリオの合計金額を計算します。


In [None]:
portfolio_df = pd.DataFrame({'stock ticker symbols':['AAPL', 'AMZN', 'T'],
                             'price per share [$]':[3500, 200, 40], 
                             'Number of stocks':[3, 4, 9]})
portfolio_df

In [None]:
stocks_dollar_value = portfolio_df['price per share [$]'] * portfolio_df['Number of stocks']
print(stocks_dollar_value)
print('Total portfolio value = {}'.format(stocks_dollar_value.sum()))

**ミニチャレンジ#2の解決策：***。
- Pandasを使って表形式の米国退職者データを読み取るコードを書いてください**。
- **ここからデータを使用することができます: https://www.ssa.gov/oact/progdata/nra.html**。
# read_htmlを使って表形式のデータを読む


In [None]:
# Read tabular data using read_html
retirement_age_df = pd.read_html('https://www.ssa.gov/oact/progdata/nra.html')
retirement_age_df

**ミニチャレンジ #3 解決策:**
- Bank_client_df "データフレームを使用して、pandasのオペレーションを利用して、最低5000ドルの富裕層のみを選択する**。
- 純資産額が5000ドル以上のすべての顧客の合計純資産額はいくらですか？


In [None]:
df_high_networth = bank_client_df[ (bank_client_df['Net worth [$]'] >= 5000) ]
df_high_networth

In [None]:
df_high_networth['Net worth [$]'].sum()

**ミニチャレンジ #4 解決策:**
- **株価を2倍にして$100を加算する関数を定義します**。
- **その関数をDataFrameに適用します**。
- **すべての顧客の合計純資産額の更新を計算する**。


In [None]:
def networth_update(balance):
    return balance * 2 + 100 # assume that stock prices increased by 10%

In [None]:
# You can apply a function to the DataFrame 
results = bank_client_df['Net worth [$]'].apply(networth_update)
results

In [None]:
results.sum()

**ミニチャレンジ #5 解決策：***。
- **銀行での年数ではなく、純資産で顧客をソートします。インメモリで値を更新するようにしてください。***。
# データフレーム内の値を銀行との付き合いの年数でソートすることができます


In [None]:
# You can sort the values in the dataframe according to number of years with bank
bank_client_df.sort_values(by = 'Net worth [$]', inplace = True) 
bank_client_df

**ミニチャレンジ #6 解決策：***。
- **あなたが銀行の新しい顧客になったと仮定しましょう**。
- **クライアントID（11を選択）、名前、姓、年収などのお客様の情報を含む新しいデータフレームを定義します**。
- **この新しいデータフレームを元のデータフレーム "bank_df_all "に追加します**。


In [None]:
new_client = {
        'Bank Client ID': ['11'],
        'First Name': ['Ry'], 
        'Last Name': ['Aly'],
        'Annual Salary [$/year]' : [1000]}
new_client_df = pd.DataFrame(new_client, columns = ['Bank Client ID', 'First Name', 'Last Name', 'Annual Salary [$/year]'])
new_client_df

In [None]:
new_df = pd.concat([bank_df_all, new_client_df], axis = 0)
new_df