<a href="https://colab.research.google.com/github/SOOJUNBARNG/python_learning/blob/main/pandas_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import requests

import pandas as pd
from io import StringIO

# # Google Drive のファイル ID
# file_id = "17QN0mIXA9DP63KC5wL0h7koYKHSdUo9j"

# # ダウンロード用のURL
# url = f"https://drive.google.com/uc?export=download&id={file_id}"

# # Google Drive からデータを取得
# response = requests.get(url)
# response.raise_for_status()  # エラーチェック

# # CSVデータを文字列として扱う
# csv_data = StringIO(response.text)


# Google SheetsのスプレッドシートID
sheet_id = "1B6IP-fwIe0-cf72NCyzggUEBOphEutC5RctxEej5EO8"
sheet_name = "Sheet1"  # シート名を指定

# Google Sheetsから直接CSVとして取得
csv_url = f"https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}"

# Pandasで読み込む
df = pd.read_csv(csv_url)

print(df)

   患者ID    名前      施術名         施術日   担当医      費用
0   201  佐々木優  二重まぶた手術  2024/03/01  田中医師  250000
1   202   山本花  ボトックス注射  2024/03/15  鈴木医師   50000
2   203  藤田健太   レーザー美白  2024/03/10  高橋医師  120000


In [2]:
# 1. set_index → 特定の列をdfのindexとして使う
print(df.set_index("患者ID"))

        名前      施術名         施術日   担当医      費用
患者ID                                         
201   佐々木優  二重まぶた手術  2024/03/01  田中医師  250000
202    山本花  ボトックス注射  2024/03/15  鈴木医師   50000
203   藤田健太   レーザー美白  2024/03/10  高橋医師  120000


In [None]:
# 2. rename → 特定の列の名前を変更する
# 名前をnameに変更
print(df.rename(columns={'名前': 'Name'}))

Index(['患者ID', '名前', '施術名', '施術日', '担当医', '費用'], dtype='object')


In [3]:
# 3. sort_values→ 特定の列を基準に昇順で並べ帰る
# 施術日を並べ替える
print(df.sort_values(by='施術日'))

   患者ID    名前      施術名         施術日   担当医      費用
0   201  佐々木優  二重まぶた手術  2024/03/01  田中医師  250000
2   203  藤田健太   レーザー美白  2024/03/10  高橋医師  120000
1   202   山本花  ボトックス注射  2024/03/15  鈴木医師   50000


In [None]:
# 4. to_datetime→ 日付の文字列を日付タイプに変更
print(df['施術日'])
print("\n------タイプ変更後-----\n")
print(pd.to_datetime(df['施術日']))

患者ID           202
名前             山本花
施術名        ボトックス注射
施術日     2024-03-05
担当医           鈴木医師
費用           50000
Name: 1, dtype: object


In [None]:
# 5. sort_index→ indexを基準に整列
print(df.sort_index())

   患者ID   名前      施術名         施術日   担当医     費用
1   202  山本花  ボトックス注射  2024-03-05  鈴木医師  50000


In [5]:
# 6. apply→ 行または列に関数を適用
# 適用する関数
def minus_100(price):
    return price - 100

print("apply前の費用\n")
print(df["費用"])
print("\nminus_100関数をapplyした後の費用\n")
print(df["費用"].apply(minus_100))

apply前の費用

0    250000
1     50000
2    120000
Name: 費用, dtype: int64

minus_100関数をapplyした後の費用

0    249900
1     49900
2    119900
Name: 費用, dtype: int64


In [4]:
# 7. cut→ 数字のデータの列の区間を分けて各行がどの区間に入るかを抽出
# 0~ 70000を低価格 70001~150000を中価格 150001~300000を高価格で分けるようにする
bins = [0, 70000, 150000, 300000]
labels = ["低価格", "中価格", "高価格"]
print(pd.cut(df["費用"], bins=bins, labels=labels))

0    高価格
1    低価格
2    中価格
Name: 費用, dtype: category
Categories (3, object): ['低価格' < '中価格' < '高価格']
