In [3]:
import streamlit as st
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

### データの取得・整理

In [81]:
df = pd.read_csv("支出管理表.csv")
df.head()

Unnamed: 0,date,category,memo,amount
0,2022/07/24,その他,スティックノリ(TOEIC写真貼る用),¥120
1,2022/07/24,その他,水,¥100
2,2022/07/24,その他,TOEIC用写真(写真証明機),¥900
3,2022/07/24,旅費交通費,電車（海老名→淵野辺）,¥377
4,2022/07/25,自己投資,コメダ珈琲,¥270


In [82]:
# データ型の確認
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1230 entries, 0 to 1229
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   date      1227 non-null   object
 1   category  1230 non-null   object
 2   memo      1228 non-null   object
 3   amount    1230 non-null   object
dtypes: object(4)
memory usage: 38.6+ KB


In [83]:
# 欠損値がないかの確認
df = df[~df["date"].isna() == True]
df.head()

Unnamed: 0,date,category,memo,amount
0,2022/07/24,その他,スティックノリ(TOEIC写真貼る用),¥120
1,2022/07/24,その他,水,¥100
2,2022/07/24,その他,TOEIC用写真(写真証明機),¥900
3,2022/07/24,旅費交通費,電車（海老名→淵野辺）,¥377
4,2022/07/25,自己投資,コメダ珈琲,¥270


### date列を日付型にデータ整形するためのコード

In [84]:
# dateのフォーマットの日付統一
# df["date"] = df["date"].apply(lambda x: x.replace("-", "/"))
# df[df["date"].str.contains("-")]

# date列のデータタイプを日付型に変更
df["date"] = pd.to_datetime(df["date"])
display(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 1227 entries, 0 to 1229
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   date      1227 non-null   datetime64[ns]
 1   category  1227 non-null   object        
 2   memo      1225 non-null   object        
 3   amount    1227 non-null   object        
dtypes: datetime64[ns](1), object(3)
memory usage: 47.9+ KB


None

### amount列をint型に変更するコード

In [85]:
df["amount"] = df["amount"].apply(lambda x: x[1:].replace(",", ""))
df["amount"] = df["amount"].astype(int)
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1227 entries, 0 to 1229
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   date      1227 non-null   datetime64[ns]
 1   category  1227 non-null   object        
 2   memo      1225 non-null   object        
 3   amount    1227 non-null   int64         
dtypes: datetime64[ns](1), int64(1), object(2)
memory usage: 47.9+ KB


### csvファイルとして保存

In [86]:
# csvファイルとして保存
df.to_csv("支出管理.csv", index=False)

### 練習

In [87]:
df[df["date"].between("2023-08-01", "2023-09-01")].groupby("category")[["amount"]].sum().sort_values(by="amount", ascending=False)

Unnamed: 0_level_0,amount
category,Unnamed: 1_level_1
住宅,178880
自己投資,96343
飲食費,39550
生活,30500
その他,24236
娯楽,11580
旅費交通費,11548
水道光熱費,7677
通信費,5921


In [88]:
df[df["date"].between("2023-08-01", "2023-09-01")]

Unnamed: 0,date,category,memo,amount
976,2023-08-01,住宅,家賃,98430
977,2023-08-01,生活,UNIQLO、日傘、PC用眼鏡,20930
978,2023-08-01,自己投資,コメダ珈琲,100
979,2023-08-01,飲食費,積田食堂,500
980,2023-08-01,その他,Amazon？？,1553
...,...,...,...,...
1107,2023-09-01,飲食費,スタバ,689
1108,2023-09-01,飲食費,サイゼリヤ,1100
1109,2023-09-01,自己投資,コメダ珈琲,100
1110,2023-09-01,住宅,家賃,80000
