##pandas
Pythonでのデータ分析において広く活用されているツールであり、データの読み込みや加工といった前処理を行う上で欠かすことのできない存在です。
pandasは、Series（シリーズ）とDataFrame（データフレーム）というデータ型を提供しており、これらを使ってデータに対する処理を行います。

Seriesはndarrayの1次元配列には無い以下のような特性があります。



*   番号以外でインデックスを付けることができる
*   オブジェクトそのものに名前をつけることができる
*   時系列データを扱える






In [None]:
import pandas as pd
import numpy as np

In [None]:
# Series
row = pd.Series([10,20,30])
row

0    10
1    20
2    30
dtype: int64

In [None]:
# DataFrame
df = pd.DataFrame([[10, "ten", True],
                   [20, "twenty", False],
                   [30, "thirty", True],
                   [40, "forty", False],
                   [50, "fifty", False]])
df

Unnamed: 0,0,1,2
0,10,ten,True
1,20,twenty,False
2,30,thirty,True
3,40,forty,False
4,50,fifty,False


In [None]:
df = pd.DataFrame(np.arange(9).reshape((3, 3)))
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


In [None]:
# データの確認
df.head(1)

Unnamed: 0,0,1,2
0,0,1,2


In [None]:
# サイズ
df.shape

(3, 3)

In [None]:
# インデックス名とカラム名付与
df.index = ["1行目","2行目","3行目"]
df.columns = ["A列","B列","C列"]
df

Unnamed: 0,A列,B列,C列
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8


In [None]:
# Dataframe設定時にインデックス名、カラム名定義
df2 = pd.DataFrame(np.arange(9).reshape((3, 3)),
                   index=["1行目", "2行目", "3行目"],
                   columns=["A列", "B列", "C列"])
df2

Unnamed: 0,A列,B列,C列
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8


In [None]:
# 辞書形式でのDataframe作成
df = pd.DataFrame({"A列":[1,2,3], "B列":[10,20,30.1], "C列":[True,False,True]})
df

Unnamed: 0,A列,B列,C列
0,1,10.0,True
1,2,20.0,False
2,3,30.1,True


In [None]:
# 列抽出
df[["A列", "C列"]]

Unnamed: 0,A列,C列
0,1,True
1,2,False
2,3,True


In [None]:
#行抽出
df[:2]

Unnamed: 0,A列,B列,C列
0,1,10.0,True
1,2,20.0,False


In [None]:
# 名称指定
df.loc[:, ["A列", "C列"]]

Unnamed: 0,A列,C列
0,1,True
1,2,False
2,3,True


In [None]:
# インデックス指定
df.iloc[2:, 1]

2    30.1
Name: B列, dtype: float64

In [None]:
# CSVファイルの読み出し
df = pd.read_csv("c01.csv", encoding="shift-jis")
df

FileNotFoundError: ignored

In [None]:
# CSVファイルの書き出し
sample_df = pd.DataFrame(np.arange(20).reshape((5, 4)),
                  index=["1行目", "2行目", "3行目", "4行目", "5行目"],
                  columns=["A列", "B列", "C列", "D列"])
sample_df.to_csv("sample_df.csv")

In [None]:
# Excelの読み出し
df = pd.read_excel("c01.xlsx")
df

FileNotFoundError: ignored

In [None]:
sample_df = pd.DataFrame(np.arange(20).reshape((5, 4)),
                  index=["1行目", "2行目", "3行目", "4行目", "5行目"],
                  columns=["A列", "B列", "C列", "D列"])
sample_df.to_excel("sample_df.xlsx")

In [None]:
# Webサイトからデータを抽出
# # 取得したtableタグの要素をDataFrame形式に変換
url = "https://www.e-stat.go.jp/stat-search/files?page=1&query=%E4%BA%BA%E5%8F%A3&layout=dataset&stat_infid=000032126213&metadata=1&data=1"
tables = pd.read_html(url)

In [None]:
df = tables[0]
df

Unnamed: 0,0,1,2
0,政府統計名,人口推計,詳細
1,政府統計コード,00200524,
2,調査の概要,人口推計は、国勢調査による人口を基に、その後の各月における出生・死亡、入国・出国などの人口の...,
3,提供統計名,人口推計,
4,提供分類1,各月1日現在人口,
5,統計表名,年齢(5歳階級)、男女別人口(2021年5月平成27年国勢調査を基準とする推計値、2021年...,
6,データセットの概要,,
7,統計分野（大分類）,人口・世帯,
8,統計分野（小分類）,人口,
9,担当機関,総務省,


In [None]:
# DataFrameをファイル変換することなくそのまま保存
df.to_pickle("stock_df.pickle")

In [None]:
# DataFrame読み込み
stock_df = pd.read_pickle("stock_df.pickle")
stock_df

Unnamed: 0,0,1,2
0,政府統計名,人口推計,詳細
1,政府統計コード,00200524,
2,調査の概要,人口推計は、国勢調査による人口を基に、その後の各月における出生・死亡、入国・出国などの人口の...,
3,提供統計名,人口推計,
4,提供分類1,各月1日現在人口,
5,統計表名,年齢(5歳階級)、男女別人口(2021年5月平成27年国勢調査を基準とする推計値、2021年...,
6,データセットの概要,,
7,統計分野（大分類）,人口・世帯,
8,統計分野（小分類）,人口,
9,担当機関,総務省,


In [None]:
df = pd.read_csv("sales_data.csv")
df

FileNotFoundError: ignored

In [None]:
# 条件指定によるデータ抽出
df["客単価"] >= 5000

In [None]:
#　条件にヒットするSeriesを返す
matched_df = df[df["売り上げ"] >= 500000]
matched_df

In [None]:
# queryメソッド
df.query('売り上げ >= 500000')

In [None]:
# データ型の変換
# applyメソッドを使用することで、行や列の各要素に対して引数に指定した関数を順次実行
df.loc[:, '日付'] = df.loc[:,'日付'].apply(pd.to_datetime)
df.dtypes

In [None]:
# applyメソッドの代わりに、NumPyのastypeメソッドでもデータ型を変換
df.loc[:, '客単価'] = df.loc[:, '客単価'].astype(np.float32)
df.dtypes

In [None]:
# データの並び替え
df.sort_values(by="売り上げ", ascending=False)

KeyError: ignored

In [None]:
# カラムの削除
df = df.drop("客単価", axis=1)
df

KeyError: ignored

In [None]:
df.loc[:, "客単価"] = df.loc[:, "売り上げ"] / df.loc[:, "客数"]
df

KeyError: ignored

In [None]:
# 丸めてint型にする
df.loc[:, "客単価"] = df.loc[:, "客単価"].round().astype(int)
df

In [None]:
# DataFrameをndarrayに変換
df.values

array([['政府統計名', '人口推計', '詳細'],
       ['政府統計コード', '00200524', nan],
       ['調査の概要',
        '人口推計は、国勢調査による人口を基に、その後の各月における出生・死亡、入国・出国などの人口の動きを他の人口関連資料から得ることで、毎月1日現在の男女別、年齢階級別の人口を推計しています。また、毎年10月1日現在の全国各歳別結果及び都道府県別結果も推計しています。\u3000推計結果は、各種白書や国際機関における人口分析、経済分析等の基礎資料として利用されています。',
        nan],
       ['提供統計名', '人口推計', nan],
       ['提供分類1', '各月1日現在人口', nan],
       ['統計表名', '年齢(5歳階級)、男女別人口(2021年5月平成27年国勢調査を基準とする推計値、2021年10月概算値）',
        nan],
       ['データセットの概要', nan, nan],
       ['統計分野（大分類）', '人口・世帯', nan],
       ['統計分野（小分類）', '人口', nan],
       ['担当機関', '総務省', nan],
       ['担当課室', '統計局統計調査部国勢統計課', nan],
       ['政府統計URL', 'http://www.stat.go.jp/data/jinsui/index.htm', nan],
       ['統計の種類', '基幹統計', nan],
       ['調査年月', '2021年 10月', nan],
       ['公開年月日時分', '2021-10-20 14:00', nan],
       ['提供周期', '月次', nan],
       ['集計地域区分', '該当なし', nan]], dtype=object)

In [None]:
# 時系列データ作成1
dates = pd.date_range(start="2021-01-01", end="2021-12-31")
dates

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
               '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08',
               '2021-01-09', '2021-01-10',
               ...
               '2021-12-22', '2021-12-23', '2021-12-24', '2021-12-25',
               '2021-12-26', '2021-12-27', '2021-12-28', '2021-12-29',
               '2021-12-30', '2021-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')

In [None]:
# インデックス：時系列
# カラム：乱数
df = pd.DataFrame(np.random.randint(1, 100, 365), index=dates, columns=["ランダム値"])
df

Unnamed: 0,ランダム値
2021-01-01,27
2021-01-02,68
2021-01-03,89
2021-01-04,85
2021-01-05,87
...,...
2021-12-27,54
2021-12-28,4
2021-12-29,10
2021-12-30,13


In [None]:
# グルーピングして集計
# Grouperにはさまざまなパラメータが用意されており、
# freq以外にもkeyを使って文字列でグルーピングしたり、levelを使って数値でグルーピング可能。
# 以下はM:月ごとの集計,mean():平均
df.groupby(pd.Grouper(freq="M")).mean()

Unnamed: 0,ランダム値
2021-01-31,53.0
2021-02-28,49.0
2021-03-31,55.419355
2021-04-30,48.9
2021-05-31,46.16129
2021-06-30,53.666667
2021-07-31,37.677419
2021-08-31,50.483871
2021-09-30,48.766667
2021-10-31,51.064516


In [None]:
# resample('M')でも同様
df.resample('M').mean()

Unnamed: 0,ランダム値
2021-01-31,53.0
2021-02-28,49.0
2021-03-31,55.419355
2021-04-30,48.9
2021-05-31,46.16129
2021-06-30,53.666667
2021-07-31,37.677419
2021-08-31,50.483871
2021-09-30,48.766667
2021-10-31,51.064516


In [None]:
# 準備
df = pd.read_csv("sales_data_contains_nan.csv")
df

NameError: ignored

In [None]:
# 欠損値を含む行を削除
drop_df = df.dropna()
drop_df

Unnamed: 0,日付,売り上げ,客数,客単価
0,2021-01-01,549342.0,125.0,4395.0
1,2021-01-02,577869.0,150.0,3852.0
2,2021-01-03,328030.0,184.0,1783.0
3,2021-01-04,317730.0,156.0,2037.0
5,2021-01-06,494278.0,112.0,4413.0
7,2021-01-08,429130.0,181.0,2371.0
10,2021-01-11,453313.0,144.0,3148.0
11,2021-01-12,365632.0,148.0,2470.0
12,2021-01-13,549903.0,156.0,3525.0
14,2021-01-15,371200.0,149.0,2491.0


In [None]:
# 欠損値を指定した値で補完
fillna_df = df.fillna(0)
fillna_df

Unnamed: 0,日付,売り上げ,客数,客単価
0,2021-01-01,549342.0,125.0,4395.0
1,2021-01-02,577869.0,150.0,3852.0
2,2021-01-03,328030.0,184.0,1783.0
3,2021-01-04,317730.0,156.0,2037.0
4,2021-01-05,492476.0,149.0,0.0
5,2021-01-06,494278.0,112.0,4413.0
6,2021-01-07,446449.0,0.0,3783.0
7,2021-01-08,429130.0,181.0,2371.0
8,2021-01-09,346203.0,101.0,0.0
9,2021-01-10,0.0,151.0,3446.0


In [None]:
# 一つ前の行の値で補完
ffill_df = df.fillna(method = 'ffill')
ffill_df

Unnamed: 0,日付,売り上げ,客数,客単価
0,2021-01-01,549342.0,125.0,4395.0
1,2021-01-02,577869.0,150.0,3852.0
2,2021-01-03,328030.0,184.0,1783.0
3,2021-01-04,317730.0,156.0,2037.0
4,2021-01-05,492476.0,149.0,2037.0
5,2021-01-06,494278.0,112.0,4413.0
6,2021-01-07,446449.0,112.0,3783.0
7,2021-01-08,429130.0,181.0,2371.0
8,2021-01-09,346203.0,101.0,2371.0
9,2021-01-10,346203.0,151.0,3446.0


In [None]:
# 平均値で補完
fill_mean_df = df.fillna(df.mean())
fill_mean_df

  


Unnamed: 0,日付,売り上げ,客数,客単価
0,2021-01-01,549342.0,125.0,4395.0
1,2021-01-02,577869.0,150.0,3852.0
2,2021-01-03,328030.0,184.0,1783.0
3,2021-01-04,317730.0,156.0,2037.0
4,2021-01-05,492476.0,149.0,3400.428571
5,2021-01-06,494278.0,112.0,4413.0
6,2021-01-07,446449.0,146.642857,3783.0
7,2021-01-08,429130.0,181.0,2371.0
8,2021-01-09,346203.0,101.0,3400.428571
9,2021-01-10,463450.0,151.0,3446.0


In [None]:
# 最頻値は複数ある可能性があるので、昇順の一番上の行（Series）を取得
fill_freq_df = df.fillna(df.mode().iloc[0, :])
fill_freq_df

Unnamed: 0,日付,売り上げ,客数,客単価
0,2021-01-01,549342.0,125.0,4395.0
1,2021-01-02,577869.0,150.0,3852.0
2,2021-01-03,328030.0,184.0,1783.0
3,2021-01-04,317730.0,156.0,2037.0
4,2021-01-05,492476.0,149.0,1581.0
5,2021-01-06,494278.0,112.0,4413.0
6,2021-01-07,446449.0,103.0,3783.0
7,2021-01-08,429130.0,181.0,2371.0
8,2021-01-09,346203.0,101.0,1581.0
9,2021-01-10,317730.0,151.0,3446.0


In [None]:
# 確認
df.mode()

Unnamed: 0,日付,売り上げ,客数,客単価
0,2021-01-01,317730.0,103.0,1581.0
1,2021-01-02,328030.0,,1783.0
2,2021-01-03,330255.0,,2037.0
3,2021-01-04,335662.0,,2049.0
4,2021-01-05,346203.0,,2193.0
5,2021-01-06,365632.0,,2312.0
6,2021-01-07,371200.0,,2371.0
7,2021-01-08,383079.0,,2470.0
8,2021-01-09,429130.0,,2491.0
9,2021-01-10,430256.0,,2499.0


In [None]:
# ファイル読み込み
sales_df = pd.read_csv("sales_data.csv", index_col="日付", parse_dates=True)
weather_df = pd.read_csv("weather_data.csv", index_col="日付", parse_dates=True)
february_df = pd.read_csv("february_data.csv", index_col="日付", parse_dates=True)

In [None]:
# DataFrameの連結(列方向)
df = pd.concat([sales_df, weather_df], axis=1)
df

Unnamed: 0_level_0,売り上げ,客数,客単価,気温,天気
日付,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2021-01-01,549342,125,4395,22,曇
2021-01-02,577869,150,3852,20,晴
2021-01-03,328030,184,1783,23,雨
2021-01-04,317730,156,2037,23,曇
2021-01-05,492476,149,3305,18,雨
2021-01-06,494278,112,4413,15,晴
2021-01-07,446449,118,3783,15,曇
2021-01-08,429130,181,2371,22,晴
2021-01-09,346203,101,3428,17,晴
2021-01-10,520374,151,3446,18,晴


In [None]:
# DataFrameの連結(行方向)
df = pd.concat([df, february_df], axis=0)
df

Unnamed: 0_level_0,売り上げ,客数,客単価,気温,天気
日付,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2021-01-01,549342,125,4395,22,曇
2021-01-02,577869,150,3852,20,晴
2021-01-03,328030,184,1783,23,雨
2021-01-04,317730,156,2037,23,曇
2021-01-05,492476,149,3305,18,雨
...,...,...,...,...,...
2021-02-24,414459,196,2115,17,晴
2021-02-25,565849,186,3042,16,雨
2021-02-26,429201,180,2384,15,晴
2021-02-27,430954,109,3954,20,曇


In [None]:
# 基本的な統計量の取得
df.loc[:, "客数"].max()

198

In [None]:
# 標準偏差
# 客単価（母集団）の母標準偏差を確認したい場合は、パラメータにddof=0を指定
df.loc[:, "客単価"].std()

921.1524753910211

In [None]:
# 要約統計量
df.describe()

Unnamed: 0,売り上げ,客数,客単価,気温
count,87.0,87.0,87.0,87.0
mean,461529.114943,147.37931,3272.241379,19.793103
std,85038.076513,31.053308,921.152475,2.992774
min,306488.0,100.0,1581.0,15.0
25%,400408.0,117.5,2533.0,17.0
50%,464782.0,156.0,3178.0,20.0
75%,530302.5,173.0,3817.5,22.0
max,595903.0,198.0,5375.0,24.0


In [None]:
# 相関係数
df.corr()

Unnamed: 0,売り上げ,客数,客単価,気温
売り上げ,1.0,0.064054,0.601049,0.009842
客数,0.064054,1.0,-0.732892,0.018996
客単価,0.601049,-0.732892,1.0,-0.007574
気温,0.009842,0.018996,-0.007574,1.0
