# 第7章　Pandasの使い方
この章では、Pandas（パンダス）ライブラリの基本的な使い方について説明する。Pandasの基本的なデータ構造には、1次元配列を扱うシリーズ（Series）と、2次元配列を扱うデータフレーム（DataFrame）の2つがある。シリーズはリストや配列、辞書などのデータを基に作成され、データフレームは表形式のデータを扱うのに適している。
Pandasは、NumPyをベースに作成されたライブラリであり、主に統計やデータ分析の際に使用される。特に、機械学習を行う際にはデータの前処理が重要であり、多くの時間を費やすことが多い。Pandasを活用することで、データの前処理を効率的に行うことができる。


## 7.1　シリーズ（Series)

### 7.1.1　シリーズのデータ作成

In [None]:
import pandas as pd
import numpy as np
s1 = pd.Series([2, 5, 2, 1])  # ① s1に4つの数値を作成
print(s1)
s2 = pd.Series([11,13,15], index=["東京","長野","埼玉"])  # ②
print(s2)
print("長野=", s2["長野"])             # ③ 長野の県コードを表示
s3 = pd.Series(np.random.random(4))  # ④ 4個の乱数を作成
print(s3)  # 乱数の表示

0    2
1    5
2    2
3    1
dtype: int64
東京    11
長野    13
埼玉    15
dtype: int64
長野= 13
0    0.427850
1    0.996678
2    0.831074
3    0.127744
dtype: float64


### 7.1.2　商品の売上個数

In [None]:
import pandas as pd
ix = ["パソコン", "マウス", "プリンタ"]  # ① 商品名
v = [10, 5, 2]                     # ② 売上個数
uriage = pd.Series(v, index = ix)  # Seriesを作成
print(uriage)  # データを表示
print("マウス:", uriage["マウス"])  # ③ 「マウス」の個数を表示
print(uriage.values)  # ④ データ値（売上個数）を表示
print(uriage.index)   # ⑤ インデックス値（商品名）を表示

パソコン    10
マウス      5
プリンタ     2
dtype: int64
マウス: 5
[10  5  2]
Index(['パソコン', 'マウス', 'プリンタ'], dtype='object')


# 7.2　**データフレーム（DataFrame）**

### 7.2.1　データフレームの作成

In [None]:
import pandas as pd
df1 = pd.DataFrame({
    "名前" : ["山田", "田中", "鈴木"],
    "出身" : ["長野", "千葉", "埼玉"],
    "年齢" : [20, 31, 55] })
print(df1)  # データフレームの表示
print("行=", df1.index)    # 行見出し（インデックス）を表示
print("列=", df1.columns)  # 列見出し（カラム）を表示

   名前  出身  年齢
0  山田  長野  20
1  田中  千葉  31
2  鈴木  埼玉  55
行= RangeIndex(start=0, stop=3, step=1)
列= Index(['名前', '出身', '年齢'], dtype='object')


### 7.2.2　データの追加・削除

In [None]:
import pandas as pd
df1 = pd.DataFrame({
    "名前" : ["山田", "田中", "鈴木"],
    "出身" : ["長野", "千葉", "埼玉"],
    "年齢" : [20, 31, 55] })
df2 = pd.DataFrame({"名前":["佐藤"], "出身":["東京"], "年齢":[41]})
df1 = pd.concat([df1, df2])  # ① データフレームを結合
print(df1)
df1 = df1.drop(1)             # ② 「田中」の行を削除
print("--削除後--\n", df1)
df1 = df1.reset_index(drop=True)  # ③ indexの振り直し
print("--indexの振り直し後--\n", df1)

   名前  出身  年齢
0  山田  長野  20
1  田中  千葉  31
2  鈴木  埼玉  55
0  佐藤  東京  41
--削除後--
    名前  出身  年齢
0  山田  長野  20
2  鈴木  埼玉  55
0  佐藤  東京  41
--indexの振り直し後--
    名前  出身  年齢
0  山田  長野  20
1  鈴木  埼玉  55
2  佐藤  東京  41


### 7.2.3　csvファイルの読み込み

In [None]:
import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/sample.csv")
print(df)

    県コード   県名    人口
0      1  北海道   504
1      2   青森   120
2      3   岩手   116
3      4   宮城   222
4      5   秋田    92
5      6   山形   102
6      7   福島   178
7      8   茨城   278
8      9   栃木   187
9     10   群馬   185
10    11   埼玉   715
11    12   千葉   611
12    13  東京都  1326
13    14  神奈川   895
14    15   新潟   212
15    16   富山   100
16    17   石川   109
17    18   福井    74
18    19   山梨    79
19    20   長野   199
20    21   岐阜   190
21    22   静岡   349
22    23   愛知   720
23    24   三重   169
24    25   滋賀   137
25    26  京都府   241
26    27  大阪府   848
27    28   兵庫   530
28    29   奈良   130
29    30  和歌山    90
30    31   鳥取    53
31    32   島根    64
32    33   岡山   182
33    34   広島   269
34    35   山口   129
35    36   徳島    70
36    37   香川    93
37    38   愛媛   130
38    39   高知    67
39    40   福岡   500
40    41   佐賀    79
41    42   長崎   128
42    43   熊本   170
43    44   大分   110
44    45   宮崎   105
45    46  鹿児島   156
46    47   沖縄   146


In [None]:
import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/sample.csv")
print(df[df["県コード"] == 20])  # 県コードが20
print(df[df["人口"] > 700])      # 人口が700以上

    県コード  県名   人口
19    20  長野  199
    県コード   県名    人口
10    11   埼玉   715
12    13  東京都  1326
13    14  神奈川   895
22    23   愛知   720
26    27  大阪府   848


### 7.2.4　ソート、head()、tail()

In [None]:
import pandas as pd
st = df.sort_values(by="人口", ascending=False)  # ① 多い順
print(st.head(3))   # ② 先頭から3件を表示
print(st.tail(3))   # ③ 最後から3件を表示

    県コード   県名    人口
12    13  東京都  1326
13    14  神奈川   895
26    27  大阪府   848
    県コード  県名  人口
38    39  高知  67
31    32  島根  64
30    31  鳥取  53


### 7.2.5　基本統計量

In [None]:
import pandas as pd
import numpy as np
df = pd.read_csv("/content/drive/MyDrive/seiseki.csv")
print("数学の最大:", df["数学"].max())  # 数学の最大
print("国語の最小:", df["国語"].min())  # 国語の最小
print("英語の合計:", df["英語"].sum())  # 英語の合計
print("---describe().round(2)---")
print(df.describe().round(2))  # ① 基本統計量を表示
print("---列ごとの最大値---")
print(df.max())   # 列ごとの最大値
print("---行ごとの平均値---")
print(df.mean(axis=1, numeric_only=True).round(2))  # ② 平均値

数学の最大: 90
国語の最小: 34
英語の合計: 417
---describe().round(2)---
          国語     数学    英語
count   5.00   5.00   5.0
mean   57.60  79.00  83.4
std    20.89  10.82  12.1
min    34.00  67.00  68.0
25%    40.00  70.00  75.0
50%    57.00  78.00  87.0
75%    77.00  90.00  88.0
max    80.00  90.00  99.0
---列ごとの最大値---
名前    青木
国語    80
数学    90
英語    99
dtype: object
---行ごとの平均値---
0    79.33
1    74.00
2    58.67
3    66.00
4    88.67
dtype: float64


### 7.2.6　特定の値の取得・変更

In [None]:
import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/seiseki.csv")
print(df[2:4])  # ① 2～3行目を取得
print("2行目の英語の点数:", df.at[2, "英語"])  # ②
print("1行目の数学の点数", df.iat[1, 2])       # ③
df.iat[1, 2] = 100  # ④ 1行目の数学の点数を100点に変更
print("1行目の数学の点数（変更後）\n", df)

   名前  国語  数学  英語
2  山田  34  67  75
3  佐藤  40  70  88
2行目の英語の点数: 75
1行目の数学の点数 78
1行目の数学の点数（変更後）
    名前  国語   数学  英語
0  田中  80   90  68
1  鈴木  57  100  87
2  山田  34   67  75
3  佐藤  40   70  88
4  青木  77   90  99


### 7.2.7　特定の行・列の値の取得

In [None]:
import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/seiseki.csv")
print("--2行目のデータ--\n", df.loc[2])  # ① 2行目を取得
print("--'名前' の列--\n", df.loc[:, ["名前"]]) # ② 名前
df.loc[2] = 0  # ③ 2行目をすべて0にする
print("--2行目のデータ（変更後）--\n", df)

--2行目のデータ--
 名前    山田
国語    34
数学    67
英語    75
Name: 2, dtype: object
--'名前' の列--
    名前
0  田中
1  鈴木
2  山田
3  佐藤
4  青木
--2行目のデータ（変更後）--
    名前  国語  数学  英語
0  田中  80  90  68
1  鈴木  57  78  87
2   0   0   0   0
3  佐藤  40  70  88
4  青木  77  90  99


In [None]:
import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/seiseki.csv")
print("--iloc[0:2])--\n",     df.iloc[0:2])   # ①
print("--iloc[:, 2]--\n",     df.iloc[:, 2])  # ②
print("--iloc[4, 1]--\n",     df.iloc[4, 1])  # ③
print("--iloc[1:4, 2:4]--\n", df.iloc[1:4, 2:4])  # ④
df.iloc[1:4, 2:4] = 0  # ⑤ 1行2列～3行3列の値をすべて0
print("--iloc[1:4, 2:4] = 0--\n", df)

--iloc[0:2])--
    名前  国語  数学  英語
0  田中  80  90  68
1  鈴木  57  78  87
--iloc[:, 2]--
 0    90
1    78
2    67
3    70
4    90
Name: 数学, dtype: int64
--iloc[4, 1]--
 77
--iloc[1:4, 2:4]--
    数学  英語
1  78  87
2  67  75
3  70  88
--iloc[1:4, 2:4] = 0--
    名前  国語  数学  英語
0  田中  80  90  68
1  鈴木  57   0   0
2  山田  34   0   0
3  佐藤  40   0   0
4  青木  77  90  99


### 7.2.8　データの置換と外れ値の削除

In [None]:
import pandas as pd
data = {"名前": ["田中", "鈴木", "山田", "青木"],
        "年齢": [2, 21, 24, 160],
        "性別": ["男","F", "女", "M"]}
df = pd.DataFrame(data)
print("===元のデータ===\n", df)
# ① "男" を "M"、"女" を "F" に統一
df["性別"] = df["性別"].replace({"男":"M", "女":"F"})  # ①
print("===性別を統一後===:\n", df)
# ② 10歳から100歳までのデータを抽出（外れ値を削除）
df2 = df[(df["年齢"] > 10) & (df["年齢"] < 100)]  # ②
print("===外れ値を削除後===:\n", df2)

===元のデータ===
    名前   年齢 性別
0  田中    2  男
1  鈴木   21  F
2  山田   24  女
3  青木  160  M
===性別を統一後===:
    名前   年齢 性別
0  田中    2  M
1  鈴木   21  F
2  山田   24  F
3  青木  160  M
===外れ値を削除後===:
    名前  年齢 性別
1  鈴木  21  F
2  山田  24  F


### 7.2.9　欠損値の検出と削除

In [None]:
import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/NaN.csv", na_values=[""])     # ① 欠損値を NaN として読み込む
print(df)
print("--isnull()--")
print(df.isnull())  # ② 欠損値の有無を True / False で表示
print("--isnull().sum(axis=0)--")
print(df.isnull().sum(axis=0))  # ③ 列ごとの欠損値の数
print("--isnull().sum(axis=1)--")
print(df.isnull().sum(axis=1))  # ③ 行ごとの欠損値の数
df2 = df.dropna()  # ④ 欠損値を含む行を削除
print("--dropna--")
print(df2)

   名前  国語    数学    英語
0  田中  80   NaN  68.0
1  鈴木  79  78.0  87.0
2  山田  34  67.0   NaN
3  佐藤  66   NaN   NaN
4  青木  77  90.0  99.0
--isnull()--
      名前     国語     数学     英語
0  False  False   True  False
1  False  False  False  False
2  False  False  False   True
3  False  False   True   True
4  False  False  False  False
--isnull().sum(axis=0)--
名前    0
国語    0
数学    2
英語    2
dtype: int64
--isnull().sum(axis=1)--
0    1
1    0
2    1
3    2
4    0
dtype: int64
--dropna--
   名前  国語    数学    英語
1  鈴木  79  78.0  87.0
4  青木  77  90.0  99.0


### 7.2.10　欠損値を埋める処理

In [None]:
import pandas as pd
df = pd.read_csv("/content/drive/MyDrive/NaN.csv", na_values=[""])
df3 = df.fillna(10)  # 欠損値を10で埋める
print("==> 欠損値を10で埋める\n", df3)
df3 = df.ffill()     # 前の値で埋める
print("==> 前の値で埋める\n", df3)
df3 = df.bfill()     # 後ろの値で埋める
print("==> 後ろの値で埋める\n", df3)

==> 欠損値を10で埋める
    名前  国語    数学    英語
0  田中  80  10.0  68.0
1  鈴木  79  78.0  87.0
2  山田  34  67.0  10.0
3  佐藤  66  10.0  10.0
4  青木  77  90.0  99.0
==> 前の値で埋める
    名前  国語    数学    英語
0  田中  80   NaN  68.0
1  鈴木  79  78.0  87.0
2  山田  34  67.0  87.0
3  佐藤  66  67.0  87.0
4  青木  77  90.0  99.0
==> 後ろの値で埋める
    名前  国語    数学    英語
0  田中  80  78.0  68.0
1  鈴木  79  78.0  87.0
2  山田  34  67.0  99.0
3  佐藤  66  90.0  99.0
4  青木  77  90.0  99.0
