## 講座 1.4 Pandas入門

### データフレーム定義

#### ライブラリインポート

In [None]:
# ライブラリのimport

# NumPy用ライブラリ
import numpy as np

# pandas用ライブラリ
import pandas as pd

# データフレーム表示用関数
from IPython.display import display

# データフレームでの表示精度
pd.options.display.float_format = '{:.4f}'.format

# データフレームですべての項目を表示
pd.set_option("display.max_columns",None)

#### データフレーム定義

In [None]:
# NumPy2次元配列の定義
b = np.array([
[25, 140, 40.5],
[36, 175, 70.2],
[43, np.nan, 65.0],
[31, 158, 55.6],])

# 結果確認
print(b)

In [None]:
# データフレームの定義
df = pd.DataFrame(b, columns=['年齢', '身長', '体重'])

# 型表示
print(type(df))

# display関数による整形表示
display(df)

In [None]:
df.to_excel('fig-1-3-3.xlsx')

In [None]:
df.to_csv('df-sample2.csv', index=False)

In [None]:
df.to_excel('table-A1-3-5.xlsx')

In [None]:
# データフレームの各部品表示

# 列名
print('列名', df.columns)

# 行名
print('行名', df.index)

# データ本体
print('データ本体\n', df.values)

### ファイルからのデータ読み込み

#### CSVファイルからの読み込み

In [None]:
# CSVファイルからの読み込み

# 読み込み元URL
csv_url = 'https://raw.githubusercontent.com/makaishi2/samples/refs/heads/main/data/df-sample2.csv'
# データ読み込み
df_csv = pd.read_csv(csv_url)

# 結果確認
display(df_csv)

In [None]:
# ファイル読み込み後の列名変更
columns = ['age', 'height', 'weight']
df_csv.columns = columns

# 結果確認
display(df_csv)

In [None]:
df_csv.to_excel('table-A1-3-6.xlsx')

#### Excelファイルからの読み込み

In [None]:
# Excelファイルからの読み込み

# 読み込み元URL
excel_url = 'https://github.com/makaishi2/samples/raw/refs/heads/main/data/df-sample2.xlsx'

# データ読み込み
df_excel = pd.read_excel(excel_url)

# 結果確認
display(df_excel)

### Series定義

In [None]:
# 1次元NumPy配列の定義
a = np.array(['男性', '女性', '男性', '女性'])

# 結果確認
print(a)

In [None]:
# Seriesの定義
ser = pd.Series(a, name='性別')

print(type(ser))

print(ser)

In [None]:
# データフレームからSeriesを生成
ser2 = df['年齢']

print(type(ser2))

print(ser2)

### データフレームとNumPyの関係

In [None]:
# データフレームと2次元NumPy配列の関係

# データフレームから2次元NumPy配列を取得
ar = df.values

# 2次元NumPy配列からデータフレームを生成
df0 = pd.DataFrame(ar)

In [None]:
# データフレームのshapeとlen関数
# shapeとlen関数は、内部のNumPyの結果がそのまま返る

print(df.shape)
print(len(df))

### データフレーム部分参照

In [None]:
# 列リストで部分表を抽出

cols = ['年齢', '身長']
df2 = df[cols]

display(df2)

In [None]:
df2.to_excel('table-A1-3-13.xlsx')

In [None]:
# データフレームの特定列をNumPy配列として抽出

y = df['年齢'].values
print(y)

In [None]:
# head関数で行の範囲指定
display(df.head(2))

In [None]:
df.head(2).to_excel('table-A1-3-15.xlsx')

In [None]:
# 行の範囲を数値指定
display(df[0:2])

#### Index配列を元に行選択

In [None]:
# idx:「col_aが奇数」を判定
idx = (df['年齢'] % 2 == 1)
print(idx)

In [None]:
# idx で行を絞り込む
df3 = df[idx]
display(df3)

In [None]:
df3.to_excel('table-A1-3-18.xlsx')

In [None]:
# まとめて1行で表現
df4 = df[df['年齢'] % 2 == 1]
display(df4)

### データフレーム操作

In [None]:
# 列削除
df5 = df.drop('年齢', axis=1)
display(df5)

In [None]:
df5.to_excel('table-A1-3-20.xlsx')

In [None]:
# 欠損値のある行を削除
df6 = df.dropna(subset = ['身長'])
display(df6)

In [None]:
df6.to_excel('table-A1-3-21.xlsx')

In [None]:
# 列連結
df7 = pd.concat([df, ser], axis=1)
display(df7)

In [None]:
df7.to_excel('table-A1-3-22.xlsx')

### データフレーム関数

In [None]:
#  特定列に対する統計関数
a_mean = df['年齢'].mean()
a_max = df['年齢'].max()
a_min = df['年齢'].min()

print(f'平均: {a_mean}  最大:{a_max}  最小:{a_min}')

In [None]:
# データフレーム全体にmean関数呼び出し
print(df.mean())

In [None]:
# 項目ごとの統計情報取得
display(df.describe())

In [None]:
df.describe().to_excel('table-A1-3-25.xlsx')

In [None]:
# 項目値の個数集計
df7['性別'].value_counts()

In [None]:
df7['性別'].value_counts().to_excel('table-A1-3-26.xlsx')

In [None]:
# NULL値チェック
display(df.isnull())

In [None]:
df.isnull().to_excel('table-A1-3-27.xlsx')

In [None]:
# 列単位の欠損値集計
print(df.isnull().sum())

### groupby関数

In [None]:
# groupby関数でcol_dの項目値ごとの集計
df8 = df7.groupby('性別').mean()
display(df8)

In [None]:
df8.to_excel('table-A1-3-29.xlsx')

### map関数

In [None]:
# map関数でmale/femaleを1/0に置き換え
df9 = df7.copy()
mf_map = {'男性': 1, '女性': 0}
df9['性別'] = df9['性別'].map(mf_map)
display(df9)

In [None]:
df9.to_excel('table-A1-3-30.xlsx')

### set_index 関数

In [None]:
# 元データフレームの確認
df10 = df7.copy()
display(df10)

In [None]:
# set_index関数の利用
df11 = df10.set_index('性別')
display(df11)

In [None]:
# df11をインデックスで絞り込み
df12 = df11.loc['男性']
display(df12)

In [None]:
df10.to_excel('table-A1-4-31.xlsx')

In [None]:
df11.to_excel('table-A1-4-32.xlsx')

In [None]:
df12.to_excel('table-A1-4-33.xlsx')