<a href="https://colab.research.google.com/github/hirokimituya/book_create-profitable-AI-with-Python/blob/main/l2_02_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# ライブラリのimport

# NumPy用ライブラリ
import numpy as np

# pandas用ライブラリ
import pandas as pd

# データフレーム表示表関数
from IPython.display import display

# データフレームでの表示精度
pd.options.display.float_format = '{:.4f}'.format

# データフレームですべての項目を表示
pd.set_option('display.max_columns', None)

In [2]:
# 2次元配列NumPyの定義
b = np.array([[1, 2, 1], [4, 5, 2], [7, 8, 2], [10, np.nan, 1], [13, 10, 2]])

# 結果確認
print(b)

[[ 1.  2.  1.]
 [ 4.  5.  2.]
 [ 7.  8.  2.]
 [10. nan  1.]
 [13. 10.  2.]]


In [6]:
# データフレームの定義
df = pd.DataFrame(b, columns=['col_a', 'col_b', 'col_c'])

# 型表示
print(type(df))

# display関数による整形表示
display(df)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
1,4.0,5.0,2.0
2,7.0,8.0,2.0
3,10.0,,1.0
4,13.0,10.0,2.0


In [7]:
# データフレームの各部品表示

# 列名
print('列名', df.columns)

# 行名
print('行名', df.index)

# データ本体
print('データ本体\n', df.values)

列名 Index(['col_a', 'col_b', 'col_c'], dtype='object')
行名 RangeIndex(start=0, stop=5, step=1)
データ本体
 [[ 1.  2.  1.]
 [ 4.  5.  2.]
 [ 7.  8.  2.]
 [10. nan  1.]
 [13. 10.  2.]]


In [8]:
# CSVファイルからの読み込み

# 読み込み元URL
csv_url = 'https://github.com/makaishi2/sample-data\
/raw/d2b5d7e7c3444d995a1fed5bdadf703709946c75/data/df-sample.csv'

# データ読み込み
df_csv = pd.read_csv(csv_url)

# 結果確認
display(df_csv)

Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
1,4.0,5.0,2.0
2,7.0,8.0,2.0
3,10.0,,1.0
4,13.0,10.0,2.0


In [9]:
# ファイル読み込み後の列名変更
columns = ['A列', 'B列', 'C列']
df_csv.columns = columns

# 結果確認
display(df_csv)

Unnamed: 0,A列,B列,C列
0,1.0,2.0,1.0
1,4.0,5.0,2.0
2,7.0,8.0,2.0
3,10.0,,1.0
4,13.0,10.0,2.0


In [10]:
# Excelファイルからの読み込み

# 読み込み元URL
excel_url = 'https://github.com/makaishi2/sample-data\
/raw/d2b5d7e7c3444d995a1fed5bdadf703709946c75/data/df-sample.xlsx'

# データ読み込み
df_excel = pd.read_excel(excel_url)

# 結果確認
display(df_excel)

Unnamed: 0,col_a,col_b,col_c
0,1,2.0,1
1,4,5.0,2
2,7,8.0,2
3,10,,1
4,13,10.0,2


In [11]:
# 1次元NumPy配列の定義
a = np.array(['male', 'male', 'female', 'male', 'female'])

# 結果確認
print(a)

['male' 'male' 'female' 'male' 'female']


In [12]:
# Series定義
ser = pd.Series(a, name='col_d')

print(type(ser))

print(ser)

<class 'pandas.core.series.Series'>
0      male
1      male
2    female
3      male
4    female
Name: col_d, dtype: object


In [26]:
# データフレームからSeriesを生成
ser2 = df['col_b']

print(type(ser2))

print(ser2)

<class 'pandas.core.series.Series'>
0    2.0000
1    5.0000
2    8.0000
3       NaN
4   10.0000
Name: col_b, dtype: float64


In [28]:
# データフレームと2次元NumPy配列の関係

# データフレームから2次元NumPy配列を取得
ar = df.values

# 2次元NumPy配列からデータフレームを生成
df0 = pd.DataFrame(ar)
df0

Unnamed: 0,0,1,2
0,1.0,2.0,1.0
1,4.0,5.0,2.0
2,7.0,8.0,2.0
3,10.0,,1.0
4,13.0,10.0,2.0


In [31]:
# データフレームのshapeとlen関数
# shapeとlen関数は、内部のNumPyの結果がそのまま返る

print(df.shape)
print(len(df))

(5, 3)
5


In [35]:
# 列リストで部分表を抽出

cols = ['col_a', 'col_c']
df2 = df[cols]

display(df2)

Unnamed: 0,col_a,col_c
0,1.0,1.0
1,4.0,2.0
2,7.0,2.0
3,10.0,1.0
4,13.0,2.0


In [36]:
# データフレームの特定列をNumPy配列として抽出

y = df['col_a'].values
print(y)

[ 1.  4.  7. 10. 13.]


In [41]:
# head関数で行の範囲を指定
display(df.head(2))

Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
1,4.0,5.0,2.0


In [46]:
# 行の範囲を数値指定
display(df[0:2])

Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
1,4.0,5.0,2.0


In [47]:
# idx: 「col_aが奇数」を判定
idx = (df['col_a'] % 2 == 1)
print(idx)

0     True
1    False
2     True
3    False
4     True
Name: col_a, dtype: bool


In [48]:
# idxで行を絞り込む
df3 = df[idx]
display(df3)

Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
2,7.0,8.0,2.0
4,13.0,10.0,2.0


In [51]:
# まとめて1行で表現
df4 = df[df['col_a'] % 2 == 1]
display(df4)

Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
2,7.0,8.0,2.0
4,13.0,10.0,2.0


In [53]:
# 列削除
df5 = df.drop('col_a', axis=1)
display(df5)

Unnamed: 0,col_b,col_c
0,2.0,1.0
1,5.0,2.0
2,8.0,2.0
3,,1.0
4,10.0,2.0


In [55]:
# 欠損値がある行を削除
df6 = df.dropna(subset = ['col_b'])
display(df6)

Unnamed: 0,col_a,col_b,col_c
0,1.0,2.0,1.0
1,4.0,5.0,2.0
2,7.0,8.0,2.0
4,13.0,10.0,2.0


In [57]:
# 列連結
df7 = pd.concat([df, ser], axis=1)
display(df7)

Unnamed: 0,col_a,col_b,col_c,col_d
0,1.0,2.0,1.0,male
1,4.0,5.0,2.0,male
2,7.0,8.0,2.0,female
3,10.0,,1.0,male
4,13.0,10.0,2.0,female


In [58]:
# 特定列に対する統計関数
a_mean = df['col_a'].mean()
a_max = df['col_a'].max()
a_min = df['col_a'].min()

print(f'平均: {a_mean} 最大: {a_max} 最小: {a_min}')

平均: 7.0 最大: 13.0 最小: 1.0


In [59]:
# データフレーム全体にmean関数呼び出し
print(df.mean())

col_a   7.0000
col_b   6.2500
col_c   1.6000
dtype: float64


In [60]:
# 項目ごとの統計情報取得
display(df.describe())

Unnamed: 0,col_a,col_b,col_c
count,5.0,4.0,5.0
mean,7.0,6.25,1.6
std,4.7434,3.5,0.5477
min,1.0,2.0,1.0
25%,4.0,4.25,1.0
50%,7.0,6.5,2.0
75%,10.0,8.5,2.0
max,13.0,10.0,2.0


In [61]:
# 項目値の個数集計
df7['col_d'].value_counts()

male      3
female    2
Name: col_d, dtype: int64