<a id=0></a>
# 2. DataFrameを理解する

---
### [1.Arrayの作成、SeriesとDataFrameの作成 ](#1)
### [2.SeriesとDataFrame](#2)
### [3.DataFrameの基礎データとaxisの理解](#3)
### [4.IndexとColumnについて](#4)
### [5.欠損値](#5)
### [6.DataFrameを別のファイルとして保存](#6)
---

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

---
<a id=1></a>
[Topへ](#0)

---
## 1.Arrayの作成、SeriesとDataFrameの作成 

* 100 - 10000の整数データ (100,)からSeriesを作成
* Series と ndarry
* Seriesに名前を付ける
* 10 - 100の整数データ (100,)からSeriesを作成
* 0 - 10の小数データ (100, 2)からDataFrameを作成
* 40 - 60の範囲の一様分布の小数データ (100, 1)からDataFrameを作成
* 平均 0、標準偏差 1の正規分布に従う小数データ (100, 1)からDataFrameを作成
* 平均50、標準偏差10の正規分布に従う小数データ (100, 1)からDataFrameを作成
* ['red', 'green', 'blue'] (100, 1)、 ['circle', 'square', 'triangle'] (100, 1)、ndarrayを合しDataFrameを作成
* datetime 1997/7/5から1日刻み (100, 1)からDatetimeIndex、Seriesを作成
* Series, DataFrameを結合
* DataFrameのサンプル（レコード）の一部を抽出する
---

100 - 10000の整数データ (100,)からSeriesを作成

In [None]:
np.random.seed(17)
arr_int1 = np.random.randint(100, 10000, 100)

In [None]:
arr_int1[:5]
# arr_int1[10:15]

In [None]:
# Seriesの作成
sr = pd.Series(arr_int1)
sr

Series と ndarry

In [None]:
type(sr)

In [None]:
# ndarrayのようにndim, shape, max()などを使用できる
# Seriesとndarrayは類似している
sr.ndim

In [None]:
sr.shape

In [None]:
sr.max()

In [None]:
# sr.reshape(2, 50)
# 形状の変更はできない。Seriesは1次元

Seriesに名前を付ける

In [None]:
sr.name = 'Price'

In [None]:
# Series作成時にnameを指定することもできる
sr_price = pd.Series(arr_int1, name='Price')
sr_price

10 - 100の整数データ (100,)からSeriesを作成

In [None]:
np.random.seed(17)
arr_int2 = np.random.randint(10, 100, 100)
sr_quantity = pd.Series(arr_int2, name='Quantity')

0 - 10の小数データ (100, 2)からDataFrameを作成

In [None]:
np.random.seed(17)
arr_fl = np.random.rand(100, 2) * 10

# sr = pd.Series(arr_fl)
# ValueError: Data must be 1-dimensional　Seriesの場合は1次元リストでないといけない

In [None]:
# 2次元の場合はDataFrame
df = pd.DataFrame(arr_fl)
df

In [None]:
# columnsでカラム名を指定（リストで）
df_wh = pd.DataFrame(arr_fl, columns=['Width', 'Height'])
df_wh

40 - 60の範囲の一様分布の小数データ (100, 1)からDataFrameを作成

In [None]:
np.random.seed(17)
arr_uni = np.random.uniform(40, 60, (100, 1))

df_quality = pd.DataFrame(arr_uni, columns=['Quality'])
df_quality

平均 0、標準偏差 1の正規分布に従う小数データ (100, 1)からDataFrameを作成

In [None]:
np.random.seed(17)
# (100, 1)も2次元のためDataFrame
arr_n = np.random.randn(100, 1)
# カラム名がひとつの場合もリストで指定
df_difference = pd.DataFrame(arr_n, columns=['Difference'])

平均50、標準偏差10の正規分布に従う小数データ (100, 1)からDataFrameを作成

In [None]:
np.random.seed(17)
arr_nor = np.random.normal(50, 10, (100, 1))

df_score = pd.DataFrame(arr_nor, columns=['Score'])

['red', 'green', 'blue'] (100, 1)、 ['circle', 'square', 'triangle'] (100, 1)、ndarrayを結合しDataFrameを作成

In [None]:
np.random.seed(17)
colors = ['red', 'green', 'blue']
shapes = ['circle', 'square', 'triangle']
arr_colors = np.random.choice(colors, (100, 1))
arr_shapes = np.random.choice(shapes, (100, 1))

In [None]:
# numpy arrayの結合
# arr_cs = np.concatenate([arr_colors, arr_shapes])
# arr_cs
# axis=0がdefaultのため、行方向に結合してしまう

In [None]:
# axis=1で結合
arr_cs = np.concatenate([arr_colors, arr_shapes], axis=1)
arr_cs[:5]

In [None]:
# horizontally
arr_cs_hstack = np.hstack([arr_colors, arr_shapes])
arr_cs_hstack[:5]

In [None]:
# vertically
arr_cs_vstack = np.vstack([arr_colors, arr_shapes])
arr_cs_vstack[98:103]

In [None]:
df_cs = pd.DataFrame(arr_cs, columns=['Color', 'Shape'])

datetime 1997/7/5から1日刻み (100, 1)からDatetimeIndex、Seriesを作成

In [None]:
dates = pd.date_range('1997/7/5', periods=100, freq='D')
# D: 日, B: 月曜 - 金曜, W: 週（日曜から）,M: 月末, Y: 年末 
# H: 時, T: 分, S: 秒、など
# 2D, 12Hなどとして使用可
dates[:10]
dates[:5]

In [None]:
# 1カラムとして扱う場合はDatetimeIndexからSeriesに変更しておく
sr_date = pd.Series(dates, name='Date')
type(sr_date)

Series, DataFrameを結合

In [None]:
# Series, DataFrameの結合はpd.concat()
df = pd.concat([sr_date, sr_price, sr_quantity, df_wh, df_quality, df_score, df_difference, df_cs], axis=1)
df

DataFrameのサンプル（レコード）の一部を抽出する

In [None]:
df.head(3)

In [None]:
df.tail(3)

In [None]:
df.sample(3)

In [None]:
# サンプルをシャッフルすることもできる
df.sample(frac=1, random_state=17)

---
<a id=2></a>
[Topへ](#0)

---
## 2.SeriesとDataFrame

* SeriesとDataFrameの関係性
* Series、DataFrameをndarrayに変換
* Series、DataFrameをlistに変換
* Series、DataFrameをdictionaryに変換
* Seriesの作成
* DataFrameの作成
---

SeriesとDataFrameの関係性

In [None]:
sr_price.head()

In [None]:
# DataFrameの1カラムはSeriesに等しい
df['Price'].head()

In [None]:
type(df['Price'])

In [None]:
df.Price.head()
# メソッドと間違えることもあるため基本的には['Price']を用いる

Series、DataFrameをndarrayに変換

In [None]:
df['Price'].values

In [None]:
df.values[:2]

Series、DataFrameをlistに変換

In [None]:
df['Price'].tolist()[:5]

In [None]:
# DataFrameの場合は一度ndarrayにしてからリストへ
df.values.tolist()[:3]

Series、DataFrameをdictionaryに変換

In [None]:
df['Price'].to_dict()

In [None]:
df.to_dict()
df.to_dict(orient='records')
# orient='records'でサンプルごとを取り出せる

Seriesの作成

In [None]:
arr = np.random.randint(0, 100, 8)
pd.Series(arr, name='sample', index=list('ABCDEFGH'))

In [None]:
pd.Series({"A":1, "B":2, "C":3}, name='sample')

DataFrameの作成

In [None]:
pd.DataFrame([{"A":1, "B":2, "C":3}, {"A":10, "C":30, "B":20}], index=["x", "y"])
# キーがカラム名

In [None]:
arr1 = np.random.rand(10)
arr2 = np.random.randn(10)
pd.DataFrame([arr1, arr2])

---
<a id=3></a>
[Topへ](#0)

---
## 3.DataFrameの基礎データとaxisの理解

* len(df) : レコード数
* df.info() : null, dtypeなど
* df.size : 要素数
* df.shape : index * columns
* df.count : 個数（要素の数）
* df.sum() : 合計（要素の値の合計）
---

len(df) : レコード数

In [None]:
len(df)

df.info() : null, dtypeなど

In [None]:
df.info()

df.size : 要素数

In [None]:
# rows * columns
df.size

df.shape : index * columns

In [None]:
df.shape

df.count() : 個数（要素の数）

In [None]:
df.count()

In [None]:
# df.count(axis=1)

In [None]:
df.count().count()
# 数値の足し合わせではなく、あくまでも個数を数える

In [None]:
type(df.count())

df.sum() : 合計（要素の値の合計）

In [None]:
df.sum()
# デフォルトがnumeric_only = Falseに変更されているため、エラーが発生する可能性があります。
# その場合はこのセルは無視してnumeric_only = Trueを利用して合計値を算出してください

In [None]:
df.sum(numeric_only=True)

In [None]:
df.select_dtypes(include=['int', 'float']).sum()

In [None]:
df.sum(axis=1)[:2]

axisの理解

In [None]:
arr = np.arange(12).reshape(3, 4)
arr

In [None]:
arr.shape

In [None]:
arr.sum(), arr.max()
# axisを指定しなければ全要素を対象にする

In [None]:
arr.sum(axis=0), arr.max(axis=0)

In [None]:
arr.sum(axis=1), arr.max(axis=1)

In [None]:
arr.sum(axis=0)

In [None]:
arr.sum(axis=1)

In [None]:
arr = arr.reshape(2, 3, 2)
arr

In [None]:
arr.sum(axis=1)

In [None]:
arr.sum(axis=2)

---
<a id=4></a>
[Topへ](#0)

---
## 4.IndexとColumnについて

* indexとcolumnsの取得
* indexの設定とリセット
* indexラベル、columnラベルの変更
---

indexとcolumnsの取得

In [None]:
df.index

In [None]:
df.index.values

In [None]:
pd.RangeIndex(1, 20, 4).values
# 無理に使う必要はない。ndarrayをindexに指定すればよい

In [None]:
df.columns

In [None]:
type(df.columns)
# いろいろな「型」が存在するが、詳細まで知っていなくてもよい

indexの設定とリセット

In [None]:
df.head(3)

In [None]:
df.set_index('Date', inplace=True)
# カラム名を指定し、インデックスとする

In [None]:
df.head(3)

In [None]:
df.reset_index(inplace=True)
df.head(3)

indexラベル、columnラベルの変更

In [None]:
cols = df.columns

In [None]:
df.rename(index={0:'ZERO'}, columns={'Date':'Time'})   # inplace=Trueは設定せず

In [None]:
# 直接書き換える
df.index = np.arange(100, 200)
df.head(3) 

In [None]:
# 直接書き換える
df.columns = list('ABCDEFGHIJ')
df.head(3)

In [None]:
df = df.add_prefix('#')
df.head(3)
# suffix

In [None]:
# dropで以前のインデックスを削除する
df.reset_index(inplace=True, drop=True)
df.head(3)

In [None]:
df.columns = cols
df.head(3)

---
<a id=5></a>
[Topへ](#0)

---
## 5.欠損値

* None, null, np.nanを確認
* DataFrameの欠損値はNoneもしくはnp.nanで置き換える
* df.isnull()の使い方
* 欠損値のある行を表示
* nullは平均値の計算などに影響するか
* 欠損値を視覚化
---

None, null, np.nanを確認

In [None]:
print(None)

In [None]:
print(np.nan)

DataFrameの欠損値はNoneもしくはnp.nanで置き換える

In [None]:
null_values = [None, np.nan]

In [None]:
for i in range(30):
  np.random.seed(i)   # ひとつの数字ではs, t, uは常に同じ数字になってしまう
  s = np.random.randint(0, 100)
  t = np.random.randint(0, 10)
  u = np.random.randint(0, 2)
  df.iloc[s, t] = null_values[u]

In [None]:
df.sample(5)

df.isnull()の使い方

In [None]:
df.isnull()

In [None]:
df.isnull().sum()

In [None]:
df.isnull().sum().sum()

In [None]:
df.info()

In [None]:
df.isnull().count()
# True, Falseそれぞれをひとつの値としてカウントする

In [None]:
df.isnull().size
# rows * columns

In [None]:
df.count()
# nullをカウントしない

欠損値のある行を表示

In [None]:
df.isnull().sum()

In [None]:
df.isnull().sum(axis=1)

In [None]:
0 < df.isnull().sum(axis=1)

In [None]:
# df[np.random.choice([True, False], 100)]
# Trueならば抽出され、Falseならば抽出されない

In [None]:
# df[CONDITION]
df[0 < df.isnull().sum(axis=1)]

In [None]:
df[0 < df.isnull().sum(axis=1)].style.highlight_null(null_color='#f00')

nullは平均値の計算などに影響するか

In [None]:
df['Score'].mean()

In [None]:
df['Score'].sum()

In [None]:
df['Score'].sum() / df['Score'].mean()

In [None]:
df['Score'].count()

欠損値の有無を視覚化  
※ seabornやグラフについての詳細は別のレクチャーで解説します

In [None]:
plt.figure(figsize=(12, 6))
sns.heatmap(df.isnull(), yticklabels=False, cbar=False)
plt.show()

---
<a id=6></a>
[Topへ](#0)

---
## 6.DataFrameを別のファイルとして保存
---

In [None]:
# ColaboratoryからDriveへアクセスできるようにする
# from google.colab import drive

In [None]:
# drive.mount('/drive')
# # マウント = アクセスできる状態にすること

In [None]:
# df.to_csv('/drive/My Drive/sample1_with_index.csv')
df.to_csv('sample1_with_index.csv')

In [None]:
# df.to_csv('/drive/My Drive/sample1_without_index.csv', index=False)
df.to_csv('sample1_without_index.csv', index=False)

In [None]:
# df.to_pickle('/drive/My Drive/sample1.pkl')
df.to_pickle('sample1.pkl')

---
[Topへ](#0)

---
## 以上
---