# 3章　データラングリング
## レシピ3.0　データフレームの作成


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをデータフレームとしてロード
dataframe = pd.read_csv(url)

# 最初の5行を表示
dataframe.head(5)

## レシピ3.1　データフレームの作成

In [None]:
# ライブラリをロード
import pandas as pd

# 辞書を作成
dictionary = {
    "Name": ['Jacky Jackson', 'Steven Stevenson'],
    "Age": [38, 25],
    "Driver": [True, False]
}

# データフレームの作成
dataframe = pd.DataFrame(dictionary)

# データフレームを表示
dataframe

In [None]:
# 目の色を示すカラムを追加する
dataframe["Eyes"] = ["Brown", "Blue"]

# データフレームを表示
dataframe

## レシピ3.2　データの情報を取得


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 最初の2行を表示
dataframe.head(2)

In [None]:
# データの形状を表示
dataframe.shape

In [None]:
# 統計量を表示
dataframe.describe()

In [None]:
# 情報を表示
dataframe.info()

## レシピ3.3　DataFrameのスライス


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 最初の行を選択
dataframe.iloc[0]

In [None]:
# 3行を選択
dataframe.iloc[1:4]

In [None]:
# 4行を選択
dataframe.iloc[:4]

In [None]:
# インデックスを設定
dataframe = dataframe.set_index(dataframe['Name'])

# 行を表示
dataframe.loc['Allen, Miss Elisabeth Walton']

## レシピ3.4　条件を用いた行の選択


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 'sex'列が'female'の行のうち、最初の2行を表示
dataframe[dataframe['Sex'] == 'female'].head(2)

In [None]:
# 行をフィルタリング
dataframe[(dataframe['Sex'] == 'female') & (dataframe['Age'] >= 65)]

## レシピ3.5　値のソート


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# データフレームをAgeでソートして、最初の2行を表示
dataframe.sort_values(by=["Age"]).head(2)


## レシピ3.6　値の置き換え


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 値を置き換えて、最初の2行を表示
dataframe['Sex'].replace("female", "Woman").head(2)

In [None]:
# "female"と"male"を"Woman"と"Man"にそれぞれ置き換える。
dataframe['Sex'].replace(["female", "male"], ["Woman", "Man"]).head(5)

In [None]:
# 値を置き換えて、最初の2行を表示
dataframe.replace(1, "One").head(2)

In [None]:
# 値を置き換えて、最初の2行を表示
dataframe.replace(r"1st", "First", regex=True).head(2)

## レシピ3.7　列の名前を変更


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 列名を変更して、最初の2行を表示
dataframe.rename(columns={'PClass': 'Passenger Class'}).head(2)

In [None]:
# 列名を変更して、最初の2行を表示
dataframe.rename(columns={'PClass': 'Passenger Class', 'Sex': 'Gender'}).head(2)

In [None]:
# ライブラリをロード
import collections

# 辞書を作成
column_names = collections.defaultdict(str)

# キーを作成
for name in dataframe.columns:
    column_names[name]

# 辞書を表示
column_names


## レシピ3.8　最小値、最大値、合計、平均値、カウント数の算出


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 統計量を計算
print('最大値:', dataframe['Age'].max())
print('最小値:', dataframe['Age'].min())
print('平均値:', dataframe['Age'].mean())
print('合計:', dataframe['Age'].sum())
print('カウント数:', dataframe['Age'].count())

In [None]:
# 現れた回数を表示
dataframe.count()

## レシピ3.9　ユニークな値の算出


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# ユニークな値のリストを取得
dataframe['Sex'].unique()

In [None]:
# 現れた回数を表示
dataframe['Sex'].value_counts()

In [None]:
# 現れた回数を表示
dataframe['PClass'].value_counts()

In [None]:
# ユニークな値の数を表示
dataframe['PClass'].nunique()

## レシピ3.10　欠損データの取り扱い


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 欠損値を選択し、2つを表示
dataframe[dataframe['Age'].isnull()].head(2)

In [None]:
# 値をNaNで置き換えることを試みる
dataframe['Sex'] = dataframe['Sex'].replace('male', NaN)

In [None]:
# ライブラリをロード
import numpy as np

# 値をNaNで置き換える
dataframe['Sex'] = dataframe['Sex'].replace('male', np.nan)

In [None]:
# 欠損値の表現を指定してデータをロード
dataframe = pd.read_csv(url, na_values=[np.nan, 'NONE', -999])

In [None]:
# 欠損値がある行を1行表示
null_entry = dataframe[dataframe["Age"].isna()].head(1)

print(null_entry)

In [None]:
# 年齢の欠損値を、乗客の平均年齢で補完
null_entry.fillna(dataframe["Age"].mean())

## レシピ3.11　列の削除


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 列を削除
dataframe.drop('Age', axis=1).head(2)

In [None]:
# 複数の列を削除
dataframe.drop(['Age', 'Sex'], axis=1).head(2)

In [None]:
# 列を削除
dataframe.drop(dataframe.columns[1], axis=1).head(2)


In [None]:
# 削除して新しいDataFrameを作成
dataframe_name_dropped = dataframe.drop(dataframe.columns[0], axis=1)

## レシピ3.12　行の削除


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 行を削除して最初の3行を表示
dataframe[dataframe['Sex'] != 'male'].head(3)

In [None]:
# 行を削除して最初の2行を表示
dataframe[dataframe['Name'] != 'Allison, Miss Helen Loraine'].head(2)


In [None]:
# 行を削除して最初の2行を表示
dataframe[dataframe.index != 0].head(2)

## レシピ3.13　重複した行の削除


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データを作成
dataframe = pd.read_csv(url)

# 重複した行を削除し、最初の2行を出力
dataframe.drop_duplicates().head(2)

In [None]:
# 行数を表示
print("もとのDataFrame中の行数:", len(dataframe))
print("重複削除後の行数:", len(dataframe.drop_duplicates()))

In [None]:
# 重複を削除
dataframe.drop_duplicates(subset=['Sex'])

In [None]:
# 重複を削除
dataframe.drop_duplicates(subset=['Sex'], keep='last')

In [None]:
dataframe.duplicated()

## レシピ3.14　値による行のグループ分け


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 'Sex'列の値で行をグループ分けし、グループごとの平均値を計算
dataframe.groupby('Sex').mean(numeric_only=True)

In [None]:
# 行をグループ分け
dataframe.groupby('Sex')

In [None]:
# 行をグループ分けし、行数をカウント
dataframe.groupby('Survived')['Name'].count()

In [None]:
# 行をグループ分けし、行数をカウント
dataframe.groupby('Survived')['Name'].count()

## レシピ3.15　時刻による行のグループ分け


In [None]:
# ライブラリをロード
import pandas as pd
import numpy as np

# シード値を設定
np.random.seed(0)

# 日時の範囲を作成
time_index = pd.date_range('06/06/2017', periods=100000, freq='30S')

# DataFrameを作成
dataframe = pd.DataFrame(index=time_index)

# ランダムな値の行を作成
dataframe['Sale_Amount'] = np.random.randint(1, 10, 100000)

# 1週間ごとにグループ分けして、週ごとに値を集計
dataframe.resample('W').sum()

In [None]:
# 3行表示
dataframe.head(3)


In [None]:
# 2週間ごとにグループ分けして平均値を計算
dataframe.resample('2W').mean()

In [None]:
# 月ごとにグループ分けして、行の数を数える
dataframe.resample('M').count()

In [None]:
# 月ごとにグループ分けして、行の数を数える
dataframe.resample('M', label='left').count()

## レシピ3.16　集約演算と集約統計計算


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# すべてのカラムの最小値を取得
dataframe.agg("min")

In [None]:
# Ageの平均値と, SexCodeの最大値、最小値を算出
dataframe.agg({"Age":["mean"], "SexCode":["min", "max"]})

In [None]:
# それぞれのクラスの生存者数と非生存者数
dataframe.groupby(
    ["PClass","Survived"]).agg({"Survived":["count"]}
).reset_index()

## レシピ3.17　列に対するループ


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 最初の2つの名前を大文字にして表示
for name in dataframe['Name'][0:2]:
    print(name.upper())

In [None]:
# 最初の2つの名前を大文字にして表示
[name.upper() for name in dataframe['Name'][0:2]]

## レシピ3.18　ある列のすべての要素に対して関数を適用する


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 関数を定義
def uppercase(x):
    return x.upper()

# 関数を適用して、結果の最初の2行を表示
dataframe['Name'].apply(uppercase)[0:2]

## レシピ3.19　関数をグループに適用


In [None]:
# ライブラリをロード
import pandas as pd

# URLを作成
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# データをロード
dataframe = pd.read_csv(url)

# 行をグループ分けし、関数をグループごとに適用
dataframe.groupby('Sex').apply(lambda x: x.count())

## レシピ3.20　DataFrameの連結


In [None]:
# ライブラリをロード
import pandas as pd

# DataFrameを作成
data_a = {'id': ['1', '2', '3'],
          'first': ['Alex', 'Amy', 'Allen'],
          'last': ['Anderson', 'Ackerman', 'Ali']}
dataframe_a = pd.DataFrame(data_a, columns = ['id', 'first', 'last'])

# DataFrameを作成
data_b = {'id': ['4', '5', '6'],
          'first': ['Billy', 'Brian', 'Bran'],
          'last': ['Bonder', 'Black', 'Balwner']}
dataframe_b = pd.DataFrame(data_b, columns = ['id', 'first', 'last'])

# 行方向にDataFrameを連結
pd.concat([dataframe_a, dataframe_b], axis=0)

In [None]:
# 列方向にDataFrameを連結
pd.concat([dataframe_a, dataframe_b], axis=1)

## レシピ3.21　DataFrameのマージ


In [None]:
# ライブラリをロード
import pandas as pd

# DataFrameを作成
employee_data = {'employee_id': ['1', '2', '3', '4'],
                 'name': ['Amy Jones', 'Allen Keys', 'Alice Bees', 'Tim Horton']}

dataframe_employees = pd.DataFrame(employee_data, columns = ['employee_id', 'name'])

# DataFrameを作成
sales_data = {'employee_id': ['3', '4', '5', '6'],
              'total_sales': [23456, 2512, 2345, 1455]}
dataframe_sales = pd.DataFrame(sales_data, columns = ['employee_id', 'total_sales'])

# DataFrameをマージ
pd.merge(dataframe_employees, dataframe_sales, on='employee_id')

In [None]:
# DataFrameをマージ
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='outer')

In [None]:
# DataFrameをマージ
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='left')

In [None]:
# DataFrameをマージ
pd.merge(dataframe_employees,
         dataframe_sales,
         left_on='employee_id',
         right_on='employee_id')