In [None]:
import pandas as pd
import numpy as np
import seaborn as sns


# 1. df1과 df2에 대해 merge 연습, on, left_on, right_on, how

df1 = pd.DataFrame({"key": ["b", "b", "a", "c", "a", "a", "b"],
                    "data1": pd.Series(range(7), dtype="Int64")})
df2 = pd.DataFrame({"key": ["a", "b", "d"],
                    "data2": pd.Series(range(3), dtype="Int64")})

pd.merge(df1, df2)
pd.merge(df1, df2, on='key')
pd.merge(df1, df2, left_on='data1', right_on='data2')
pd.merge(df1, df2, how='outer')
pd.merge(df1, df2, how='left')
pd.merge(df1, df2, how='right')


# 2. left와 right에 대해 merge 연습, on, left_on, right_on, how

left = pd.DataFrame({"key1": ["foo", "foo", "bar"],
                     "key2": ["one", "two", "one"],
                     "lval": pd.Series([1, 2, 3], dtype='Int64')})
right = pd.DataFrame({"key1": ["foo", "foo", "bar", "bar"],
                      "key2": ["one", "one", "one", "two"],
                      "rval": pd.Series([4, 5, 6, 7], dtype='Int64')})

pd.merge(left, right)
pd.merge(left, right, on=["key1", "key2"], how="outer")
pd.merge(left, right, on=["key1", "key2"], how="left")
pd.merge(left, right, on=["key1", "key2"], how="right")


# 3. merge 열 이름과 행 인덱스를 기준으로 병합 연습

left1 = pd.DataFrame({"key": ["a", "b", "a", "a", "b", "c"],
                      "value": pd.Series(range(6), dtype="Int64")})
right1 = pd.DataFrame({"group_val": [3.5, 7]}, index=["a", "b"])

pd.merge(left1, right1, left_on="key", right_index=True, how="left")


# 4. merge연습, index 기준

left2 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]],
                     index=["a", "c", "e"],
                     columns=["Ohio", "Nevada"]).astype("Int64")
right2 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]],
                      index=["b", "c", "d", "e"],
                      columns=["Missouri", "Alabama"]).astype("Int64")

pd.merge(left2, right2, left_index=True, right_index=True, how="left")


# 5. concat 연습, axis, join 속성 값 변경 설정

s1 = pd.Series([0, 1], index=["a", "b"], dtype="Int64")
s2 = pd.Series([2, 3, 4], index=["c", "d", "e"], dtype="Int64")
s3 = pd.Series([5, 6], index=["f", "g"], dtype="Int64")

pd.concat([s1, s2, s3])


df1 = pd.DataFrame(np.arange(6).reshape(3, 2), index=["a", "b", "c"],
                   columns=["one", "two"])
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), index=["a", "c"],
                   columns=["three", "four"])

pd.concat([df1, df2])
pd.concat([df1, df2], axis=1)
df1.join(df2)
df1.join(df2, how='right')
df1.join(df2, how='outer')


# 6. stack, unstack 연습

data = pd.DataFrame(np.arange(6).reshape((2, 3)),
                    index=pd.Index(["Ohio", "Colorado"], name="state"),
                    columns=pd.Index(["one", "two", "three"],
                    name="number"))

unStack_df = pd.DataFrame(data.unstack())
stack_df = pd.DataFrame(data.stack())
pd.DataFrame(unStack_df.stack())
stack_df.unstack()


# 7. 타이타닉

titanic = sns.load_dataset("titanic")

"""
- survived열 값으로 전체 생존율 출력
- pclass열 값이 1인 자료의 개수를 출력
- age가 10보다 작은 승객에 대한 생존율
- embarked에서 각 항구별 승선인원 출력
"""

# 전체 생존율
titanic.survived[titanic.survived == 1].value_counts() / len(titanic) * 100

# pclass 1 탑승객 수
titanic.pclass[titanic.pclass == 1].value_counts()

# 10살 미만 승객 생존율
titanic.survived[(titanic.survived == 1) & (titanic.age < 10)].value_counts() / len(titanic) * 100

# 항구별 승선인원 수
titanic.embarked.value_counts()