In [None]:
# 데이터프레임 또는 시리즈의 각 원소에 함수 매핑
import pandas as pd
import seaborn as sns

In [None]:
# 1. 시리즈 원소에 하수 매핑 : 시리즈.apply(함수명)
titanic = sns.load_dataset('titanic')

In [None]:
df = titanic.loc[:, ['age', 'fare']]
df.head()

df['ten'] = 10
df.head()

In [None]:
def add_10(n):
    return n + 10
def add_two_obj(a, b):
    return a + b

print(add_10(10))
print(add_two_obj(10,10))

In [None]:
# 시리즈 객체의 각 원소에 add_10() 함수 적용
df['age'].apply(add_10).head(3)

In [None]:
# 시리즈 객체에 2개의 인수 적용
df['age'].apply(add_two_obj, b=10)

In [None]:
# lambda 함수 적용
df['age'].apply(lambda x: add_10(x))

In [None]:
# 데이터프레임 원소에 함수 매핑 : 데이터프레임.applymap(매핑함수)
df_map = df.applymap(add_10)
df_map

In [None]:
# 데이터프레임의 각 컬럼에 함수 적용 : 데이터프레임.apply(매핑함수, axis=0)
df.apply(add_10, axis=0)
df.apply(lambda x : add_10(x), axis=0)

In [None]:
df.apply(lambda x : x.max() - x.min(), axis=0)

In [None]:
# 데이터프레임의 각 행에 함수 적용 : 데이터프레임.apply(매핑함수, axis=1)
df['add'] = df.apply(lambda x : add_two_obj(x['age'], x['ten']), axis=1)
df.head()

In [None]:
df.apply(lambda x: x['age'] + x['ten'], axis=1)

In [None]:
# 데이터프레임 객체를 함수에 매핑 : pipe()
df1 = df[['age', 'fare']].copy()
df1

In [None]:
def missing_value(x):
    return x.isnull()  # 데이터프레임 반환
def missing_count(x):
    return missing_value(x).sum()  # 시리즈 반환
def total_number_missing(x):
    return missing_count(x).sum()  # 값을 반환

In [None]:
print(df1.pipe(missing_value).head(3))  #True False인 데이터프레임
print()
print(df1.pipe(missing_count))  # 각 컬럼의 null의 개수 반환
print()
df1.pipe(total_number_missing)  # 전체 데이터의 Null 개수 반환

In [None]:
titanic.head()
df = titanic.loc[0:4, 'survived':'age']

In [None]:
columns = list(df.columns.values)
columns_sorted = sorted(columns)
columns_sorted

In [None]:
df = df[columns_sorted]
df

In [None]:
# 데이터프레임의 컬럼 순서를 변경
df = df[sorted(list(df.columns.values))]
df

In [None]:
# 열 분리
df = pd.read_excel('./dataset/주가데이터.xlsx')
df.info()

In [None]:
# 연월일을 str로 변경
df['연월일'] = df['연월일'].astype('str')
df.info()

dates = df['연월일'].str.split('-')
dates

In [None]:
# 시리즈의 문자열 리스트에서 데이터를 가져오는 방법 : 시리즈.str.get(인덱스)
df['연'] = dates.str.get(0)  # 연도
df['월'] = dates.str.get(1)  # 월
df['일'] = dates.str.get(2)  # 일
df

In [None]:
# 필터링 : 데이터프레임[불린시리즈]
# 나이가 10세 이상이거나 30세 미만인 승객의 정보를 가져와서 df에 저장
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[(titanic['age']>=10) & (titanic['age']<30), :]
df

In [None]:
# pclass, sex,age,fare : 컬럼의 정보만
df = titanic.loc[(titanic['age']>=10) & (titanic['age']<30), ['pclass', 'sex', 'age', 'fare']]
df

In [None]:
# sibsp 열의 값이 3,4,5 중에서 하나인 승객의 age, fare, sex, sibsp 컬럼의 정보를 가져옴
df = titanic.loc[(titanic['sibsp'] == 3) | (titanic['sibsp'] == 4) | (titanic['sibsp'] == 5), ['age', 'fare', 'sex', 'sibsp']]
df

In [None]:
# 데이터프레임 열 개체.isin(추출하고자 하는 값의 리스트)
df1 = titanic.loc[titanic['sibsp'].isin([3,4,5]), ['age', 'fare', 'sex', 'sibsp']]
df1

# 연습문제

In [2]:
# 타이타닉호 승객을 사망자와 생존자 그룹으로 나누고 각 그룹에 대해 
# '미성년자', '청년', '중년', '장년', '노년' 승객의 비율을 구한다. 
# 각 그룹 별로 비율의 전체 합은 1이 되어야 한다.

bins = [1, 15, 25, 35, 60, 99] 
labels = ["미성년자", "청년", "중년", "장년", "노년"]

import pandas as pd
import numpy as np
import seaborn as sns
import math

df = sns.load_dataset('titanic')
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [3]:
df['age'].fillna(math.trunc(df['age'].mean()), inplace=True)
df['age'].unique()

array([22.  , 38.  , 26.  , 35.  , 29.  , 54.  ,  2.  , 27.  , 14.  ,
        4.  , 58.  , 20.  , 39.  , 55.  , 31.  , 34.  , 15.  , 28.  ,
        8.  , 19.  , 40.  , 66.  , 42.  , 21.  , 18.  ,  3.  ,  7.  ,
       49.  , 65.  , 28.5 ,  5.  , 11.  , 45.  , 17.  , 32.  , 16.  ,
       25.  ,  0.83, 30.  , 33.  , 23.  , 24.  , 46.  , 59.  , 71.  ,
       37.  , 47.  , 14.5 , 70.5 , 32.5 , 12.  ,  9.  , 36.5 , 51.  ,
       55.5 , 40.5 , 44.  ,  1.  , 61.  , 56.  , 50.  , 36.  , 45.5 ,
       20.5 , 62.  , 41.  , 52.  , 63.  , 23.5 ,  0.92, 43.  , 60.  ,
       10.  , 64.  , 13.  , 48.  ,  0.75, 53.  , 57.  , 80.  , 70.  ,
       24.5 ,  6.  ,  0.67, 30.5 ,  0.42, 34.5 , 74.  ])

In [4]:
df[df['age'] > 99] = 99
df[df['age'] < 1] = 1
# df = df.replace(df['age'] < 1, 1, inplace=True)
# df = df.replace(df['age'] > 99, 99)
df['age'].unique()

TypeError: Cannot setitem on a Categorical with a new category (99), set the categories first

In [None]:
df['age'] < 1

In [None]:
cnt, bin_dividers = np.histogram(df['age'], bins)
print(cnt, bin_dividers)

In [None]:
age_name = labels
df['age_bin'] = pd.cut(x = df['age'], 
                      bins = bin_dividers, labels = age_name, include_lowest = True)
df[['age', 'age_bin']].head(10)

In [None]:
df_live = df[df['survived'] == 0]
df_dead = df[df['survived'] == 1]
print(df_live)
df_dead