# 1. 함수 매핑
## 1-1. 개별 원소에 함수 매핑
- 시리즈 원소에 함수 매핑

In [1]:
import seaborn as sns

In [2]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
df['ten'] = 10
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [3]:
def add_10(n):
    return n+10

def add_two_obj(a, b): # 두 객체의 합
    return a + b

print(add_10(10))
print(add_two_obj(10, 10))

20
20


In [4]:
# 시리즈 객체에 적용
sr1 = df['age'].apply(add_10)
sr1.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [5]:
# 시리즈 객체와 숫자에 적용 : 2개의 인수(시리즈 + 숫자)
sr2 = df['age'].apply(add_two_obj, b=10)
sr2.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [6]:
# lambda 함수 활용 : 시리즈 객체에 적용
sr3 = df['age'].apply(lambda x:add_10(x))
sr3.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

- 데이터프레임 원소에 함수 매핑

In [7]:
# applymap() : 데이터프레임의 개별 원소에 특정 함수 매핑
df_map = df.applymap(add_10)
df_map

Unnamed: 0,age,fare,ten
0,32.0,17.2500,20
1,48.0,81.2833,20
2,36.0,17.9250,20
3,45.0,63.1000,20
4,45.0,18.0500,20
...,...,...,...
886,37.0,23.0000,20
887,29.0,40.0000,20
888,,33.4500,20
889,36.0,40.0000,20


## 1-2. 시리즈 객체에 함수 매핑
- 데이터프레임의 각 열에 함수 매핑
    - DataFrame 객체.apply(매핑 함수, axis = 0)

In [9]:
def missing_value(series):
    return series.isnull()

In [10]:
result = df.apply(missing_value, axis = 0)
result.head()

Unnamed: 0,age,fare,ten
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False


In [11]:
type(result)

pandas.core.frame.DataFrame

In [13]:
def min_max(x):
    return x.max() - x.min()

In [14]:
result = df.apply(min_max)
result

age      79.5800
fare    512.3292
ten       0.0000
dtype: float64

In [15]:
type(result)

pandas.core.series.Series

- 데이터프레임의 각 행에 함수 매핑
    - axis = 1

In [16]:
#x  = df, a = df['age'], b = df['ten']
df['add'] = df.apply(lambda x:add_two_obj(x['age'], x['ten']), axis = 1)
df.head()

Unnamed: 0,age,fare,ten,add
0,22.0,7.25,10,32.0
1,38.0,71.2833,10,48.0
2,26.0,7.925,10,36.0
3,35.0,53.1,10,45.0
4,35.0,8.05,10,45.0


## 1-3. 데이터프레임 객체에 함수 매핑

In [17]:
df = titanic.loc[:, ['age','fare']]

In [18]:
# 각 열의 NaN 찾기
def missing_value(x):
    return x.isnull()

# 각 열의 NaN 개수 반환
def missing_count(x):
    return missing_value(x).sum()

# 데이터프레임의 총 NaN 개수
def total_number_missing(x):
    return missing_count(x).sum()

In [19]:
# 데이터프레임에 함수 매핑
# pipe() : 사용하는 함수가 반환하는 리턴값에 따라 pipe() 메소드가 반환하는 객체의 종류가 결젖ㅇ
result_df = df.pipe(missing_value)
result_df.head()

Unnamed: 0,age,fare
0,False,False
1,False,False
2,False,False
3,False,False
4,False,False


In [20]:
type(result_df)

pandas.core.frame.DataFrame

In [21]:
result_series = df.pipe(missing_count)
result_series

age     177
fare      0
dtype: int64

In [22]:
type(result_series)

pandas.core.series.Series

In [23]:
result_value = df.pipe(total_number_missing)
result_value

177

In [24]:
type(result_value)

numpy.int64

# 2. 열 재구성
## 2-1. 열 순서 변경

In [25]:
import seaborn as sns

In [26]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[0:4, 'survived':'age']
df

Unnamed: 0,survived,pclass,sex,age
0,0,3,male,22.0
1,1,1,female,38.0
2,1,3,female,26.0
3,1,1,female,35.0
4,0,3,male,35.0


In [27]:
# 열 이름 리스트 만들기
columns = list(df.columns.values) # 기존 열 이름
columns

['survived', 'pclass', 'sex', 'age']

In [28]:
# 열 이름을 알파벳 순으로 정렬
columns_sorted = sorted(columns)
df_sorted = df[columns_sorted]
df_sorted

Unnamed: 0,age,pclass,sex,survived
0,22.0,3,male,0
1,38.0,1,female,1
2,26.0,3,female,1
3,35.0,1,female,1
4,35.0,3,male,0


In [29]:
# 열 이름을 기존 순서의 정반대 역순으로 정렬하기
columns_reversed = list(reversed(columns))
df_reversed = df[columns_reversed]
df_reversed

Unnamed: 0,age,sex,pclass,survived
0,22.0,male,3,0
1,38.0,female,1,1
2,26.0,female,3,1
3,35.0,female,1,1
4,35.0,male,3,0


In [30]:
# 열 이름을 사용자가 정의한 임의의 순서로 재배치
columns_customed = ['pclass','sex','age','survived']
df_customed = df[columns_customed]
df_customed

Unnamed: 0,pclass,sex,age,survived
0,3,male,22.0,0
1,1,female,38.0,1
2,3,female,26.0,1
3,1,female,35.0,1
4,3,male,35.0,0


## 2-2. 열 분리

In [31]:
import pandas as pd

In [32]:
df = pd.read_excel('주가데이터.xlsx', engine = 'openpyxl')
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량
0,2018-07-02,10100,600,10850,10900,10000,137977
1,2018-06-29,10700,300,10550,10900,9990,170253
2,2018-06-28,10400,500,10900,10950,10150,155769
3,2018-06-27,10900,100,10800,11050,10500,133548
4,2018-06-26,10800,350,10900,11000,10700,63039


In [33]:
df.dtypes

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object

In [34]:
# 연, 월, 일 데이터 분리하기
df['연월일'] = df['연월일'].astype('str') # 문자열 메소드 사용을 위해 자료형 변경
dates = df['연월일'].str.split('-')       # 문자열을 split() 메소드로 분리
dates.head()

0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
Name: 연월일, dtype: object

In [35]:
# 분리된 정보를 각각 새로운 열에 담아 df에 추가
# get() : 리스트의 원소 선택
df['연'] = dates.str.get(0)
df['월'] = dates.str.get(1)
df['일'] = dates.str.get(2)
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연,월,일
0,2018-07-02,10100,600,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018,6,26


# 3. 필터링
## 3-1. 불린 인덱싱

In [36]:
# 나이가 10대(10~19세)인 승객만 따로 선택
mask1 = (titanic.age >= 10) & (titanic.age < 20)
df_teenage = titanic.loc[mask1, :]
df_teenage.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
38,0,3,female,18.0,2,0,18.0,S,Third,woman,False,,Southampton,no,False


In [37]:
# 나이가 10세 미만(0~9세)이고 여성인 승객만 따로 선택
mask2 = (titanic.age < 10) & (titanic.sex == 'female')
df_female_under10 = titanic.loc[mask2 , :]
df_female_under10.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
43,1,2,female,3.0,1,2,41.5792,C,Second,child,False,,Cherbourg,yes,False
58,1,2,female,5.0,1,2,27.75,S,Second,child,False,,Southampton,yes,False
119,0,3,female,2.0,4,2,31.275,S,Third,child,False,,Southampton,no,False


In [38]:
# 나이가 10세 미만 또는 60세 이상이 승객의 age, sex, alone 열만 선택
mask3 = (titanic.age < 10) | (titanic.age >= 60)
df_under10_morethan60 = titanic.loc[mask3, ['age','sex','alone']]
df_under10_morethan60.head()

Unnamed: 0,age,sex,alone
7,2.0,male,False
10,4.0,female,False
16,2.0,male,False
24,8.0,female,False
33,66.0,male,True


## 3-2. isin() 메소드 활용

In [39]:
# IPython 디스플에이 설정 변경 - 출력할 최대 열의 개수
pd.set_option('display.max_columns', 10)

In [40]:
# 함께 탑승한 형제 또는 배우자의 수가 3,4,5인 승객만 따로 추출 - 불린 인덱싱
mask3 = titanic['sibsp'] == 3
mask4 = titanic['sibsp'] == 4
mask5 = titanic['sibsp'] == 5
df_boolean = titanic[mask3 | mask4 | mask5]
df_boolean.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,...,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,...,False,,Southampton,no,False
16,0,3,male,2.0,4,...,False,,Queenstown,no,False
24,0,3,female,8.0,3,...,False,,Southampton,no,False
27,0,1,male,19.0,3,...,True,C,Southampton,no,False
50,0,3,male,7.0,4,...,False,,Southampton,no,False


In [41]:
# isin() 메소드 활용하여 동일한 조건으로 추출
isin_filter = titanic['sibsp'].isin([3,4,5])
df_isin = titanic[isin_filter]
df_isin.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,...,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,...,False,,Southampton,no,False
16,0,3,male,2.0,4,...,False,,Queenstown,no,False
24,0,3,female,8.0,3,...,False,,Southampton,no,False
27,0,1,male,19.0,3,...,True,C,Southampton,no,False
50,0,3,male,7.0,4,...,False,,Southampton,no,False
