# 함수 매핑

- 시리즈 또는 데이터프레임의 개별 원소를 특정 함수에 일대일 대응시키는 과정
- 사용자가 직접 만든 함수를 적용할 수 있기 때문에 파아스 기본 함수로 처리하기 어려운 복잡한 연산을 적용하는 것이 가능

## 개별 원소에 함수 매핑

### 시리즈 원소에 함수 매핑
- 시리즈에 map() 을 적용하면 이자로 전달받는 매핑 함수에 시리즈이 모든 원소를 하나씩 입력하고 리턴값을 받음
- 시리즈 원소의 개수만큼 리턴값을 받아서 같은 크기의 시리즈 객체로 변환

In [2]:
import pandas as pd
import seaborn as sns

In [3]:
titanic = sns.load_dataset("titanic")

In [4]:
df = titanic.loc[:, ["age","fare"]]

In [5]:
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [6]:
def add_10(n): # 10을 더하는 함수
    return n + 10

In [7]:
df["age"].map(add_10)

0      32.0
1      48.0
2      36.0
3      45.0
4      45.0
       ... 
886    37.0
887    29.0
888     NaN
889    36.0
890    42.0
Name: age, Length: 891, dtype: float64

In [8]:
# 한번사용하고 말 함수를 선언하는것은 매우 비효율적
# 그래서 익명함수를 쓴다

In [9]:
# lambda expression 람다 표현식

In [10]:
df["age"].map(lambda x : x + 10)

0      32.0
1      48.0
2      36.0
3      45.0
4      45.0
       ... 
886    37.0
887    29.0
888     NaN
889    36.0
890    42.0
Name: age, Length: 891, dtype: float64

In [11]:
# 학계분을 싫어한다 => 구현해본적없음! 

In [12]:
# 온몸 비틀기는 덕목이다!
# 파이썬 기초를 알면 다 할 수 있다!
# 파이썬의 기초를 탄탄하게!

### 데이터프레임 원소에 함수 매핑

In [13]:
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [14]:
df.map(lambda x : x + 10)

Unnamed: 0,age,fare
0,32.0,17.2500
1,48.0,81.2833
2,36.0,17.9250
3,45.0,63.1000
4,45.0,18.0500
...,...,...
886,37.0,23.0000
887,29.0,40.0000
888,,33.4500
889,36.0,40.0000


In [15]:
# 하나하나의 원소에 mapping 하는 것은 쉽다!
# 객체에 매핑하려면???

## 데이터프레임 객체에 함수 매핑

In [16]:
df.apply(lambda x: x["age"] + x["fare"], axis=1) 

0       29.2500
1      109.2833
2       33.9250
3       88.1000
4       43.0500
         ...   
886     40.0000
887     49.0000
888         NaN
889     56.0000
890     39.7500
Length: 891, dtype: float64

# 열 분리

- 하나의 열이 여러 가지 정보를 담고 있으면 정보를 분리해야함
- 어떤 열에 연월일 정보가 있을 때 연, 월, 일을 구분하여 3개의 열로 분리

In [17]:
df = pd.read_excel("./data/주가데이터.xlsx")

In [18]:
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량
0,2018-07-02,10100,600,10850,10900,10000,137977
1,2018-06-29,10700,300,10550,10900,9990,170253
2,2018-06-28,10400,500,10900,10950,10150,155769
3,2018-06-27,10900,100,10800,11050,10500,133548
4,2018-06-26,10800,350,10900,11000,10700,63039


In [19]:
df.shape

(20, 7)

In [20]:
df.describe()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량
count,20,20.0,20.0,20.0,20.0,20.0,20.0
mean,2018-06-17 04:48:00,11662.5,345.0,11755.0,12015.0,11374.5,158014.15
min,2018-06-01 00:00:00,10100.0,0.0,10550.0,10900.0,9990.0,25171.0
25%,2018-06-10 06:00:00,11087.5,100.0,11125.0,11350.0,10737.5,58323.25
50%,2018-06-18 12:00:00,11725.0,250.0,11800.0,12025.0,11500.0,134176.5
75%,2018-06-25 06:00:00,11962.5,387.5,12050.0,12262.5,11912.5,185836.0
max,2018-07-02 00:00:00,13450.0,1400.0,13600.0,13700.0,13150.0,558148.0
std,,927.060294,387.943295,865.250192,907.729962,884.369981,134473.512003


In [21]:
df.dtypes

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object

In [25]:
# dt 메서드 datetime 메서드임(datetime 에서만 쓸 수 있다)
df["연월일"]

0    2018-07-02
1    2018-06-29
2    2018-06-28
3    2018-06-27
4    2018-06-26
5    2018-06-25
6    2018-06-22
7    2018-06-21
8    2018-06-20
9    2018-06-19
10   2018-06-18
11   2018-06-15
12   2018-06-14
13   2018-06-12
14   2018-06-11
15   2018-06-08
16   2018-06-07
17   2018-06-05
18   2018-06-04
19   2018-06-01
Name: 연월일, dtype: datetime64[ns]

In [27]:
df["연"] = df["연월일"].dt.year

In [28]:
df["월"] = df["연월일"].dt.month

In [29]:
df["일"] = df["연월일"].dt.day

In [30]:
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연,월,일
0,2018-07-02,10100,600,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018,6,26


In [31]:
df.dtypes

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
연                int32
월                int32
일                int32
dtype: object

In [32]:
# 문자열로 읽힐경우 
# 문자열 => datetime => dt 메서드 이용
# str 메서드이용 **

df["연월일"] = df["연월일"].astype(str) # 이용하기위해 문자열로 변환

In [33]:
df.dtypes

연월일     object
당일종가     int64
전일종가     int64
시가       int64
고가       int64
저가       int64
거래량      int64
연        int32
월        int32
일        int32
dtype: object

In [36]:
# 공식문서에 str. 로 검색하면 뭐 다온다....!

In [37]:
df["연월일"].str.split("-")

0     [2018, 07, 02]
1     [2018, 06, 29]
2     [2018, 06, 28]
3     [2018, 06, 27]
4     [2018, 06, 26]
5     [2018, 06, 25]
6     [2018, 06, 22]
7     [2018, 06, 21]
8     [2018, 06, 20]
9     [2018, 06, 19]
10    [2018, 06, 18]
11    [2018, 06, 15]
12    [2018, 06, 14]
13    [2018, 06, 12]
14    [2018, 06, 11]
15    [2018, 06, 08]
16    [2018, 06, 07]
17    [2018, 06, 05]
18    [2018, 06, 04]
19    [2018, 06, 01]
Name: 연월일, dtype: object

In [44]:
date =  df["연월일"].str.split("-")
# str.get 해줘야!!! 된다!!!!
df["연"] = date.str.get(0).astype(int)
df["월"] = date.str.get(1).astype(int)
df["일"] = date.str.get(2).astype(int)

In [45]:
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연,월,일
0,2018-07-02,10100,600,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018,6,26


In [46]:
df.dtypes

연월일     object
당일종가     int64
전일종가     int64
시가       int64
고가       int64
저가       int64
거래량      int64
연        int64
월        int64
일        int64
dtype: object

In [47]:
# 지루하고 현학적이다!
df["연월일"].str[:4]

0     2018
1     2018
2     2018
3     2018
4     2018
5     2018
6     2018
7     2018
8     2018
9     2018
10    2018
11    2018
12    2018
13    2018
14    2018
15    2018
16    2018
17    2018
18    2018
19    2018
Name: 연월일, dtype: object

In [49]:
df["연월일"].str[5:7]

0     07
1     06
2     06
3     06
4     06
5     06
6     06
7     06
8     06
9     06
10    06
11    06
12    06
13    06
14    06
15    06
16    06
17    06
18    06
19    06
Name: 연월일, dtype: object

In [50]:
df["연월일"].str[8:]

0     02
1     29
2     28
3     27
4     26
5     25
6     22
7     21
8     20
9     19
10    18
11    15
12    14
13    12
14    11
15    08
16    07
17    05
18    04
19    01
Name: 연월일, dtype: object

# 필터링 (매우매우매우 중요)

- 시리즈 또는 데이터프레임의 데이터 중에서 특정 조건식을 만족하는 원소만 따로 추출

## 불리언 인덱싱

- 시리즈 객체에 어떤 조건식을 적용하면 각 원소에 대해 참/거짓을 판별하여 불리언 값으로 구성된 시리즈를 반환
- 이때 참에 해당하는 데이터 값을 따로 선택할 수 있음

In [53]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [55]:
# age 가 10이상인 데이터를 필터링하고자 한다!!!!!!!!!
titanic["age"] >= 10

0       True
1       True
2       True
3       True
4       True
       ...  
886     True
887     True
888    False
889     True
890     True
Name: age, Length: 891, dtype: bool

In [57]:
titanic.loc[titanic["age"] < 20]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
10,1,3,female,4.0,1,1,16.7000,S,Third,child,False,G,Southampton,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
16,0,3,male,2.0,4,1,29.1250,Q,Third,child,False,,Queenstown,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
855,1,3,female,18.0,0,1,9.3500,S,Third,woman,False,,Southampton,yes,False
869,1,3,male,4.0,1,1,11.1333,S,Third,child,False,,Southampton,yes,False
875,1,3,female,15.0,0,0,7.2250,C,Third,child,False,,Cherbourg,yes,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True


In [72]:
# 여러조건을 하고 싶으면 and 도 or 도 가능하다!

# titanic 데이터에서 age 컬럼의값이 10이상이고 20미만인 데이터 필터링

df_teenage = titanic.loc[(titanic["age"] >=10) & (titanic["age"] <20) & (titanic["alive"] == "no"), ["age", "class", "who", "sex"]]

# and 는 & 기호를 작성해야한다...

In [73]:
df_teenage.head(20)

Unnamed: 0,age,class,who,sex
14,14.0,Third,child,female
27,19.0,First,man,male
38,18.0,Third,woman,female
49,18.0,Third,woman,female
59,11.0,Third,child,male
67,19.0,Third,man,male
71,16.0,Third,woman,female
86,16.0,Third,man,male
111,14.5,Third,child,female
114,17.0,Third,woman,female


In [71]:
# or은 | 을 쓰면 되겠죵?

## isin() 메소드 활용

- 데이터프레임의 열에 isin() 메소드를 적용하면 특정 값을 갖니 행들을 추출할 수 있음

In [76]:
titanic["sibsp"] # 같이 탄 형제나 배우자의 수...

0      1
1      1
2      0
3      1
4      0
      ..
886    0
887    0
888    1
889    0
890    0
Name: sibsp, Length: 891, dtype: int64

In [79]:
titanic.loc[titanic["sibsp"].isin([3,4,5])]

# 필터링만 한다면 loc 을 안써도 된다
not_loc = titanic[titanic["sibsp"].isin([3,4,5])]
not_loc.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
50,0,3,male,7.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False


In [81]:
# 숙련도가 높아야... 겨우겨우... 입구컷...