# 함수 매핑

- 시리즈 또는 데이터프레임의 개별 원소를 특정 함수에 일대일 대응시키는 과정
- 사용자가 직접 만든 함수를 적용할 수 있기 때문에 파아스 기본 함수로 처리하기 어려운 복잡한 연산을 적용하는 것이 가능

## 개별 원소에 함수 매핑

### 시리즈 원소에 함수 매핑
- 시리즈에 map() 을 적용하면 이자로 전달받는 매핑 함수에 시리즈이 모든 원소를 하나씩 입력하고 리턴값을 받음
- 시리즈 원소의 개수만큼 리턴값을 받아서 같은 크기의 시리즈 객체로 변환

In [9]:
import pandas as pd
import seaborn as sns

In [10]:
titanic = sns.load_dataset("titanic")

In [11]:
df = titanic.loc[:, ["age","fare","class"]]

In [12]:
df.head()

Unnamed: 0,age,fare,class
0,22.0,7.25,Third
1,38.0,71.2833,First
2,26.0,7.925,Third
3,35.0,53.1,First
4,35.0,8.05,Third


In [6]:
def add_10(n): # 10을 더하는 함수
    return n + 10

In [7]:
df["age"].map(add_10)

0      32.0
1      48.0
2      36.0
3      45.0
4      45.0
       ... 
886    37.0
887    29.0
888     NaN
889    36.0
890    42.0
Name: age, Length: 891, dtype: float64

In [8]:
# 한번사용하고 말 함수를 선언하는것은 매우 비효율적
# 그래서 익명함수를 쓴다

In [9]:
# lambda expression 람다 표현식

In [10]:
df["age"].map(lambda x : x + 10)

0      32.0
1      48.0
2      36.0
3      45.0
4      45.0
       ... 
886    37.0
887    29.0
888     NaN
889    36.0
890    42.0
Name: age, Length: 891, dtype: float64

In [11]:
# 학계분을 싫어한다 => 구현해본적없음! 

In [12]:
# 온몸 비틀기는 덕목이다!
# 파이썬 기초를 알면 다 할 수 있다!
# 파이썬의 기초를 탄탄하게!

### 데이터프레임 원소에 함수 매핑

In [13]:
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [14]:
df.map(lambda x : x + 10)

Unnamed: 0,age,fare
0,32.0,17.2500
1,48.0,81.2833
2,36.0,17.9250
3,45.0,63.1000
4,45.0,18.0500
...,...,...
886,37.0,23.0000
887,29.0,40.0000
888,,33.4500
889,36.0,40.0000


In [15]:
# 하나하나의 원소에 mapping 하는 것은 쉽다!
# 객체에 매핑하려면???

## 데이터프레임 객체에 함수 매핑

In [16]:
df.apply(lambda x: x["age"] + x["fare"], axis=1) 

0       29.2500
1      109.2833
2       33.9250
3       88.1000
4       43.0500
         ...   
886     40.0000
887     49.0000
888         NaN
889     56.0000
890     39.7500
Length: 891, dtype: float64

# 열 분리

- 하나의 열이 여러 가지 정보를 담고 있으면 정보를 분리해야함
- 어떤 열에 연월일 정보가 있을 때 연, 월, 일을 구분하여 3개의 열로 분리

In [17]:
df = pd.read_excel("./data/주가데이터.xlsx")

In [18]:
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량
0,2018-07-02,10100,600,10850,10900,10000,137977
1,2018-06-29,10700,300,10550,10900,9990,170253
2,2018-06-28,10400,500,10900,10950,10150,155769
3,2018-06-27,10900,100,10800,11050,10500,133548
4,2018-06-26,10800,350,10900,11000,10700,63039


In [19]:
df.shape

(20, 7)

In [20]:
df.describe()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량
count,20,20.0,20.0,20.0,20.0,20.0,20.0
mean,2018-06-17 04:48:00,11662.5,345.0,11755.0,12015.0,11374.5,158014.15
min,2018-06-01 00:00:00,10100.0,0.0,10550.0,10900.0,9990.0,25171.0
25%,2018-06-10 06:00:00,11087.5,100.0,11125.0,11350.0,10737.5,58323.25
50%,2018-06-18 12:00:00,11725.0,250.0,11800.0,12025.0,11500.0,134176.5
75%,2018-06-25 06:00:00,11962.5,387.5,12050.0,12262.5,11912.5,185836.0
max,2018-07-02 00:00:00,13450.0,1400.0,13600.0,13700.0,13150.0,558148.0
std,,927.060294,387.943295,865.250192,907.729962,884.369981,134473.512003


In [21]:
df.dtypes

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object

In [25]:
# dt 메서드 datetime 메서드임(datetime 에서만 쓸 수 있다)
df["연월일"]

0    2018-07-02
1    2018-06-29
2    2018-06-28
3    2018-06-27
4    2018-06-26
5    2018-06-25
6    2018-06-22
7    2018-06-21
8    2018-06-20
9    2018-06-19
10   2018-06-18
11   2018-06-15
12   2018-06-14
13   2018-06-12
14   2018-06-11
15   2018-06-08
16   2018-06-07
17   2018-06-05
18   2018-06-04
19   2018-06-01
Name: 연월일, dtype: datetime64[ns]

In [27]:
df["연"] = df["연월일"].dt.year

In [28]:
df["월"] = df["연월일"].dt.month

In [29]:
df["일"] = df["연월일"].dt.day

In [30]:
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연,월,일
0,2018-07-02,10100,600,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018,6,26


In [31]:
df.dtypes

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
연                int32
월                int32
일                int32
dtype: object

In [32]:
# 문자열로 읽힐경우 
# 문자열 => datetime => dt 메서드 이용
# str 메서드이용 **

df["연월일"] = df["연월일"].astype(str) # 이용하기위해 문자열로 변환

In [33]:
df.dtypes

연월일     object
당일종가     int64
전일종가     int64
시가       int64
고가       int64
저가       int64
거래량      int64
연        int32
월        int32
일        int32
dtype: object

In [36]:
# 공식문서에 str. 로 검색하면 뭐 다온다....!

In [37]:
df["연월일"].str.split("-")

0     [2018, 07, 02]
1     [2018, 06, 29]
2     [2018, 06, 28]
3     [2018, 06, 27]
4     [2018, 06, 26]
5     [2018, 06, 25]
6     [2018, 06, 22]
7     [2018, 06, 21]
8     [2018, 06, 20]
9     [2018, 06, 19]
10    [2018, 06, 18]
11    [2018, 06, 15]
12    [2018, 06, 14]
13    [2018, 06, 12]
14    [2018, 06, 11]
15    [2018, 06, 08]
16    [2018, 06, 07]
17    [2018, 06, 05]
18    [2018, 06, 04]
19    [2018, 06, 01]
Name: 연월일, dtype: object

In [44]:
date =  df["연월일"].str.split("-")
# str.get 해줘야!!! 된다!!!!
df["연"] = date.str.get(0).astype(int)
df["월"] = date.str.get(1).astype(int)
df["일"] = date.str.get(2).astype(int)

In [45]:
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연,월,일
0,2018-07-02,10100,600,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018,6,26


In [46]:
df.dtypes

연월일     object
당일종가     int64
전일종가     int64
시가       int64
고가       int64
저가       int64
거래량      int64
연        int64
월        int64
일        int64
dtype: object

In [47]:
# 지루하고 현학적이다!
df["연월일"].str[:4]

0     2018
1     2018
2     2018
3     2018
4     2018
5     2018
6     2018
7     2018
8     2018
9     2018
10    2018
11    2018
12    2018
13    2018
14    2018
15    2018
16    2018
17    2018
18    2018
19    2018
Name: 연월일, dtype: object

In [49]:
df["연월일"].str[5:7]

0     07
1     06
2     06
3     06
4     06
5     06
6     06
7     06
8     06
9     06
10    06
11    06
12    06
13    06
14    06
15    06
16    06
17    06
18    06
19    06
Name: 연월일, dtype: object

In [50]:
df["연월일"].str[8:]

0     02
1     29
2     28
3     27
4     26
5     25
6     22
7     21
8     20
9     19
10    18
11    15
12    14
13    12
14    11
15    08
16    07
17    05
18    04
19    01
Name: 연월일, dtype: object

# 필터링 (매우매우매우 중요)

- 시리즈 또는 데이터프레임의 데이터 중에서 특정 조건식을 만족하는 원소만 따로 추출

## 불리언 인덱싱

- 시리즈 객체에 어떤 조건식을 적용하면 각 원소에 대해 참/거짓을 판별하여 불리언 값으로 구성된 시리즈를 반환
- 이때 참에 해당하는 데이터 값을 따로 선택할 수 있음

In [53]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [55]:
# age 가 10이상인 데이터를 필터링하고자 한다!!!!!!!!!
titanic["age"] >= 10

0       True
1       True
2       True
3       True
4       True
       ...  
886     True
887     True
888    False
889     True
890     True
Name: age, Length: 891, dtype: bool

In [57]:
titanic.loc[titanic["age"] < 20]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
10,1,3,female,4.0,1,1,16.7000,S,Third,child,False,G,Southampton,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
16,0,3,male,2.0,4,1,29.1250,Q,Third,child,False,,Queenstown,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
855,1,3,female,18.0,0,1,9.3500,S,Third,woman,False,,Southampton,yes,False
869,1,3,male,4.0,1,1,11.1333,S,Third,child,False,,Southampton,yes,False
875,1,3,female,15.0,0,0,7.2250,C,Third,child,False,,Cherbourg,yes,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True


In [72]:
# 여러조건을 하고 싶으면 and 도 or 도 가능하다!

# titanic 데이터에서 age 컬럼의값이 10이상이고 20미만인 데이터 필터링

df_teenage = titanic.loc[(titanic["age"] >=10) & (titanic["age"] <20) & (titanic["alive"] == "no"), ["age", "class", "who", "sex"]]

# and 는 & 기호를 작성해야한다...

In [73]:
df_teenage.head(20)

Unnamed: 0,age,class,who,sex
14,14.0,Third,child,female
27,19.0,First,man,male
38,18.0,Third,woman,female
49,18.0,Third,woman,female
59,11.0,Third,child,male
67,19.0,Third,man,male
71,16.0,Third,woman,female
86,16.0,Third,man,male
111,14.5,Third,child,female
114,17.0,Third,woman,female


In [71]:
# or은 | 을 쓰면 되겠죵?

## isin() 메소드 활용

- 데이터프레임의 열에 isin() 메소드를 적용하면 특정 값을 갖니 행들을 추출할 수 있음

In [76]:
titanic["sibsp"] # 같이 탄 형제나 배우자의 수...

0      1
1      1
2      0
3      1
4      0
      ..
886    0
887    0
888    1
889    0
890    0
Name: sibsp, Length: 891, dtype: int64

In [79]:
titanic.loc[titanic["sibsp"].isin([3,4,5])]

# 필터링만 한다면 loc 을 안써도 된다
not_loc = titanic[titanic["sibsp"].isin([3,4,5])]
not_loc.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
50,0,3,male,7.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False


In [1]:
# 숙련도가 높아야... 겨우겨우... 입구컷...

# 데이터프레임 합치기

In [44]:
df1 = pd.DataFrame({
        "a": ["a0","a1","a2","a3"],
        "b": ["b0","b1","b2","b3"],
        "c": ["c0","c1","c2","c3"]}, 
        index =  [0,1,2,3])

df2 = pd.DataFrame({
        "a": ["a2","a3","a4","a5"],
        "b": ["b2","b3","b4","b5"],
        "c": ["c2","c3","c4","c5"]},
        index =  [2,3,4,5])

In [6]:
df1

Unnamed: 0,a,b,c
2,a0,b0,c0
3,a1,b1,c1
4,a2,b2,c2
5,a3,b3,c3


In [9]:
df2

Unnamed: 0,a,b,c
2,a2,b2,c2
3,a3,b3,c3
4,a4,b4,c4
5,a5,b5,c5


In [11]:
# 2개의 데이터프레임을 행 방향으로 연결
result1 = pd.concat([df1,df2] , axis = 0)

In [12]:
result1

Unnamed: 0,a,b,c
2,a0,b0,c0
3,a1,b1,c1
4,a2,b2,c2
5,a3,b3,c3
2,a2,b2,c2
3,a3,b3,c3
4,a4,b4,c4
5,a5,b5,c5


In [17]:
# 기존 행 인덱스를 무시하고 새로운 행 인덱스를 설정
result1 = pd.concat([df1,df2] , axis = 0, ignore_index =True)

# 중요!!!!!!

In [18]:
result1

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3
4,a2,b2,c2
5,a3,b3,c3
6,a4,b4,c4
7,a5,b5,c5


In [15]:
result3 = pd.concat([df1,df2])

In [26]:
result2 # index 기준으로 붙기 때문에 NaN 값이 나온다~

Unnamed: 0,a,b,c,a.1,b.1,c.1
2,a0,b0,c0,,,
3,a1,b1,c1,,,
4,a2,b2,c2,a2,b2,c2
5,a3,b3,c3,a3,b3,c3
6,,,,a4,b4,c4
7,,,,a5,b5,c5


In [31]:
# 연결할 데이터 프레임의 교집합을 기준으로 연결
result3_in = pd.concat([df1, df2], axis = 1, join ="inner")
result3_in # 양쪽에 모두 가지고 있는 index 만 출력된다리~

Unnamed: 0,a,b,c,a.1,b.1,c.1
2,a0,b0,c0,a2,b2,c2
3,a1,b1,c1,a3,b3,c3


In [39]:
# 데이터 프레임과 시리즈의 연결
sr1 = pd.Series(["e0","e1","e2","e3"], name="e")
sr2 = pd.Series(["f0","f1","f2"], name="f", index = [3,4,5])
sr3 = pd.Series(["g0","g1","g2","g3"], name="g")

In [34]:
sr1

0    e0
1    e1
2    e2
3    e3
Name: e, dtype: object

In [35]:
sr2

3    f0
4    f1
5    f2
Name: f, dtype: object

In [36]:
sr3

0    g0
1    g1
2    g2
3    g3
Name: g, dtype: object

In [46]:
sr_result = pd.concat([df1, sr1], axis = 1)

In [47]:
sr_result

Unnamed: 0,a,b,c,e
0,a0,b0,c0,e0
1,a1,b1,c1,e1
2,a2,b2,c2,e2
3,a3,b3,c3,e3


In [48]:
# 행방향은?
sr_result2 = pd.concat([df1, sr1], axis = 0)

In [49]:
sr_result2

Unnamed: 0,a,b,c,e
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
0,,,,e0
1,,,,e1
2,,,,e2
3,,,,e3


In [50]:
df2

Unnamed: 0,a,b,c
2,a2,b2,c2
3,a3,b3,c3
4,a4,b4,c4
5,a5,b5,c5


In [51]:
sr2

3    f0
4    f1
5    f2
Name: f, dtype: object

In [52]:
sr_result3 = pd.concat([df2,sr2], axis = 1)

In [53]:
sr_result3

Unnamed: 0,a,b,c,f
2,a2,b2,c2,
3,a3,b3,c3,f0
4,a4,b4,c4,f1
5,a5,b5,c5,f2


In [57]:
# 시리즈와 시리즈의 연결
series_result = pd.concat([sr1, sr3], axis = 1)

In [56]:
series_result

Unnamed: 0,e,g
0,e0,g0
1,e1,g1
2,e2,g2
3,e3,g3


In [58]:
sr1

0    e0
1    e1
2    e2
3    e3
Name: e, dtype: object

In [59]:
sr3

0    g0
1    g1
2    g2
3    g3
Name: g, dtype: object

In [60]:
# sr1 과 sr3 를 행 방향으로 연결
series_result2 = pd.concat([sr1, sr3], axis = 0)

In [61]:
series_result2

0    e0
1    e1
2    e2
3    e3
0    g0
1    g1
2    g2
3    g3
dtype: object

In [62]:
series_result2 = pd.concat([sr1, sr3], axis = 0, ignore_index = True)

In [63]:
series_result2

0    e0
1    e1
2    e2
3    e3
4    g0
5    g1
6    g2
7    g3
dtype: object

## 데이터프레임 병합!

- merge()
- SQL 의 join 명령어와 비슷한 방식으로, 어떤 기준에 의해 두 데이터프렝미을 병합하는 개념
- 병합의 기준이 되는 열이나 인덱스를 키라고 부름
- 키가 되는 열이나 인덱스는 반드시 양쪽 데이터 프레임에 존재

In [64]:
df1 = pd.read_excel("./data/stock price.xlsx")

df2 = pd.read_excel("./data/stock valuation.xlsx")

In [67]:
df1.head()

Unnamed: 0,id,stock_name,value,price
0,128940,한미약품,59385.666667,421000
1,130960,CJ E&M,58540.666667,98900
2,138250,엔에스쇼핑,14558.666667,13200
3,139480,이마트,239230.833333,254500
4,142280,녹십자엠에스,468.833333,10200


In [66]:
df2.head()

Unnamed: 0,id,name,eps,bps,per,pbr
0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,하림,274.166667,3551,11.489362,0.887074
2,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990,삼양사,5741.0,108090,14.283226,0.758627


In [69]:
# 병합해보자 ~
df1.shape

(10, 4)

In [70]:
df2.shape

(10, 6)

In [73]:
# 워렌버핏 : per 볼줄 모르면 주식하지 마라

In [74]:
# 95퍼 날린 친구는 분석가가 직업이다

In [75]:
# 뭘 배운거냐?

In [85]:
# 데이터프레임 합치기 - 교집합
merge_inner = pd.merge(df1, df2, on = None, how = "inner") # on :결합조건 / how: 교집합/합집합...등등...

# on = None 두 데이터 프레임에 공통으로 속하는 모든 열을 기준으로 병합
# how: 기준은 열의 데이터를 비교한다

In [86]:
merge_inner

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
2,145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
3,185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
4,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


In [82]:
merge_inner.shape

(5, 9)

In [97]:
# 데이터프레임 합치기 - 합집합
# on = "id" : id 열을 키로 병합
# how = "outer" : 기준이 되는 id 열의 데이ㅓㅌ가 어느 한쪽에서 속하더라도고 ㅎ폼

merge_outer = pd.merge(df1, df2, on = "id", how = "outer") # on :결합조건 / how: 교집합/합집합...등등...
#merge_outer = pd.merge(df1, df2, on = None, how = "outer")

In [100]:
merge_outer.shape

(15, 9)

In [109]:
merge_left = pd.merge(df1, df2, how = "left", left_on="stock_name", right_on="name") 
# left_on : left 측에서 사용할 조건 
# right_on : right 측에서 사용할 조건 

# 둘 다 써줘야 left_on 과 right_on 의 속성이 같은것끼리 나온다요!!!!!!!!!


# how 에 쓸 수 있는것 inner, outer, left, right...이렇게 할수있다.

In [110]:
merge_left

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000,,,,,,
1,130960,CJ E&M,58540.666667,98900,130960.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200,,,,,,
3,139480,이마트,239230.833333,254500,139480.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200,,,,,,
5,145990,삼양사,82750.0,82000,145990.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500,185750.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500,,,,,,
8,199800,툴젠,-2514.333333,115400,,,,,,
9,204210,모두투어리츠,3093.333333,3475,204210.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [111]:
merge_right= pd.merge(df1, df2, how = "right", left_on="stock_name", right_on="name") 

In [112]:
merge_right

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,130960.0,CJ E&M,58540.666667,98900.0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,,,,,136480,하림,274.166667,3551,11.489362,0.887074
2,,,,,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480.0,이마트,239230.833333,254500.0,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990.0,삼양사,82750.0,82000.0,145990,삼양사,5741.0,108090,14.283226,0.758627
5,,,,,161390,한국타이어,5648.5,51341,7.453306,0.820007
6,,,,,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750.0,종근당,40293.666667,100500.0,185750,종근당,3990.333333,40684,25.185866,2.470259
8,204210.0,모두투어리츠,3093.333333,3475.0,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
9,,,,,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


## 데이터프레임 결합

- join()
- merge() 함수를 기반으로 만들어져 기본 작동방식이 비슷하지만 두 데이터 프레임의 <b>행 인덱스를 기준</b>으로 결합하는 점이 차이점

In [113]:
df1.head()

Unnamed: 0,id,stock_name,value,price
0,128940,한미약품,59385.666667,421000
1,130960,CJ E&M,58540.666667,98900
2,138250,엔에스쇼핑,14558.666667,13200
3,139480,이마트,239230.833333,254500
4,142280,녹십자엠에스,468.833333,10200


In [114]:
df1 = df1.set_index("id")

In [115]:
df2 = df2.set_index("id")

In [116]:
df1

Unnamed: 0_level_0,stock_name,value,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
128940,한미약품,59385.666667,421000
130960,CJ E&M,58540.666667,98900
138250,엔에스쇼핑,14558.666667,13200
139480,이마트,239230.833333,254500
142280,녹십자엠에스,468.833333,10200
145990,삼양사,82750.0,82000
185750,종근당,40293.666667,100500
192400,쿠쿠홀딩스,179204.666667,177500
199800,툴젠,-2514.333333,115400
204210,모두투어리츠,3093.333333,3475


In [117]:
df2

Unnamed: 0_level_0,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
130960,CJ E&M,6301.333333,54068,15.695091,1.829178
136480,하림,274.166667,3551,11.489362,0.887074
138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
139480,이마트,18268.166667,295780,13.931338,0.860437
145990,삼양사,5741.0,108090,14.283226,0.758627
161390,한국타이어,5648.5,51341,7.453306,0.820007
181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
185750,종근당,3990.333333,40684,25.185866,2.470259
204210,모두투어리츠,85.166667,5335,40.802348,0.651359
207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551



# merge 는 dataframe, series 둘다 됨

# 데이터프레임만 join 을 슬수있다!!!!

# 기준이 되는 데이터 프레임이 반드시 있다 => 뉘앙스가 다르다!!!!!

# 그래서 기준이 기본 left 다!!!!

In [125]:
# df1 이 기준이고 df2 를 가져와서 join 을 하게됨
# 기본은 left outer 조인을 하게됨
df3 = df1.join(df2)

In [126]:
df3

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
128940,한미약품,59385.666667,421000,,,,,
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068.0,15.695091,1.829178
138250,엔에스쇼핑,14558.666667,13200,,,,,
139480,이마트,239230.833333,254500,이마트,18268.166667,295780.0,13.931338,0.860437
142280,녹십자엠에스,468.833333,10200,,,,,
145990,삼양사,82750.0,82000,삼양사,5741.0,108090.0,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684.0,25.185866,2.470259
192400,쿠쿠홀딩스,179204.666667,177500,,,,,
199800,툴젠,-2514.333333,115400,,,,,
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [127]:
# outer 하기 싫은데여?
df5 = df1.join(df2, how="inner") # how 로 처리하거라~

In [128]:
df5

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


# 그룹 연산

- 데이터를 특정 기준에 따라 몇 개의 그룹으로 분할하여 처리하는 것

- 데이터를 집계, 변환, 필터링하는데 효율적
  
- groupby() 메소드의 처리 과정
    1. 분할 : 데이터를 특정 조건에 의해 분할
    2. 적용: 데이터를 집계, 변호나, 필터링하는데 필요한 메소드 적용
    3. 결합 : 2단계의 처리 결과를 하나로 결합

In [129]:
# 반별 평균 이런거 그룹연산

In [130]:
# 분할 : group by 를 한다는 것은 2개의 데이터 프레임이 생긴것과 같다 => 분할
# 적용 : 1반에 국어점수의 평균... 2반에 국어점수 평균....
# 결합 : 결과물들을 합쳐서 1반의 평균과 2반의 평균의 데이터프레임 1개가 생긴다

# 이런 과정이 화면에 모두 안나옴!!!! 좀 그래서 구조를 잘알고 있어야한다~

## 그룹 객체 만들기

### 1개 열을 기준으로 그룹화

In [30]:
titanic = sns.load_dataset("titanic")

In [132]:
df = titanic.loc[:, ["age","sex","class","fare","survived"]]

In [133]:
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [142]:
# class를 기준으로 그룹화 진행

grouped = df.groupby(["class"], observed=True) # observed=True 버전에 의해서 입력함
# numeric_only 도 원래 기본값이 True 였는뎅...ㅠ 바뀌었다


# observed=True
# class가 NaN 이런 데이터에 대비를 할꺼냐~ 말꺼냐~~~
# observed=True 하면 그냥 내꺼 쓰겠다 라는 뜻

In [140]:
grouped 
# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000285DC8AA210> 
#  3개의 데이터프레임을 표현이 되어있는데 출력은 안해줌
# iterater 객체라서 반복문 가능

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000285DC8AA710>

In [146]:
for key, group in grouped :
    print("*key : " , key)
    print("*group :" , group) # 분할이 된 상태이다

*key :  ('First',)
*group :       age     sex  class     fare  survived
1    38.0  female  First  71.2833         1
3    35.0  female  First  53.1000         1
6    54.0    male  First  51.8625         0
11   58.0  female  First  26.5500         1
23   28.0    male  First  35.5000         1
..    ...     ...    ...      ...       ...
871  47.0  female  First  52.5542         1
872  33.0    male  First   5.0000         0
879  56.0  female  First  83.1583         1
887  19.0  female  First  30.0000         1
889  26.0    male  First  30.0000         1

[216 rows x 5 columns]
*key :  ('Second',)
*group :       age     sex   class     fare  survived
9    14.0  female  Second  30.0708         1
15   55.0  female  Second  16.0000         1
17    NaN    male  Second  13.0000         1
20   35.0    male  Second  26.0000         0
21   34.0    male  Second  13.0000         1
..    ...     ...     ...      ...       ...
866  27.0  female  Second  13.8583         1
874  28.0  female  Second  24.0

In [149]:
# 연산 메서드를 적용시켜보자
avg = grouped.mean(numeric_only = True) # 이렇게 되면 숫자형만 나오네???????

In [148]:
avg

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,38.233441,84.154687,0.62963
Second,29.87763,20.662183,0.472826
Third,25.14062,13.67555,0.242363


In [153]:
# 개별 그룹 선택하기
# group3 = grouped.get_group("Third) 
group3 = grouped.get_group(("Third",)) # 바뀌는 문법에 따라... 튜플을 사용했다...

In [156]:
group3.head() # 개인적으로는 필터링을 쓰지... 싶은감이있다...

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
2,26.0,female,Third,7.925,1
4,35.0,male,Third,8.05,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.075,0


### 여러 열을 기준으로 그룹화

In [160]:
# class 열과 , sex 열을 기준으로 분할
grouped_two  = df.groupby(["class", "sex"], observed = True)

In [161]:
grouped_two

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000285DC99D5B0>

In [163]:
for key, group in grouped_two :
    print("*key : " , key)
    print("*group :" , len(group)) 

*key :  ('First', 'female')
*group : 94
*key :  ('First', 'male')
*group : 122
*key :  ('Second', 'female')
*group : 76
*key :  ('Second', 'male')
*group : 108
*key :  ('Third', 'female')
*group : 144
*key :  ('Third', 'male')
*group : 347


In [164]:
# grouped_two 그룹에 연산 메소드를 적용해보자 

avg_two = grouped_two.mean()
avg_two

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447


In [165]:
# grouped_two 그룹 객체에서 개별 그룹 선택하기

group3f = grouped_two.get_group(("Third", "female"))

In [167]:
group3f.head()

Unnamed: 0,age,sex,class,fare,survived
2,26.0,female,Third,7.925,1
8,27.0,female,Third,11.1333,1
10,4.0,female,Third,16.7,1
14,14.0,female,Third,7.8542,0
18,31.0,female,Third,18.0,0


## 그룹 연산 메소드

### 집계 함수( 차원이 줄어들어요 )

- 그룹 객체에 다양한 연산을 적용하는 과정
- 집계 기능을 내장하고 있는 판다스 기본함수
- mean()
- max()
- min()
- sum()
- count()
- size()
- var()
- std()
- describe()
- info()
- first()
- last()

In [168]:
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [169]:
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000285D8D99F30>

In [172]:
# 각 그룹에 대한 모든 열의 표준 편차를 집계
grouped.std(numeric_only = True) # 컬럼이 (열 3개 행 3개 )여러개 ... 총 9 개 이렇게해서 데이터 프레임 형태가 된다!!!!!
# 차원을 줄여~~~!!~!~!~~!~!!~!~!!~!~!!!!~!!

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,14.802856,78.380373,0.484026
Second,14.001077,13.417399,0.500623
Third,12.495398,11.778142,0.428949


In [173]:
# 각 그룹에 대한 fare 열의 표준편차를 집계
grouped["fare"].std() # 컬럼이 1개 니까 시리즈가 되지용~

class
First     78.380373
Second    13.417399
Third     11.778142
Name: fare, dtype: float64

In [174]:
# 직접 집계함수 만들기???
# 그룹 객체에 agg() 메소드 적용 - 사용자 정의 함수를 인수로 전달
def min_max(x):
    return x.max() - x.min()

- 집계 연산을 처리하는 사용자 정의 함수를 그룹 객체 에 적용하기 위해서 agg() 메소드 이용

In [180]:
grouped[["age","fare","survived"]].agg(min_max)

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,79.08,512.3292,1
Second,69.33,73.5,1
Third,73.58,69.55,1


#### agg 함수를 이용해서 동시에 여러개의 함수를 사용하여 각 그룹별 데이터에 대한 집계연산을 처리
- 각각의 열에 여러개의 함수를 일괄적용할때는 리스트 형태로 인수전달
- 열마다 다른 종류의 함수를 전달하려면 딕셔너리 전달 {열 : 함수}

In [191]:
# 여러함수를 각 열에 동일하게 적용
grouped.agg(["min", "max"])

Unnamed: 0_level_0,age,age,sex,sex,fare,fare,survived,survived
Unnamed: 0_level_1,min,max,min,max,min,max,min,max
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
First,0.92,80.0,female,male,0.0,512.3292,0,1
Second,0.67,70.0,female,male,0.0,73.5,0,1
Third,0.42,74.0,female,male,0.0,69.55,0,1


In [192]:
# 각 열 컬럼 적용
grouped.agg({"fare" : ["max", "min"], "age" : "mean"}) # 이거 많이 활용해주세요...

Unnamed: 0_level_0,fare,fare,age
Unnamed: 0_level_1,max,min,mean
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
First,512.3292,0.0,38.233441
Second,73.5,0.0,29.87763
Third,69.55,0.0,25.14062


In [193]:
# 3명의 ... 그 이야기...
# 모든 데이터의 평균을... 구했다고...

### 그룹 객체 필터링

- 그룹 객체에 filter() 메소드를 적용할 때 조건식을 가진 함수를 전달하여 조건이 참인 그룹만을 필터링

In [8]:
df

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


# 그룹한다음에 필터 쓰기

In [13]:
grouped = df.groupby(["class"])

  grouped = df.groupby(["class"])


In [14]:
for i, group in grouped:
    print("key : ", i)
    print("group : ", group)

key :  ('First',)
group :        age     fare  class
1    38.0  71.2833  First
3    35.0  53.1000  First
6    54.0  51.8625  First
11   58.0  26.5500  First
23   28.0  35.5000  First
..    ...      ...    ...
871  47.0  52.5542  First
872  33.0   5.0000  First
879  56.0  83.1583  First
887  19.0  30.0000  First
889  26.0  30.0000  First

[216 rows x 3 columns]
key :  ('Second',)
group :        age     fare   class
9    14.0  30.0708  Second
15   55.0  16.0000  Second
17    NaN  13.0000  Second
20   35.0  26.0000  Second
21   34.0  13.0000  Second
..    ...      ...     ...
866  27.0  13.8583  Second
874  28.0  24.0000  Second
880  25.0  26.0000  Second
883  28.0  10.5000  Second
886  27.0  13.0000  Second

[184 rows x 3 columns]
key :  ('Third',)
group :        age     fare  class
0    22.0   7.2500  Third
2    26.0   7.9250  Third
4    35.0   8.0500  Third
5     NaN   8.4583  Third
7     2.0  21.0750  Third
..    ...      ...    ...
882  22.0  10.5167  Third
884  25.0   7.0500  Third


In [16]:
# 데이터 개수가 200개 이상인 그룹만을 필터링 하여 데이터프레임으로 반환 
grouped_filter = grouped.filter(lambda x : len(x) >= 200) # second 는 200 이상 안되기 때문에 필터링되어서안나옴

grouped_filter

Unnamed: 0,age,fare,class
0,22.0,7.2500,Third
1,38.0,71.2833,First
2,26.0,7.9250,Third
3,35.0,53.1000,First
4,35.0,8.0500,Third
...,...,...,...
885,39.0,29.1250,Third
887,19.0,30.0000,First
888,,23.4500,Third
889,26.0,30.0000,First


In [17]:
# age 열의 평균이 30보다 작은 그룹만을 필터링
age_filter = grouped.filter(lambda x : x["age"].mean() < 30)

In [18]:
age_filter.head()

Unnamed: 0,age,fare,class
0,22.0,7.25,Third
2,26.0,7.925,Third
4,35.0,8.05,Third
5,,8.4583,Third
7,2.0,21.075,Third


In [24]:
age_filter["class"].unique() # 필터링된 class 의 고유값을 찍어봐라

['Third', 'Second']
Categories (3, object): ['First', 'Second', 'Third']

# 그룹객체에 함수 매핑

In [26]:
grouped.apply(lambda x : x.describe(), include_groups=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,count,186.0,216.0
First,mean,38.233441,84.154687
First,std,14.802856,78.380373
First,min,0.92,0.0
First,25%,27.0,30.92395
First,50%,37.0,60.2875
First,75%,49.0,93.5
First,max,80.0,512.3292
Second,count,173.0,184.0
Second,mean,29.87763,20.662183


In [28]:
# 직접만든 함수 를 매핑
# 표준 점수를 계산하는 사용자 함수 정의

def z_scroe(x):
    return (x - x.mean()) / x.std()

In [29]:
grouped["age"].apply(z_scroe)

class     
First  1     -0.015770
       3     -0.218434
       6      1.065103
       11     1.335321
       23    -0.691315
                ...   
Third  882   -0.251342
       884   -0.011254
       885    1.109159
       888         NaN
       890    0.548953
Name: age, Length: 891, dtype: float64

# 멀티 인덱스

- 행 인덱스를 여러 레벨로 구현하는 것

In [31]:
df = titanic.loc[:, ["class","sex","age","fare","survived"]]

In [32]:
df.head()

Unnamed: 0,class,sex,age,fare,survived
0,Third,male,22.0,7.25,0
1,First,female,38.0,71.2833,1
2,Third,female,26.0,7.925,1
3,First,female,35.0,53.1,1
4,Third,male,35.0,8.05,0


In [36]:
# class 열, sex 열을 기준으로 분할
grouped = df.groupby(["class", "sex"], observed = True) # 멀티 인덱스 설정 class 와 sex 로

In [37]:
gdf = grouped.mean() # 그것들의 평균

In [38]:
gdf

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447


In [41]:
# class 값이 First 인 행을 선택하여 출력
gdf.loc["First"] # 딱히 다르지 않다

Unnamed: 0_level_0,age,fare,survived
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,34.611765,106.125798,0.968085
male,41.281386,67.226127,0.368852


In [42]:
# class 값이 Frist 이고, sex 값이 female 인 행을 선ㅌ개하여 출력
gdf.loc[("First","female")]

age          34.611765
fare        106.125798
survived      0.968085
Name: (First, female), dtype: float64

In [47]:
# 남성데이터만 볼래요
gdf.xs("male", level = "sex") # 단계 앞당기기

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,41.281386,67.226127,0.368852
Second,30.740707,19.741782,0.157407
Third,26.507589,12.661633,0.135447


# 피벗

- 피벗 잘 쓰는 사람 = 엑셀 잘하는 사람

- pivot_table()
- 엑셀에서 사용하는 피벗테이블과 비슷한 기능
- 커다란 표의 데이터를 요약하는 통계표

In [48]:
df.head()

Unnamed: 0,class,sex,age,fare,survived
0,Third,male,22.0,7.25,0
1,First,female,38.0,71.2833,1
2,Third,female,26.0,7.925,1
3,First,female,35.0,53.1,1
4,Third,male,35.0,8.05,0


In [57]:
# 행, 열, 값, 집계에 사용할 열을 1개식 지정  - 평균 집계

pdf1 = pd.pivot_table(

    df,
    index = "class", # 행
    columns = "sex", # 컬럼에 성별
    values = "age", # 인스턴스에 들어갈 열,,
    aggfunc = "mean", # 그것의 연산... 집계함수 ( sum, min, max, mean...등을 한다)
    observed = True
)


In [58]:
pdf1

sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,34.611765,41.281386
Second,28.722973,30.740707
Third,21.75,26.507589


In [62]:
# 값에 적용하는 집계함수를 2개 이상 지정 가능 - 생존율, 생존자 수 집계

pdf2 = pd.pivot_table (
     df,
    index = "class",
    columns = "sex",
    values = "survived", 
    aggfunc = ["mean","sum"], # 2개
    observed = True
)
pdf2

Unnamed: 0_level_0,mean,mean,sum,sum
sex,female,male,female,male
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
First,0.968085,0.368852,91,45
Second,0.921053,0.157407,70,17
Third,0.5,0.135447,72,47


In [76]:
# 행, 열, 값에 사용할 열을 2개 이상 지정가능 - 평균 나이, 최대 요금집계

df3 = pd.pivot_table(
    df,
    index = ["class", "sex"],
    columns = "survived",
    values = ["age", "fare"],
    aggfunc = ["mean", "max"],
    observed = True
)


df3


df3.style.set_properties(color="red", align="middle", background="#black" )  


Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


In [74]:
# 열심히 공부해 보자요