## ■ 데이터 프레임 원소에 함수 매핑

데이터프레임에 apply(axis=0) 메소드를 적용하면 모든 열을 하나씩 분리하여 매핑 함수의 인자로 각 열(시리즈)이 전달된다.

__문법 :__ DataFrame객체.apply(매핑함수,axis=0)

In [6]:
# 예제1
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']]
print(df.head())

def add_10(n):
    return n + 10

# applymap 을 이용해서 df 데이터프레임의 모든열에 함수를 매핑함.
# 어제 배운 시리즈에 매핑하는 문법 : Series객체.apply('매핑함수')

df_map = df.applymap(add_10)
print(df_map.head())

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500
    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


## 문제154. 케글의 타이타닉 데이터에서 이름과 이름의 길이를 출력하시오!
### (어제배운 series객체.apply(함수)

In [11]:
import pandas as pd

tat = pd.read_csv("d:\\data\\train.csv")

tat['Name_length'] = tat['Name'].apply(len)
print(tat[['Name','Name_length']])

                                                  Name  Name_length
0                              Braund, Mr. Owen Harris           23
1    Cumings, Mrs. John Bradley (Florence Briggs Th...           51
2                               Heikkinen, Miss. Laina           22
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)           44
4                             Allen, Mr. William Henry           24
..                                                 ...          ...
886                              Montvila, Rev. Juozas           21
887                       Graham, Miss. Margaret Edith           28
888           Johnston, Miss. Catherine Helen "Carrie"           40
889                              Behr, Mr. Karl Howell           21
890                                Dooley, Mr. Patrick           19

[891 rows x 2 columns]


## 문제155. 위의 결과를 다시 출력하는데 이름의 길이가 가장 긴 승객부터 출력하시오!

In [19]:
import pandas as pd

tat = pd.read_csv("d:\\data\\train.csv")

tat['Name_length'] = tat['Name'].apply(len)

# 출력할때(Print), sort_values를 써준다.
print(tat[['Name','Name_length']].sort_values(by = "Name_length", ascending = False))

                                                  Name  Name_length
307  Penasco y Castellana, Mrs. Victor de Satode (M...           82
427  Phillips, Miss. Kate Florence ("Mrs Kate Louis...           67
556  Duff Gordon, Lady. (Lucille Christiana Sutherl...           65
670  Brown, Mrs. Thomas William Solomon (Elizabeth ...           61
25   Asplund, Mrs. Carl Oscar (Selma Augusta Emilia...           57
..                                                 ...          ...
509                                     Lang, Mr. Fang           14
169                                      Ling, Mr. Lee           13
74                                       Bing, Mr. Lee           13
692                                       Lam, Mr. Ali           12
826                                       Lam, Mr. Len           12

[891 rows x 2 columns]


## ■ 데이터프레임의 함수 매핑 문법을 이용해서 결측치를 확인하는 방법

In [24]:
# 예제1
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']]

def missing_value(series): # 시리즈를 인수로 전달
    return series.isnull() # 불린(boolen) 시리즈를 반환함.

result = df.apply(missing_value, axis = 0)b
print(result) # NaN값이 True로 나온다.

       age   fare
0    False  False
1    False  False
2    False  False
3    False  False
4    False  False
..     ...    ...
886  False  False
887  False  False
888   True  False
889  False  False
890  False  False

[891 rows x 2 columns]


## 문제156. 케글의 타이타닉 데이터에서 각 열의 누락데이터(NaN)값이 어떻게 있는지 확인하시오!
## 몇건이 있는지 출력하시오!

In [31]:
import pandas as pd
import seaborn as sns

df = pd.read_csv("d:\\data\\train.csv")

def missing_value(series): # 시리즈를 인수로 전달
    return series.isnull() # 불린(boolen) 시리즈를 반환함.

def missing_count(x): 
    return missing_value(x).sum() 

print(df.apply(missing_count))

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


## 문제157. 케글의 타이타닉의 나이 데이터의 결측칙 177개를 나이 데이터의 중앙값으로 치환하시오!

In [58]:
import pandas as pd
import seaborn as sns

df = pd.read_csv("d:\\data\\train.csv")

def missing_value(series): # 시리즈를 인수로 전달
    return series.isnull() # 불린(boolen) 시리즈를 반환함.

def missing_count(x): 
    return missing_value(x).sum() 

print(df.apply(missing_count), end = '\n\n') # 결측치 확인

age_median = df['Age'].median()
age_mean = df['Age'].mean()

print(age_median, end = '\n\n') # Age 컬럼의 중앙값 확인


df['Age'] = df['Age'].fillna(age_median)


print(df['Age'])

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

28.0

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    28.0
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64


## 문제158. 케글의 타이타닉의 컬럼중 누락데이터가 제일 많은 cabin컬럼의 결측치를 다른 값으로 치환해보시오!

In [53]:
import pandas as pd
import seaborn as sns

df = pd.read_csv("d:\\data\\train.csv")

def missing_value(series): # 시리즈를 인수로 전달
    return series.isnull() # 불린(boolen) --> True or False 시리즈를 반환함.

def missing_count(x): 
    return missing_value(x).sum() 

print(df.apply(missing_value), end = '\n\n')
print(df.apply(missing_count), end = '\n\n') # 결측치 확인

df['Cabin'] = df['Cabin'].fillna(method = 'ffill')
print(df['Cabin'])

     PassengerId  Survived  Pclass   Name    Sex    Age  SibSp  Parch  Ticket  \
0          False     False   False  False  False  False  False  False   False   
1          False     False   False  False  False  False  False  False   False   
2          False     False   False  False  False  False  False  False   False   
3          False     False   False  False  False  False  False  False   False   
4          False     False   False  False  False  False  False  False   False   
..           ...       ...     ...    ...    ...    ...    ...    ...     ...   
886        False     False   False  False  False  False  False  False   False   
887        False     False   False  False  False  False  False  False   False   
888        False     False   False  False  False   True  False  False   False   
889        False     False   False  False  False  False  False  False   False   
890        False     False   False  False  False  False  False  False   False   

      Fare  Cabin  Embarked

## * 데이터 프레임에 함수를 매핑하는 문법 2가지

1. 데이터프레임객체.apply(매핑함수명)
2. 데이터프레임객체.pipe(매핑함수명)

## 문제159. 타이타닉 데이터 전체에 결측치값이 모두 몇개인지 출력하시오!

In [54]:
import pandas as pd
import seaborn as sns

df = pd.read_csv("d:\\data\\train.csv")

def missing_value(x): # 시리즈를 인수로 전달
    return x.isnull() # 불린(boolen) 시리즈를 반환함.

def missing_count(x): 
    return missing_value(x).sum() 

def total_number_missing(x):
    return missing_count(x).sum()

print(df.pipe(total_number_missing))

866


## ■ 열의 재구성 (열 순서 변경)

__문법 :__ DataFrame 객체[재구성할 열 이름의 리스트]

필요한 컬럼만 뽑아서 분석할 때 유용하다.

## 문제160. seaborn의 타이타닉 데이터에서 컬럼을 survived와 pclass와 sex,age 컬럼만 선택하고 행은 0행부터 4행까지만 출력하시오.

__힌트 :__  
데이터프레임 객체.loc[행 인덱스, 열이름]  
데이터프레임 객체.iloc[행번호, 열번호]  

In [72]:
import seaborn as sns

titanic = sns.load_dataset('titanic')

print(titanic[['survived', 'pclass', 'sex', 'age']].head(), end = '\n\n')

print(titanic[['survived', 'pclass', 'sex', 'age']].iloc[0:5], end = '\n\n')

df1 = titanic.loc[0:4, ['survived', 'pclass', 'sex', 'age']]
df2 = titanic.loc[0:4, 'survived':'age']

print(df1, end = '\n\n')
print(df2)

   survived  pclass     sex   age
0         0       3    male  22.0
1         1       1  female  38.0
2         1       3  female  26.0
3         1       1  female  35.0
4         0       3    male  35.0

   survived  pclass     sex   age
0         0       3    male  22.0
1         1       1  female  38.0
2         1       3  female  26.0
3         1       1  female  35.0
4         0       3    male  35.0

   survived  pclass     sex   age
0         0       3    male  22.0
1         1       1  female  38.0
2         1       3  female  26.0
3         1       1  female  35.0
4         0       3    male  35.0

   survived  pclass     sex   age
0         0       3    male  22.0
1         1       1  female  38.0
2         1       3  female  26.0
3         1       1  female  35.0
4         0       3    male  35.0


## 문제161. 위의 출력된 컬럼명을 abcd순서대로 출력되게 하시오!

age pclass sex survived

In [86]:
import seaborn as sns

titanic = sns.load_dataset('titanic')

df = titanic.loc[0:4, 'survived':'age']

columns = list(df.columns.values)
print(columns, end = '\n\n')

columns_sorted = sorted(columns)

print(df[columns_sorted])

['survived', 'pclass', 'sex', 'age']

    age  pclass     sex  survived
0  22.0       3    male         0
1  38.0       1  female         1
2  26.0       3  female         1
3  35.0       1  female         1
4  35.0       3    male         0


## ■ 열(컬럼) 분리

하나의 열이 여러가지 정보를 담고 있을때 각 정보를 서로 분리해서 사용하는 경우가 있다.  

__예 :__ '연월일' 정보가 있을때 '연', '월', '일' 을 구분해서 3개의 열을 만든다.

사람의 이름이 들어있는 열을 '성'과 '이름'으로 구분해서 만든다.

### 예제1. 머신러닝 139번글. 데이터 전처리 수업자료

In [89]:
import pandas as pd

df = pd.read_excel("d:\\data\\주가데이터.xlsx")
print(df.columns)

Index(['연월일', '당일종가', '전일종가', '시가', '고가', '저가', '거래량'], dtype='object')


In [102]:
import pandas as pd

df = pd.read_excel("d:\\data\\주가데이터.xlsx")
print(df.columns)

df['연월일'] = df['연월일'].astype('str') # datetime ---> 문자열로 변경
dates = df['연월일'].str.split('-') # Series는 split기능이 없기 때문에 str을 추가해준다.
print(dates.head(), end = '\n\n') # 문자열 리스트가 출력됨.

# 문자열 리스트의 인덱싱?
# 시리즈 객체.str.get(인덱스)
# [2018, 06, 26] =>  2018 -> 0번, 06 -> 1번, 26 -> 2번

df['연'] = dates.str.get(0)
df['월'] = dates.str.get(1)
df['일'] = dates.str.get(2)

print(df.head())

Index(['연월일', '당일종가', '전일종가', '시가', '고가', '저가', '거래량'], dtype='object')
0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
Name: 연월일, dtype: object

          연월일   당일종가  전일종가     시가     고가     저가     거래량     연   월   일
0  2018-07-02  10100   600  10850  10900  10000  137977  2018  07  02
1  2018-06-29  10700   300  10550  10900   9990  170253  2018  06  29
2  2018-06-28  10400   500  10900  10950  10150  155769  2018  06  28
3  2018-06-27  10900   100  10800  11050  10500  133548  2018  06  27
4  2018-06-26  10800   350  10900  11000  10700   63039  2018  06  26


### 문제162. emp데이터 프레임의 hiredate를 위와같이 연,월,일로 분리해서 컬럼을 각각 생성하시오.

In [109]:
import pandas as pd

emp = pd.read_csv("d:\\data\\emp.csv", header = 0)

print(emp.columns, end = '\n\n')

emp['hiredate'] = emp['hiredate'].astype('str')
dates = emp['hiredate'].str.split('-')
print(dates.head(), end = '\n\n')

emp['연'] = dates.str.get(0)
emp['월'] = dates.str.get(1)
emp['일'] = dates.str.get(2)

print(emp.head())

Index(['empno', 'ename', 'job', 'mgr', 'hiredate', 'sal', 'comm', 'deptno'], dtype='object')

0    [1981, 11, 17]
1    [1981, 05, 01]
2    [1981, 05, 09]
3    [1981, 04, 01]
4    [1981, 09, 10]
Name: hiredate, dtype: object

   empno   ename        job     mgr    hiredate   sal    comm  deptno     연  \
0   7839    KING  PRESIDENT     NaN  1981-11-17  5000     NaN      10  1981   
1   7698   BLAKE    MANAGER  7839.0  1981-05-01  2850     NaN      30  1981   
2   7782   CLARK    MANAGER  7839.0  1981-05-09  2450     NaN      10  1981   
3   7566   JONES    MANAGER  7839.0  1981-04-01  2975     NaN      20  1981   
4   7654  MARTIN   SALESMAN  7698.0  1981-09-10  1250  1400.0      30  1981   

    월   일  
0  11  17  
1  05  01  
2  05  09  
3  04  01  
4  09  10  


## 문제163. 카페에서 코스피 주가 데이터를 내려받아서 K_index.csv와 S_stock.csv를 각각 판다스 데이터 프레임으로 생성하시오~

In [112]:
import pandas as pd

k_index = pd.read_csv("d:\\data\\K_index.csv")
s_stock = pd.read_csv("d:\\data\\S_stock.csv")

print(k_index.head())

         date    kospi  k_rate
0  2015-03-25  2042.81     NaN
1  2015-03-26  2022.56  -0.991
2  2015-03-27  2019.80  -0.136
3  2015-03-30  2030.04   0.507
4  2015-03-31  2041.03   0.541


## 문제164. k_index 데이터 프레임의 파생변수를 연, 월, 일을 각각 생성하시오!

In [114]:
import pandas as pd

k_index = pd.read_csv("d:\\data\\K_index.csv")

k_index['date'] = k_index['date'].astype(str)
dates = k_index['date'].str.split('-')

print(dates)

k_index['연'] = dates.str.get(0)
k_index['월'] = dates.str.get(1)
k_index['일'] = dates.str.get(2)

print(k_index)

0      [2015, 03, 25]
1      [2015, 03, 26]
2      [2015, 03, 27]
3      [2015, 03, 30]
4      [2015, 03, 31]
            ...      
244    [2016, 03, 21]
245    [2016, 03, 22]
246    [2016, 03, 23]
247    [2016, 03, 24]
248    [2016, 03, 25]
Name: date, Length: 249, dtype: object
           date    kospi  k_rate     연   월   일
0    2015-03-25  2042.81     NaN  2015  03  25
1    2015-03-26  2022.56  -0.991  2015  03  26
2    2015-03-27  2019.80  -0.136  2015  03  27
3    2015-03-30  2030.04   0.507  2015  03  30
4    2015-03-31  2041.03   0.541  2015  03  31
..          ...      ...     ...   ...  ..  ..
244  2016-03-21  1989.76  -0.118  2016  03  21
245  2016-03-22  1996.81   0.354  2016  03  22
246  2016-03-23  1995.12  -0.085  2016  03  23
247  2016-03-24  1985.97  -0.459  2016  03  24
248  2016-03-25  1983.81  -0.109  2016  03  25

[249 rows x 6 columns]


## 문제165. 위의 결과에서 3월달 데이터만 검색하시오~

In [128]:
import pandas as pd

k_index = pd.read_csv("d:\\data\\K_index.csv")

k_index['date'] = k_index['date'].astype(str)
dates = k_index['date'].str.split('-')

print(dates, end = '\n\n')

k_index['연'] = dates.str.get(0)
k_index['월'] = dates.str.get(1)
k_index['일'] = dates.str.get(2)

print(k_index[:][k_index['월']=='03'])

0      [2015, 03, 25]
1      [2015, 03, 26]
2      [2015, 03, 27]
3      [2015, 03, 30]
4      [2015, 03, 31]
            ...      
244    [2016, 03, 21]
245    [2016, 03, 22]
246    [2016, 03, 23]
247    [2016, 03, 24]
248    [2016, 03, 25]
Name: date, Length: 249, dtype: object

           date    kospi  k_rate     연   월   일
0    2015-03-25  2042.81     NaN  2015  03  25
1    2015-03-26  2022.56  -0.991  2015  03  26
2    2015-03-27  2019.80  -0.136  2015  03  27
3    2015-03-30  2030.04   0.507  2015  03  30
4    2015-03-31  2041.03   0.541  2015  03  31
231  2016-03-02  1947.42   1.605  2016  03  02
232  2016-03-03  1958.17   0.552  2016  03  03
233  2016-03-04  1955.63  -0.130  2016  03  04
234  2016-03-07  1957.87   0.115  2016  03  07
235  2016-03-08  1946.12  -0.600  2016  03  08
236  2016-03-09  1952.95   0.351  2016  03  09
237  2016-03-10  1969.33   0.839  2016  03  10
238  2016-03-11  1971.41   0.106  2016  03  11
239  2016-03-14  1972.27   0.044  2016  03  14
240  2016-03-

### 문제166.(점심시간문제) 케글의 타이타닉 데이터에서 나이가 10세미만 (0~9세) 인 승객들의 모든 데이터를 검색하시오! 

__타이타닉의 중요한 파생변수 :__ " 여자와 아이먼저 "

In [134]:
import pandas as pd

tat = pd.read_csv("d:\\data\\train.csv")

# print(tat.columns)

# print(tat, end = '\n\n')

print(tat[:][tat['Age'] <= 10].sort_values(by = 'Age', ascending = False))

     PassengerId  Survived  Pclass                                   Name  \
419          420         0       3              Van Impe, Miss. Catharina   
819          820         0       3           Skoog, Master. Karl Thorsten   
147          148         0       3       Ford, Miss. Robina Maggie "Ruby"   
480          481         0       3         Goodwin, Master. Harold Victor   
489          490         1       3  Coutts, Master. Eden Leslie "Neville"   
..           ...       ...     ...                                    ...   
831          832         1       2        Richards, Master. George Sibley   
644          645         1       3                 Baclini, Miss. Eugenie   
469          470         1       3          Baclini, Miss. Helene Barbara   
755          756         1       2              Hamalainen, Master. Viljo   
803          804         1       3        Thomas, Master. Assad Alexander   

        Sex    Age  SibSp  Parch      Ticket     Fare Cabin Embarked  
419 

## ■ 필터링 (filtering)

시리즈 또는 데이터 프레임의 데이터 중에서 특정 조건식을 만족하는 원소만 따로 추출하는 개념입니다.

1. 불린 인덱싱
2. isin() 메소드 활용

## ■ 불린 인덱싱

시리즈 객체에 어떤 조건식을 적용하면 각 원소에 대해 참/거짓을 판별하여 불린(참,거짓) 값으로 구성된 시리즈를 반환한다.

__문법 :__ DataFrame객체[불린 시리즈]

### 예제1. 타이타닉 데이터에서 나이가 10세 미만이고 여성인 승객만 검색하시오!

In [137]:
import pandas as pd

tat = pd.read_csv("d:\\data\\train.csv")

mask = (tat['Age'] < 10) & (tat['Sex'] == 'female')


print(mask, end = '\n\n\n')

print(tat[:][mask])

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Length: 891, dtype: bool


     PassengerId  Survived  Pclass                                      Name  \
10            11         1       3           Sandstrom, Miss. Marguerite Rut   
24            25         0       3             Palsson, Miss. Torborg Danira   
43            44         1       2  Laroche, Miss. Simonne Marie Anne Andree   
58            59         1       2              West, Miss. Constance Mirium   
119          120         0       3         Andersson, Miss. Ellis Anna Maria   
147          148         0       3          Ford, Miss. Robina Maggie "Ruby"   
172          173         1       3              Johnson, Miss. Eleanor Ileen   
184          185         1       3       Kink-Heilmann, Miss. Luise Gretchen   
205          206         0       3                Strom, Miss. Telma Matilda   
233          234         1    

In [138]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
mask1 = (titanic.age < 10) & (titanic.sex == 'female')
df_teenage = titanic.loc[mask1, :]
print(df_teenage)

     survived  pclass     sex   age  sibsp  parch      fare embarked   class  \
10          1       3  female  4.00      1      1   16.7000        S   Third   
24          0       3  female  8.00      3      1   21.0750        S   Third   
43          1       2  female  3.00      1      2   41.5792        C  Second   
58          1       2  female  5.00      1      2   27.7500        S  Second   
119         0       3  female  2.00      4      2   31.2750        S   Third   
147         0       3  female  9.00      2      2   34.3750        S   Third   
172         1       3  female  1.00      1      1   11.1333        S   Third   
184         1       3  female  4.00      0      2   22.0250        S   Third   
205         0       3  female  2.00      0      1   10.4625        S   Third   
233         1       3  female  5.00      4      2   31.3875        S   Third   
237         1       2  female  8.00      0      2   26.2500        S  Second   
297         0       1  female  2.00     

## 문제167. 위의 승객들의 생존율이 어떻게 되는지 출력하시오!

In [147]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
mask1 = (titanic.age < 10) & (titanic.sex == 'female')
df_teenage = titanic.loc[mask1, :]
result = df_teenage['survived'] == 1

print(result, end = '\n\n')
print(result.mean(), end = '\n\n')
print(df_teenage['survived'].value_counts(), end = '\n\n') # 1이 '생존' // 0이 '사망'
print(df_teenage['survived'].mean()) # 생존율

10      True
24     False
43      True
58      True
119    False
147    False
172     True
184     True
205    False
233     True
237     True
297    False
374    False
381     True
448     True
469     True
479     True
530     True
535     True
541    False
618     True
634    False
642    False
644     True
691     True
720     True
750     True
777     True
813    False
852    False
Name: survived, dtype: bool

0.6333333333333333

1    19
0    11
Name: survived, dtype: int64

0.6333333333333333


## 문제168. 성별이 남자이고 20세 이상인 승객들의 생존율을 확인하시오!

In [151]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
mask1 = (titanic['sex']=='male') & (titanic['age'] >= 20)

df_1 = titanic.loc[:][mask1]
result = df_1['survived'] == 1

print(df_1, end = '\n\n')
print(result, end = '\n\n')
print(result.mean())

     survived  pclass   sex   age  sibsp  parch     fare embarked   class  \
0           0       3  male  22.0      1      0   7.2500        S   Third   
4           0       3  male  35.0      0      0   8.0500        S   Third   
6           0       1  male  54.0      0      0  51.8625        S   First   
12          0       3  male  20.0      0      0   8.0500        S   Third   
13          0       3  male  39.0      1      5  31.2750        S   Third   
..        ...     ...   ...   ...    ...    ...      ...      ...     ...   
883         0       2  male  28.0      0      0  10.5000        S  Second   
884         0       3  male  25.0      0      0   7.0500        S   Third   
886         0       2  male  27.0      0      0  13.0000        S  Second   
889         1       1  male  26.0      0      0  30.0000        C   First   
890         0       3  male  32.0      0      0   7.7500        Q   Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True 

## 문제169. 나이가 10세 미만 또는 60세 이상인 승객의 age, sex, alone 열만 출력하시오!

In [153]:
import seaborn as sns

titanic = sns.load_dataset('titanic')

mask3 = (titanic['age'] < 10) | (titanic['age'] >= 60)
result3 = titanic.loc[mask3, ['age','sex','alone']]

print(result3)

       age     sex  alone
7     2.00    male  False
10    4.00  female  False
16    2.00    male  False
24    8.00  female  False
33   66.00    male   True
..     ...     ...    ...
831   0.83    male  False
850   4.00    male  False
851  74.00    male   True
852   9.00  female  False
869   4.00    male  False

[88 rows x 3 columns]


## 문제170. 위에 승객들의 생존율을 확인하시오!

In [160]:
import seaborn as sns

titanic = sns.load_dataset('titanic')

mask3 = (titanic['age'] < 10) | (titanic['age'] >= 60) # |는 or을 뜻함.
mask4 = titanic['age'] >= 60

result3 = titanic.loc[mask3, ['age','sex','alone']]
result4 = titanic.loc[mask4, :]

print(result4['survived'].mean()) # 현재 ['survived'] 컬럼이 0또는 1로 나와서 이렇게 해도 결과는 나온다.(추천은 안함!)

0.2692307692307692


## 문제171. 나이가 10세 미만이거나 성별이 여자인 승객들의 생존율을 확인하시오!

In [159]:
import seaborn as sns

titanic = sns.load_dataset('titanic')

mask1 = (titanic['age'] < 10) & (titanic['sex'] == 'female')

df_1 = titanic.loc[mask1, :]

result1 = df_1['survived'] == 1

print(result1.mean())

0.7283236994219653


## 문제172. 위의 정보를 담는 파생변수를 child_women 이라는 변수로 생성하시오!
### 데이터는 위의 조건에 해당되면 1이고 아니면 0으로 하시오!

In [170]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
mask1 = (titanic['age'] < 10) | (titanic['sex'] == 'female')

titanic['child_women'] = mask1.astype(int)
print(titanic)

     survived  pclass     sex   age  sibsp  parch     fare embarked   class  \
0           0       3    male  22.0      1      0   7.2500        S   Third   
1           1       1  female  38.0      1      0  71.2833        C   First   
2           1       3  female  26.0      0      0   7.9250        S   Third   
3           1       1  female  35.0      1      0  53.1000        S   First   
4           0       3    male  35.0      0      0   8.0500        S   Third   
..        ...     ...     ...   ...    ...    ...      ...      ...     ...   
886         0       2    male  27.0      0      0  13.0000        S  Second   
887         1       1  female  19.0      0      0  30.0000        S   First   
888         0       3  female   NaN      1      2  23.4500        S   Third   
889         1       1    male  26.0      0      0  30.0000        C   First   
890         0       3    male  32.0      0      0   7.7500        Q   Third   

       who  adult_male deck  embark_town alive  alo

### 면접문제2. 분석한 데이터에서 Feature engineering을 하셨나요? 타이타닉 생존자를 예측하는 머신러닝 모델을 생성할 때 생성한 파생변수는 무엇이 있었나요 ?

__답 :__ 위의 문제를 기준으로 child_women이라는 파생변수를 생성하였습니다.

__feature selection :__ 기존의 컬럼중에 원하는 컬럼만 선택!  
__feature engineering :__ 기존의 데이터를 가지고 새로운 feature를 생성

## ■ isin 메소드를 사용하여 조건 추출

__문법 :__ DataFrame의 열.isin(추출 값의 리스트)

### 예제1. 직업이 SALESMAN, ANALYST 인 사원들의 이르과 직업을 출력하시오!

In [176]:
import pandas as pd

emp = pd.read_csv("d:\\data\\emp.csv")
print(emp[['ename','job']][emp['job'].isin(['SALESMAN', 'ANALYST'])])

# isin을 쓴다면, 앞의 문제처럼 mask를 변수로 지정해서 처리할 필요가 없다.

     ename       job
4   MARTIN  SALESMAN
5    ALLEN  SALESMAN
6   TURNER  SALESMAN
8     WARD  SALESMAN
9     FORD   ANALYST
11   SCOTT   ANALYST


### 예제2. 함께 탑승한 형제 또는 배우자의 수가 3,4,5명인 승객만 검색하시오!

- sibsp : 동반한 형제자매, 배우자 수

In [187]:
import pandas as pd

tat = pd.read_csv("d:\\data\\train.csv")

result5 = tat['SibSp'].isin([3,4,5])

print(tat[:][tat['SibSp'].isin([3,4,5])], end = '\n\n')
print(len(tat[:][tat['SibSp'].isin([3,4,5])]), end = '\n\n')

print(tat[result5])
print(len(tat[result5]))
# isin을 쓴다면, 앞의 문제처럼 mask를 변수로 지정해서 처리할 필요가 없다.

     PassengerId  Survived  Pclass  \
7              8         0       3   
16            17         0       3   
24            25         0       3   
27            28         0       1   
50            51         0       3   
59            60         0       3   
63            64         0       3   
68            69         1       3   
71            72         0       3   
85            86         1       3   
88            89         1       1   
119          120         0       3   
164          165         0       3   
171          172         0       3   
176          177         0       3   
182          183         0       3   
229          230         0       3   
233          234         1       3   
261          262         1       3   
266          267         0       3   
278          279         0       3   
341          342         1       1   
374          375         0       3   
386          387         0       3   
409          410         0       3   
480         

### ※ merge와 groupby를 많이 사용해서 파생변수를 생성합니다.

## ■ 데이터 프레임 합치기

1. pandas.concat
2. pandas.merge
3. df1.join(df2)

## ■ pandas.concat 사용하기

__문법 :__ pd.concat([df1,df2], 옵션)

### 옵션

axis = 0 이면 위 아래 행방향으로 연결이 된다.  
axis = 1 이면 양 옆으로 열방향으로 연결이 된다.  
ignore_index = True를 사용하면 행번호가 다시 새롭게 부여된다.  
join = 'inner' 이면 컬럼들의 교집합이 출력된다.  
join = 'outer' 이면 모든 컬럼이 다 출력이 된다.

## 예제1. seaborn에서 제공하는 타이타닉 데이터와 케글에서 제공하는 타이타닉 데이터가 서로 같은 데이터인지 확인하시오!

In [191]:
import seaborn as sns
import pandas as pd

df1 = sns.load_dataset('titanic')
df2 = pd.read_csv("d:\\data\\train.csv")

print(len(df1)) # 891
print(len(df2)) # 891

print(pd.concat([df1['age'],df2['Age']], axis = 1))

891
891
      age   Age
0    22.0  22.0
1    38.0  38.0
2    26.0  26.0
3    35.0  35.0
4    35.0  35.0
..    ...   ...
886  27.0  27.0
887  19.0  19.0
888   NaN   NaN
889  26.0  26.0
890  32.0  32.0

[891 rows x 2 columns]


## 예제2. 머신러닝 게시판에 concat 실습자료를 실행하고 df1과 df2 데이터 프레임을 서로 양옆으로 연결하시오~

In [198]:
import pandas as pd

df1 = pd.DataFrame({'a': ['a0', 'a1', 'a2', 'a3'],

                    'b': ['b0', 'b1', 'b2', 'b3'],

                    'c': ['c0', 'c1', 'c2', 'c3']},

                    index=[0, 1, 2, 3])

df2 = pd.DataFrame({'a': ['a2', 'a3', 'a4', 'a5'],

                    'b': ['b2', 'b3', 'b4', 'b5'],

                    'c': ['c2', 'c3', 'c4', 'c5'],

                    'd': ['d2', 'd3', 'd4', 'd5']},

                    index=[2, 3, 4, 5])

print(df1, '\n')
print(df2, '\n')

result = pd.concat([df1,df2], axis = 1)
print(result)

    a   b   c
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3 

    a   b   c   d
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  a4  b4  c4  d4
5  a5  b5  c5  d5 

     a    b    c    a    b    c    d
0   a0   b0   c0  NaN  NaN  NaN  NaN
1   a1   b1   c1  NaN  NaN  NaN  NaN
2   a2   b2   c2   a2   b2   c2   d2
3   a3   b3   c3   a3   b3   c3   d3
4  NaN  NaN  NaN   a4   b4   c4   d4
5  NaN  NaN  NaN   a5   b5   c5   d5


## 예제3. concat을 이용해서 emp와 dept를 조인하시오 ~

In [201]:
import pandas as pd

emp = pd.read_csv("d:\\data\\emp.csv")
dept = pd.read_csv("d:\\data\\dept.csv")

result1 = pd.concat([emp, dept], axis =1)
result2 = pd.concat([emp, dept], axis =1, join = 'inner')

print(result2)

   empno  ename        job     mgr    hiredate   sal  comm  deptno  deptno  \
0   7839   KING  PRESIDENT     NaN  1981-11-17  5000   NaN      10      10   
1   7698  BLAKE    MANAGER  7839.0  1981-05-01  2850   NaN      30      20   
2   7782  CLARK    MANAGER  7839.0  1981-05-09  2450   NaN      10      30   
3   7566  JONES    MANAGER  7839.0  1981-04-01  2975   NaN      20      40   

        dname       loc  
0  ACCOUNTING  NEW YORK  
1    RESEARCH    DALLAS  
2       SALES   CHICAGO  
3  OPERATIONS    BOSTON  


### 설명 : concat으로는 emp와 dept를 서로 조인할 수 없다. 따라서 merge를 사용해야 한다.

## ■ pandas의 merge

__문법 :__ pandas.merge(emp_left, dept_right, how = 'inner', on = 'deptno')

__옵션 :__   
__how = 'inner' :__ 열의 Data가 양쪽 데이터프레임에 공통으로 존재하는 교집합인 경우에만 추출하겠다.  
__how = 'outer' :__ 열의 Data가 양쪽 데이터프레임에 공통으로 존재하는 교집합이 아니어도 추출하겠다.   
__how = 'left'  :__ 왼쪽 데이터프레임의 키열에 속하는 데이터값을 기준으로 병합한다.  
__how = 'right' :__ 오른쪽 데이터프레임의 키열에 속하는 데이터값을 기준으로 병합한다.  

## 예제1. emp와 dept를 merge 조인해서 ename과 loc를 출력하시오!

In [203]:
import pandas as pd

emp = pd.read_csv("d:\\data\\emp.csv")
dept = pd.read_csv("d:\\data\\dept.csv")

result = pd.merge(emp, dept, how = 'inner', on = 'deptno') # on = 'deptno' --> 양쪽 연결고리가 되는 컬럼
print(result[['ename','job']])

     ename        job
0     KING  PRESIDENT
1    CLARK    MANAGER
2   MILLER      CLERK
3    BLAKE    MANAGER
4   MARTIN   SALESMAN
5    ALLEN   SALESMAN
6   TURNER   SALESMAN
7    JAMES      CLERK
8     WARD   SALESMAN
9    JONES    MANAGER
10    FORD    ANALYST
11   SMITH      CLERK
12   SCOTT    ANALYST
13   ADAMS      CLERK


## 문제174. 아래의 SQL을 pandas로 구현하시오!

In [207]:
"""
SQL>
SELECT e.ename, d.loc
    from emp e, dept d
    where e.deptno (+) = d.deptno;
"""

# Pandas.ver
import pandas as pd

emp = pd.read_csv("d:\\data\\emp.csv")
dept = pd.read_csv("d:\\data\\dept.csv")

result = pd.merge(emp, dept, how = 'right', on = 'deptno')
print(result[['ename','loc']])

     ename       loc
0     KING  NEW YORK
1    CLARK  NEW YORK
2   MILLER  NEW YORK
3    BLAKE   CHICAGO
4   MARTIN   CHICAGO
5    ALLEN   CHICAGO
6   TURNER   CHICAGO
7    JAMES   CHICAGO
8     WARD   CHICAGO
9    JONES    DALLAS
10    FORD    DALLAS
11   SMITH    DALLAS
12   SCOTT    DALLAS
13   ADAMS    DALLAS
14     NaN    BOSTON


## 문제175. 아래의 주식 엑셀 데이터를 가져와서 데이터 프레임을 만드시오!

In [210]:
import pandas as pd

df1 = pd.read_excel("d:\\data\\stock price.xlsx")
df2 = pd.read_excel("d:\\data\\stock valuation.xlsx")

print(df1, '\n')
print(df2, '\n')

       id stock_name          value   price
0  128940       한미약품   59385.666667  421000
1  130960     CJ E&M   58540.666667   98900
2  138250      엔에스쇼핑   14558.666667   13200
3  139480        이마트  239230.833333  254500
4  142280     녹십자엠에스     468.833333   10200
5  145990        삼양사   82750.000000   82000
6  185750        종근당   40293.666667  100500
7  192400      쿠쿠홀딩스  179204.666667  177500
8  199800         툴젠   -2514.333333  115400
9  204210     모두투어리츠    3093.333333    3475 

       id       name           eps     bps        per       pbr
0  130960     CJ E&M   6301.333333   54068  15.695091  1.829178
1  136480         하림    274.166667    3551  11.489362  0.887074
2  138040    메리츠금융지주   2122.333333   14894   6.313806  0.899691
3  139480        이마트  18268.166667  295780  13.931338  0.860437
4  145990        삼양사   5741.000000  108090  14.283226  0.758627
5  161390      한국타이어   5648.500000   51341   7.453306  0.820007
6  181710  NHN엔터테인먼트   2110.166667   78434  30.755864  0.827447
7 

## 문제176. 위의 2개의 데이터프레임을 merge로 병합하시오!

In [211]:
import pandas as pd

df1 = pd.read_excel("d:\\data\\stock price.xlsx")
df2 = pd.read_excel("d:\\data\\stock valuation.xlsx")

result = pd.merge(df1, df2, how = 'outer', on = 'id')

print(result)

        id stock_name          value     price       name           eps  \
0   128940       한미약품   59385.666667  421000.0        NaN           NaN   
1   130960     CJ E&M   58540.666667   98900.0     CJ E&M   6301.333333   
2   138250      엔에스쇼핑   14558.666667   13200.0        NaN           NaN   
3   139480        이마트  239230.833333  254500.0        이마트  18268.166667   
4   142280     녹십자엠에스     468.833333   10200.0        NaN           NaN   
5   145990        삼양사   82750.000000   82000.0        삼양사   5741.000000   
6   185750        종근당   40293.666667  100500.0        종근당   3990.333333   
7   192400      쿠쿠홀딩스  179204.666667  177500.0        NaN           NaN   
8   199800         툴젠   -2514.333333  115400.0        NaN           NaN   
9   204210     모두투어리츠    3093.333333    3475.0     모두투어리츠     85.166667   
10  136480        NaN            NaN       NaN         하림    274.166667   
11  138040        NaN            NaN       NaN    메리츠금융지주   2122.333333   
12  161390        NaN    

## 문제177. 위의 결과에서 주가가 50,000 미만인 종목이 몇개인가?

In [217]:
import pandas as pd

df1 = pd.read_excel("d:\\data\\stock price.xlsx")
df2 = pd.read_excel("d:\\data\\stock valuation.xlsx")

result = pd.merge(df1, df2, how = 'outer', on = 'id')
result2 = result[:][result['price'] < 50000]

print(result2, '\n')
print(len(result2))

       id stock_name         value    price    name        eps     bps  \
2  138250      엔에스쇼핑  14558.666667  13200.0     NaN        NaN     NaN   
4  142280     녹십자엠에스    468.833333  10200.0     NaN        NaN     NaN   
9  204210     모두투어리츠   3093.333333   3475.0  모두투어리츠  85.166667  5335.0   

         per       pbr  
2        NaN       NaN  
4        NaN       NaN  
9  40.802348  0.651359   

3


## ■ 데이터프레임 결합 (join)

판다스의 join() 메소드는 merge() 함수를 기반으로 만들어졌기 때문에 기본 작동 방식이 서로 비슷하다.

__문법 :__ df1.join(df2, how = 'left')

__설명 :__ how = 'left'를 사용하면 왼쪽에 위치한 df1의 행 인덱스를 기준으로 결합을 한다.

In [221]:
# 예제1

import pandas as pd

df1 = pd.read_excel("d:\\data\\stock price.xlsx", index_col = 'id')
df2 = pd.read_excel("d:\\data\\stock valuation.xlsx", index_col = 'id')
df3 = df1.join(df2) # how의 default값은 'left'임!!

print(df3)

       stock_name          value   price    name           eps       bps  \
id                                                                         
128940       한미약품   59385.666667  421000     NaN           NaN       NaN   
130960     CJ E&M   58540.666667   98900  CJ E&M   6301.333333   54068.0   
138250      엔에스쇼핑   14558.666667   13200     NaN           NaN       NaN   
139480        이마트  239230.833333  254500     이마트  18268.166667  295780.0   
142280     녹십자엠에스     468.833333   10200     NaN           NaN       NaN   
145990        삼양사   82750.000000   82000     삼양사   5741.000000  108090.0   
185750        종근당   40293.666667  100500     종근당   3990.333333   40684.0   
192400      쿠쿠홀딩스  179204.666667  177500     NaN           NaN       NaN   
199800         툴젠   -2514.333333  115400     NaN           NaN       NaN   
204210     모두투어리츠    3093.333333    3475  모두투어리츠     85.166667    5335.0   

              per       pbr  
id                           
128940        NaN       NaN

## 문제178. emp와 dept를 판다스의 join으로 조인하시오!

In [226]:
import pandas as pd

emp = pd.read_csv("d:\\data\\emp.csv", index_col = 'deptno')
dept = pd.read_csv("d:\\data\\dept.csv", index_col = 'deptno')

print(emp, '\n')
print(dept, '\n')

result = emp.join(dept)

print(result)

        empno   ename        job     mgr    hiredate   sal    comm
deptno                                                            
10       7839    KING  PRESIDENT     NaN  1981-11-17  5000     NaN
30       7698   BLAKE    MANAGER  7839.0  1981-05-01  2850     NaN
10       7782   CLARK    MANAGER  7839.0  1981-05-09  2450     NaN
20       7566   JONES    MANAGER  7839.0  1981-04-01  2975     NaN
30       7654  MARTIN   SALESMAN  7698.0  1981-09-10  1250  1400.0
30       7499   ALLEN   SALESMAN  7698.0  1981-02-11  1600   300.0
30       7844  TURNER   SALESMAN  7698.0  1981-08-21  1500     0.0
30       7900   JAMES      CLERK  7698.0  1981-12-11   950     NaN
30       7521    WARD   SALESMAN  7698.0  1981-02-23  1250   500.0
20       7902    FORD    ANALYST  7566.0  1981-12-11  3000     NaN
20       7369   SMITH      CLERK  7902.0  1980-12-09   800     NaN
20       7788   SCOTT    ANALYST  7566.0  1982-12-22  3000     NaN
20       7876   ADAMS      CLERK  7788.0  1983-01-15  1100    

## ■ 그룹 연산

" 복잡한 데이터를 어떤 기준에 따라 여러 그룹으로 나누어서 관찰하는 것도 좋은 방법인데   
이처럼 특정 기준을 적용하여 몇개의 그룹으로 분할하여 처리하는것도 그룹연산이라고 합니다. "

### ※ 그룹연산의 3가지 단계

1단계 : 분할(split) --> 데이터를 특정 조건에 의해 분할  
2단계 : 적용(apply) --> 데이터 집계, 변환, 필터링하는데 필요한 메소드  
3단계 : 결합(combine) --> 2단계의 처리를 하나로 결합  

## ■ 1단계 : 분할단계

__문법 :__ DataFrame객체.groupby(기준이되는 열)

__질문 :__ 운임 클래스 first, second, third 중에 생존율이 제일 높은 클래스가 어디일까 ?

In [234]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]
grouped = df.groupby(['class']) # class 열을 기준으로 분할함

for key, group in grouped:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())
    print('\n\n')

* key : First
* number : 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1



* key : Second
* number : 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1



* key : Third
* number : 491
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0





In [235]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]
grouped = df.groupby(['class']) # class 열을 기준으로 분할함

for key, group in grouped:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())
    print('\n\n')
    
average = grouped.mean()
print(average)

* key : First
* number : 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1



* key : Second
* number : 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1



* key : Third
* number : 491
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0



              age       fare  survived
class                                 
First   38.233441  84.154687  0.629630
Second  29.8

## 문제279. 사원 테이블을 위와 같이 분할을 하는데 부서번호로 분할을 해서 아래와 같이 출력되게 하시오!

In [254]:
import pandas as pd

emp = pd.read_csv("d:\\data\\emp.csv")

df = emp.loc[:, ['ename', 'sal', 'job', 'deptno']]
grouped = df.groupby(['deptno']) 

for key, group in grouped:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())
    print('\n\n')
    
average = grouped.mean()
print(average)

* key : 10
* number : 3
     ename   sal        job  deptno
0     KING  5000  PRESIDENT      10
2    CLARK  2450    MANAGER      10
13  MILLER  1300      CLERK      10



* key : 20
* number : 5
    ename   sal      job  deptno
3   JONES  2975  MANAGER      20
9    FORD  3000  ANALYST      20
10  SMITH   800    CLERK      20
11  SCOTT  3000  ANALYST      20
12  ADAMS  1100    CLERK      20



* key : 30
* number : 6
    ename   sal       job  deptno
1   BLAKE  2850   MANAGER      30
4  MARTIN  1250  SALESMAN      30
5   ALLEN  1600  SALESMAN      30
6  TURNER  1500  SALESMAN      30
7   JAMES   950     CLERK      30



                sal
deptno             
10      2916.666667
20      2175.000000
30      1566.666667


## 문제180. 위의 운임 class별로 분할한 결과중에 third 클래스 데이터만 가져오시오!

In [253]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]
grouped = df.groupby(['class']) # class 열을 기준으로 분할함

"""
for key, group in grouped:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())
    print('\n\n')
"""    

group3 = grouped.get_group('Third')
print(group3.head(), '\n')

average = group3.mean()
print(average)

    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0 

age         25.140620
fare        13.675550
survived     0.242363
dtype: float64


### 또 다른 질문 : 운임 클래스 별로는 first 클래스가 가장 높은 생존율을 보였습니다.   
### 그러면 first 클래스 내에서 남자와 여자중에 더 생존율이 높은 성별은 무엇일까?

In [251]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]
grouped2 = df.groupby(['class', 'sex'])

for key, group in grouped2:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())
    print('\n\n')

average = grouped2.mean()
print(average)

* key : ('First', 'female')
* number : 94
     age     sex  class      fare  survived
1   38.0  female  First   71.2833         1
3   35.0  female  First   53.1000         1
11  58.0  female  First   26.5500         1
31   NaN  female  First  146.5208         1
52  49.0  female  First   76.7292         1



* key : ('First', 'male')
* number : 122
     age   sex  class      fare  survived
6   54.0  male  First   51.8625         0
23  28.0  male  First   35.5000         1
27  19.0  male  First  263.0000         0
30  40.0  male  First   27.7208         0
34  28.0  male  First   82.1708         0



* key : ('Second', 'female')
* number : 76
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
41  27.0  female  Second  21.0000         0
43   3.0  female  Second  41.5792         1
53  29.0  female  Second  26.0000         1



* key : ('Second', 'male')
* number : 108
     age   sex   class  fare  survived
17  

## ■ 2단계와 3단계의 적용 및 결합 단계

앞에서 분할한 그룹 객체에 대하여 각 그룹별 평균을 계산한 것처럼, 그룹 객체에 다양한 연산을 적용할 수 있다.  
이 과정을 aggreagation이라고 부른다.  

집계기능을 내장하고 있는 판다스 기본 함수에는  
__mean(), max(), min(), sum(), count(), var(), std(), describe(), info(), size(), first(), last()__등이 있습니다.  

__문법 :__ group객체.std()

## 문제181. (오늘의 마지막 문제) 요금을 나타내는 fare열은 first, second, third 클래스중에 요금의 표준편차가 큰 클래스는 어디인가?

In [265]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]
grouped = df.groupby(['class'])

for key, group in grouped:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())
    print('\n\n')
    
std = grouped['fare'].mean()
print(std)
print(std.idxmax())

* key : First
* number : 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1



* key : Second
* number : 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1



* key : Third
* number : 491
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0



class
First     84.154687
Second    20.662183
Third     13.675550
Name: fare, dtype: float64
First
