## 1. 문자열 처리

### 문자열 포매팅

 - 문자열 포매팅이란 출력할 문자열의 형식을 지정하거나 변수를 조합하여
   출력하는 방법이다.

 - {}로 지정하고 format 메서드에 원하는 단어를 전달하면 그 단어를 삽입해
   출력한다.

In [2]:
var = 'flesh wound' 
s = "It's just a {}!"
 
print(s.format(var))
 
print(s.format('scratch'))

It's just a flesh wound!
It's just a scratch!


{}는 여러번 사용할 수 있다.  format 메서드에 여러단어를 전달하려면 index 개념을 응용하면 된다.

In [3]:
s = """It's just a {0},
It's just a {1}
""" 
print(s.format('scratch','flesh wound'))

It's just a scratch,
It's just a flesh wound



In [4]:
#index번호로 순서를 원하는대로 바꾸어 배치할 수 있다
s = """It's just a {1},
It's just a {0}
""" 
print(s.format('scratch','flesh wound'))

It's just a flesh wound,
It's just a scratch



{}에 변수를 지정할 수 있다. format 메서드에 전달하는 문자열도 변수에 담아 전달한다.

In [5]:
s = 'Hayden Planetarium Coordinates: {lat}, {lon}' 
print(s.format(lat='40.7815° N', lon='73.9733° W'))

Hayden Planetarium Coordinates: 40.7815° N, 73.9733° W


### 숫자 데이터 포매팅

문자열과 같은 방식으로 사용된다.

In [9]:
print('Some digits of pi: {}'.format(3.14159265359))

Some digits of pi: 3.14159265359


**thousands 쉼표 표기**

{:,}를 넣으면 쉼표를 넣어 숫자를 표현할 수 있다.

In [10]:
print("In 2005, Lu Chao of China recited {:,} digits of pi".format(67890))

In 2005, Lu Chao of China recited 67,890 digits of pi


{:.4} 소숫점 이하 숫자를 4개까지 출력, {:.4%}는 백분률로 환산하여 출력

In [11]:
print("I remember {0:.4} or {0:.4%} of what Lu Chao recited".format(7/67890))

I remember 0.0001031 or 0.0103% of what Lu Chao recited


{0 : 4} 0번째에 4자리로 표현한다. 두자리숫자가 연결되면 두자리는 빈값이 출력된다.

{0 : 04} 0번째에 4자리로 표현한다. 두자리숫자가 연결되면 두자리는 0이 출력된다.

In [12]:
print("My ID number is {0}".format(42))
print("My ID number is {0:5}".format(42))
print("My ID number is {0:05}".format(42))

My ID number is 42
My ID number is    42
My ID number is 00042


### %연산자로 포매팅
- {} 대신 %를 사용한다. format대신 %{}로 출력값을 연결한다.
- %d 정수, %s 문자,  %f실수를 표현한다

In [13]:
s = 'I only know %d digits of pi' % 7 
print(s)

I only know 7 digits of pi


In [16]:
print('Some digits of %(cont)s: %(value).2f' % {'cont': 'e', 'value': 2.718})

Some digits of e: 2.72


### f-string 포매팅

- 파이썬 3.6 버전에서 도입된 포매팅 이다. 
- 문자열앞에 f를 붙인다.

In [14]:
var = 'flesh wound' 
s = f"It's just a {var}!" 
print(s)

It's just a flesh wound!


In [15]:
lat='40.7815°N' 
lon='73.9733°W' 
s = f'Hayden Planetarium Coordinates: {lat}, {lon}' 
print(s)

Hayden Planetarium Coordinates: 40.7815°N, 73.9733°W


## 2. apply 메서드 활용 - 대용량 처리에 for문보다 더 빠름!

- apply 메서드는 사용자가 작성한 함수를 한 번에 데이터프레임의 각 행과 열에 
  적용하여 실행할 수 있게 해준다.(함수를 브로드캐스팅 한다.)
- 대용량의 데이터를 처리할 때는 apply 메서드가 for문보다 더 빠르다.

### 시리즈와 데이터프레임에 apply 사용하기
 
시리즈와 apply 메서드:

제곱함수와 n제곱 함수 만들기

In [17]:
def my_sq(x):
    return x**2

def my_exp(x,n):
    return x**n

In [18]:
print(my_sq(4))

16


In [19]:
print(my_exp(2,4))

16


In [20]:
import pandas as pd

In [21]:
df = pd.DataFrame({'a':[10, 20, 30], 'b':[20,30,40]})
print(df)

    a   b
0  10  20
1  20  30
2  30  40


In [22]:
print(df['a']**2)

0    100
1    400
2    900
Name: a, dtype: int64


In [24]:
sq = df['a'].apply(my_sq) #각각 'a'열의 원소들이 my_sq 함수에 적용된다
print(sq)

0    100
1    400
2    900
Name: a, dtype: int64


**2개이상의 인자 전달하기**

- 2개의 인자를 전달받는 n 제곱함수(my_exp) apply 메서드로 사용하기
- apply 두번째 인자에, me_exp 함수에서 사용할 n값을 전달한다.
- apply 첫번째 인자에는 데이터프레임이나 시리즈가 자동으로 전달된다.

In [27]:
ex = df['a'].apply(my_exp, n=2)
print(ex)

0    100
1    400
2    900
Name: a, dtype: int64


In [28]:
ex = df['a'].apply(my_exp, n=3)
print(ex)

0     1000
1     8000
2    27000
Name: a, dtype: int64


### 데이터프레임과 apply 메서드

apply 메서드로  출력 함수를 적용한다. 

열방향으로 적용은 axis = 0 (기본값)이고 (첫번째 열의 값을 다 출력한 후, 두번째 열의 값을 출력)

행방향으로 적용하려면 axis = 1로 한다. (첫번째 행의 값을 다 출력한 후, 두번째 행의 값을 출력)

지난시간 데이터통합에서 concat()메서드의 속성으로 지정한 axis값 & 동작 방향과 동일하다.

**axis=1:** 옆으로

**axis=0:** 아래로 (기본값이므로 axis속성이 따로 명시되어 있지않다면 axis=0이다)

In [29]:
df #만들어논 df dataframe을 사용해서 실습진행

Unnamed: 0,a,b
0,10,20
1,20,30
2,30,40


In [30]:
def print_me(x):
    print(x)

In [31]:
df.apply(print_me) #(위아래 방향)열을 따라서서 적용

0    10
1    20
2    30
Name: a, dtype: int64
0    20
1    30
2    40
Name: b, dtype: int64


a    None
b    None
dtype: object

In [32]:
df.apply(print_me, axis =1) #(옆방향)행을 따라서 적용

a    10
b    20
Name: 0, dtype: int64
a    20
b    30
Name: 1, dtype: int64
a    30
b    40
Name: 2, dtype: int64


0    None
1    None
2    None
dtype: object

apply에 적용할 함수 생성 (평균 구하는 함수)

In [34]:
def avg_3_apply(col):
    sum =0
    for item in col:
        sum += item
    return sum/df.shape[0]

In [35]:
def avg_2_apply(row):
    sum=0
    for item in row:
        sum+=item
    return sum/df.shape[1]

In [36]:
df.apply(avg_3_apply) #열 방향으로 적용. 기본값이므로 axis=0을 표기 안해도됨.
# 결과: 열별로 구한 평균값

a    20.0
b    30.0
dtype: float64

In [37]:
df.apply(avg_2_apply, axis=1) #행 방향으로 적용
# 결과: 행별로 구한 평균값

0    15.0
1    25.0
2    35.0
dtype: float64

### 데이터프레임의 누락값을 처리한 다음 apply 사용하기

실습데이터 seaborn의 titanic 데이터 집합을 불러온다.
titanic 에는 타이타닉 침몰 시 생존자에 대한 데이터가 들어 있다.

In [1]:
import seaborn as sns

In [2]:
titanic = sns.load_dataset('titanic')

In [3]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [4]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


#### 누락값 개수, 누락값 비율, 누락값이 아닌 비율 구하는 함수 생성

In [11]:
import numpy as np
import pandas as pd

#### 잠깐 review:
    pandas의 isnull(obj) 함수:

    used to detect missing values for an array-like object(obj)

    returns boolean or array-like of boolean. For scalar input, returns a scalar boolean.
    For array input, returns an array of boolean indicting whether each corresponding element is missing.
참고 link:https://www.w3resource.com/pandas/isnull.php

In [23]:
null_vec = pd.isnull(titanic)
null_vec.iloc[0:10,:]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
5,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False
6,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
8,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
9,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [24]:
titanic.iloc[0:10,:]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [26]:
null_count = np.sum(null_vec) #null_vec dataframe의 column별 누락값의 갯수
null_count

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [12]:
#누락값 개수를 반환하는 함수
def count_missing(vec):
    null_vec = pd.isnull(vec) #isnull()로 반환되는 dataframe of boolean (NAN=True, non-missing=False)
    null_count = np.sum(null_vec)
    return null_count

In [13]:
#누락값 비율을 계산하는 함수
def prop_missing(vec):
    num = count_missing(vec)
    dem = vec.size
    return num/dem

In [14]:
#prop_missing 함수를 이용하여 누락값이 아닌 데이터 비율 구하는 함수
def prop_complete(vec):
    return 1-prop_missing(vec)

### 데이터프레임의 누락값 확인하기 - 열 방향

apply 메서드에 count_missing함수 적용하여 누락값 개수 확인

In [27]:
cmis_col = titanic.apply(count_missing)
print(cmis_col)

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


apply 메서드에 prop_missing 함수를 적용하여 누락값 비율 확인

In [28]:
pmis_col = titanic.apply(prop_missing)
print(pmis_col)

survived       0.000000
pclass         0.000000
sex            0.000000
age            0.198653
sibsp          0.000000
parch          0.000000
fare           0.000000
embarked       0.002245
class          0.000000
who            0.000000
adult_male     0.000000
deck           0.772166
embark_town    0.002245
alive          0.000000
alone          0.000000
dtype: float64


누락값이 아닌 데이터 비율 확인하기

In [29]:
comp = titanic.apply(prop_complete)
print(comp)

survived       1.000000
pclass         1.000000
sex            1.000000
age            0.801347
sibsp          1.000000
parch          1.000000
fare           1.000000
embarked       0.997755
class          1.000000
who            1.000000
adult_male     1.000000
deck           0.227834
embark_town    0.997755
alive          1.000000
alone          1.000000
dtype: float64


### 데이터프레임의 누락값 확인하기 - 행 방향

apply 메서드에 axis=1로 지정하여 행 방향 처리를 할 수 있다.

In [30]:
cmis_row = titanic.apply(count_missing, axis =1) #누락값 개수
pmis_row = titanic.apply(prop_missing, axis =1)  #누락 값 비율
pcom_row = titanic.apply(prop_complete, axis =1) #누락값이 아닌 비율

In [33]:
cmis_row.head()

0    1
1    0
2    1
3    0
4    1
dtype: int64

In [36]:
cmis_row.tail()

886    1
887    0
888    2
889    0
890    1
dtype: int64

In [34]:
pmis_row.head()

0    0.066667
1    0.000000
2    0.066667
3    0.000000
4    0.066667
dtype: float64

In [37]:
pmis_row.tail()

886    0.066667
887    0.000000
888    0.133333
889    0.000000
890    0.066667
dtype: float64

In [35]:
pcom_row.head()

0    0.933333
1    1.000000
2    0.933333
3    1.000000
4    0.933333
dtype: float64

In [38]:
pcom_row.tail()

886    0.933333
887    1.000000
888    0.866667
889    1.000000
890    0.933333
dtype: float64

### 누락값의 개수를 구하여 titanic 데이터프레임에 추가한다.

In [40]:
titanic['num_missing'] = titanic.apply(count_missing, axis=1)
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,num_missing
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,1
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,0
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,1
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,0
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,1


### 누락값이 2개 이상인 데이터를 추출하기

In [57]:
titanic.loc[titanic.num_missing>1, :].sample(10) #10개행만 랜덤하게 리턴한다

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,num_missing
868,0,3,male,,0,0,9.5,S,Third,man,True,,Southampton,no,True,2
826,0,3,male,,0,0,56.4958,S,Third,man,True,,Southampton,no,True,2
790,0,3,male,,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,2
87,0,3,male,,0,0,8.05,S,Third,man,True,,Southampton,no,True,2
95,0,3,male,,0,0,8.05,S,Third,man,True,,Southampton,no,True,2
547,1,2,male,,0,0,13.8625,C,Second,man,True,,Cherbourg,yes,True,2
277,0,2,male,,0,0,0.0,S,Second,man,True,,Southampton,no,True,2
573,1,3,female,,0,0,7.75,Q,Third,woman,False,,Queenstown,yes,True,2
306,1,1,female,,0,0,110.8833,C,First,woman,False,,Cherbourg,yes,True,2
375,1,1,female,,1,0,82.1708,C,First,woman,False,,Cherbourg,yes,False,2


## 3. 그룹연산

- Pandas의 그룹 연산은 데이터를 집계하거나 변환하는 등의 작업을 한 번에
  처리할 수 있는 강력한 기능이다.
- 그룹연산은 데이터를 분할하고, 반영하고, 결합하는 과정을 거치게 된다.
    
        -분할은 지정한 기준으로 데이터를 나누고,
        -반영은 함수 등을 적용하여 데이터를 처리하고,
        -결합은 처리한 결과를 다시 합친다
    
- 위과정을 하나로 묶어 '분할-반영-결합(Split-Apply-Combine) 이라고 한다.


### 데이터 집계
- 수집한 데이터를 바탕으로 평균이나 합 등을 구하여 의미 있는 값을 도출해 내는 것을
  '집계'라고 한다.
- 데이터를 집계하면 전체데이터를 요약, 정리하여 볼수 있어서 데이터 분석이 훨씬
  편하다.
- groupby 메서드를 사용한다.

**groupby 메서드로 평균값 구하기**
- gapminder.tsv에서 데이터 집합을 불러온다.
- year열을 기준으로 데이터를 그룹화한 다음 lifeExp 열의 평균을 구한다.


In [43]:
import pandas as pd
df = pd.read_csv('../data2/gapminder.tsv', sep='\t')

**groupby 메서드와 함꼐 사용하는 집계 메서드**
1. count: 누락값을 제외한 데이터 갯수를 반환
2. size: 누락값을 포함한 데이터 갯수를 반환
3. mean: 평균값 반환
4. std: 표준편차 반환
5. min: 최솟값 반환
6. quantile(q=0.25): 백분위수 25%
7. quantile(q=0.5): 백분위수 50%
8. quantile(q=0.75): 백분위수 75%
9. max: 최댓값 반환
10. sum: 전체 합 반환
11. var: 문산 반환
12. sem: 편균의 표준편차 반환
13. describe: 데이터 수, mean, std, min, quantiles(all 3), max를 모두 반환
14. first: 첫번째 행 반환
15. last: 마지막 행 반환
16. nth: n번째 행 반환

In [44]:
avg_life_exp_by_year = df.groupby('year').lifeExp.mean()
avg_life_exp_by_year #년도별 평균 lifeExp값

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

In [45]:
avg_life_exp_by_continent = df.groupby('continent').lifeExp.mean()
avg_life_exp_by_continent #대륙별 평균 lifeExp값

continent
Africa      48.865330
Americas    64.658737
Asia        60.064903
Europe      71.903686
Oceania     74.326208
Name: lifeExp, dtype: float64

In [48]:
avg_life_exp_by_country = df.groupby('country').lifeExp.std()
avg_life_exp_by_country.iloc[0:10] #년도별 표준편차 lifeExp값

country
Afghanistan     5.098646
Albania         6.322911
Algeria        10.340069
Angola          4.005276
Argentina       4.186470
Australia       4.147774
Austria         4.379838
Bahrain         8.571871
Bangladesh      9.028335
Belgium         3.779658
Name: lifeExp, dtype: float64

**groupby 메서드와 함께 사용하는 집계함수 agg 메서드**

 - agg 메서드는 평균값을 구하는 사용자함수를 사용하여 groupby와 조합할 수 있다.
 - 열의 평균값을 구하는 사용자함수를 생성한다.

In [50]:
#사용자 함수 my_mean(values) 생성
def my_mean(values):
    n=len(values)
    sum=0
    for value in values:
        sum+= value
    return sum/n

In [51]:
agg_my_mean = df.groupby('year').lifeExp.agg(my_mean) #agg 집계 함수를 통해 사용자 함수를 호출한다.
agg_my_mean

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

#### 2개의 인자값을 받아 처리하는 사용함수와 groupby 메서드
 - 사용자 함수 my_mean_diff 는 첫번째 인자인 열의 평균값을 구해서,
   두번째 인자값과의 차이를 계산하여 반환한다.

In [52]:
def my_mean_diff(values, diff_value): #열, 전체평균수명
    n=len(values)
    sum=0
    for value in values:
        sum+=value
    mean=sum/n
    return mean-diff_value

 - 연도별 평균수명에서 전체 평균수명을 뺀 값을 구한다.
 - agg메서드 두번째 인자에 전체평균값을 보낸다.

In [53]:
global_mean = df.lifeExp.mean()
global_mean

59.474439366197174

In [54]:
agg_mean_diff = df.groupby('year').lifeExp.agg(my_mean_diff, diff_value=global_mean)
agg_mean_diff

year
1952   -10.416820
1957    -7.967038
1962    -5.865190
1967    -3.796150
1972    -1.827053
1977     0.095718
1982     2.058758
1987     3.738173
1992     4.685899
1997     5.540237
2002     6.220483
2007     7.532983
Name: lifeExp, dtype: float64

In [56]:
agg_mean_diff = df.groupby('year').lifeExp.agg(my_mean_diff, global_mean) #diff_value라고 명시하지 않아도 됨
agg_mean_diff

year
1952   -10.416820
1957    -7.967038
1962    -5.865190
1967    -3.796150
1972    -1.827053
1977     0.095718
1982     2.058758
1987     3.738173
1992     4.685899
1997     5.540237
2002     6.220483
2007     7.532983
Name: lifeExp, dtype: float64

여러개의 집계 메서드를 한번에 사용하려면 리스트나, 딕셔너리에 담아서 전달하면 된다.

- 연도별 그룹화한 lifeExp열의 개수, 평균, 표준편차를 한번에 계산하여 출력
- 집계 메서드 리스트에 담아 전달, 하나의 열에 대한 여러가지 계산결과 출력
- np.count_nonzero 는 0이 아닌 값의 개수를 알려준다.

In [79]:
df.shape

(1704, 6)

In [57]:
import numpy as np
gdf = df.groupby('year').lifeExp.agg([np.count_nonzero, np.mean, np.std])
gdf
# df 데이터프레임의 년도값은 총 12가지가 있다. (5년 interval로 1952~2007까지 = 총 12개)
# count_nonzero는 142 = 1704 / 12 (df에는 142개의 countries가 있기때문에 so it makes sense)

Unnamed: 0_level_0,count_nonzero,mean,std
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1952,142.0,49.05762,12.225956
1957,142.0,51.507401,12.231286
1962,142.0,53.609249,12.097245
1967,142.0,55.67829,11.718858
1972,142.0,57.647386,11.381953
1977,142.0,59.570157,11.227229
1982,142.0,61.533197,10.770618
1987,142.0,63.212613,10.556285
1992,142.0,64.160338,11.22738
1997,142.0,65.014676,11.559439


집계 메서드 딕셔너리에 담아 전달, 여러열에 대한 필요한 계산결과 출력

In [60]:
gdf_dict = df.groupby('year').agg({'lifeExp':'mean', 'pop':'median','gdpPercap':'std'})
gdf_dict

Unnamed: 0_level_0,lifeExp,pop,gdpPercap
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1952,49.05762,3943953.0,9321.064786
1957,51.507401,4282942.0,9869.662202
1962,53.609249,4686039.5,8667.362525
1967,55.67829,5170175.5,8095.315431
1972,57.647386,5877996.5,10614.383403
1977,59.570157,6404036.5,8362.48915
1982,61.533197,7007320.0,7733.845006
1987,63.212613,7774861.5,8288.281304
1992,64.160338,8688686.5,9031.84608
1997,65.014676,9735063.5,10171.493263


### 데이터 변환 - transform 메소드

데이터와 메서드를 일대일로 대응시켜 계산하여 해당 정보를 변환해 준다.
   데이터양은 줄지 않는다.

#### 표준점수 계산하기

  - 표준점수(데이터의 평균과 표준편차의 차이)를 구하면 변환한 데이터의 평균값이 0이되고, 표준편차는 1이 된다.
  - 데이터가 표준화 되면 서로 다른 데이터를 쉽게 비교할 수 있다.
    
  - 표준점수는 Z점수, z-점수, z score, 등 다양한 이름으로 불린다.

In [61]:
#사용자 함수 - 표준점수를 계산하는 함수
def my_zscore(x):
    return (x-x.mean())/x.std()

**transform 함수**

데이터 자체를 변환하려는 경우 transform을 사용한다.

연도별 lifeExp열의 표준점수를 계산한다.
my_zscore 함수를 적용하기 위해 transform함수를 이용한다.

In [62]:
transform_z = df.groupby('year').lifeExp.transform(my_zscore)
transform_z.head()

0   -1.656854
1   -1.731249
2   -1.786543
3   -1.848157
4   -1.894173
Name: lifeExp, dtype: float64

In [83]:
#my_zscore함수는 데이터를 표준화할 뿐 집계는 하지 않았다. 그래서 데이터의 양이 줄어들지 않았다.

df.shape, transform_z.shape

((1704, 6), (1704,))

### 누락값을 평균값으로 처리하기

In [84]:
import seaborn as sns
import numpy as np

**numpy 라이브러리의 random.seed() 사용하기**

numpy.random.seed 메서드는 pseudo-random number generator을 위한 input을 제공하는 역할을 한다.

seed 메서드는 pseudo-random number generator를 사용하는데, pseudo-random number generator은 random으로 보이지만, predetermined된 값을 generate하는 것이다.

seed 메서드는 numpy.random namespace에 있는 다른 함수들과 함께 상용된다.

numpy.random.seed( )가:

    numpy.random.randint와 함께 사용되면: integers를 generate할 수 있고
    numpy.random.normal과 함게 사용되면: normally distributed numbers를 generate할 수 있고
    numpy.random.choice와 함께 사용되면: input으로부터 ranom sample을 generate할 수 있다.

seed(x) 메서드를 호출할때에 x값을 지정하여 추출되는 값들이 이후 계속 동일하게 생성된다.

(pseudo random number generators produce numbers that look random, but are 100% determined.)

참고 link: https://www.sharpsightlabs.com/blog/numpy-random-seed/

In [None]:
#실습을 위해  seaborn 라이브러리의 tips데이터 집합에서 10개의 행을 가져온다.

In [75]:
np.random.seed(42) #숫자 42가 input되면 항상 같은 "randomly"생성된 dataset을 얻어온다. 
tips_10 = sns.load_dataset('tips').sample(10)

tips_10 = tips_10.rename({'sex':'gender'}, axis='columns')
tips_10

Unnamed: 0,total_bill,tip,gender,smoker,day,time,size
24,19.82,3.18,Male,No,Sat,Dinner,2
6,8.77,2.0,Male,No,Sun,Dinner,2
153,24.55,2.0,Male,No,Sun,Dinner,4
211,25.89,5.16,Male,Yes,Sat,Dinner,4
198,13.0,2.0,Female,Yes,Thur,Lunch,2
176,17.89,2.0,Male,Yes,Sun,Dinner,2
192,28.44,2.56,Male,Yes,Thur,Lunch,2
124,12.48,2.52,Female,No,Thur,Lunch,2
9,14.78,3.23,Male,No,Sun,Dinner,2
101,15.38,3.0,Female,Yes,Fri,Dinner,2


**permutation 메서드**

index 값을 임의로 섞을 수 있다

total_bill 열의 값 4개를 임의로 선택하여 누락값으로 바꾼다

In [76]:
#permutation으로 index값을 임의로 섞은 후, 0~3까지의 4개 행의 total_bill에 누락값을 할당한다.
tips_10.loc[np.random.permutation(tips_10.index)[:4],'total_bill'] = np.NaN

tips_10

Unnamed: 0,total_bill,tip,gender,smoker,day,time,size
24,19.82,3.18,Male,No,Sat,Dinner,2
6,8.77,2.0,Male,No,Sun,Dinner,2
153,,2.0,Male,No,Sun,Dinner,4
211,,5.16,Male,Yes,Sat,Dinner,4
198,,2.0,Female,Yes,Thur,Lunch,2
176,,2.0,Male,Yes,Sun,Dinner,2
192,28.44,2.56,Male,Yes,Thur,Lunch,2
124,12.48,2.52,Female,No,Thur,Lunch,2
9,14.78,3.23,Male,No,Sun,Dinner,2
101,15.38,3.0,Female,Yes,Fri,Dinner,2


- total_bill의 누락값을 total_bill 평균으로 채우지 않는다.


- total_bill의 누락값 4개에 남성데이터갯수 3 vs. 여성데이터갯수 1 이기때문에 남성데이터의 영향을 받아 여성 데이터가 훼손될 수 있기 때문

- 성별로 구분하여 gender별 total_bill 평균값을 구해서 각 성별의 누락값을 replace할 수 있다.

In [78]:
def fill_na_mean(x):      #x는 성별이 구분된 total_bill열 값이다.   
    avg = x.mean()        #x의 평균값을 구해서 avg변수에 넣는다.
    return x.fillna(avg) #x가 NaN값이면 avg로 NaN 대신 채워준다

In [82]:
#성별을 구분하여 total_bill 열의 데이터를 fill_na_mean 함수를 전달 하여 실행한다.
total_bill_group_mean = tips_10.groupby('gender').total_bill.transform(fill_na_mean)
tips_10['fill_total_bill'] = total_bill_group_mean

tips_10

Unnamed: 0,total_bill,tip,gender,smoker,day,time,size,fill_total_bill
24,19.82,3.18,Male,No,Sat,Dinner,2,19.82
6,8.77,2.0,Male,No,Sun,Dinner,2,8.77
153,,2.0,Male,No,Sun,Dinner,4,17.9525
211,,5.16,Male,Yes,Sat,Dinner,4,17.9525
198,,2.0,Female,Yes,Thur,Lunch,2,13.93
176,,2.0,Male,Yes,Sun,Dinner,2,17.9525
192,28.44,2.56,Male,Yes,Thur,Lunch,2,28.44
124,12.48,2.52,Female,No,Thur,Lunch,2,12.48
9,14.78,3.23,Male,No,Sun,Dinner,2,14.78
101,15.38,3.0,Female,Yes,Fri,Dinner,2,15.38


### 데이터 필터링

**filter 메소드 & value_count 메소드 사용하기**

 - 그룹화 데이터에서 걸래내고 싶은 데이터가 있을때 필터링을 사용한다.
 - 데이터 필터링을 사용하면 기준에 맞는 데이터를 걸러낼 수 있다.
 
 
 - tips dataset에서 size열에는 테이블당 인원수 값을 갖고있다.
 - value_count 메서드로 테이블 인원수가 몇명일때 가장 적은 주문이 이루어졌는지 확인하고, 30번이하의 주문은 filter메서드로 걸러낸다.

In [84]:
tips = sns.load_dataset('tips')

In [85]:
print(tips.shape)

(244, 7)


In [86]:
tips['size'].value_counts() #size(인원수)값의 unique count --> 2인 156팀, 3인 38팀, 4인 37팀, 등

2    156
3     38
4     37
5      5
1      4
6      4
Name: size, dtype: int64

**참고:**  \(역슬레쉬)는 하나의 문장이 두줄로 나타낼때 사용하는 연결기호이다.

종종 너무 코드가 길어지면 보기 편하게 중간에 역슬레쉬로 나누어 작성할 수 있다

In [87]:
#size별로 구분하여 인원수당 count가 30이상인 size만 추출 
#인원수 1,5,6 명은의 경우 count(주문수)가 30미만이기때문에 걸러진다.

tips_filtered = tips.groupby('size').\
                filter(lambda x: x['size'].count() >= 30) #30이상의 기준을 여기에 명시

In [88]:
tips_filtered.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [89]:
tips_filtered['size'].value_counts() #필터링된 결과 조회

2    156
3     38
4     37
Name: size, dtype: int64

### 그룹 오프젝트

groupby 메서드는 주로 집계함수나 사용자 함수와 함께 사용한다.

groupby 메서드의 반환값이 그룹 오브젝트이다.

In [90]:
#tips dataset에서 random으로 10개 행을 가져와 tips_10에 저장하기
tips_10 = sns.load_dataset('tips').sample(10)
tips_10 = tips_10.rename({'sex':'gender'}, axis='columns') #rename으로 열이름 바꾸기
tips_10

Unnamed: 0,total_bill,tip,gender,smoker,day,time,size
243,18.78,3.0,Female,No,Thur,Dinner,2
58,11.24,1.76,Male,Yes,Sat,Dinner,2
227,20.45,3.0,Male,No,Sat,Dinner,4
137,14.15,2.0,Female,No,Thur,Lunch,2
173,31.85,3.18,Male,Yes,Sun,Dinner,2
77,27.2,4.0,Male,No,Thur,Lunch,4
192,28.44,2.56,Male,Yes,Thur,Lunch,2
213,13.27,2.5,Female,Yes,Sat,Dinner,2
10,10.27,1.71,Male,No,Sun,Dinner,2
231,15.69,3.0,Male,Yes,Sat,Dinner,3


In [91]:
grouped = tips_10.groupby('gender')
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001DBB87C1D88>

**groups 속성** 으로 그룹오프젝트에 포함된 그룹을 확인할수있다.

In [92]:
grouped.groups

{'Male': [58, 227, 173, 77, 192, 10, 231], 'Female': [243, 137, 213]}

### 그룹오브젝트의 평균 구하기

- 성별로 그룹화한 나머지 열에 대해서 평균을 구하면 숫자형태의 데이터만
  자동으로 평균을 구한다.
- 그룹 연산에 적합한 열(total_bill, tip,size)을 알아서 골라준다
- 그룹 연산에 적합하지 않은 열(smoker, day, time)은 알아서 제외된다.

In [93]:
avgs = grouped.mean()
avgs

Unnamed: 0_level_0,total_bill,tip,size
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,20.734286,2.744286,2.714286
Female,15.4,2.5,2.0


### get_group 메서드 사용하기

그룹오브젝트에서 특정 데이터 추출하기위해 get_group 메서드를 사용한다.

In [94]:
female = grouped.get_group('Female')
female

Unnamed: 0,total_bill,tip,gender,smoker,day,time,size
243,18.78,3.0,Female,No,Thur,Dinner,2
137,14.15,2.0,Female,No,Thur,Lunch,2
213,13.27,2.5,Female,Yes,Sat,Dinner,2


그룹오브젝트를 반복문에 사용할 수 있다. 

성별로 그룹화한 tips 데이터집합은 여성그룹과 남성그룹으로 나누어져 있다.

In [95]:
for gender_group in grouped:
    print(gender_group)

('Male',      total_bill   tip gender smoker   day    time  size
58        11.24  1.76   Male    Yes   Sat  Dinner     2
227       20.45  3.00   Male     No   Sat  Dinner     4
173       31.85  3.18   Male    Yes   Sun  Dinner     2
77        27.20  4.00   Male     No  Thur   Lunch     4
192       28.44  2.56   Male    Yes  Thur   Lunch     2
10        10.27  1.71   Male     No   Sun  Dinner     2
231       15.69  3.00   Male    Yes   Sat  Dinner     3)
('Female',      total_bill  tip  gender smoker   day    time  size
243       18.78  3.0  Female     No  Thur  Dinner     2
137       14.15  2.0  Female     No  Thur   Lunch     2
213       13.27  2.5  Female    Yes   Sat  Dinner     2)


### 여러 열을 사용해 그룹 오브젝트 만들고 계산하기

- 여러열을 사용하여 데이터를 그룹화하려면 리스트에 열 이름을 담아 
  groupby 메서드에 전달한다.
- gneder, time열을 기준으로 데이터를 그룹화하고 평균값을 구한다.

In [96]:
bill_gender_time = tips_10.groupby(['gender','time'])
group_avg = bill_gender_time.mean()

group_avg

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,size
gender,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,Lunch,27.82,3.28,3.0
Male,Dinner,17.9,2.53,2.6
Female,Lunch,14.15,2.0,2.0
Female,Dinner,16.025,2.75,2.0


In [97]:
type(group_avg)

pandas.core.frame.DataFrame

In [98]:
group_avg.columns

Index(['total_bill', 'tip', 'size'], dtype='object')

In [99]:
group_avg.index

MultiIndex([(  'Male',  'Lunch'),
            (  'Male', 'Dinner'),
            ('Female',  'Lunch'),
            ('Female', 'Dinner')],
           names=['gender', 'time'])

**rest_index 메서드: dataframme의 index가 MultiIndex인 경우**

reset_index메서드  또는 as_index =False 설정하여 인덱스를 새롭게 부여할 수 있다.

In [100]:
#위에서 찾은 group_avg dataframe을 그대로 가져와서 사용한다
group_avg = group_avg.reset_index()
group_avg

Unnamed: 0,gender,time,total_bill,tip,size
0,Male,Lunch,27.82,3.28,3.0
1,Male,Dinner,17.9,2.53,2.6
2,Female,Lunch,14.15,2.0,2.0
3,Female,Dinner,16.025,2.75,2.0


In [101]:
#tips_10에서 groupby, mean구하기, reset_index()까지 실행
group_method = tips_10.groupby(['gender','time']).mean().reset_index()
group_method

Unnamed: 0,gender,time,total_bill,tip,size
0,Male,Lunch,27.82,3.28,3.0
1,Male,Dinner,17.9,2.53,2.6
2,Female,Lunch,14.15,2.0,2.0
3,Female,Dinner,16.025,2.75,2.0


In [102]:
group_param = tips_10.groupby(['gender','time'], as_index = False).mean()
group_param

Unnamed: 0,gender,time,total_bill,tip,size
0,Male,Lunch,27.82,3.28,3.0
1,Male,Dinner,17.9,2.53,2.6
2,Female,Lunch,14.15,2.0,2.0
3,Female,Dinner,16.025,2.75,2.0
