## series

- series 사용 형식
    - Series(data = None, index = None, dtype = None, name = None, copy = False, fastpath = False)
- 1차원 배열 형식

In [3]:
import numpy as np
import pandas as pd


sdata = [2000.0, 3000.0, 4000.0, np.nan] # series 내의 데이터 생성
city = ['서울', '부산', '울산', '광주'] # series 내의 데이터 생성

myseries = pd.Series(sdata, city) # series 생성
# myseries = pd.Series(data=sdata, index=city)


myseries.name = '나는series' # series 객체 자체의 이름
myseries.index.name = '나는index' # series 내의 index 이름


print(myseries)

나는index
서울    2000.0
부산    3000.0
울산    4000.0
광주       NaN
Name: 나는series, dtype: float64


In [9]:
# series 생성 방법

series1 = pd.Series(range(0,4))
print(series1)

series2 = pd.Series([4, 5, 6])
print(series2)

series3 = pd.Series([4, 5, 6], index = ['a', 'b', 'c'])
print(series3)

data4 = {'seoul' : 3000, 'busan' : 2000}
series4 = pd.Series(data4)
print(series4)

0    0
1    1
2    2
3    3
dtype: int64
0    4
1    5
2    6
dtype: int64
a    4
b    5
c    6
dtype: int64
seoul    3000
busan    2000
dtype: int64


In [13]:
myindex = ['seoul', 'busan', 'gwangju', 'daegu', 'ulsan', 'mokpo', 'yoesoo']
mylist = [50, 60, 70, 30, 40, 10, 20]
series = pd.Series(data = mylist, index = myindex)
print(series)

print(series[['gwangju']]) # 해당하는 index랑 data 둘 다 출력

print(series['seoul']) # 해당하는 index의 data만 출력

print(series['busan':'mokpo']) # 문자형 Index - busan부터 mokpo까지

print(series[['seoul', 'gwangju']]) # 개별적으로 data 접근

print(series[[4]]) # 숫자를 통해서도 접근 가능

print(series[4]) # 데이터만 출력

print(series[0:6:2]) # 숫자형 Index - 0, 2, 4번째 읽기 ( 마지막은 포함 X :: <= && < )

print(series[[1, 3, 5]]) # 1, 3, 5번째 읽기

print(series[3:6]) # 숫자형 Index - from <= 결과 <

seoul      50
busan      60
gwangju    70
daegu      30
ulsan      40
mokpo      10
yoesoo     20
dtype: int64
gwangju    70
dtype: int64
50
busan      60
gwangju    70
daegu      30
ulsan      40
mokpo      10
dtype: int64
seoul      50
gwangju    70
dtype: int64
ulsan    40
dtype: int64
40
seoul      50
gwangju    70
ulsan      40
dtype: int64
busan    60
daegu    30
mokpo    10
dtype: int64
daegu    30
ulsan    40
mokpo    10
dtype: int64


In [15]:
# series 내의 값 변경

print(series)

series[2] = 22
print(series)

series[3:6] = 33 # 3~5번째 변경
print(series)

series[['seoul', 'busan']] = 44
print(series)

series[0::2] = 77 # 짝수 행만 변경
print(series)

seoul      50
busan      60
gwangju    70
daegu      30
ulsan      40
mokpo      10
yoesoo     20
dtype: int64
seoul      50
busan      60
gwangju    22
daegu      30
ulsan      40
mokpo      10
yoesoo     20
dtype: int64
seoul      50
busan      60
gwangju    22
daegu      33
ulsan      33
mokpo      33
yoesoo     20
dtype: int64
seoul      44
busan      44
gwangju    22
daegu      33
ulsan      33
mokpo      33
yoesoo     20
dtype: int64
seoul      77
busan      44
gwangju    77
daegu      33
ulsan      77
mokpo      33
yoesoo     77
dtype: int64


## DataFrame
- 2차원 배열 형식
- 열 1개가 하나의 Series형태
- 형식
    - DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

In [17]:
df_data = {'city': ['seoul', 'seoul', 'seoul', 'busan', 'busan'],
          'year' : [2000, 2001, 2002, 2001, 2002],
          'pop' : [1.5, 2.7, 3.6, 2.3, 2.9]}

df_column = ['city', 'year', 'pop'] # column
df_index = ['one', 'two', 'three', 'four', 'five'] # row(=Index)

df_frame1 = pd.DataFrame(df_data)
df_frame2 = pd.DataFrame(data = df_data, columns = df_column, index = df_index)


print(df_frame1)
print(df_frame2)

    city  year  pop
0  seoul  2000  1.5
1  seoul  2001  2.7
2  seoul  2002  3.6
3  busan  2001  2.3
4  busan  2002  2.9
        city  year  pop
one    seoul  2000  1.5
two    seoul  2001  2.7
three  seoul  2002  3.6
four   busan  2001  2.3
five   busan  2002  2.9


In [5]:
df_index = ['이순신', '김유신', '강감찬', '광해군', '연산군']
df_columns = ['seoul', 'busan', 'gwangju', 'mokpo', 'ulsan']
df_list = list(10 * data for data in range(1, 26))
print(df_list)

df_frame = pd.DataFrame(data = np.reshape(df_list, (5, 5)), index = df_index, columns = df_columns)
print(df_frame)

[10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250]
     seoul  busan  gwangju  mokpo  ulsan
이순신     10     20       30     40     50
김유신     60     70       80     90    100
강감찬    110    120      130    140    150
광해군    160    170      180    190    200
연산군    210    220      230    240    250


### 행 추출 - iloc, loc

- iloc : 행 인덱스로 행 추출
    - iloc[1] : 1행 추출
    - iloc[1, 3] : 1행 3열 추출
        - [행, 열]
    - iloc[[1, 3]] : 1행, 3행 추출
    - iloc[0::2] : 짝수행 추출
    - iloc[0:5] : 0행부터 4행까지 추출
- loc : 라벨을 통해 행 추출
    - 대괄호 하나 : Series
    - 대괄호 두개 : DataFrame
    - [[행목록], [열목록]]

- slicing을 쓸 때는 대괄호([]) 안에 안 써도 됨

In [6]:
# iloc

result1 = df_frame.iloc[1] # 1행 추출 / iloc : 행 인덱스로 행 추출
print(result1)

result2 = df_frame.iloc[[1, 3]] # .iloc[[1, 3]] - 1행, 3행 추출
print(result2)

result2_2 = df_frame.iloc[1, 3] # .iloc[1, 3] - 1행 3열 값 가져오기
print(result2_2)

result3 = df_frame.iloc[0::2] # .iloc[0 : : 2] - 짝수행만 가져오기
print(result3)

result4 = df_frame.iloc[1:4] # .iloc[1 : 4] - 1행부터 3행까지 가져오기
print(result4)

seoul       60
busan       70
gwangju     80
mokpo       90
ulsan      100
Name: 김유신, dtype: int64
     seoul  busan  gwangju  mokpo  ulsan
김유신     60     70       80     90    100
광해군    160    170      180    190    200
90
     seoul  busan  gwangju  mokpo  ulsan
이순신     10     20       30     40     50
강감찬    110    120      130    140    150
연산군    210    220      230    240    250
     seoul  busan  gwangju  mokpo  ulsan
김유신     60     70       80     90    100
강감찬    110    120      130    140    150
광해군    160    170      180    190    200


In [8]:
# loc

result1 = df_frame.loc['이순신'] # 대괄호가 하나기 때문에 Series 반환
print(result1)

reuslt2 = df_frame.loc[['이순신']] # 대괄호가 2개기 때문에 dataframe 반환
print(result2)

result3 = df_frame.loc[['이순신', '광해군']]
print(result3)

seoul      10
busan      20
gwangju    30
mokpo      40
ulsan      50
Name: 이순신, dtype: int64
     seoul  busan  gwangju  mokpo  ulsan
김유신     60     70       80     90    100
광해군    160    170      180    190    200
     seoul  busan  gwangju  mokpo  ulsan
이순신     10     20       30     40     50
광해군    160    170      180    190    200


In [27]:
result1 = df_frame.loc[['강감찬'], ['gwangju']] # dataframe - 강감찬의 광주
print(result1)

result2 = df_frame.loc[['연산군', '강감찬'], ['seoul', 'ulsan']]
print(result2)

result3 = df_frame.loc['김유신':'광해군', 'gwangju':'ulsan'] # 숫자일때 (ex. 1:5면 1-4까지), 문자일때 (ex. gwangju:ulsan면 다 포함)
print(result3) 

result4 = df_frame.loc['김유신':'광해군', ['busan']]
print(result4)

     gwangju
강감찬      130
     seoul  ulsan
연산군    210    250
강감찬    110    150
     gwangju  mokpo  ulsan
김유신       80     90    100
강감찬      130    140    150
광해군      180    190    200
     busan
김유신     70
강감찬    120
광해군    170


### 행 추출 - index 이용

- .index : 인덱스만 추출
- np.random.choice(list , 3) : 무작위로 list에서 3개 추출

In [10]:
print(df_frame.index)


df_target = np.random.choice(df_frame.index , 3)
print(df_target)

result = df_frame.loc[df_target]
print(result)


Index(['이순신', '김유신', '강감찬', '광해군', '연산군'], dtype='object')
['김유신' '광해군' '광해군']
     seoul  busan  gwangju  mokpo  ulsan
김유신     60     70       80     90    100
광해군    160    170      180    190    200
광해군    160    170      180    190    200


### 조건으로 dataframe 추출
- boolean : True인 행만 출력
- 조건 : 같다, 크다, 작다

In [31]:
print(df_frame)

result1 = df_frame.loc[[False, True, True, False, True]] # True인 행만 출력됨
print(result1)

result2 = df_frame.loc[df_frame['busan'] <= 100]
print(result2)

result3 = df_frame.loc[df_frame['mokpo'] == 140] # mokpo의 데이터가 140인 행만 출력
print(result3)

     seoul  busan  gwangju  mokpo  ulsan
이순신     10     20       30     40     50
김유신     60     70       80     90    100
강감찬    110    120      130    140    150
광해군    160    170      180    190    200
연산군    210    220      230    240    250
     seoul  busan  gwangju  mokpo  ulsan
김유신     60     70       80     90    100
강감찬    110    120      130    140    150
연산군    210    220      230    240    250
     seoul  busan  gwangju  mokpo  ulsan
이순신     10     20       30     40     50
김유신     60     70       80     90    100
     seoul  busan  gwangju  mokpo  ulsan
강감찬    110    120      130    140    150


- .all() :: 논리연산의 and와 동일
    - True && True => True
    - True && False => False
    - False && False => False
- .any() :: 논리연산의 or과 동일
    - True & True => True
    - True & False => True
    - False & False => False

In [12]:
cond1 = df_frame['busan'] >=70
cond2 = df_frame['mokpo'] >= 140

print(cond1)
print(cond2)

이순신    False
김유신     True
강감찬     True
광해군     True
연산군     True
Name: busan, dtype: bool
이순신    False
김유신    False
강감찬     True
광해군     True
연산군     True
Name: mokpo, dtype: bool


In [13]:
df = pd.DataFrame([cond1, cond2])
print(df)

print(df.all()) # all() :: 논리연산의 and와 동일
print(df.any()) # any() :: 논리연산의 or과 동일

         이순신    김유신   강감찬   광해군   연산군
busan  False   True  True  True  True
mokpo  False  False  True  True  True
이순신    False
김유신    False
강감찬     True
광해군     True
연산군     True
dtype: bool
이순신    False
김유신     True
강감찬     True
광해군     True
연산군     True
dtype: bool


In [14]:
print(df_frame.loc[df.all()])

print(df_frame.loc[df.any()])

     seoul  busan  gwangju  mokpo  ulsan
강감찬    110    120      130    140    150
광해군    160    170      180    190    200
연산군    210    220      230    240    250
     seoul  busan  gwangju  mokpo  ulsan
김유신     60     70       80     90    100
강감찬    110    120      130    140    150
광해군    160    170      180    190    200
연산군    210    220      230    240    250


### 조건으로 행 추출 :: lambda 함수 & slicing 활용

In [16]:
print(df_frame)

     seoul  busan  gwangju  mokpo  ulsan
이순신     10     20       30     40     50
김유신     60     70       80     90    100
강감찬    110    120      130    140    150
광해군    160    170      180    190    200
연산군    210    220      230    240    250


In [18]:
result = df_frame.loc[lambda df : df['gwangju'] >= 130]
print(result)

     seoul  busan  gwangju  mokpo  ulsan
강감찬    110    120      130    140    150
광해군    160    170      180    190    200
연산군    210    220      230    240    250


In [20]:
result2 = df_frame.loc[['연산군']]
print(result2)

result3 = df_frame.loc[['연산군'], :]
print(result3)

     seoul  busan  gwangju  mokpo  ulsan
연산군    210    220      230    240    250
     seoul  busan  gwangju  mokpo  ulsan
연산군    210    220      230    240    250


In [24]:
# loc은 인덱스값으로 접근하는 것이므로 column으로 접근 불가
# result2 = df_frame.loc[['gwangju']] => XXXXX


result3 = df_frame.loc[:, ['gwangju']]
print(result3)

     gwangju
이순신       30
김유신       80
강감찬      130
광해군      180
연산군      230


In [27]:
# 서울 실적이 150 이하인 데이터를 모두 80으로 지정하기
print(df_frame)

df_frame.loc[df_frame['seoul']<=150, ['seoul']] = 80
print(df_frame)

     seoul  busan  gwangju  mokpo  ulsan
이순신     10     20       30     40     50
김유신     60     70       80     90    100
강감찬    110    120      130    140    150
광해군    160    170      180    190    200
연산군    210    220      230    240    250
     seoul  busan  gwangju  mokpo  ulsan
이순신     80     20       30     40     50
김유신     80     70       80     90    100
강감찬     80    120      130    140    150
광해군    160    170      180    190    200
연산군    210    220      230    240    250


## apply 함수
- 사용자가 직접 작성한 함수를 한번에 데이터 프레임의 각 행과 열에 적용하여 실행할 수 있게 해주는 메소드
- 브로드 캐스팅할 수 있게 해줌
- frame.apply(f)

In [5]:
import pandas as pd 

data_memberinfo = pd.read_csv('../data/memberinfo.csv', index_col = 'id')
print(data_memberinfo)

     kor  eng
id           
김철수   60   70
홍길동   70   75
박영희   80   80


### * (행, 열) == (index(행, Row, axis = 0)수, 열(column, axis = 1)수)
- drop
    - axis = 0 : 행(index)없앰
    - axis = 1 : 열(column) 없앰
- mean
    - axis = 0 : 행 각각의 평균 (=> 하나하나의 열 평균) ex) kor, eng 각각의 평균
    - aixs = 1 : 열 각각의 평균 (=> 하나하나의 행 평균) ex) 김철수, 홍길동, 박영희 평균

In [6]:
print(data_memberinfo.shape) 

(3, 2)


In [10]:
print('일반적인 산술 연산')
data_memberinfo['kor'] + 5 # series 형태

일반적인 산술 연산


id
김철수    65
홍길동    75
박영희    85
Name: kor, dtype: int64

In [13]:
print('apply 함수 적용 1 - 더하기')

def plus_5(x):
    return x+5

plus_frame = data_memberinfo['kor'].apply(plus_5)
print(plus_frame)

apply 함수 적용 1
id
김철수    65
홍길동    75
박영희    85
Name: kor, dtype: int64


In [15]:
print('apply 함수 적용 2 - 곱하기')

def multiple_n(x, n):
    return x*n

multiple_frame = data_memberinfo['kor'].apply(multiple_n, n = 10)
print(multiple_frame)

apply 함수 적용 2
id
김철수    600
홍길동    700
박영희    800
Name: kor, dtype: int64


In [17]:
print('apply 함수 적용 3 - column 방향으로 평균 구하기')

def mean_column(col):
    column_sum = 0
    for item in col:
        column_sum += item
    return column_sum/data_memberinfo.shape[0]

mean_column_df = data_memberinfo.apply(mean_column)
print(mean_column_df)

apply 함수 적용 3 - column 방향으로 평균 구하기
kor    70.0
eng    75.0
dtype: float64


In [19]:
print('apply 함수 적용 4 - row 방향으로 평균구하기')

def mean_row(row):
    row_sum = 0
    for item in row:
        row_sum += row
    return row_sum/data_memberinfo.shape[1]

mean_row_df = data_memberinfo.apply(mean_row)
print(mean_row_df)

apply 함수 적용 4 - row 방향으로 평균구하기
       kor    eng
id               
김철수   90.0  105.0
홍길동  105.0  112.5
박영희  120.0  120.0


## 데이터 병합
- merge() 함수 : 하나 이상의 키를 기준으로 DataFrame의 *column(열)*을 합치는 기능
    - 함수 인자
        - left : 왼쪽 df를 기준으로
        - right : 오른쪽 df를 기준으로
        - how : 합병의 방법
            - inner : 공통된 행만 병합
            - outer : 전체 병합
            - left / right : 기준을 두는 df
        - on : 컬럼 이름을 의미
        - 동일 이름의 컬럼이 존재하지 않는 경우
            - on 매개변수 사용 X
            - right_on / left_on 사용 O

In [4]:
import pandas as pd


dict1 = {'name':['홍길동', '홍길동', '김철수', '박영희', '김철수', '김철수', '홍길동',],
        'korean' : range(7)}
df1 = pd.DataFrame(dict1)

dict2 = {'name':['김철수', '홍길동', '심수봉'],
        'english':range(3)}
df2 = pd.DataFrame(dict2)

print('dataframe1\n', df1)
print('dataframe2\n', df2)

# 양쪽에 모두 존재하는 동일 이름만 병합됨
merge1 = pd.merge(df1, df2, on='name') # default :: how = 'inner'
print(merge1)

# 모두 다 병합
merge2 = pd.merge(df1, df2, how='outer')
print(merge2)

dataframe1
   name  korean
0  홍길동       0
1  홍길동       1
2  김철수       2
3  박영희       3
4  김철수       4
5  김철수       5
6  홍길동       6
dataframe2
   name  english
0  김철수        0
1  홍길동        1
2  심수봉        2
  name  korean  english
0  홍길동       0        1
1  홍길동       1        1
2  홍길동       6        1
3  김철수       2        0
4  김철수       4        0
5  김철수       5        0
  name  korean  english
0  홍길동     0.0      1.0
1  홍길동     1.0      1.0
2  홍길동     6.0      1.0
3  김철수     2.0      0.0
4  김철수     4.0      0.0
5  김철수     5.0      0.0
6  박영희     3.0      NaN
7  심수봉     NaN      2.0


In [5]:
# 공통되는 이름의 컬럼이 하나도 없을 때

dict3 = {'leftkey':['홍길동', '홍길동', '김철수', '박영희', '김철수', '김철수', '홍길동'],
        'korean':range(7)}
df3 = pd.DataFrame(dict3)

dict4 = {'rightkey':['김철수', '홍길동', '심수봉'],
        'english' : range(3)}
df4 = pd.DataFrame(dict4)

print('dataframe3\n', df3)
print('dataframe4\n', df4)

merge3 = pd.merge(df3, df4, left_on='leftkey', right_on='rightkey') # how = 'inner' <- default
print(merge3)

dataframe3
   leftkey  korean
0     홍길동       0
1     홍길동       1
2     김철수       2
3     박영희       3
4     김철수       4
5     김철수       5
6     홍길동       6
dataframe4
   rightkey  english
0      김철수        0
1      홍길동        1
2      심수봉        2
  leftkey  korean rightkey  english
0     홍길동       0      홍길동        1
1     홍길동       1      홍길동        1
2     홍길동       6      홍길동        1
3     김철수       2      김철수        0
4     김철수       4      김철수        0
5     김철수       5      김철수        0


In [8]:
# 여러 키 병합
dict5 = {'key1':['김철수', '김철수', '박영희', '박영희'],
        'key2':['one','one','one','two'],
        'leftval':[4,5,6,7]}
df5 = pd.DataFrame(dict5)

dict6 = {'key1':['김철수','김철수','박영희'],
        'key2':['one','two','one'],
        'leftval':[1, 2, 3]}
df6 = pd.DataFrame(dict6)

print('dataframe5\n', df5)
print('dataframe6\n', df6)


# 병합할 df이 같은 key를 가지고 있음 
## 1.list로 동일한 Key 이름 저장
merge_col = ['key1', 'key2']
merge4 = pd.merge(df5, df6, on=merge_col, how='outer')
print(merge4)

## 2. 접미사 suffixes 이용
merge5 = pd.merge(df5, df6, on='key1', suffixes = ('_왼쪽', '_오른쪽'))
print(merge5)

dataframe5
   key1 key2  leftval
0  김철수  one        4
1  김철수  one        5
2  박영희  one        6
3  박영희  two        7
dataframe6
   key1 key2  leftval
0  김철수  one        1
1  김철수  two        2
2  박영희  one        3
  key1 key2  leftval_x  leftval_y
0  김철수  one        4.0        1.0
1  김철수  one        5.0        1.0
2  박영희  one        6.0        3.0
3  박영희  two        7.0        NaN
4  김철수  two        NaN        2.0
  key1 key2_왼쪽  leftval_왼쪽 key2_오른쪽  leftval_오른쪽
0  김철수     one           4      one            1
1  김철수     one           4      two            2
2  김철수     one           5      one            1
3  김철수     one           5      two            2
4  박영희     one           6      one            3
5  박영희     two           7      one            3


In [10]:
# 색인을 이용한 병합
new_df1 = df1.set_index('name')
new_df2 = df2.set_index('name')

print('new_dataframe1\n', new_df1)
print('new_dataframe2\n', new_df2)

new_merge1 = pd.merge(new_df1, new_df2, left_index = True, right_index = True, indicator = True)
print(new_merge1)

new_dataframe1
       korean
name        
홍길동        0
홍길동        1
김철수        2
박영희        3
김철수        4
김철수        5
홍길동        6
new_dataframe2
       english
name         
김철수         0
홍길동         1
심수봉         2
      korean  english _merge
name                        
김철수        2        0   both
김철수        4        0   both
김철수        5        0   both
홍길동        0        1   both
홍길동        1        1   both
홍길동        6        1   both


## 데이터 추출 방법

In [12]:
# data load
data = pd.read_csv('../data/welfare_python.csv')
print(data)

       gender  birth  marriage  religion  code_job  income  code_religion
0           2   1936         2         2       NaN     NaN              1
1           2   1945         2         2       NaN     NaN              1
2           1   1948         2         2     942.0   120.0              1
3           1   1942         3         1     762.0   200.0              1
4           2   1923         2         1       NaN     NaN              1
...       ...    ...       ...       ...       ...     ...            ...
16659       2   1967         1         1       NaN     NaN              5
16660       2   1992         5         1     314.0   302.5              5
16661       1   1995         5         1       NaN     NaN              5
16662       2   1998         0         1       NaN     NaN              5
16663       1   2001         0         1       NaN     NaN              5

[16664 rows x 7 columns]


In [13]:
# head() : 상위 5개 보여주기
# tail() : 하위 5개 보여주기
print(data.head())
print(data.tail())

# shape : df의 행 열
print(data.shape)
print(data.shape[0], data.shape[1])

# .columns : df의 columns 불러오기
print(data.columns)

# .dtypes : 각 컬럼의 데이터 타입 정보
print(data.dtypes)

# info() : 정보
print(data.info())

   gender  birth  marriage  religion  code_job  income  code_religion
0       2   1936         2         2       NaN     NaN              1
1       2   1945         2         2       NaN     NaN              1
2       1   1948         2         2     942.0   120.0              1
3       1   1942         3         1     762.0   200.0              1
4       2   1923         2         1       NaN     NaN              1
       gender  birth  marriage  religion  code_job  income  code_religion
16659       2   1967         1         1       NaN     NaN              5
16660       2   1992         5         1     314.0   302.5              5
16661       1   1995         5         1       NaN     NaN              5
16662       2   1998         0         1       NaN     NaN              5
16663       1   2001         0         1       NaN     NaN              5
(16664, 7)
16664 7
Index(['gender', 'birth', 'marriage', 'religion', 'code_job', 'income',
       'code_religion'],
      dtype='object'

In [15]:
# 조회 : 리스트를 활용
print(data[['gender', 'birth', 'marriage']])

# 조회 : loc 속성 - 행 단위 출력 (라벨의 이름으로)
# 조회 : iloc 속성 - 행 단위 출력 (인덱스 번호 기준)
print(data.loc[0])
print(data.iloc[1])
print(data.iloc[-1]) # 맨 마지막
print(data.loc[[0, 99, 999]])
print(data.loc[:, ['gender', 'religion', 'income']])
print(data.iloc[:, [2, 4, -1]])

       gender  birth  marriage
0           2   1936         2
1           2   1945         2
2           1   1948         2
3           1   1942         3
4           2   1923         2
...       ...    ...       ...
16659       2   1967         1
16660       2   1992         5
16661       1   1995         5
16662       2   1998         0
16663       1   2001         0

[16664 rows x 3 columns]
gender              2.0
birth            1936.0
marriage            2.0
religion            2.0
code_job            NaN
income              NaN
code_religion       1.0
Name: 0, dtype: float64
gender              2.0
birth            1945.0
marriage            2.0
religion            2.0
code_job            NaN
income              NaN
code_religion       1.0
Name: 1, dtype: float64
gender              1.0
birth            2001.0
marriage            0.0
religion            1.0
code_job            NaN
income              NaN
code_religion       5.0
Name: 16663, dtype: float64
     gender  birth  ma

## groupby
- 데이터를 분할하고, 반영하고, 결합하는 과정

In [17]:
# unique() : 유일한 값
print(data['marriage'].unique())


# marriage에 대하여 그룹핑을 수행하고, code_religion에 대한 평균을 구하기
print(data.groupby('marriage')['code_religion'].mean())

# marriage, birth를 그룹화시키고, code_religion, income에 대한 평균값을 출력
print(data.groupby(['marriage', 'birth'])[['code_religion', 'income']].mean())

[2 3 1 0 5 4 6]
marriage
0    3.655365
1    3.726723
2    4.024563
3    3.648876
4    3.880952
5    3.420058
6    3.653846
Name: code_religion, dtype: float64
                code_religion  income
marriage birth                       
0        1997        3.808081     NaN
         1998        3.652850     NaN
         1999        3.626794     NaN
         2000        3.635945     NaN
         2001        3.578947     NaN
...                       ...     ...
6        1946        3.000000     NaN
         1947        4.000000     NaN
         1959        4.000000     NaN
         1960        2.000000     NaN
         1967        7.000000     NaN

[339 rows x 2 columns]
