# DataFrame의 결합 (Merge)
> - Database Table의 **join** 기능
> - 두 개의 DataFrame을 연결시켜서 새로운 DataFrame을 만든다.

### 학번을 기준으로 JOIN => 학번이 같은 것만 뽑혀서 나온다.
1. INNER JOIN : INTERSECT
2. FULL OUTER JOIN : UNION
3. LEFT OUTER JOIN : (df1-df2) + INTERSECT
4. RIGHT OUTER JOIN : (df2-df1) + INTERSECT

In [53]:
import numpy as np
import pandas as pd

data1 = {'학번': [1, 2, 3, 4],
         '이름': ['이지안', '박동훈', '이순신', '강감찬'],
         '학년': [2, 4, 1, 3]}

data2 = {'학번': [1, 2, 4, 5],
         '학과': ['CS', 'MATH', 'MATH', 'CS'],
         '학점' : [3.4, 2.9, 4.5, 1.2]}

df1 = pd.DataFrame(data1)
display(df1)
df2 = pd.DataFrame(data2)
display(df2)

result = pd.merge(df1, df2, on='학번', how='inner') # inner join
display(result)

Unnamed: 0,학번,이름,학년
0,1,이지안,2
1,2,박동훈,4
2,3,이순신,1
3,4,강감찬,3


Unnamed: 0,학번,학과,학점
0,1,CS,3.4
1,2,MATH,2.9
2,4,MATH,4.5
3,5,CS,1.2


Unnamed: 0,학번,이름,학년,학과,학점
0,1,이지안,2,CS,3.4
1,2,박동훈,4,MATH,2.9
2,4,강감찬,3,MATH,4.5


In [54]:
result = pd.merge(df1, df2, on='학번', how='outer')
display(result)

result = pd.merge(df1, df2, on='학번', how='left')
display(result)

result = pd.merge(df1, df2, on='학번', how='right')
display(result)

Unnamed: 0,학번,이름,학년,학과,학점
0,1,이지안,2.0,CS,3.4
1,2,박동훈,4.0,MATH,2.9
2,3,이순신,1.0,,
3,4,강감찬,3.0,MATH,4.5
4,5,,,CS,1.2


Unnamed: 0,학번,이름,학년,학과,학점
0,1,이지안,2,CS,3.4
1,2,박동훈,4,MATH,2.9
2,3,이순신,1,,
3,4,강감찬,3,MATH,4.5


Unnamed: 0,학번,이름,학년,학과,학점
0,1,이지안,2.0,CS,3.4
1,2,박동훈,4.0,MATH,2.9
2,4,강감찬,3.0,MATH,4.5
3,5,,,CS,1.2


## Merage - 여러가지 경우에 대한 사용법..

### 컬럼명이 다를 경우

In [55]:
# 만약 컬럼명이 다르다면
import numpy as np
import pandas as pd

data1 = {'학번': [1, 2, 3, 4],
         '이름': ['이지안', '박동훈', '이순신', '강감찬'],
         '학년': [2, 4, 1, 3]}

data2 = {'학생학번': [1, 2, 4, 5],
         '학과': ['CS', 'MATH', 'MATH', 'CS'],
         '학점' : [3.4, 2.9, 4.5, 1.2]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

print("df1")
display(df1)
print("\ndf2")
display(df2)
################################

result = pd.merge(df1, df2,
                  left_on='학번', 
                  right_on='학생학번', how='inner')
display(result)

df1


Unnamed: 0,학번,이름,학년
0,1,이지안,2
1,2,박동훈,4
2,3,이순신,1
3,4,강감찬,3



df2


Unnamed: 0,학생학번,학과,학점
0,1,CS,3.4
1,2,MATH,2.9
2,4,MATH,4.5
3,5,CS,1.2


Unnamed: 0,학번,이름,학년,학생학번,학과,학점
0,1,이지안,2,1,CS,3.4
1,2,박동훈,4,2,MATH,2.9
2,4,강감찬,3,4,MATH,4.5


## DataFrame의 column과 index를 이용한 range

In [6]:
import numpy as np
import pandas as pd

data1 = {'학번': [1, 2, 3, 4],
         '이름': ['이지안', '박동훈', '이순신', '강감찬'],
         '학년': [2, 4, 1, 3]}

data2 = {'학과': ['CS', 'MATH', 'MATH', 'CS'],
         '학점' : [3.4, 2.9, 4.5, 1.2]}

df1 = pd.DataFrame(data1)
print("df1")
display(df1)

# 학번을 index로 사용
df2 = pd.DataFrame(data2,
                  index=[1, 2, 4, 5])
print("\ndf2")
display(df2) 

############################################

result = pd.merge(df1, df2, 
                  left_on='학번', 
                  right_index=True, 
                  how='inner')
print("\n left_on='학번', right_index=True")
display(result)


# result.loc[2] # 2번 X key error, 표기된 인덱스 기반
print("\niloc[2]")
display(result.iloc[2]) # 숫자 인덱스 기반

print("\nloc[3]")
display(result.loc[3])

df1


Unnamed: 0,학번,이름,학년
0,1,이지안,2
1,2,박동훈,4
2,3,이순신,1
3,4,강감찬,3



df2


Unnamed: 0,학과,학점
1,CS,3.4
2,MATH,2.9
4,MATH,4.5
5,CS,1.2



 left_on='학번', right_index=True


Unnamed: 0,학번,이름,학년,학과,학점
0,1,이지안,2,CS,3.4
1,2,박동훈,4,MATH,2.9
3,4,강감찬,3,MATH,4.5



iloc[2]


학번       4
이름     강감찬
학년       3
학과    MATH
학점     4.5
Name: 3, dtype: object


loc[3]


학번       4
이름     강감찬
학년       3
학과    MATH
학점     4.5
Name: 3, dtype: object

In [8]:
# DataFrame의 index를 이용한 merge
import numpy as np
import pandas as pd

data1 = {
         '이름': ['이지안', '박동훈', '이순신', '강감찬'],
         '학년': [2, 4, 1, 3]}

data2 = {'학과': ['CS', 'MATH', 'MATH', 'CS'],
         '학점' : [3.4, 2.9, 4.5, 1.2]}

# 학번을 index로 사용.
df1 = pd.DataFrame(data1,
                  index=[1, 2, 3, 4])
df2 = pd.DataFrame(data2,
                  index=[1, 2, 4, 5])
print("df1")
display(df1)
print("\ndf2")
display(df2) 

############################################

result = pd.merge(df1, df2, 
                  left_index=True, 
                  right_index=True, 
                  how='inner')
print("\nleft_index=True, right_index=True")
display(result)

df1


Unnamed: 0,이름,학년
1,이지안,2
2,박동훈,4
3,이순신,1
4,강감찬,3



df2


Unnamed: 0,학과,학점
1,CS,3.4
2,MATH,2.9
4,MATH,4.5
5,CS,1.2



left_index=True, right_index=True


Unnamed: 0,이름,학년,학과,학점
1,이지안,2,CS,3.4
2,박동훈,4,MATH,2.9
4,강감찬,3,MATH,4.5


# Concatenation (연결)
>- Series를 1차원, 2차원으로 연결하는 방법

- Series는 1차원 vector 형태이다.
- 연결하는 방법은 2가지 방법이 있다.
- 행방향 연결, 열 방향 연결

In [9]:
# concatenation(연결)
import numpy as np
import pandas as pd

s1 = pd.Series([0, 1], index=['a', 'c'])
s2 = pd.Series([4, 3, 2], index=['b', 'c', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])

print("s1")
print(s1)
print("\ns2")
print(s2)
print("\ns3")
print(s3)

# Series는 1차원 vector 형태이다.
# 연결하는 방법은 2가지 방법이 있다.
# 행방향 연결, 열 방향 연결

s1
a    0
c    1
dtype: int64

s2
b    4
c    3
e    2
dtype: int64

s3
f    5
g    6
dtype: int64


In [15]:
print("pd.concat([s1, s2, s3], axis=0) -> Series 1차원 연결")
display(pd.concat([s1, s2, s3], axis=0)) # Series를 1차원으로 연결

pd.concat([s1, s2, s3], axis=0) -> Series 1차원 연결


a    0
c    1
b    4
c    3
e    2
f    5
g    6
dtype: int64

In [11]:
# index를 조심해야 한다.
# sort: index를 정렬할 것인지 아닌지
print("pd.concat([s1, s2, s3], axis=1, sort=False)") # Series를 1차원으로 연결
                                                         
display(pd.concat([s1, s2, s3], axis=1, sort=False)) 

pd.concat([s1, s2, s3], axis=1, sort=False)


Unnamed: 0,0,1,2
a,0.0,,
c,1.0,3.0,
b,,4.0,
e,,2.0,
f,,,5.0
g,,,6.0


In [12]:
print("pd.concat([s1, s2, s3], axis=1, sort=True)")
display(pd.concat([s1, s2, s3], axis=1, sort=True))

pd.concat([s1, s2, s3], axis=1, sort=True)


Unnamed: 0,0,1,2
a,0.0,,
b,,4.0,
c,1.0,3.0,
e,,2.0,
f,,,5.0
g,,,6.0


# DataFrame 연결

In [14]:
# DataFrame 연결
import numpy as np
import pandas as pd

df1 = pd.DataFrame(np.arange(6).reshape(3, 2),
                  index = ['a', 'b', 'c'],
                  columns = ['one', 'two'])
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2),
                  index = ['a', 'b'],
                  columns = ['three', 'four'])

print("df1")
display(df1)
print("\ndf2")
display(df2)
###################################################
# 인덱스 기준으로 붙는다.
# axis=1
print("\npd.concat([df1, df2], axis=1, sort=True)")
result = pd.concat([df1, df2],
                    axis=1,
                    sort=True) # column 정렬
display(result)

df1


Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5



df2


Unnamed: 0,three,four
a,5,6
b,7,8



pd.concat([df1, df2], axis=1, sort=True)


Unnamed: 0,one,two,three,four
a,0,1,5.0,6.0
b,2,3,7.0,8.0
c,4,5,,


In [18]:
df1 = pd.DataFrame(np.arange(6).reshape(3, 2),
                  index = ['a', 'b', 'c'],
                  columns = ['one', 'two'])
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2),
                  index = ['a', 'b'],
                  columns = ['three', 'four'])
print("df1")
display(df1)
print("\ndf2")
display(df2)
##########################################

# axis=0
# ignore_indes=False,  # 인덱스 다시 설정x
# sort=True => column 정렬
print("\npd.concat([df1, df2], axis=0, ignore_index=False, sort=True)")
result = pd.concat([df1, df2],
                    axis=0,
                    ignore_index=False,  
                    sort=True)
display(result)

df1


Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5



df2


Unnamed: 0,three,four
a,5,6
b,7,8



pd.concat([df1, df2], axis=0, ignore_index=False, sort=True)


Unnamed: 0,four,one,three,two
a,,0.0,,1.0
b,,2.0,,3.0
c,,4.0,,5.0
a,6.0,,5.0,
b,8.0,,7.0,


In [19]:
df1 = pd.DataFrame(np.arange(6).reshape(3, 2),
                  index = ['a', 'b', 'c'],
                  columns = ['one', 'two'])
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2),
                  index = ['a', 'b'],
                  columns = ['three', 'four'])
print("df1")
display(df1)
print("\ndf2")
display(df2)
##########################################


# axis=0
# ignore_indes=True,  # 인덱스 다시 정렬
# sort=True => column 정렬
print("\npd.concat([df1, df2], axis=0, ignore_index=True, sort=True)")
result = pd.concat([df1, df2],
                    axis=0,
                    ignore_index=True,  
                    sort=True)
display(result)

df1


Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5



df2


Unnamed: 0,three,four
a,5,6
b,7,8



pd.concat([df1, df2], axis=0, ignore_index=True, sort=True)


Unnamed: 0,four,one,three,two
0,,0.0,,1.0
1,,2.0,,3.0
2,,4.0,,5.0
3,6.0,,5.0,
4,8.0,,7.0,


# Random seed 고정
- 0 이상 10 미만의 정수형 난수를 균등분포로 추출해서 6행 4열짜리 DataFrame 생성
- index와 column은 따로 지정하지 않는다.

### 결측치 NaN
- 일반적으로 NaN은 결측치 취급한다.
- 결측치 처리 법 중 하나: 결측치가 들어가 있는 행 삭제
- 편하고 좋지만, 다른 열에 존재하는 데이터까지 날아가게 된다.
- 만약, 결측치가 몇개 안된다면 삭제하는게 좋을 수 있다.

- 그러나 일반적으로는 결측치를 다른 값으로 대체해서 사용한다.
- 평균값, max, min 등등 다른 값으로 대체

## 결측치 제거

In [21]:
import numpy as np
import pandas as pd
from datetime import date, datetime, timedelta

# column과 index를 설정한다.
# column : 'A', 'B', 'C', 'D'
# index : 날짜 이용, 2020-01-01부터 1일씩 증가
# NaN값을 포함하는 새로운 column 'E' 추가
# 'E' column : [7, np.nan, 4, np.nan, 2, np.nan]

np.random.seed(0)
arr = np.random.randint(0, 10, (6, 4))
# start_day = datetime(2020, 1, 1)

df = pd.DataFrame(arr)
                 # columns = ['A', 'B', 'C', 'D'])
                 # index = [start_day + timedelta(days=x) for x in range(6)])

# df.index = pd.date_range('20200101', periods=6)
df.index = pd.date_range('20200101', '20200106')
df.columns = ['A', 'B', 'C', 'D']
df['E'] = [7, np.nan, 4, np.nan, 2, np.nan]
display(df)
###################################################3

# 결측치 제거
print("결측치 제거")
new_df = df.dropna(how='any', inplace=False) # dropna(how='any') => NaN이 하나라도 행에 포함되어 있으면 행 자체를 삭제
                      # dropna(how='all') => 행의 모든 열이 NaN인 경우 행을 삭제
                      # inplace=True : 원본 삭제, default는 False
        
display(new_df)

Unnamed: 0,A,B,C,D,E
2020-01-01,5,0,3,3,7.0
2020-01-02,7,9,3,5,
2020-01-03,2,4,7,6,4.0
2020-01-04,8,8,1,6,
2020-01-05,7,7,8,1,2.0
2020-01-06,5,9,8,9,


결측치 제거


Unnamed: 0,A,B,C,D,E
2020-01-01,5,0,3,3,7.0
2020-01-03,2,4,7,6,4.0
2020-01-05,7,7,8,1,2.0


## 결측치 대체

In [22]:
# 결측치를 다른 값으로 대체
print("결측치 대체")
new_df = df.fillna(value=0)
display(new_df)

결측치 대체


Unnamed: 0,A,B,C,D,E
2020-01-01,5,0,3,3,7.0
2020-01-02,7,9,3,5,0.0
2020-01-03,2,4,7,6,4.0
2020-01-04,8,8,1,6,0.0
2020-01-05,7,7,8,1,2.0
2020-01-06,5,9,8,9,0.0


## 'E' column의 값이 NaN인 행들을 찾아서, 해당 행의 모든 column을 출력한다.

In [23]:
# 'E' column의 값이 NaN인 행들을 찾아서, 해당 행의 모든 column을 출력한다.
my_mask = df['E'].isnull()  # boolean mask
print("=====df['E'].isnul()====")
print(my_mask)

print("\ndf.loc[my_mask,:]")
display(df.loc[my_mask,:])

=====df['E'].isnul()====
2020-01-01    False
2020-01-02     True
2020-01-03    False
2020-01-04     True
2020-01-05    False
2020-01-06     True
Freq: D, Name: E, dtype: bool

df.loc[my_mask,:]


Unnamed: 0,A,B,C,D,E
2020-01-02,7,9,3,5,
2020-01-04,8,8,1,6,
2020-01-06,5,9,8,9,


# 중복행 처리

In [25]:
# 중복행 처리
import numpy as np
import pandas as pd

df = pd.DataFrame({'k1': ['one']*3 + ['two']*4, 
                   'k2': [1, 1, 2, 3, 3, 4, 4]})
display(df)

#################3

# DataFrme에서 중복행에 대한 boolean mask를 추출
print("\n======df.duplicated()=========")
print(df.duplicated())  # 중복행에 대한 boolean mask 추출

# one 1 => False
# one 1 => True

# 중복행 추출
print("\ndf.loc[df.duplicated(),:]")
display(df.loc[df.duplicated(),:])

print("\ndf.drop_duplicates()]")
display(df.drop_duplicates())  # 중복행이 없다.

Unnamed: 0,k1,k2
0,one,1
1,one,1
2,one,2
3,two,3
4,two,3
5,two,4
6,two,4



0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

df.loc[df.duplicated(),:]


Unnamed: 0,k1,k2
1,one,1
4,two,3
6,two,4



df.drop_duplicates()]


Unnamed: 0,k1,k2
0,one,1
2,one,2
3,two,3
5,two,4


In [26]:
df = pd.DataFrame({'k1': ['one']*3 + ['two']*4, 
                   'k2': [1, 1, 2, 3, 3, 4, 4],
                   'k3': np.arange(7)})
display(df)
print("\ndf.drop_duplicates()")
display(df.drop_duplicates())              # 중복행이 없다.
print("\ndf.drop_duplicates(['k1'])")
display(df.drop_duplicates(['k1']))        # 중복행 기준 k1
print("\ndf.drop_duplicates(['k1', k2])")
display(df.drop_duplicates(['k1', 'k2']))  

Unnamed: 0,k1,k2,k3
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6



df.drop_duplicates()


Unnamed: 0,k1,k2,k3
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6



df.drop_duplicates(['k1'])


Unnamed: 0,k1,k2,k3
0,one,1,0
3,two,3,3



df.drop_duplicates(['k1', k2])


Unnamed: 0,k1,k2,k3
0,one,1,0
2,one,2,2
3,two,3,3
5,two,4,5


## `replace()`

In [28]:
# replace() => 대치
df = pd.DataFrame(np.random.randint(0, 10, (6, 4)),
                 columns = ['A', 'B', 'C', 'D'])

df['E'] = [7, np.nan, 4, np.nan, 2, np.nan]
display(df)

#####################
print("\ndf.replace(8, 100)")
result = df.replace(8, -100)
display(result)

Unnamed: 0,A,B,C,D,E
0,2,0,0,4,7.0
1,5,5,6,8,
2,4,1,4,9,4.0
3,8,1,1,7,
4,9,9,3,6,2.0
5,7,2,0,3,



df.replace(8, 100)


Unnamed: 0,A,B,C,D,E
0,2,0,0,4,7.0
1,5,5,6,-100,
2,4,1,4,9,4.0
3,-100,1,1,7,
4,9,9,3,6,2.0
5,7,2,0,3,


# DataFrame Grouping

In [37]:
import numpy as np
import pandas as pd

my_dict = {'학과': ['컴퓨터', '체육교육과', '컴퓨터', '체육교육과', '컴퓨터'],
           '학년': [1, 2, 3, 2, 3],
           '이름': ['홍길동', '김연아', '최길동', '아이유', '신사임당'],
           '학점': [1.5, 4.4, 3.7, 4.5, 3.8]}

df = pd.DataFrame(my_dict)
display(df)

###########################################################

# 학과를 기준으로 grouping
# Series를 grouping하는 개념
dept = df['학점'].groupby(df['학과'])
print("===========학점으로 grouping==========")
print("df['학점'].groupby(df['학과'])")
display(dept) # pandas.core.groupby.generic.SeriesGroupBy object

# 그룹 안의 데이터를 확인하고 싶으면 get_group() 사용
print("\n=====dept.get_group('컴퓨터')")
print(dept.get_group('컴퓨터')) # Series

# 각 그룹의 사이즈를 확인하고 싶은 경우 size()
print("\n==dept.size()")
print(dept.size())  # Series로 리턴, 각 그룹의 count
print("\n==dept.mean()")
print(dept.mean())  # Series로 리턴

# 2단계 grouping 간 grouping 가능
dept_year = df['학점'].groupby([df['학과'], df['학년']])
print("\n============2단계 grouping 간 grouping 가능")
print("==dept_year = df['학점'].groupby(df['학과'], df['학년'])")
print("\n==dept_year.mean()")
print(dept_year.mean())


# Series와 DataFrame은 index와 column에 multi index 개념을 지원
# unstack() : 최하위 index를 column()으로 설정
print("\n===unstack(): 최하위 index를 column()으로 설정")
print("==dept_year.mean().unstack()")
display(dept_year.mean().unstack())

Unnamed: 0,학과,학년,이름,학점
0,컴퓨터,1,홍길동,1.5
1,체육교육과,2,김연아,4.4
2,컴퓨터,3,최길동,3.7
3,체육교육과,2,아이유,4.5
4,컴퓨터,3,신사임당,3.8


df['학점'].groupby(df['학과'])


<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001B7A36A3548>


=====dept.get_group('컴퓨터')
0    1.5
2    3.7
4    3.8
Name: 학점, dtype: float64

==dept.size()
학과
체육교육과    2
컴퓨터      3
Name: 학점, dtype: int64

==dept.mean()
학과
체육교육과    4.45
컴퓨터      3.00
Name: 학점, dtype: float64

==dept_year = df['학점'].groupby(df['학과'], df['학년'])

==dept_year.mean()
학과     학년
체육교육과  2     4.45
컴퓨터    1     1.50
       3     3.75
Name: 학점, dtype: float64

===unstack(): 최하위 index를 column()으로 설정
==dept_year.mean().unstack()


학년,1,2,3
학과,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
체육교육과,,4.45,
컴퓨터,1.5,,3.75


## DaraFrame을 grouping

In [45]:
import numpy as np
import pandas as pd

my_dict = {'학과': ['컴퓨터', '체육교육과', '컴퓨터', '체육교육과', '컴퓨터'],
           '학년': [1, 2, 3, 2, 3],
           '이름': ['홍길동', '김연아', '최길동', '아이유', '신사임당'],
           '학점': [1.5, 4.4, 3.7, 4.5, 3.8]}

df = pd.DataFrame(my_dict)
display(df)
####################################

# dept_year = df['학점'].groupby([df['학과'], df['학년']]) # Series
# DataFrame을 grouping한다.

df_group_dept = df.groupby(df['학과'])
print("\n=====df_group_dept = df.groupby(df['학과'])")
print(df_group_dept) # pandas.core.groupby.generic.DataFrameGroupBy

print("\n===df_group_dept.get_group('컴퓨터')")
display(df_group_dept.get_group('컴퓨터'))
print("===df_group_dept.mean()")
display(df_group_dept.mean())


# dept_year = df['학점'].groupby([df['학과'],df['학년']])
print("\n====df_dept_year = df.groupby(['학과','학년'])")
df_dept_year = df.groupby(['학과','학년'])
print("\ndf_dept_year.mean().unstack()")
display(df_dept_year.mean().unstack())

Unnamed: 0,학과,학년,이름,학점
0,컴퓨터,1,홍길동,1.5
1,체육교육과,2,김연아,4.4
2,컴퓨터,3,최길동,3.7
3,체육교육과,2,아이유,4.5
4,컴퓨터,3,신사임당,3.8



=====df_group_dept = df.groupby(df['학과'])
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001B7A374FE48>

===df_group_dept.get_group('컴퓨터')


Unnamed: 0,학과,학년,이름,학점
0,컴퓨터,1,홍길동,1.5
2,컴퓨터,3,최길동,3.7
4,컴퓨터,3,신사임당,3.8


===df_group_dept.mean()


Unnamed: 0_level_0,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1
체육교육과,2.0,4.45
컴퓨터,2.333333,3.0



====df_dept_year = df.groupby(['학과','학년'])

df_dept_year.mean().unstack()


Unnamed: 0_level_0,학점,학점,학점
학년,1,2,3
학과,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
체육교육과,,4.45,
컴퓨터,1.5,,3.75


In [48]:
import numpy as np
import pandas as pd

my_dict = {'학과': ['컴퓨터', '체육교육과', '컴퓨터', '체육교육과', '컴퓨터'],
           '학년': [1, 2, 3, 2, 3],
           '이름': ['홍길동', '김연아', '최길동', '아이유', '신사임당'],
           '학점': [1.5, 4.4, 3.7, 4.5, 3.8]}

df = pd.DataFrame(my_dict)
display(df)
#######################
# 학과별 평균 학점은?
print("\n=====df['학점'].groupby(df['학과']).mean()")
print(df['학점'].groupby(df['학과']).mean())

# 학과별 몇명이 존재하는가?
print("\n=====df['학점'].groupby(df['학과']).size()")
print(df['학점'].groupby(df['학과']).size())

Unnamed: 0,학과,학년,이름,학점
0,컴퓨터,1,홍길동,1.5
1,체육교육과,2,김연아,4.4
2,컴퓨터,3,최길동,3.7
3,체육교육과,2,아이유,4.5
4,컴퓨터,3,신사임당,3.8



=====df['학점'].groupby(df['학과']).mean()
학과
체육교육과    4.45
컴퓨터      3.00
Name: 학점, dtype: float64

=====df['학점'].groupby(df['학과']).size()
학과
체육교육과    2
컴퓨터      3
Name: 학점, dtype: int64


## Grouping으로, 해당 그룹 반복 처리

In [52]:
# 해당 그룹을 반복해서 처리

my_dict = { '학과' : ['컴퓨터','체육교육과','컴퓨터','체육교육과','컴퓨터'],
            '학년' : [1, 2, 3, 2, 3],
            '이름' : ['홍길동', '김연아', '최길동', '아이유', '신사임당'],
            '학점' : [1.5, 4.4, 3.7, 4.5, 3.8]}

df = pd.DataFrame(my_dict)
display(df)
print("\n")

################################################

# 학과로 Grouping을 한 후 for문을 이용해서 반복처리.
# for (dept, group) in df.groupby(df['학과']):
#     print(dept)
#     display(group)
#     print("================")

for ((dept, year), group) in df.groupby(['학과', '학년']):
    print(dept)
    print(year)
    display(group)
    print("================")

Unnamed: 0,학과,학년,이름,학점
0,컴퓨터,1,홍길동,1.5
1,체육교육과,2,김연아,4.4
2,컴퓨터,3,최길동,3.7
3,체육교육과,2,아이유,4.5
4,컴퓨터,3,신사임당,3.8




체육교육과
2


Unnamed: 0,학과,학년,이름,학점
1,체육교육과,2,김연아,4.4
3,체육교육과,2,아이유,4.5


컴퓨터
1


Unnamed: 0,학과,학년,이름,학점
0,컴퓨터,1,홍길동,1.5


컴퓨터
3


Unnamed: 0,학과,학년,이름,학점
2,컴퓨터,3,최길동,3.7
4,컴퓨터,3,신사임당,3.8


