# DataFrame 접근 `심화`<br>
* 기존처럼 하나씩 데이터 프레임에 접근하는 방식: <b>오래걸림</b><br>
→ <span style="color:red"><b>조건을 걸어 그룹단위</b></span>로 접근

In [1]:
import pandas as pd

lst = [['하정현', 18, '경영', '빅사', '회장'], ['나경훈', 16, '수학', '빅사', '부회장'],
       ['손준석', 15, '철학', '경영', '교육팀장'], ['이창윤', 19, '경제', '빅데이터', '교육팀원'],
       ['신유정', 18, '경영', '빅사', '교육팀원'], ['백미정', 19, '영문', '경영', '교육팀원']]

df = pd.DataFrame(lst, columns=['이름', '학번', '전공', '복수전공', '역할'])
df = df.set_index('이름')

df

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
하정현,18,경영,빅사,회장
나경훈,16,수학,빅사,부회장
손준석,15,철학,경영,교육팀장
이창윤,19,경제,빅데이터,교육팀원
신유정,18,경영,빅사,교육팀원
백미정,19,영문,경영,교육팀원


## 조건

참고: https://pandas.pydata.org/docs/user_guide/10min.html#selection

###### 18학번 인사이트 학회원

In [2]:
df.loc[df['학번'] == 18]

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
하정현,18,경영,빅사,회장
신유정,18,경영,빅사,교육팀원


###### 18학번이고, 교육팀원인 인사이트 학회원

In [3]:
df.loc[(df['학번'] == 18) & (df['역할'] == '교육팀원')]  #pandas에는 and가 먹히지 않아서 & 사용

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
신유정,18,경영,빅사,교육팀원


###### 18학번이거나, 교육팀원인 인사이트 학회원

In [4]:
df.loc[(df['학번'] == 18) | (df['역할'] == '교육팀원')]  #pandas에는 or가 먹히지 않아서 | 사용

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
하정현,18,경영,빅사,회장
이창윤,19,경제,빅데이터,교육팀원
신유정,18,경영,빅사,교육팀원
백미정,19,영문,경영,교육팀원


###### 18학번이 아니고, 교육팀원도 아닌 인사이트 학회원

In [5]:
df.loc[~((df['학번'] == 18) | (df['역할'] == '교육팀원'))] #pandas에는 not이 먹히지않아서 ~ 사용

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
나경훈,16,수학,빅사,부회장
손준석,15,철학,경영,교육팀장


→ <b>원하는 조건</b>에 맞는 데이터를 추출할 수 있다.<br>
<span style="color:gray">(공모전, 프로젝트 등에서 다루는 데이터는 크기가 방대하기 때문에 조건문으로 빠르게 접근하는 것이 좋다.)</span>

## 실습1
전공이 영문이고, 역할이 교육팀원인 사람을 추출하라 

In [6]:
# 아래와 같은 결과가 나오면 됩니다!
df.loc[(df['전공'] == '영문') & (df['역할'] == '교육팀원')]

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
백미정,19,영문,경영,교육팀원


In [7]:
(df['전공'] == '영문') & (df['역할'] == '교육팀원')

이름
하정현    False
나경훈    False
손준석    False
이창윤    False
신유정    False
백미정     True
dtype: bool

## Query?

쿼리라고 색인하는 프로그램? 이있는데 이것은 느리지만 편리하다 나중에 알아볼것

## Index
참고: https://pandas.pydata.org/docs/reference/api/pandas.Index.html?highlight=index#pandas.Index

현재 조건문을 통해 추출한 데이터는 `DataFrame` 형식이다. &nbsp;즉, 여러가지 정보가 들어가 있다.<br>
만약 이 정보들을 <span style="color:red">대표할 수 있는 값</span>으로 데이터 프레임을 다룬다면 조금 더 빠르지 않을까?<br> ⇒&nbsp;&nbsp;&nbsp;&nbsp;<b>`Index`</b> 를 사용해보자!

### 추출

In [8]:
idx = df[df['복수전공'] == '빅사'].index
idx

Index(['하정현', '나경훈', '신유정'], dtype='object', name='이름')

In [9]:
# 추출한 index를 갖는 데이터 프레임 보기

df.loc[idx,] # df.loc[idx]   df.loc[idx,:]  :  이 두 가지 함수도 같은 결과

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
하정현,18,경영,빅사,회장
나경훈,16,수학,빅사,부회장
신유정,18,경영,빅사,교육팀원


### 수정

###### sort

참고: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html?highlight=sort_value

In [10]:
df

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
하정현,18,경영,빅사,회장
나경훈,16,수학,빅사,부회장
손준석,15,철학,경영,교육팀장
이창윤,19,경제,빅데이터,교육팀원
신유정,18,경영,빅사,교육팀원
백미정,19,영문,경영,교육팀원


In [11]:
#by column을 기준으로 오름차순으로 정렬
df.sort_values(by="학번") 

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
손준석,15,철학,경영,교육팀장
나경훈,16,수학,빅사,부회장
하정현,18,경영,빅사,회장
신유정,18,경영,빅사,교육팀원
이창윤,19,경제,빅데이터,교육팀원
백미정,19,영문,경영,교육팀원


In [12]:
# ascending=False 일시 내림차순으로 진행.
df.sort_values(by="학번", ascending=False)

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
이창윤,19,경제,빅데이터,교육팀원
백미정,19,영문,경영,교육팀원
하정현,18,경영,빅사,회장
신유정,18,경영,빅사,교육팀원
나경훈,16,수학,빅사,부회장
손준석,15,철학,경영,교육팀장


###### rename

참고 : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html?highlight=rename#pandas.DataFrame.rename


In [13]:
df.rename(index = {'하정현':'하회장', '나경훈':'나부회장'}, inplace=True) 
df #rename : index나 column이름을 바꿀수 있다(안의 원소들은 안됨 Ex- 경영, 회장 등)

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
하회장,18,경영,빅사,회장
나부회장,16,수학,빅사,부회장
손준석,15,철학,경영,교육팀장
이창윤,19,경제,빅데이터,교육팀원
신유정,18,경영,빅사,교육팀원
백미정,19,영문,경영,교육팀원


###### reset_index(drop = True, inplace = False)

참고: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html

In [14]:
df=df.reset_index()  #inplace = True -> df자체 수정이 되고 안적으면 df는 그대로 있고 수정한 값만 assign함
df

Unnamed: 0,이름,학번,전공,복수전공,역할
0,하회장,18,경영,빅사,회장
1,나부회장,16,수학,빅사,부회장
2,손준석,15,철학,경영,교육팀장
3,이창윤,19,경제,빅데이터,교육팀원
4,신유정,18,경영,빅사,교육팀원
5,백미정,19,영문,경영,교육팀원


In [15]:
df.reset_index(drop=True) # Drop????

Unnamed: 0,이름,학번,전공,복수전공,역할
0,하회장,18,경영,빅사,회장
1,나부회장,16,수학,빅사,부회장
2,손준석,15,철학,경영,교육팀장
3,이창윤,19,경제,빅데이터,교육팀원
4,신유정,18,경영,빅사,교육팀원
5,백미정,19,영문,경영,교육팀원


In [16]:
df.reset_index(inplace=True) #기존 index를 열로 바꾸고 새로운 인덱스를 만듦

In [17]:
df

Unnamed: 0,index,이름,학번,전공,복수전공,역할
0,0,하회장,18,경영,빅사,회장
1,1,나부회장,16,수학,빅사,부회장
2,2,손준석,15,철학,경영,교육팀장
3,3,이창윤,19,경제,빅데이터,교육팀원
4,4,신유정,18,경영,빅사,교육팀원
5,5,백미정,19,영문,경영,교육팀원


## 활용 
: 방대한 데이터를 다룰 경우, 가장 빠른 함수

###### 원하는 조건을 가진 사람만을 추출하기

In [18]:
bigsa = df[df['복수전공'] == '빅사']['이름']
df[df['이름'].isin(bigsa)]
#df['이름'].isin(bigsa)는 boolean 값을 반환합니다. 
#이때 앞에 df를 한번 더 씌움으로써 True인 값들만 dataframe 형태로 보여줍니다

Unnamed: 0,index,이름,학번,전공,복수전공,역할
0,0,하회장,18,경영,빅사,회장
1,1,나부회장,16,수학,빅사,부회장
4,4,신유정,18,경영,빅사,교육팀원


In [19]:
business = df[df['전공'] == '경영']['이름']
business

0    하회장
4    신유정
Name: 이름, dtype: object

In [20]:
df[df['이름'].isin(business)]
#business내에 이름을 가지고 있는 사람을 출력

Unnamed: 0,index,이름,학번,전공,복수전공,역할
0,0,하회장,18,경영,빅사,회장
4,4,신유정,18,경영,빅사,교육팀원


###### 원하는 조건을 가진 학번을 추출하기

In [21]:
number = df[df['복수전공'] == '빅사']['학번']
number

0    18
1    16
4    18
Name: 학번, dtype: int64

In [22]:
df[df['학번'].isin(number)]

Unnamed: 0,index,이름,학번,전공,복수전공,역할
0,0,하회장,18,경영,빅사,회장
1,1,나부회장,16,수학,빅사,부회장
4,4,신유정,18,경영,빅사,교육팀원


###### 위의 두 조건을 모두 만족하는 데이터 보기

In [23]:
df[(df['이름'].isin(business)) & (df['학번'].isin(number))]

Unnamed: 0,index,이름,학번,전공,복수전공,역할
0,0,하회장,18,경영,빅사,회장
4,4,신유정,18,경영,빅사,교육팀원


###### df. shift

###### 데이터 작업을 하다보면 다른 행과 계산할 경우 shift를 이용해 해결할 수 있습니다. 
###### for문으로 인덱스를 일일히 돌리지 않아도 되고 필요에 따라 컬럼을 추가해서 눈으로 확인해도 되지만
###### 다른 행과 계산하려고 일일히 컬럼을 추가하는 번거로움을 줄일 수 있습니다.

참고: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shift.html?highlight=shift#pandas.DataFrame.shift

In [24]:
display(df) # row를 한줄 씩 이동.
display(df.shift(1))

Unnamed: 0,index,이름,학번,전공,복수전공,역할
0,0,하회장,18,경영,빅사,회장
1,1,나부회장,16,수학,빅사,부회장
2,2,손준석,15,철학,경영,교육팀장
3,3,이창윤,19,경제,빅데이터,교육팀원
4,4,신유정,18,경영,빅사,교육팀원
5,5,백미정,19,영문,경영,교육팀원


Unnamed: 0,index,이름,학번,전공,복수전공,역할
0,,,,,,
1,0.0,하회장,18.0,경영,빅사,회장
2,1.0,나부회장,16.0,수학,빅사,부회장
3,2.0,손준석,15.0,철학,경영,교육팀장
4,3.0,이창윤,19.0,경제,빅데이터,교육팀원
5,4.0,신유정,18.0,경영,빅사,교육팀원


###### 한 행이 밀려 새로만들어진 new df와 기존 df와 비교

In [25]:
new_df = (df == df.shift(1))
new_df

Unnamed: 0,index,이름,학번,전공,복수전공,역할
0,False,False,False,False,False,False
1,False,False,False,False,True,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,True
5,False,False,False,False,False,True


In [26]:
idx = new_df[new_df['복수전공'] == True].index
df.loc[idx]

Unnamed: 0,index,이름,학번,전공,복수전공,역할
1,1,나부회장,16,수학,빅사,부회장


>오서영은 <b>`바로 직전 데이터`</b>와 유사한 정보를 갖고 있음을 알 수 있다.<br>
><span style="color:gray">shift()안의 숫자와 idx 조건문을 변형하여 더욱 다양하게 유사한 데이터들만을 추출할 수 있다.</span>

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:blue">실제 프로젝트나 공모전에서는 이와 같이 Index Slicing을 활용하여, 데이터 분석을 진행한다. </span>

## 실습2

<b>`isin`</b>을 활용하여 학번이 18이고, 복수전공이 빅사인 사람을 추출하라 

In [27]:
df[df['학번'] == 18]['역할']

0      회장
4    교육팀원
Name: 역할, dtype: object

In [28]:
df[(df['복수전공'] == '빅사') & (df['학번'] == 18)]

Unnamed: 0,index,이름,학번,전공,복수전공,역할
0,0,하회장,18,경영,빅사,회장
4,4,신유정,18,경영,빅사,교육팀원


In [29]:
bds = df[(df['복수전공'] == '빅사') & (df['학번'] == 18)]['역할']
bds #빅사와 18인 사람의 역할을 가져온다

0      회장
4    교육팀원
Name: 역할, dtype: object

In [30]:
df[df['역할'].isin(bds)] #회장과 교육팀원인 역할을 다가져온다.

Unnamed: 0,index,이름,학번,전공,복수전공,역할
0,0,하회장,18,경영,빅사,회장
3,3,이창윤,19,경제,빅데이터,교육팀원
4,4,신유정,18,경영,빅사,교육팀원
5,5,백미정,19,영문,경영,교육팀원


# DataFrame 병합 `심화`

In [31]:
info_dict = {
    '닉네임' : ['하회장', '박용감한다람쥐', '오만수', '이관장', '김조개소년', '이창윤'],
    '학번' : [18, 19, 18, 18, 19, 19],
    '나이' : [24, 23, 24, 24, 25, 23]
}
info_df = pd.DataFrame(info_dict)
info_df

Unnamed: 0,닉네임,학번,나이
0,하회장,18,24
1,박용감한다람쥐,19,23
2,오만수,18,24
3,이관장,18,24
4,김조개소년,19,25
5,이창윤,19,23


→ `info_df`는 6명의  닉네임, 학번, 나이를 담은 데이터이다.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;`info_df`를 기존의 `df`와 합쳐보자!

## `pd.concat()`
: 데이터프레임을 물리적으로 이어 붙여주는 함수
<br>
참고: https://pandas.pydata.org/docs/reference/api/pandas.concat.html?highlight=concat

In [32]:
df

Unnamed: 0,index,이름,학번,전공,복수전공,역할
0,0,하회장,18,경영,빅사,회장
1,1,나부회장,16,수학,빅사,부회장
2,2,손준석,15,철학,경영,교육팀장
3,3,이창윤,19,경제,빅데이터,교육팀원
4,4,신유정,18,경영,빅사,교육팀원
5,5,백미정,19,영문,경영,교육팀원


In [33]:
info_df

Unnamed: 0,닉네임,학번,나이
0,하회장,18,24
1,박용감한다람쥐,19,23
2,오만수,18,24
3,이관장,18,24
4,김조개소년,19,25
5,이창윤,19,23


In [34]:
#default 값은 행으로 합쳐진다.
pd.concat([df, info_df])

Unnamed: 0,index,이름,학번,전공,복수전공,역할,닉네임,나이
0,0.0,하회장,18,경영,빅사,회장,,
1,1.0,나부회장,16,수학,빅사,부회장,,
2,2.0,손준석,15,철학,경영,교육팀장,,
3,3.0,이창윤,19,경제,빅데이터,교육팀원,,
4,4.0,신유정,18,경영,빅사,교육팀원,,
5,5.0,백미정,19,영문,경영,교육팀원,,
0,,,18,,,,하회장,24.0
1,,,19,,,,박용감한다람쥐,23.0
2,,,18,,,,오만수,24.0
3,,,18,,,,이관장,24.0


→ default 값으로 <b>`axis = 0`</b>이 적용되므로 행 방향(위아래)으로 두 데이터프레임을 이어붙인다.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;그런데, 기존 `df`에는 나이 컬럼이 없고, `info_df`에는 전공, 복수전공, 역할 컬럼이 없으므로 <br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;`NaN` 값이 채워진 것을 알 수 있다.

In [35]:
pd.concat([df, info_df], axis = 1)

Unnamed: 0,index,이름,학번,전공,복수전공,역할,닉네임,학번.1,나이
0,0,하회장,18,경영,빅사,회장,하회장,18,24
1,1,나부회장,16,수학,빅사,부회장,박용감한다람쥐,19,23
2,2,손준석,15,철학,경영,교육팀장,오만수,18,24
3,3,이창윤,19,경제,빅데이터,교육팀원,이관장,18,24
4,4,신유정,18,경영,빅사,교육팀원,김조개소년,19,25
5,5,백미정,19,영문,경영,교육팀원,이창윤,19,23


> 단순히 이어붙이는 방식이기 때문에 적절하게 이어지지 않는 문제가 발생한다. <br>
> `pd.concat()`은 데이터의 구조가 같은 경우에만 유용하게 사용될 수 있다.<br>
> 위의 문제를 해결하기 위해서는?<br>

## `pd.merge()`
: 두 데이터프레임을 각 데이터에 존재하는 고유값(key)을 기준으로 병합할때 사용<br>
&nbsp;&nbsp;pd.merge의 default는 아래와 같다.
```python
pd.merge(df_left, df_right, how='inner', on=None)
```

참고: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html?highlight=merge#pandas.DataFrame.merge

<a href='https://ifh.cc/v-qdWTQo' target='_blank'><img src='https://ifh.cc/g/qdWTQo.webp' border='0'></a>

In [36]:
# df와 info_df의 교집합을 출력

pd.merge(df, info_df, how = 'inner', left_on = '이름', right_on = '닉네임')

Unnamed: 0,index,이름,학번_x,전공,복수전공,역할,닉네임,학번_y,나이
0,0,하회장,18,경영,빅사,회장,하회장,18,24
1,3,이창윤,19,경제,빅데이터,교육팀원,이창윤,19,23


<a href='https://ifh.cc/v-EESCbv' target='_blank'><img src='https://ifh.cc/g/EESCbv.png' border='0'></a>

In [37]:
# 모든 데이터 출력, 어느 한쪽에라도 없는 데이터가 있는 경우 NaN값이 지정됨

pd.merge(df, info_df, how = 'outer', left_on = '이름', right_on = '닉네임')

Unnamed: 0,index,이름,학번_x,전공,복수전공,역할,닉네임,학번_y,나이
0,0.0,하회장,18.0,경영,빅사,회장,하회장,18.0,24.0
1,1.0,나부회장,16.0,수학,빅사,부회장,,,
2,2.0,손준석,15.0,철학,경영,교육팀장,,,
3,3.0,이창윤,19.0,경제,빅데이터,교육팀원,이창윤,19.0,23.0
4,4.0,신유정,18.0,경영,빅사,교육팀원,,,
5,5.0,백미정,19.0,영문,경영,교육팀원,,,
6,,,,,,,박용감한다람쥐,19.0,23.0
7,,,,,,,오만수,18.0,24.0
8,,,,,,,이관장,18.0,24.0
9,,,,,,,김조개소년,19.0,25.0


<a href='https://ifh.cc/v-CyWVrN' target='_blank'><img src='https://ifh.cc/g/CyWVrN.png' border='0'></a>
<a href='https://ifh.cc/v-7T4H7R' target='_blank'><img src='https://ifh.cc/g/7T4H7R.png' border='0'></a>
<a href='https://ifh.cc/v-LgsjKG' target='_blank'><img src='https://ifh.cc/g/LgsjKG.png' border='0'></a>

In [38]:
# info_df에는 없지만 df에 있는 데이터도 출력

pd.merge(df, info_df, how = 'left', left_on = '이름', right_on = '닉네임')

Unnamed: 0,index,이름,학번_x,전공,복수전공,역할,닉네임,학번_y,나이
0,0,하회장,18,경영,빅사,회장,하회장,18.0,24.0
1,1,나부회장,16,수학,빅사,부회장,,,
2,2,손준석,15,철학,경영,교육팀장,,,
3,3,이창윤,19,경제,빅데이터,교육팀원,이창윤,19.0,23.0
4,4,신유정,18,경영,빅사,교육팀원,,,
5,5,백미정,19,영문,경영,교육팀원,,,


<a href='https://ifh.cc/v-r01ZkA' target='_blank'><img src='https://ifh.cc/g/r01ZkA.png' border='0'></a>

In [39]:
# df에는 없지만 info_df에 있는 데이터도 출력



## 실습3
df와 info_df를 '이름'과 '학번'을 기준으로 Right Outer Join 하기

In [40]:
# 아래와 같은 결과가 나오면 됩니다!
pd.merge(df, info_df, how = "right", left_on = ["이름","학번"], right_on=["닉네임","학번"])
# 이름이 닉네임과 같은 사람, 학번이 학번과 같은 사람끼리 합친다.

Unnamed: 0,index,이름,학번,전공,복수전공,역할,닉네임,나이
0,0.0,하회장,18,경영,빅사,회장,하회장,24
1,,,19,,,,박용감한다람쥐,23
2,,,18,,,,오만수,24
3,,,18,,,,이관장,24
4,,,19,,,,김조개소년,25
5,3.0,이창윤,19,경제,빅데이터,교육팀원,이창윤,23


# DataFrame 그룹핑 `심화`

In [41]:
score_dict = {
    '이름' : ['방미정', '방미정', '방미정', '고경주', '고경주', '고경주', '정혜나', '정혜나', '정혜나', 
            '김지연', '김지연', '김지연', '이상연', '이상연', '이상연', '오주희', '오주희', '오주희'],
    '학번' : [18, 18, 18, 19, 19, 19, 19, 19, 19, 20, 20, 20, 18, 18, 18, 18, 18, 18],
    '과목' : ['빅데이터학', '통계자료분석', '계량경제학', '빅데이터학', '통계자료분석', 'Data&AI', '빅데이터학', '통계자료분석', 'Data&AI',
           '통계자료분석', 'Data&AI', '계량경제학', '빅데이터학', '통계자료분석', '계량경제학', '빅데이터학', 'Data&AI', '계량경제학'],
    '중간고사' : [50, 60, 95, 70, 55, 85, 75, 60, 80, 85, 45, 90, 70, 65, 90, 50, 80, 40],
    '기말고사' : [45, 75, 100, 80, 55, 90, 85, 65, 95, 75, 50, 95, 70, 70, 100, 55, 95, 45],
    '분반' : [1, 2, 4, 1, 3, 2, 2, 2, 3, 1, 3, 5, 1, 1, 5, 2, 1, 5]
}
score_df = pd.DataFrame(score_dict)
score_df

Unnamed: 0,이름,학번,과목,중간고사,기말고사,분반
0,방미정,18,빅데이터학,50,45,1
1,방미정,18,통계자료분석,60,75,2
2,방미정,18,계량경제학,95,100,4
3,고경주,19,빅데이터학,70,80,1
4,고경주,19,통계자료분석,55,55,3
5,고경주,19,Data&AI,85,90,2
6,정혜나,19,빅데이터학,75,85,2
7,정혜나,19,통계자료분석,60,65,2
8,정혜나,19,Data&AI,80,95,3
9,김지연,20,통계자료분석,85,75,1


## `df.groupby()`    
##### 매우중요!!
##### 
참고 : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas.DataFrame.groupby

In [42]:
score_df.groupby('이름')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002AA5E258910>

groupby 객체가 리턴된다! (아무것도 못함😥)<br>
→  <b>`df.groupby('컬럼명').함수()`</b> 그루핑 후 추가적인 함수(집계함수)를 사용하여 원하는 값을 조회할 수 있음

In [43]:
score_df.groupby('이름')["중간고사"].mean()

이름
고경주    70.000000
김지연    73.333333
방미정    68.333333
오주희    56.666667
이상연    75.000000
정혜나    71.666667
Name: 중간고사, dtype: float64

### 개수 : `count()`

In [44]:
# 과목별 수강 인원
# Series

score_df.groupby('과목')['이름'].count()  

과목
Data&AI    4
계량경제학      4
빅데이터학      5
통계자료분석     5
Name: 이름, dtype: int64

In [45]:
# 과목별 수강 인원
# DataFrame

score_df.groupby('과목')['이름'].count().to_frame()  

Unnamed: 0_level_0,이름
과목,Unnamed: 1_level_1
Data&AI,4
계량경제학,4
빅데이터학,5
통계자료분석,5


### 합계 : `sum()`

In [46]:
# 학생별 시험 성적 합계

display(score_df.groupby('이름')[['중간고사', '기말고사']].sum())
#중간고사 성적을 기준으로 내림차순
display(score_df.groupby('이름')[['중간고사', '기말고사']].sum().sort_values(by = '중간고사', ascending = False))

Unnamed: 0_level_0,중간고사,기말고사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
고경주,210,225
김지연,220,220
방미정,205,220
오주희,170,195
이상연,225,240
정혜나,215,245


Unnamed: 0_level_0,중간고사,기말고사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
이상연,225,240
김지연,220,220
정혜나,215,245
고경주,210,225
방미정,205,220
오주희,170,195


### 최대/최소 : `max()` `min()`

In [47]:
# 과목별 중간고사 성적 최대값

score_df.groupby('과목')[['중간고사']].max()

Unnamed: 0_level_0,중간고사
과목,Unnamed: 1_level_1
Data&AI,85
계량경제학,95
빅데이터학,75
통계자료분석,85


In [48]:
# 과목별 기말고사 성적 최소값

score_df.groupby('과목')[['기말고사']].min()

Unnamed: 0_level_0,기말고사
과목,Unnamed: 1_level_1
Data&AI,50
계량경제학,45
빅데이터학,45
통계자료분석,55


### 평균/중앙값 : `mean()` `median()`

In [49]:
score_df.groupby('과목')[['중간고사', '기말고사']].mean()

Unnamed: 0_level_0,중간고사,기말고사
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
Data&AI,72.5,82.5
계량경제학,78.75,85.0
빅데이터학,63.0,67.0
통계자료분석,65.0,68.0


In [50]:
score_df.groupby('과목')[['중간고사', '기말고사']].median()

Unnamed: 0_level_0,중간고사,기말고사
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
Data&AI,80.0,92.5
계량경제학,90.0,97.5
빅데이터학,70.0,70.0
통계자료분석,60.0,70.0


이 외에도 표준편차 `std()`, 분산 `var()`, 분위수 `quantile()` 등의 집계함수가 있습니다.

## 여러 개의 컬럼을 기준으로 그룹핑하려면? (Multi Index)
`df.groupby(['컬럼명1','컬럼명2'])`

In [51]:
score_df.groupby(['과목', '분반'])[['중간고사', '기말고사']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,중간고사,기말고사
과목,분반,Unnamed: 2_level_1,Unnamed: 3_level_1
Data&AI,1,80,95
Data&AI,2,85,90
Data&AI,3,125,145
계량경제학,4,95,100
계량경제학,5,220,240
빅데이터학,1,190,195
빅데이터학,2,125,140
통계자료분석,1,150,145
통계자료분석,2,120,140
통계자료분석,3,55,55


## 여러 개의 집계함수를 사용하려면?
`df.groupby('컬럼명').agg([함수1, 함수2, ...])`

In [52]:
score_df.groupby('과목')[['중간고사', '기말고사']].agg(['count', 'sum', 'max', 'min', 'mean', 'median'])

Unnamed: 0_level_0,중간고사,중간고사,중간고사,중간고사,중간고사,중간고사,기말고사,기말고사,기말고사,기말고사,기말고사,기말고사
Unnamed: 0_level_1,count,sum,max,min,mean,median,count,sum,max,min,mean,median
과목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Data&AI,4,290,85,45,72.5,80.0,4,330,95,50,82.5,92.5
계량경제학,4,315,95,40,78.75,90.0,4,340,100,45,85.0,97.5
빅데이터학,5,315,75,50,63.0,70.0,5,335,85,45,67.0,70.0
통계자료분석,5,325,85,55,65.0,60.0,5,340,75,55,68.0,70.0


## 집계함수 이외에 사용할 수 있는 함수의 예

In [53]:
# 학생별 수강 과목

score_df.groupby('이름')['과목'].unique().to_frame()

Unnamed: 0_level_0,과목
이름,Unnamed: 1_level_1
고경주,"[빅데이터학, 통계자료분석, Data&AI]"
김지연,"[통계자료분석, Data&AI, 계량경제학]"
방미정,"[빅데이터학, 통계자료분석, 계량경제학]"
오주희,"[빅데이터학, Data&AI, 계량경제학]"
이상연,"[빅데이터학, 통계자료분석, 계량경제학]"
정혜나,"[빅데이터학, 통계자료분석, Data&AI]"


## 실습4
학번별 중간고사와 기말고사의 평균, 최댓값이 하나의 데이터프레임 안에 들어오도록 만드세요!

In [54]:
# 아래와 같은 결과가 나오면 됩니다!
score_df.groupby('학번')[['중간고사', '기말고사']].agg(['mean', 'max']).round()

Unnamed: 0_level_0,중간고사,중간고사,기말고사,기말고사
Unnamed: 0_level_1,mean,max,mean,max
학번,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
18,67.0,95,73.0,100
19,71.0,85,78.0,95
20,73.0,90,73.0,95


# DataFrame 변형 `심화`

## pivot_table
- 데이터의 두 개의 컬럼을 행/열 인덱스로 써서 데이터를 재구조화한 테이블
 
 
- 엑셀의 pivot_table 기능처럼 사용
```python
pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, dropna=True, margins=False, margins_name='All')
df.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, dropna=True, margins=False, margins_name='All')
```
- values : 통계함수를 적용할 데이터프레임의 특정 컬럼
 
    
- index : 그룹화의 첫 번째 기준으로, 피벗테이블의 index로 가져올 데이터프레임의 특정 컬럼(두 개 이상이면 list로)
 
    
- columns : 그룹화의 두 번째 기준으로, 피벗테이블의 columns로 가져올 데이터프레임의 특정 컬럼(두 개 이상이면 list로)


- aggfunc : 2개의 그룹화 기준으로 values의 특정 컬럼에 적용시킬 통계함수 (default : mean)


- fill_value : NaN의 대체값


- dropna : values가 전부 NaN인 행/열의 삭제 여부


- margins : 모든 데이터를 분석한 결과(=마진)를 마지막 행/열에 붙일지 여부


- margins_name: 마진 행/열의 이름




참고: <br>
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot_table.html?highlight=pivot_table#pandas.DataFrame.pivot_table

In [55]:
score_df

Unnamed: 0,이름,학번,과목,중간고사,기말고사,분반
0,방미정,18,빅데이터학,50,45,1
1,방미정,18,통계자료분석,60,75,2
2,방미정,18,계량경제학,95,100,4
3,고경주,19,빅데이터학,70,80,1
4,고경주,19,통계자료분석,55,55,3
5,고경주,19,Data&AI,85,90,2
6,정혜나,19,빅데이터학,75,85,2
7,정혜나,19,통계자료분석,60,65,2
8,정혜나,19,Data&AI,80,95,3
9,김지연,20,통계자료분석,85,75,1


In [56]:
# 과목과 분반으로 그룹화

score_df.pivot_table(index = ['과목', '분반']).round()

Unnamed: 0_level_0,Unnamed: 1_level_0,기말고사,중간고사,학번
과목,분반,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Data&AI,1,95.0,80.0,18.0
Data&AI,2,90.0,85.0,19.0
Data&AI,3,72.0,62.0,20.0
계량경제학,4,100.0,95.0,18.0
계량경제학,5,80.0,73.0,19.0
빅데이터학,1,65.0,63.0,18.0
빅데이터학,2,70.0,62.0,18.0
통계자료분석,1,72.0,75.0,19.0
통계자료분석,2,70.0,60.0,18.0
통계자료분석,3,55.0,55.0,19.0


In [57]:
# 과목과 분반으로 그룹화하고 중간고사와 기말고사의 최대값 조회 

score_df.pivot_table(index = ['과목', '분반'], \
                     values = ['중간고사', '기말고사'], aggfunc = 'max')

Unnamed: 0_level_0,Unnamed: 1_level_0,기말고사,중간고사
과목,분반,Unnamed: 2_level_1,Unnamed: 3_level_1
Data&AI,1,95,80
Data&AI,2,90,85
Data&AI,3,95,80
계량경제학,4,100,95
계량경제학,5,100,90
빅데이터학,1,80,70
빅데이터학,2,85,75
통계자료분석,1,75,85
통계자료분석,2,75,60
통계자료분석,3,55,55


In [93]:
# 과목으로 그룹화하고 분반을 구분해서 중간고사와 기말고사의 평균값 조회 

score_df.pivot_table(index = '과목', columns = '분반', \
                     values = ['중간고사', '기말고사'], aggfunc = 'mean')

Unnamed: 0_level_0,기말고사,기말고사,기말고사,기말고사,기말고사,중간고사,중간고사,중간고사,중간고사,중간고사
분반,1,2,3,4,5,1,2,3,4,5
과목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
Data&AI,95.0,90.0,72.5,,,80.0,85.0,62.5,,
계량경제학,,,,100.0,80.0,,,,95.0,73.333333
빅데이터학,65.0,70.0,,,,63.333333,62.5,,,
통계자료분석,72.5,70.0,55.0,,,75.0,60.0,55.0,,


In [96]:
score_df.pivot_table(index = '과목', values = ['기말고사'], \
                     aggfunc = ['count', 'sum', 'max', 'min', 'mean', 'median'])

Unnamed: 0_level_0,count,sum,max,min,mean,median
Unnamed: 0_level_1,기말고사,기말고사,기말고사,기말고사,기말고사,기말고사
과목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Data&AI,4,330,95,50,82.5,92.5
계량경제학,4,340,100,45,85.0,97.5
빅데이터학,5,335,85,45,67.0,70.0
통계자료분석,5,340,75,55,68.0,70.0


# 과제

html변환 / 파일명에 이름

## 과제1
코드를 4줄만 써서, df1을 아래 결과처럼 바꿔보세요! (데이터프레임 출력하는 줄 제외 4줄)

In [59]:
# 기존 df1
import pandas as pd
df1 = pd.DataFrame({
    'A' : [1, 2, 3, 4, 5], 'B' : [55, 45, 88, 97, 13], 'C' : [70, 60, 70, 80, 90], 
    'D' : [87, 99, 94, 24, 26], 'E' : [56, 53, 39, 83, 80], 'F' : [13, 24, 29, 78, 61]})
df1

Unnamed: 0,A,B,C,D,E,F
0,1,55,70,87,56,13
1,2,45,60,99,53,24
2,3,88,70,94,39,29
3,4,97,80,24,83,78
4,5,13,90,26,80,61


In [60]:
df1['A'] *=2
df1[df1[['B','C','D','E']]< 80] = 0
df1[df1[['B','C','D','E']]>= 80] = 1
df1

Unnamed: 0,A,B,C,D,E,F
0,2,0,0,1,0,13
1,4,0,0,1,0,24
2,6,1,0,1,0,29
3,8,1,1,0,1,78
4,10,0,1,0,1,61


## 과제 2
19학번과 20학번이 아닌 학생들의 데이터프레임에서 이름을 기준으로 수강 중인 과목을 알아보기 (score_df 사용)

In [61]:
score_df

Unnamed: 0,이름,학번,과목,중간고사,기말고사,분반
0,방미정,18,빅데이터학,50,45,1
1,방미정,18,통계자료분석,60,75,2
2,방미정,18,계량경제학,95,100,4
3,고경주,19,빅데이터학,70,80,1
4,고경주,19,통계자료분석,55,55,3
5,고경주,19,Data&AI,85,90,2
6,정혜나,19,빅데이터학,75,85,2
7,정혜나,19,통계자료분석,60,65,2
8,정혜나,19,Data&AI,80,95,3
9,김지연,20,통계자료분석,85,75,1


In [62]:
score_df1 = score_df[(score_df['학번'] != 19)][(score_df['학번'] != 20)]
score_df1

  score_df1 = score_df[(score_df['학번'] != 19)][(score_df['학번'] != 20)]


Unnamed: 0,이름,학번,과목,중간고사,기말고사,분반
0,방미정,18,빅데이터학,50,45,1
1,방미정,18,통계자료분석,60,75,2
2,방미정,18,계량경제학,95,100,4
12,이상연,18,빅데이터학,70,70,1
13,이상연,18,통계자료분석,65,70,1
14,이상연,18,계량경제학,90,100,5
15,오주희,18,빅데이터학,50,55,2
16,오주희,18,Data&AI,80,95,1
17,오주희,18,계량경제학,40,45,5


In [63]:
score_df1.groupby('이름')['과목'].unique().to_frame()

Unnamed: 0_level_0,과목
이름,Unnamed: 1_level_1
방미정,"[빅데이터학, 통계자료분석, 계량경제학]"
오주희,"[빅데이터학, Data&AI, 계량경제학]"
이상연,"[빅데이터학, 통계자료분석, 계량경제학]"


## 과제3
과목별 중간고사의 count, sum, max, min, mean, median 정보를 알려주는 데이터프레임을 만들고, <br>
같은 방식으로 기말고사의 데이터프레임을 만든 뒤, 이를 병합하여 아래와 같은 결과를 도출하세요!

In [97]:
# 아래와 같은 결과가 나오면 됩니다!
final = score_df.pivot_table(index = '과목', values = ['기말고사'], \
                     aggfunc = ['count', 'sum', 'max', 'min', 'mean', 'median'])
midterm = score_df.pivot_table(index = '과목', values = ['중간고사'], \
                     aggfunc = ['count', 'sum', 'max', 'min', 'mean', 'median'])

In [98]:
display(final)
display(midterm)

Unnamed: 0_level_0,count,sum,max,min,mean,median
Unnamed: 0_level_1,기말고사,기말고사,기말고사,기말고사,기말고사,기말고사
과목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Data&AI,4,330,95,50,82.5,92.5
계량경제학,4,340,100,45,85.0,97.5
빅데이터학,5,335,85,45,67.0,70.0
통계자료분석,5,340,75,55,68.0,70.0


Unnamed: 0_level_0,count,sum,max,min,mean,median
Unnamed: 0_level_1,중간고사,중간고사,중간고사,중간고사,중간고사,중간고사
과목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Data&AI,4,290,85,45,72.5,80
계량경제학,4,315,95,40,78.75,90
빅데이터학,5,315,75,50,63.0,70
통계자료분석,5,325,85,55,65.0,60


In [104]:
final

Unnamed: 0_level_0,count,sum,max,min,mean,median
Unnamed: 0_level_1,기말고사,기말고사,기말고사,기말고사,기말고사,기말고사
과목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Data&AI,4,330,95,50,82.5,92.5
계량경제학,4,340,100,45,85.0,97.5
빅데이터학,5,335,85,45,67.0,70.0
통계자료분석,5,340,75,55,68.0,70.0


## 과제4: 클론 코딩 1회

오늘 배운 코드 전체를 __똑같이 1번 더 따라 적는 것이 과제__입니다. __꼭 복붙하지 않고 직접 타이핑해 주세요!__ 타이핑한 ipynb 파일을 업로드해주시면 됩니다.

# Reference

- Pandas 공식 Document
    - https://pandas.pydata.org/docs/
- Pandas 공식 Document_10minutes Version
    - https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html
    - https://dandyrilla.github.io/2017-08-12/pandas-10min/  (한글)