In [1]:
import pandas as pd

In [93]:
data = {
    '이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
    '학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
    '키' : [197, 184, 168, 187, 188, 202, 188, 190],
    '국어' : [90, 40, 80, 40, 15, 80, 55, 100],
    '영어' : [85, 35, 75, 60, 20, 100, 65, 85],
    '수학' : [100, 50, 70, 70, 10, 95, 45, 90],
    '과학' : [95, 55, 80, 75, 35, 85, 40, 95],
    '사회' : [85, 25, 75, 80, 10, 80, 35, 95],
    'SW특기' : ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']
}

df = pd.DataFrame(data, index=['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'])
df.index.name = '지원번호'

##### Column 선택 (label)

In [3]:
df['이름']

지원번호
1번    채치수
2번    정대만
3번    송태섭
4번    서태웅
5번    강백호
6번    변덕규
7번    황태산
8번    윤대협
Name: 이름, dtype: object

In [4]:
df['키']

지원번호
1번    197
2번    184
3번    168
4번    187
5번    188
6번    202
7번    188
8번    190
Name: 키, dtype: int64

In [5]:
df[['이름', '키']]

Unnamed: 0_level_0,이름,키
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1번,채치수,197
2번,정대만,184
3번,송태섭,168
4번,서태웅,187
5번,강백호,188
6번,변덕규,202
7번,황태산,188
8번,윤대협,190


##### Column 선택 (정수 Index)

In [6]:
df.columns

Index(['이름', '학교', '키', '국어', '영어', '수학', '과학', '사회', 'SW특기'], dtype='object')

In [7]:
df.columns[0]

'이름'

In [8]:
df.columns[2]

'키'

In [9]:
df[df.columns[0]] # df['이름']과 동일한 동작

지원번호
1번    채치수
2번    정대만
3번    송태섭
4번    서태웅
5번    강백호
6번    변덕규
7번    황태산
8번    윤대협
Name: 이름, dtype: object

In [10]:
df[df.columns[-1]] # 맨 끝에 있는 값을 가져옴

지원번호
1번        Python
2번          Java
3번    Javascript
4번              
5번              
6번             C
7번        PYTHON
8번            C#
Name: SW특기, dtype: object

##### 데이터 선택 (loc)

In [11]:
df.loc['1번'] # 1번에 해당하는 전체 데이터

이름         채치수
학교         북산고
키          197
국어          90
영어          85
수학         100
과학          95
사회          85
SW특기    Python
Name: 1번, dtype: object

In [12]:
df.loc['1번', '국어'] # index 1번에 해당하는 국어 데이터

90

In [13]:
df.loc[['1번', '2번'], '영어'] # index 1번, 2번에 해당하는 영어 데이터

지원번호
1번    85
2번    35
Name: 영어, dtype: int64

In [14]:
df.loc[['1번', '2번'], ['영어', '수학']] # index 1번, 2번에 해당하는 영어, 수학 데이터

Unnamed: 0_level_0,영어,수학
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1번,85,100
2번,35,50


In [15]:
df.loc['1번':'5번', '국어':'사회'] # index 1번 ~ 5번까지, 국어 ~ 사회까지

Unnamed: 0_level_0,국어,영어,수학,과학,사회
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1번,90,85,100,95,85
2번,40,35,50,55,25
3번,80,75,70,80,75
4번,40,60,70,75,80
5번,15,20,10,35,10


##### 데이터 선택 (iloc)

In [16]:
df.iloc[0] # 0번째 위치의 데이터

이름         채치수
학교         북산고
키          197
국어          90
영어          85
수학         100
과학          95
사회          85
SW특기    Python
Name: 1번, dtype: object

In [17]:
df.iloc[0:5] # 0 ~ 4번째 위치의 데이터

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,


In [18]:
df.iloc[0, 1] # 0번쨰 위치의 1번째 데이터

'북산고'

In [19]:
df.iloc[[0, 1], [2]] # 0, 1번쨰 위치의 2번째 데이터

Unnamed: 0_level_0,키
지원번호,Unnamed: 1_level_1
1번,197
2번,184


##### 데이터 선택 (조건)

In [20]:
filt = df['키'] >= 185 # 학생들의 키가 185 이상인지 여부를 T/F
df[filt]

# df[df['키'] >= 185]도 동일한 결과

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [21]:
df[~filt] # 역으로 적용시 ~

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript


In [22]:
df.loc[df['키'] >= 185, '수학'] # 키가 185 이상인 학생들의 수학 데이터

지원번호
1번    100
4번     70
5번     10
6번     95
7번     45
8번     90
Name: 수학, dtype: int64

In [23]:
df.loc[df['키'] >= 185, ['이름', '수학', '과학']] # 키가 185 이상인 학생들의 이름, 수학, 과학 데이터

Unnamed: 0_level_0,이름,수학,과학
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,채치수,100,95
4번,서태웅,70,75
5번,강백호,10,35
6번,변덕규,95,85
7번,황태산,45,40
8번,윤대협,90,95


##### 다양한 조건


In [24]:
# & 그리고

df.loc[(df['키'] >= 185) & (df['학교'] == '북산고')] # 키가 185 이상인 북산고 학생 데이터

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,


In [25]:
# | 또는

df.loc[(df['키'] < 170) | (df['키'] > 200)]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
6번,변덕규,능남고,202,80,100,95,85,80,C


##### str 함수

In [26]:
filt = df['이름'].str.startswith('송') # '송'씨 성을 가진 사람
df[filt]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
3번,송태섭,북산고,168,80,75,70,80,75,Javascript


In [27]:
langs = ["Python", "Java"]
filt = df['SW특기'].isin(langs) # SW특기가 Python이거나 Java인 사람
df[filt]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java


In [28]:
filt = df['SW특기'].str.contains('Java')
df[filt]

# jupyter에서 실행하면 오류 발생 -> NaN가 존재하기 때문

## 해결 방안
# df['SW특기'].str.contains('Java', na=True) # NaN 데이터에 대해서 True로 설정
# df['SW특기'].str.contains('Java', na=False) # NaN 데이터에 대해서 False로 설정

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript


##### 데이터 채우기 fillna

In [29]:
df.fillna('') # NaN 값을 빈 칸으로 채움 () 안 직접 지정 가능

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [30]:
import numpy as np

In [31]:
df['학교'] = np.nan # 학교 데이터 전체를 NaN으로 채움
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,,197,90,85,100,95,85,Python
2번,정대만,,184,40,35,50,55,25,Java
3번,송태섭,,168,80,75,70,80,75,Javascript
4번,서태웅,,187,40,60,70,75,80,
5번,강백호,,188,15,20,10,35,10,
6번,변덕규,,202,80,100,95,85,80,C
7번,황태산,,188,55,65,45,40,35,PYTHON
8번,윤대협,,190,100,85,90,95,95,C#


In [32]:
df.fillna('모름', inplace=True) # 데이터 계속 반영 : inplace=True
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,모름,197,90,85,100,95,85,Python
2번,정대만,모름,184,40,35,50,55,25,Java
3번,송태섭,모름,168,80,75,70,80,75,Javascript
4번,서태웅,모름,187,40,60,70,75,80,
5번,강백호,모름,188,15,20,10,35,10,
6번,변덕규,모름,202,80,100,95,85,80,C
7번,황태산,모름,188,55,65,45,40,35,PYTHON
8번,윤대협,모름,190,100,85,90,95,95,C#


In [33]:
df['SW특기'].fillna('확인 중', inplace=True) # NaN 값을 확인 중으로
df 

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,모름,197,90,85,100,95,85,Python
2번,정대만,모름,184,40,35,50,55,25,Java
3번,송태섭,모름,168,80,75,70,80,75,Javascript
4번,서태웅,모름,187,40,60,70,75,80,
5번,강백호,모름,188,15,20,10,35,10,
6번,변덕규,모름,202,80,100,95,85,80,C
7번,황태산,모름,188,55,65,45,40,35,PYTHON
8번,윤대협,모름,190,100,85,90,95,95,C#


##### 데이터 제외하기 dropna

In [34]:
df.dropna(inplace=False) 
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,모름,197,90,85,100,95,85,Python
2번,정대만,모름,184,40,35,50,55,25,Java
3번,송태섭,모름,168,80,75,70,80,75,Javascript
4번,서태웅,모름,187,40,60,70,75,80,
5번,강백호,모름,188,15,20,10,35,10,
6번,변덕규,모름,202,80,100,95,85,80,C
7번,황태산,모름,188,55,65,45,40,35,PYTHON
8번,윤대협,모름,190,100,85,90,95,95,C#


In [35]:
# ※ how : any or all

df.dropna(axis='index', how='any') # NaN이 하나라도 있는 row 삭제

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,모름,197,90,85,100,95,85,Python
2번,정대만,모름,184,40,35,50,55,25,Java
3번,송태섭,모름,168,80,75,70,80,75,Javascript
4번,서태웅,모름,187,40,60,70,75,80,
5번,강백호,모름,188,15,20,10,35,10,
6번,변덕규,모름,202,80,100,95,85,80,C
7번,황태산,모름,188,55,65,45,40,35,PYTHON
8번,윤대협,모름,190,100,85,90,95,95,C#


In [36]:
# ※ axis : index or column

df.dropna(axis='columns') # NaN이 하나라도 있는 column 삭제

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,모름,197,90,85,100,95,85,Python
2번,정대만,모름,184,40,35,50,55,25,Java
3번,송태섭,모름,168,80,75,70,80,75,Javascript
4번,서태웅,모름,187,40,60,70,75,80,
5번,강백호,모름,188,15,20,10,35,10,
6번,변덕규,모름,202,80,100,95,85,80,C
7번,황태산,모름,188,55,65,45,40,35,PYTHON
8번,윤대협,모름,190,100,85,90,95,95,C#


In [37]:
df['학교'] = np.nan
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,,197,90,85,100,95,85,Python
2번,정대만,,184,40,35,50,55,25,Java
3번,송태섭,,168,80,75,70,80,75,Javascript
4번,서태웅,,187,40,60,70,75,80,
5번,강백호,,188,15,20,10,35,10,
6번,변덕규,,202,80,100,95,85,80,C
7번,황태산,,188,55,65,45,40,35,PYTHON
8번,윤대협,,190,100,85,90,95,95,C#


In [38]:
df.dropna(axis='columns', how='all') # 데이터 전체가 NaN인 경우에만 Column 삭제

Unnamed: 0_level_0,이름,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1번,채치수,197,90,85,100,95,85,Python
2번,정대만,184,40,35,50,55,25,Java
3번,송태섭,168,80,75,70,80,75,Javascript
4번,서태웅,187,40,60,70,75,80,
5번,강백호,188,15,20,10,35,10,
6번,변덕규,202,80,100,95,85,80,C
7번,황태산,188,55,65,45,40,35,PYTHON
8번,윤대협,190,100,85,90,95,95,C#


##### 데이터 정렬

In [39]:
# ascending=False로 설정하면 내림차순 정렬

df.sort_values('키') # 키 기준으로 오름차순 정렬

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
3번,송태섭,,168,80,75,70,80,75,Javascript
2번,정대만,,184,40,35,50,55,25,Java
4번,서태웅,,187,40,60,70,75,80,
5번,강백호,,188,15,20,10,35,10,
7번,황태산,,188,55,65,45,40,35,PYTHON
8번,윤대협,,190,100,85,90,95,95,C#
1번,채치수,,197,90,85,100,95,85,Python
6번,변덕규,,202,80,100,95,85,80,C


In [40]:
df.sort_values(['수학', '영어'], ascending=False)

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,,197,90,85,100,95,85,Python
6번,변덕규,,202,80,100,95,85,80,C
8번,윤대협,,190,100,85,90,95,95,C#
3번,송태섭,,168,80,75,70,80,75,Javascript
4번,서태웅,,187,40,60,70,75,80,
2번,정대만,,184,40,35,50,55,25,Java
7번,황태산,,188,55,65,45,40,35,PYTHON
5번,강백호,,188,15,20,10,35,10,


In [41]:
# 수학 점수는 오름차순, 영어 점수는 내림차순

df.sort_values(['수학', '영어'], ascending=[True, False])

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
5번,강백호,,188,15,20,10,35,10,
7번,황태산,,188,55,65,45,40,35,PYTHON
2번,정대만,,184,40,35,50,55,25,Java
3번,송태섭,,168,80,75,70,80,75,Javascript
4번,서태웅,,187,40,60,70,75,80,
8번,윤대협,,190,100,85,90,95,95,C#
6번,변덕규,,202,80,100,95,85,80,C
1번,채치수,,197,90,85,100,95,85,Python


In [42]:
df['키'].sort_values()

지원번호
3번    168
2번    184
4번    187
5번    188
7번    188
8번    190
1번    197
6번    202
Name: 키, dtype: int64

In [43]:
# 인덱스 기준으로

df.sort_index()

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,,197,90,85,100,95,85,Python
2번,정대만,,184,40,35,50,55,25,Java
3번,송태섭,,168,80,75,70,80,75,Javascript
4번,서태웅,,187,40,60,70,75,80,
5번,강백호,,188,15,20,10,35,10,
6번,변덕규,,202,80,100,95,85,80,C
7번,황태산,,188,55,65,45,40,35,PYTHON
8번,윤대협,,190,100,85,90,95,95,C#


##### 데이터 수정

###### Column 수정

In [44]:
df['학교'].replace({'북산고' : '상북고', '능남고' : '무슨고'})

지원번호
1번   NaN
2번   NaN
3번   NaN
4번   NaN
5번   NaN
6번   NaN
7번   NaN
8번   NaN
Name: 학교, dtype: float64

In [47]:
# 학교 데이터 + 등학교

df['학교'] = df['학교'] + '등학교'
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고등학교,197,90,85,100,95,85,Python
2번,정대만,북산고등학교,184,40,35,50,55,25,Java
3번,송태섭,북산고등학교,168,80,75,70,80,75,Javascript
4번,서태웅,북산고등학교,187,40,60,70,75,80,
5번,강백호,북산고등학교,188,15,20,10,35,10,
6번,변덕규,능남고등학교,202,80,100,95,85,80,C
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#


##### Column 추가

In [49]:
df['총합'] = df['국어'] + df['영어'] + df['수학'] + df['과학'] + df['사회']
df


Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1번,채치수,북산고등학교,197,90,85,100,95,85,Python,455
2번,정대만,북산고등학교,184,40,35,50,55,25,Java,205
3번,송태섭,북산고등학교,168,80,75,70,80,75,Javascript,380
4번,서태웅,북산고등학교,187,40,60,70,75,80,,325
5번,강백호,북산고등학교,188,15,20,10,35,10,,90
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465


In [50]:
# 결과 Column을 추가하고 전체 데이터는 Fail로 초기화

df['결과'] = 'Fail'
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,북산고등학교,197,90,85,100,95,85,Python,455,Fail
2번,정대만,북산고등학교,184,40,35,50,55,25,Java,205,Fail
3번,송태섭,북산고등학교,168,80,75,70,80,75,Javascript,380,Fail
4번,서태웅,북산고등학교,187,40,60,70,75,80,,325,Fail
5번,강백호,북산고등학교,188,15,20,10,35,10,,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Fail
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Fail


In [51]:
# 총합이 400보다 큰 데이터에 대해서 결과를 Pass로 업데이트

df.loc[df['총합'] > 400, '결과'] = 'Pass'
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,북산고등학교,197,90,85,100,95,85,Python,455,Pass
2번,정대만,북산고등학교,184,40,35,50,55,25,Java,205,Fail
3번,송태섭,북산고등학교,168,80,75,70,80,75,Javascript,380,Fail
4번,서태웅,북산고등학교,187,40,60,70,75,80,,325,Fail
5번,강백호,북산고등학교,188,15,20,10,35,10,,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass


##### Column 삭제

In [52]:
# 총합 Column 삭제

df.drop(columns=['총합'])

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1번,채치수,북산고등학교,197,90,85,100,95,85,Python,Pass
2번,정대만,북산고등학교,184,40,35,50,55,25,Java,Fail
3번,송태섭,북산고등학교,168,80,75,70,80,75,Javascript,Fail
4번,서태웅,북산고등학교,187,40,60,70,75,80,,Fail
5번,강백호,북산고등학교,188,15,20,10,35,10,,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,Pass


##### Row 삭제

In [53]:
# 4번 학생의 데이터 row를 삭제

df.drop(index='4번')

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,북산고등학교,197,90,85,100,95,85,Python,455,Pass
2번,정대만,북산고등학교,184,40,35,50,55,25,Java,205,Fail
3번,송태섭,북산고등학교,168,80,75,70,80,75,Javascript,380,Fail
5번,강백호,북산고등학교,188,15,20,10,35,10,,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass


In [55]:
# 수학 80점 미만 학생 필터링

filt = df['수학'] < 80
df[filt]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2번,정대만,북산고등학교,184,40,35,50,55,25,Java,205,Fail
3번,송태섭,북산고등학교,168,80,75,70,80,75,Javascript,380,Fail
4번,서태웅,북산고등학교,187,40,60,70,75,80,,325,Fail
5번,강백호,북산고등학교,188,15,20,10,35,10,,90,Fail
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail


In [56]:
df[filt].index

Index(['2번', '3번', '4번', '5번', '7번'], dtype='object', name='지원번호')

In [57]:
df.drop(index=df[filt].index)

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,북산고등학교,197,90,85,100,95,85,Python,455,Pass
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass


##### Row 추가

In [58]:
df.loc['9번'] = ['이정환', '해남고등학교', 184, 90, 90, 90, 90, 90, 'Kotlin', 450, 'Pass']
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,북산고등학교,197,90,85,100,95,85,Python,455,Pass
2번,정대만,북산고등학교,184,40,35,50,55,25,Java,205,Fail
3번,송태섭,북산고등학교,168,80,75,70,80,75,Javascript,380,Fail
4번,서태웅,북산고등학교,187,40,60,70,75,80,,325,Fail
5번,강백호,북산고등학교,188,15,20,10,35,10,,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass
9번,이정환,해남고등학교,184,90,90,90,90,90,Kotlin,450,Pass


##### Cell 수정

In [59]:
df.loc['4번', 'SW특기'] = 'Python'
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,북산고등학교,197,90,85,100,95,85,Python,455,Pass
2번,정대만,북산고등학교,184,40,35,50,55,25,Java,205,Fail
3번,송태섭,북산고등학교,168,80,75,70,80,75,Javascript,380,Fail
4번,서태웅,북산고등학교,187,40,60,70,75,80,Python,325,Fail
5번,강백호,북산고등학교,188,15,20,10,35,10,,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass
9번,이정환,해남고등학교,184,90,90,90,90,90,Kotlin,450,Pass


In [60]:
# 5번 학생의 학교는 능남고등학교로, SW특기는 C로 변경

df.loc['5번', ['학교', 'SW특기']] = ['능남고등학교', 'C']
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,북산고등학교,197,90,85,100,95,85,Python,455,Pass
2번,정대만,북산고등학교,184,40,35,50,55,25,Java,205,Fail
3번,송태섭,북산고등학교,168,80,75,70,80,75,Javascript,380,Fail
4번,서태웅,북산고등학교,187,40,60,70,75,80,Python,325,Fail
5번,강백호,능남고등학교,188,15,20,10,35,10,C,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass
9번,이정환,해남고등학교,184,90,90,90,90,90,Kotlin,450,Pass


##### Column 순서 변경

In [61]:
cols = list(df.columns)
cols

['이름', '학교', '키', '국어', '영어', '수학', '과학', '사회', 'SW특기', '총합', '결과']

In [63]:
# 맨 뒤에 있는 결과 Column을 앞으로 가져오고, 나머지 Column들과 합쳐서 순서 변경

df = df[[cols[-1]] + cols[0:-1]]
df

Unnamed: 0_level_0,결과,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,Pass,채치수,북산고등학교,197,90,85,100,95,85,Python,455
2번,Fail,정대만,북산고등학교,184,40,35,50,55,25,Java,205
3번,Fail,송태섭,북산고등학교,168,80,75,70,80,75,Javascript,380
4번,Fail,서태웅,북산고등학교,187,40,60,70,75,80,Python,325
5번,Fail,강백호,능남고등학교,188,15,20,10,35,10,C,90
6번,Pass,변덕규,능남고등학교,202,80,100,95,85,80,C,440
7번,Fail,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240
8번,Pass,윤대협,능남고등학교,190,100,85,90,95,95,C#,465
9번,Pass,이정환,해남고등학교,184,90,90,90,90,90,Kotlin,450


In [64]:
df = df[['결과', '이름', '학교']]
df

Unnamed: 0_level_0,결과,이름,학교
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,Pass,채치수,북산고등학교
2번,Fail,정대만,북산고등학교
3번,Fail,송태섭,북산고등학교
4번,Fail,서태웅,북산고등학교
5번,Fail,강백호,능남고등학교
6번,Pass,변덕규,능남고등학교
7번,Fail,황태산,능남고등학교
8번,Pass,윤대협,능남고등학교
9번,Pass,이정환,해남고등학교


##### Column 이름 변경

In [65]:
df.columns

Index(['결과', '이름', '학교'], dtype='object')

In [66]:
df.columns = ['Result', 'Name', 'School']
df

Unnamed: 0_level_0,Result,Name,School
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,Pass,채치수,북산고등학교
2번,Fail,정대만,북산고등학교
3번,Fail,송태섭,북산고등학교
4번,Fail,서태웅,북산고등학교
5번,Fail,강백호,능남고등학교
6번,Pass,변덕규,능남고등학교
7번,Fail,황태산,능남고등학교
8번,Pass,윤대협,능남고등학교
9번,Pass,이정환,해남고등학교


##### 데이터에 함수 적용 (apply)

In [76]:
# 키 뒤에 cm 붙이는 역할

def add_cm(height):
    return str(height) + 'cm'
 
df['키'] = df['키'].apply(add_cm) #키 데이터에 대해서 add_cm 함수를 호출한 결과 데이터를 반영
df 

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197cm,90,85,100,95,85,Python
2번,정대만,북산고,184cm,40,35,50,55,25,Java
3번,송태섭,북산고,168cm,80,75,70,80,75,Javascript
4번,서태웅,북산고,187cm,40,60,70,75,80,
5번,강백호,북산고,188cm,15,20,10,35,10,
6번,변덕규,능남고,202cm,80,100,95,85,80,C
7번,황태산,능남고,188cm,55,65,45,40,35,Python
8번,윤대협,능남고,190cm,100,85,90,95,95,C#


In [75]:
def capitalize(lang):
    if pd.notnull(lang): # NaN이 아닌지 확인
        return lang.capitalize() # string에서 제공하는 함수
    return lang

df['SW특기'] = df['SW특기'].apply(capitalize)
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,Python
8번,윤대협,능남고,190,100,85,90,95,95,C#


##### 그룹화

In [77]:
df.groupby('학교')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000126493567A0>

In [78]:
df.groupby('학교').get_group('북산고')

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197cm,90,85,100,95,85,Python
2번,정대만,북산고,184cm,40,35,50,55,25,Java
3번,송태섭,북산고,168cm,80,75,70,80,75,Javascript
4번,서태웅,북산고,187cm,40,60,70,75,80,
5번,강백호,북산고,188cm,15,20,10,35,10,


In [82]:
# 계산 가능한 데이터들의 평균값

df.groupby('학교').mean()

  df.groupby('학교').mean()


Unnamed: 0_level_0,키,국어,영어,수학,과학,사회
학교,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
능남고,193.333333,78.333333,83.333333,76.666667,73.333333,70.0
북산고,184.8,53.0,55.0,60.0,68.0,55.0


In [83]:
# 각 그룹의 크기

df.groupby('학교').size()

학교
능남고    3
북산고    5
dtype: int64

In [84]:
# 학교로 그룹화를 한 뒤에 능남고에 해당하는 데이터의 수

df.groupby('학교').size()['능남고']

3

In [85]:
# 학교로 그룹화를 한 뒤에 키의 평균 데이터

df.groupby('학교')['키'].mean()

학교
능남고    193.333333
북산고    184.800000
Name: 키, dtype: float64

In [86]:
df.groupby('학교')[['국어', '영어', '수학']].mean()

Unnamed: 0_level_0,국어,영어,수학
학교,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
능남고,78.333333,83.333333,76.666667
북산고,53.0,55.0,60.0


In [95]:
# 학년 Column 추가

df['학년'] = [3, 3, 2, 1, 1, 3, 2, 2]
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,학년
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python,3
2번,정대만,북산고,184,40,35,50,55,25,Java,3
3번,송태섭,북산고,168,80,75,70,80,75,Javascript,2
4번,서태웅,북산고,187,40,60,70,75,80,,1
5번,강백호,북산고,188,15,20,10,35,10,,1
6번,변덕규,능남고,202,80,100,95,85,80,C,3
7번,황태산,능남고,188,55,65,45,40,35,PYTHON,2
8번,윤대협,능남고,190,100,85,90,95,95,C#,2


In [98]:
# 학교별, 학년별 평균 데이터

df.groupby(['학교', '학년']).mean()

  df.groupby(['학교', '학년']).mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,키,국어,영어,수학,과학,사회
학교,학년,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
능남고,2,189.0,77.5,75.0,67.5,67.5,65.0
능남고,3,202.0,80.0,100.0,95.0,85.0,80.0
북산고,1,187.5,27.5,40.0,40.0,55.0,45.0
북산고,2,168.0,80.0,75.0,70.0,80.0,75.0
북산고,3,190.5,65.0,60.0,75.0,75.0,55.0


In [99]:
school = df.groupby('학교')
school['학년'].value_counts() # 학교로 그룹화 후 학년별 학생 수를 가져옴

학교   학년
능남고  2     2
     3     1
북산고  1     2
     3     2
     2     1
Name: 학년, dtype: int64

In [100]:
school['학년'].value_counts().loc['북산고']

학년
1    2
3    2
2    1
Name: 학년, dtype: int64

In [103]:
# 학생들의 수 데이터를퍼센트로 비교하여 가져옴

school['학년'].value_counts(normalize=True).loc['북산고']

학년
1    0.4
3    0.4
2    0.2
Name: 학년, dtype: float64

###### 퀴즈

In [1]:
import pandas as pd
data = {
    '영화' : ['명량', '극한직업', '신과함께-죄와 벌', '국제시장', '괴물', '도둑들', '7번방의 선물', '암살'],
    '개봉 연도' : [2014, 2019, 2017, 2014, 2006, 2012, 2013, 2015],
    '관객 수' : [1761, 1626, 1441, 1426, 1301, 1298, 1281, 1270], # (단위 : 만 명)
    '평점' : [8.88, 9.20, 8.73, 9.16, 8.62, 7.64, 8.83, 9.10]
}
df = pd.DataFrame(data)
df

Unnamed: 0,영화,개봉 연도,관객 수,평점
0,명량,2014,1761,8.88
1,극한직업,2019,1626,9.2
2,신과함께-죄와 벌,2017,1441,8.73
3,국제시장,2014,1426,9.16
4,괴물,2006,1301,8.62
5,도둑들,2012,1298,7.64
6,7번방의 선물,2013,1281,8.83
7,암살,2015,1270,9.1


In [2]:
# 전체 데이터 중에서 '영화' 정보만 출력하시오.

df['영화']

0           명량
1         극한직업
2    신과함께-죄와 벌
3         국제시장
4           괴물
5          도둑들
6      7번방의 선물
7           암살
Name: 영화, dtype: object

In [3]:
# 전체 데이터 중에서 '영화', '평점' 정보를 출력하시오.

df[['영화', '평점']]

Unnamed: 0,영화,평점
0,명량,8.88
1,극한직업,9.2
2,신과함께-죄와 벌,8.73
3,국제시장,9.16
4,괴물,8.62
5,도둑들,7.64
6,7번방의 선물,8.83
7,암살,9.1


In [9]:
# 2015년 이후에 개봉한 영화 데이터 중에서 '영화', '개봉 연도' 정보를 출력하시오.

filt = df['개봉 연도'] >= 2015
df.loc[filt, ['영화', '개봉 연도']]

# df.loc[df['개봉 연도'] >= 2015, ['영화', '게봉 연도']]

Unnamed: 0,영화,개봉 연도
1,극한직업,2019
2,신과함께-죄와 벌,2017
7,암살,2015


In [12]:
# 주어진 계산 식을 참고하여 '추천 점수' Column을 추가하시오.
# 추천 점수 = (관객 수 * 평점) // 100
# ex) 첫 번째 영화인 '명량의 경우, 추천 점수 = (관객 수 1761 * 평점 8.88) // 100 = 156

df['추천 점수'] = df['관객 수'] * df['평점'] // 100
df

Unnamed: 0,영화,개봉 연도,관객 수,평점,추천 점수
0,명량,2014,1761,8.88,156.0
1,극한직업,2019,1626,9.2,149.0
2,신과함께-죄와 벌,2017,1441,8.73,125.0
3,국제시장,2014,1426,9.16,130.0
4,괴물,2006,1301,8.62,112.0
5,도둑들,2012,1298,7.64,99.0
6,7번방의 선물,2013,1281,8.83,113.0
7,암살,2015,1270,9.1,115.0


In [13]:
# 전체 데이터를 '개봉 연도' 기준으로 내림차순 출력하시오.

df.sort_values('개봉 연도', ascending=False)

Unnamed: 0,영화,개봉 연도,관객 수,평점,추천 점수
1,극한직업,2019,1626,9.2,149.0
2,신과함께-죄와 벌,2017,1441,8.73,125.0
7,암살,2015,1270,9.1,115.0
0,명량,2014,1761,8.88,156.0
3,국제시장,2014,1426,9.16,130.0
6,7번방의 선물,2013,1281,8.83,113.0
5,도둑들,2012,1298,7.64,99.0
4,괴물,2006,1301,8.62,112.0
