## Pandas
파이썬에서 사용하는 데이터 분석 라이브러리

In [None]:
import pandas as pd

# 1. Series
1차원 데이터 (정수, 실수, 문자열 등)

## Series 객체 생성
예) 1월부터 4월까지 평균 온도 데이터 (-20, -10, 10, 20)

In [None]:
temp = pd.Series([-20, -10, 10, 20])
temp

0   -20
1   -10
2    10
3    20
dtype: int64

In [None]:
temp[0] # 1월 온도

-20

In [None]:
temp[2] # 3월 온도

10

# Series 객체 생성 (Index 지정)

In [None]:
temp = pd.Series([-20, -10, 10, 20], index=['Jan', 'Feb', 'Mar', 'Apr'])
temp

Jan   -20
Feb   -10
Mar    10
Apr    20
dtype: int64

In [None]:
temp['Jan'] # Index Jan (1월) 에 해당하는 데이터 출력

-20

In [None]:
temp['Apr'] # Index Apr (4월) 에 해당하는 데이터 출력

20

In [None]:
# temp['Jun'] # 존재하지 않는 Index 접근 시도 시 에러

# 3. Index
데이터에 접근할 수 있는 주소 값

In [None]:
import pandas as pd
data = {
    '이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
    '학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
    '키' : [197, 184, 168, 187, 188, 202, 188, 190],
    '국어' : [90, 40, 80, 40, 15, 80, 55, 100],
    '영어' : [85, 35, 75, 60, 20, 100, 65, 85],
    '수학' : [100, 50, 70, 70, 10, 95, 45, 90],
    '과학' : [95, 55, 80, 75, 35, 85, 40, 95],
    '사회' : [85, 25, 75, 80, 10, 80, 35, 95],
    'SW특기' : ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']
}
df = pd.DataFrame(data, index=['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'])
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.index

Index(['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'], dtype='object')

## Index 이름 설정

In [None]:
df.index.name = '지원번호'
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


## Index 초기화

In [None]:
df.reset_index()

Unnamed: 0,지원번호,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,1번,채치수,북산고,197,90,85,100,95,85,Python
1,2번,정대만,북산고,184,40,35,50,55,25,Java
2,3번,송태섭,북산고,168,80,75,70,80,75,Javascript
3,4번,서태웅,북산고,187,40,60,70,75,80,
4,5번,강백호,북산고,188,15,20,10,35,10,
5,6번,변덕규,능남고,202,80,100,95,85,80,C
6,7번,황태산,능남고,188,55,65,45,40,35,PYTHON
7,8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.reset_index(drop=True) # 원래 쓰던 '지원번호' 인덱스 삭제

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,채치수,북산고,197,90,85,100,95,85,Python
1,정대만,북산고,184,40,35,50,55,25,Java
2,송태섭,북산고,168,80,75,70,80,75,Javascript
3,서태웅,북산고,187,40,60,70,75,80,
4,강백호,북산고,188,15,20,10,35,10,
5,변덕규,능남고,202,80,100,95,85,80,C
6,황태산,능남고,188,55,65,45,40,35,PYTHON
7,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.reset_index(drop=True, inplace=True) # 실제 데이터에 바로 반영

In [None]:
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,채치수,북산고,197,90,85,100,95,85,Python
1,정대만,북산고,184,40,35,50,55,25,Java
2,송태섭,북산고,168,80,75,70,80,75,Javascript
3,서태웅,북산고,187,40,60,70,75,80,
4,강백호,북산고,188,15,20,10,35,10,
5,변덕규,능남고,202,80,100,95,85,80,C
6,황태산,능남고,188,55,65,45,40,35,PYTHON
7,윤대협,능남고,190,100,85,90,95,95,C#


## Index 설정
지정한 column 으로 Index 를 설정

In [None]:
df.set_index('이름')

Unnamed: 0_level_0,학교,키,국어,영어,수학,과학,사회,SW특기
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
채치수,북산고,197,90,85,100,95,85,Python
정대만,북산고,184,40,35,50,55,25,Java
송태섭,북산고,168,80,75,70,80,75,Javascript
서태웅,북산고,187,40,60,70,75,80,
강백호,북산고,188,15,20,10,35,10,
변덕규,능남고,202,80,100,95,85,80,C
황태산,능남고,188,55,65,45,40,35,PYTHON
윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,채치수,북산고,197,90,85,100,95,85,Python
1,정대만,북산고,184,40,35,50,55,25,Java
2,송태섭,북산고,168,80,75,70,80,75,Javascript
3,서태웅,북산고,187,40,60,70,75,80,
4,강백호,북산고,188,15,20,10,35,10,
5,변덕규,능남고,202,80,100,95,85,80,C
6,황태산,능남고,188,55,65,45,40,35,PYTHON
7,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.set_index('이름', inplace=True)
df

Unnamed: 0_level_0,학교,키,국어,영어,수학,과학,사회,SW특기
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
채치수,북산고,197,90,85,100,95,85,Python
정대만,북산고,184,40,35,50,55,25,Java
송태섭,북산고,168,80,75,70,80,75,Javascript
서태웅,북산고,187,40,60,70,75,80,
강백호,북산고,188,15,20,10,35,10,
변덕규,능남고,202,80,100,95,85,80,C
황태산,능남고,188,55,65,45,40,35,PYTHON
윤대협,능남고,190,100,85,90,95,95,C#


## Index 정렬
Index 를 기준으로 오름차순, 내림차순 정렬

In [None]:
df.sort_index() # 인덱스로 오름차순 정렬

Unnamed: 0_level_0,학교,키,국어,영어,수학,과학,사회,SW특기
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
강백호,북산고,188,15,20,10,35,10,
변덕규,능남고,202,80,100,95,85,80,C
서태웅,북산고,187,40,60,70,75,80,
송태섭,북산고,168,80,75,70,80,75,Javascript
윤대협,능남고,190,100,85,90,95,95,C#
정대만,북산고,184,40,35,50,55,25,Java
채치수,북산고,197,90,85,100,95,85,Python
황태산,능남고,188,55,65,45,40,35,PYTHON


In [None]:
df.sort_index(ascending=False) # 내림차순으로 정렬

Unnamed: 0_level_0,학교,키,국어,영어,수학,과학,사회,SW특기
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
황태산,능남고,188,55,65,45,40,35,PYTHON
채치수,북산고,197,90,85,100,95,85,Python
정대만,북산고,184,40,35,50,55,25,Java
윤대협,능남고,190,100,85,90,95,95,C#
송태섭,북산고,168,80,75,70,80,75,Javascript
서태웅,북산고,187,40,60,70,75,80,
변덕규,능남고,202,80,100,95,85,80,C
강백호,북산고,188,15,20,10,35,10,


# 4. 파일 저장 및 열기
DataFrame 객체를 excel, csv, txt 등 형태의 파일로 저장 및 열기

In [None]:
import pandas as pd
data = {
    '이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
    '학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
    '키' : [197, 184, 168, 187, 188, 202, 188, 190],
    '국어' : [90, 40, 80, 40, 15, 80, 55, 100],
    '영어' : [85, 35, 75, 60, 20, 100, 65, 85],
    '수학' : [100, 50, 70, 70, 10, 95, 45, 90],
    '과학' : [95, 55, 80, 75, 35, 85, 40, 95],
    '사회' : [85, 25, 75, 80, 10, 80, 35, 95],
    'SW특기' : ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']
}
df = pd.DataFrame(data, index=['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'])
df.index.name = '지원번호'
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


## 저장하기
### csv 파일로 저장

In [None]:
df.to_csv('score.csv', encoding='utf-8-sig')

In [None]:
df.to_csv('score.csv', encoding='utf-8-sig', index=False)

### 텍스트(.txt) 파일로 저장

In [None]:
df.to_csv('score.txt', sep='\t') # tab 으로 구분된 텍스트 파일

### 엑셀 파일로 저장

In [None]:
df.to_excel('score.xlsx')

***
## 열기
### csv 파일 열기

In [None]:
df = pd.read_csv('score.csv')
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,채치수,북산고,197,90,85,100,95,85,Python
1,정대만,북산고,184,40,35,50,55,25,Java
2,송태섭,북산고,168,80,75,70,80,75,Javascript
3,서태웅,북산고,187,40,60,70,75,80,
4,강백호,북산고,188,15,20,10,35,10,
5,변덕규,능남고,202,80,100,95,85,80,C
6,황태산,능남고,188,55,65,45,40,35,PYTHON
7,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df = pd.read_csv('score.csv', skiprows=1) # 지정된 갯수 만큼의 row 를 건너뜀
df

Unnamed: 0,채치수,북산고,197,90,85,100,95,85.1,Python
0,정대만,북산고,184,40,35,50,55,25,Java
1,송태섭,북산고,168,80,75,70,80,75,Javascript
2,서태웅,북산고,187,40,60,70,75,80,
3,강백호,북산고,188,15,20,10,35,10,
4,변덕규,능남고,202,80,100,95,85,80,C
5,황태산,능남고,188,55,65,45,40,35,PYTHON
6,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df = pd.read_csv('score.csv', skiprows=[1, 3, 5]) # 1, 3, 5 row 는 제외 (row 0부터 시작)
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,정대만,북산고,184,40,35,50,55,25,Java
1,서태웅,북산고,187,40,60,70,75,80,
2,변덕규,능남고,202,80,100,95,85,80,C
3,황태산,능남고,188,55,65,45,40,35,PYTHON
4,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df = pd.read_csv('score.csv', nrows=4) # 지정된 갯수 만큼의 row 만 가져옴
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,채치수,북산고,197,90,85,100,95,85,Python
1,정대만,북산고,184,40,35,50,55,25,Java
2,송태섭,북산고,168,80,75,70,80,75,Javascript
3,서태웅,북산고,187,40,60,70,75,80,


In [None]:
df = pd.read_csv('score.csv', skiprows=2, nrows=4) # 처음 2 row 무시, 이후에 4 row 를 가져옴
df

Unnamed: 0,정대만,북산고,184,40,35,50,55,25,Java
0,송태섭,북산고,168,80,75,70,80,75,Javascript
1,서태웅,북산고,187,40,60,70,75,80,
2,강백호,북산고,188,15,20,10,35,10,
3,변덕규,능남고,202,80,100,95,85,80,C


### 텍스트(.txt) 파일 열기

In [None]:
df = pd.read_csv('score.txt', sep='\t')
df

Unnamed: 0,지원번호,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,1번,채치수,북산고,197,90,85,100,95,85,Python
1,2번,정대만,북산고,184,40,35,50,55,25,Java
2,3번,송태섭,북산고,168,80,75,70,80,75,Javascript
3,4번,서태웅,북산고,187,40,60,70,75,80,
4,5번,강백호,북산고,188,15,20,10,35,10,
5,6번,변덕규,능남고,202,80,100,95,85,80,C
6,7번,황태산,능남고,188,55,65,45,40,35,PYTHON
7,8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df = pd.read_csv('score.txt', sep='\t', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df = pd.read_csv('score.txt', sep='\t')
df.set_index('지원번호', inplace=True)
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


### 엑셀 파일 열기

In [None]:
df = pd.read_excel('score.xlsx')
df

Unnamed: 0,지원번호,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,1번,채치수,북산고,197,90,85,100,95,85,Python
1,2번,정대만,북산고,184,40,35,50,55,25,Java
2,3번,송태섭,북산고,168,80,75,70,80,75,Javascript
3,4번,서태웅,북산고,187,40,60,70,75,80,
4,5번,강백호,북산고,188,15,20,10,35,10,
5,6번,변덕규,능남고,202,80,100,95,85,80,C
6,7번,황태산,능남고,188,55,65,45,40,35,PYTHON
7,8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


# 5. 데이터 확인

In [None]:
import pandas as pd
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


## DataFrame 확인
계산 가능한 데이터에 대해 Column 별로 데이터의 갯수, 평균, 표준편차, 최소/최대값 등의 정보를 보여줌

In [None]:
df.describe()

Unnamed: 0,키,국어,영어,수학,과학,사회
count,8.0,8.0,8.0,8.0,8.0,8.0
mean,188.0,62.5,65.625,66.25,70.0,60.625
std,9.985704,29.519969,26.917533,30.325614,23.754699,32.120032
min,168.0,15.0,20.0,10.0,35.0,10.0
25%,186.25,40.0,53.75,48.75,51.25,32.5
50%,188.0,67.5,70.0,70.0,77.5,77.5
75%,191.75,82.5,85.0,91.25,87.5,81.25
max,202.0,100.0,100.0,100.0,95.0,95.0


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, 1번 to 8번
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      8 non-null      object
 1   학교      8 non-null      object
 2   키       8 non-null      int64 
 3   국어      8 non-null      int64 
 4   영어      8 non-null      int64 
 5   수학      8 non-null      int64 
 6   과학      8 non-null      int64 
 7   사회      8 non-null      int64 
 8   SW특기    6 non-null      object
dtypes: int64(6), object(3)
memory usage: 640.0+ bytes


In [None]:
df.head() # 처음 5개의 row 를 가져옴

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,


In [None]:
df.head(7) # 처음 7개의 row 를 가져옴

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON


In [None]:
df.tail() # 마지막 5개 row 를 가져옴

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.tail(3) # 마지막 3개 row 를 가져옴

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.values

array([['채치수', '북산고', 197, 90, 85, 100, 95, 85, 'Python'],
       ['정대만', '북산고', 184, 40, 35, 50, 55, 25, 'Java'],
       ['송태섭', '북산고', 168, 80, 75, 70, 80, 75, 'Javascript'],
       ['서태웅', '북산고', 187, 40, 60, 70, 75, 80, nan],
       ['강백호', '북산고', 188, 15, 20, 10, 35, 10, nan],
       ['변덕규', '능남고', 202, 80, 100, 95, 85, 80, 'C'],
       ['황태산', '능남고', 188, 55, 65, 45, 40, 35, 'PYTHON'],
       ['윤대협', '능남고', 190, 100, 85, 90, 95, 95, 'C#']], dtype=object)

In [None]:
df.index

Index(['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'], dtype='object', name='지원번호')

In [None]:
df.columns

Index(['이름', '학교', '키', '국어', '영어', '수학', '과학', '사회', 'SW특기'], dtype='object')

In [None]:
df.shape # row, column

(8, 9)

In [None]:
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


## Series 확인

In [None]:
df['키'].describe()

count      8.000000
mean     188.000000
std        9.985704
min      168.000000
25%      186.250000
50%      188.000000
75%      191.750000
max      202.000000
Name: 키, dtype: float64

In [None]:
df['키'].min()

168

In [None]:
df['키'].max()

202

In [None]:
df['키'].nlargest(3) # 키 큰 사람 순서대로 3명 데이터

지원번호
6번    202
1번    197
8번    190
Name: 키, dtype: int64

In [None]:
df['키'].mean()

188.0

In [None]:
df['키'].sum()

1504

In [None]:
df['SW특기'].count()

6

In [None]:
df['학교'].unique()

array(['북산고', '능남고'], dtype=object)

In [None]:
df['학교'].nunique()

2

# 6. 데이터 선택 (기본)

In [None]:
import pandas as pd
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


## Column 선택 (label)

In [None]:
df['이름']

지원번호
1번    채치수
2번    정대만
3번    송태섭
4번    서태웅
5번    강백호
6번    변덕규
7번    황태산
8번    윤대협
Name: 이름, dtype: object

In [None]:
df['키']

지원번호
1번    197
2번    184
3번    168
4번    187
5번    188
6번    202
7번    188
8번    190
Name: 키, dtype: int64

In [None]:
df[['이름', '키']]

Unnamed: 0_level_0,이름,키
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1번,채치수,197
2번,정대만,184
3번,송태섭,168
4번,서태웅,187
5번,강백호,188
6번,변덕규,202
7번,황태산,188
8번,윤대협,190


## Column 선택 (정수 index)

In [None]:
df.columns

Index(['이름', '학교', '키', '국어', '영어', '수학', '과학', '사회', 'SW특기'], dtype='object')

In [None]:
df.columns[0]

'이름'

In [None]:
df.columns[2]

'키'

In [None]:
df[df.columns[0]] # df['이름'] 과 동일한 동작

지원번호
1번    채치수
2번    정대만
3번    송태섭
4번    서태웅
5번    강백호
6번    변덕규
7번    황태산
8번    윤대협
Name: 이름, dtype: object

In [None]:
df[df.columns[-1]] # 맨 끝에 있는 값을 가져옴

지원번호
1번        Python
2번          Java
3번    Javascript
4번           NaN
5번           NaN
6번             C
7번        PYTHON
8번            C#
Name: SW특기, dtype: object

## 슬라이싱

In [None]:
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df['영어'][0:5] # 0~4 까지 영어 점수 데이터 가져옴

지원번호
1번    85
2번    35
3번    75
4번    60
5번    20
Name: 영어, dtype: int64

In [None]:
df[['이름', '키']][:3] # 처음 3명의 이름, 키 정보를 가져옴

Unnamed: 0_level_0,이름,키
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1번,채치수,197
2번,정대만,184
3번,송태섭,168


In [None]:
df[3:]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


# 7. 데이터 선택 (loc)
이름을 이용하여 원하는 row 에서 원하는 col 선택

In [None]:
import pandas as pd
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.loc['1번'] # index 1번에 해당하는 전체 데이터

이름         채치수
학교         북산고
키          197
국어          90
영어          85
수학         100
과학          95
사회          85
SW특기    Python
Name: 1번, dtype: object

In [None]:
df.loc['5번'] # index 5번에 해당하는 전체 데이터

이름      강백호
학교      북산고
키       188
국어       15
영어       20
수학       10
과학       35
사회       10
SW특기    NaN
Name: 5번, dtype: object

In [None]:
df.loc['1번', '국어'] # index 1번에 해당하는 국어 데이터

90

In [None]:
df.loc[['1번', '2번'], '영어'] # index 1번, 2번에 해당하는 영어 데이터

지원번호
1번    85
2번    35
Name: 영어, dtype: int64

In [None]:
df.loc[['1번', '2번'], ['영어', '수학']] # index 1번, 2번에 해당하는 영어, 수학 데이터

Unnamed: 0_level_0,영어,수학
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1번,85,100
2번,35,50


In [None]:
df.loc['1번':'5번', '국어':'사회'] # index 1번부터 5번까지, 국어부터 사회까지 데이터

Unnamed: 0_level_0,국어,영어,수학,과학,사회
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1번,90,85,100,95,85
2번,40,35,50,55,25
3번,80,75,70,80,75
4번,40,60,70,75,80
5번,15,20,10,35,10


# 8. 데이터 선택 (iloc)
위치를 이용하여 원하는 row 에서 원하는 col 선택

In [None]:
import pandas as pd
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.iloc[0] # 0번째 위치의 데이터

이름         채치수
학교         북산고
키          197
국어          90
영어          85
수학         100
과학          95
사회          85
SW특기    Python
Name: 1번, dtype: object

In [None]:
df.iloc[4] # 4번째 위치의 데이터

이름      강백호
학교      북산고
키       188
국어       15
영어       20
수학       10
과학       35
사회       10
SW특기    NaN
Name: 5번, dtype: object

In [None]:
df.iloc[0:5] # 0 ~ 4번째 위치의 데이터

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,


In [None]:
df.iloc[0, 1] # 0번째 위치의 1번째(학교) 데이터

'북산고'

In [None]:
df.iloc[4, 2] # 5번 학생의 키 데이터 (4번째 위치의 2번째(키) 데이터)

188

In [None]:
df.iloc[[0, 1], 2] # 0, 1번째 위치의 학생의 2번째(키) 데이터

지원번호
1번    197
2번    184
Name: 키, dtype: int64

In [None]:
df.iloc[[0, 1], [3, 4]] # 0, 1 번째 위치의 학생의 3, 4 번째 데이터 (국어, 영어)

Unnamed: 0_level_0,국어,영어
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1번,90,85
2번,40,35


In [None]:
df.iloc[0:5, 3:8] # 0 ~ 4 번째 위치의 학생 중에서, 3 ~ 7 번째 데이터 (국어:사회)

Unnamed: 0_level_0,국어,영어,수학,과학,사회
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1번,90,85,100,95,85
2번,40,35,50,55,25
3번,80,75,70,80,75
4번,40,60,70,75,80
5번,15,20,10,35,10


# 9. 데이터 선택 (조건)
조건에 해당하는 데이터 선택

In [None]:
import pandas as pd
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df['키'] >= 185 # 학생들의 키가 185 이상인지 여부를 True / False

지원번호
1번     True
2번    False
3번    False
4번     True
5번     True
6번     True
7번     True
8번     True
Name: 키, dtype: bool

In [None]:
filt = (df['키'] >= 185)
df[filt]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df[~filt] # filter 를 역으로 적용

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript


In [None]:
df[df['키'] >= 185]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.loc[df['키'] >= 185, '수학'] # 키가 185 이상인 학생들의 수학 데이터

지원번호
1번    100
4번     70
5번     10
6번     95
7번     45
8번     90
Name: 수학, dtype: int64

In [None]:
df.loc[df['키'] >= 185, ['이름', '수학', '과학']] # 키가 185 이상인 학새읃르이 이름, 수학, 과학 데이터

Unnamed: 0_level_0,이름,수학,과학
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,채치수,100,95
4번,서태웅,70,75
5번,강백호,10,35
6번,변덕규,95,85
7번,황태산,45,40
8번,윤대협,90,95


## 다양한 조건

### & 그리고

In [None]:
df.loc[(df['키'] >= 185) & (df['학교'] == '북산고')] # 키가 185 이상인 북산고 학생 데이터

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,


### | 또는

In [None]:
df.loc[(df['키'] < 170) | (df['키'] > 200)] # 키가 170 보다 작거나, 200 보다 큰 학생 데이터

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
6번,변덕규,능남고,202,80,100,95,85,80,C


### str 함수

In [None]:
filt = df['이름'].str.startswith('송') # '송'씨 성을 가진 사람
df[filt]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
3번,송태섭,북산고,168,80,75,70,80,75,Javascript


In [None]:
filt = df['이름'].str.contains('태') # 이름에 '태'가 들어가는 사람
df[filt]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
7번,황태산,능남고,188,55,65,45,40,35,PYTHON


In [None]:
df[~filt] # 이름에 '태'가 들어가는 사람을 제외

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
langs = ["Python", "Java"]
filt = df['SW특기'].isin(langs) # SW특기가 Python 이거나 Java 인 사람
df[filt]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java


In [None]:
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
langs = ["python", "java"]
filt = df['SW특기'].str.lower().isin(langs)
df[filt]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
7번,황태산,능남고,188,55,65,45,40,35,PYTHON


In [None]:
df['SW특기'].str.lower().isin(langs)

지원번호
1번     True
2번     True
3번    False
4번    False
5번    False
6번    False
7번     True
8번    False
Name: SW특기, dtype: bool

In [None]:
df['SW특기'].str.contains('Java', na=True) # NaN 데이터에 대해서 True 로 설정

지원번호
1번    False
2번     True
3번     True
4번     True
5번     True
6번    False
7번    False
8번    False
Name: SW특기, dtype: bool

In [None]:
df['SW특기'].str.contains('Java', na=False) # NaN 데이터에 대해서 False 로 설정

지원번호
1번    False
2번     True
3번     True
4번    False
5번    False
6번    False
7번    False
8번    False
Name: SW특기, dtype: bool

In [None]:
filt = df['SW특기'].str.contains('Java', na=False)
df[filt]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript


# 10. 결측치
비어 있는 데이터

In [None]:
import pandas as pd
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


## 데이터 채우기 fillna

In [None]:
df.fillna('') # NaN 데이터를 빈 칸으로 채움

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.fillna('없음')

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,없음
5번,강백호,북산고,188,15,20,10,35,10,없음
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
import numpy as np
df['학교'] = np.nan # 학교 데이터 전체를 NaN 으로 채움
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,,197,90,85,100,95,85,Python
2번,정대만,,184,40,35,50,55,25,Java
3번,송태섭,,168,80,75,70,80,75,Javascript
4번,서태웅,,187,40,60,70,75,80,
5번,강백호,,188,15,20,10,35,10,
6번,변덕규,,202,80,100,95,85,80,C
7번,황태산,,188,55,65,45,40,35,PYTHON
8번,윤대협,,190,100,85,90,95,95,C#


In [None]:
df.fillna('모름')

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,모름,197,90,85,100,95,85,Python
2번,정대만,모름,184,40,35,50,55,25,Java
3번,송태섭,모름,168,80,75,70,80,75,Javascript
4번,서태웅,모름,187,40,60,70,75,80,모름
5번,강백호,모름,188,15,20,10,35,10,모름
6번,변덕규,모름,202,80,100,95,85,80,C
7번,황태산,모름,188,55,65,45,40,35,PYTHON
8번,윤대협,모름,190,100,85,90,95,95,C#


In [None]:
df.fillna('모름', inplace=True)

In [None]:
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,모름,197,90,85,100,95,85,Python
2번,정대만,모름,184,40,35,50,55,25,Java
3번,송태섭,모름,168,80,75,70,80,75,Javascript
4번,서태웅,모름,187,40,60,70,75,80,모름
5번,강백호,모름,188,15,20,10,35,10,모름
6번,변덕규,모름,202,80,100,95,85,80,C
7번,황태산,모름,188,55,65,45,40,35,PYTHON
8번,윤대협,모름,190,100,85,90,95,95,C#


In [None]:
import pandas as pd
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df['SW특기'].fillna('확인 중', inplace=True) # SW특기 데이터 중에서 NaN 에 대해서 채움

In [None]:
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,확인 중
5번,강백호,북산고,188,15,20,10,35,10,확인 중
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


## 데이터 제외하기 dropna

In [None]:
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.dropna(inplace=True) # 전체 데이터 중에서 NaN 을 포함하는 데이터 삭제

In [None]:
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


- axis : index or columns  
- how : any or all

In [None]:
df.dropna(axis='index', how='any') # NaN 이 하나라도 있는 row 삭제

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.dropna(axis='columns') # NaN 이 하나라도 있는 column 삭제

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1번,채치수,북산고,197,90,85,100,95,85
2번,정대만,북산고,184,40,35,50,55,25
3번,송태섭,북산고,168,80,75,70,80,75
4번,서태웅,북산고,187,40,60,70,75,80
5번,강백호,북산고,188,15,20,10,35,10
6번,변덕규,능남고,202,80,100,95,85,80
7번,황태산,능남고,188,55,65,45,40,35
8번,윤대협,능남고,190,100,85,90,95,95


In [None]:
df['학교'] = np.nan
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,,197,90,85,100,95,85,Python
2번,정대만,,184,40,35,50,55,25,Java
3번,송태섭,,168,80,75,70,80,75,Javascript
4번,서태웅,,187,40,60,70,75,80,
5번,강백호,,188,15,20,10,35,10,
6번,변덕규,,202,80,100,95,85,80,C
7번,황태산,,188,55,65,45,40,35,PYTHON
8번,윤대협,,190,100,85,90,95,95,C#


In [None]:
df.dropna(axis='columns', how='all') # 데이터 전체가 NaN 인 경우에만 Column 삭제

Unnamed: 0_level_0,이름,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1번,채치수,197,90,85,100,95,85,Python
2번,정대만,184,40,35,50,55,25,Java
3번,송태섭,168,80,75,70,80,75,Javascript
4번,서태웅,187,40,60,70,75,80,
5번,강백호,188,15,20,10,35,10,
6번,변덕규,202,80,100,95,85,80,C
7번,황태산,188,55,65,45,40,35,PYTHON
8번,윤대협,190,100,85,90,95,95,C#


# 11. 데이터 정렬

In [None]:
import pandas as pd
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.sort_values('키') # 키 기준으로 오름차순 정렬

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
2번,정대만,북산고,184,40,35,50,55,25,Java
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#
1번,채치수,북산고,197,90,85,100,95,85,Python
6번,변덕규,능남고,202,80,100,95,85,80,C


In [None]:
df.sort_values('키', ascending=False) # 키 기준으로 내림차순 정렬

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
6번,변덕규,능남고,202,80,100,95,85,80,C
1번,채치수,북산고,197,90,85,100,95,85,Python
8번,윤대협,능남고,190,100,85,90,95,95,C#
5번,강백호,북산고,188,15,20,10,35,10,
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
4번,서태웅,북산고,187,40,60,70,75,80,
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript


In [None]:
df.sort_values(['수학', '영어']) # 수학, 영어 점수 기준으로 오름차순

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
5번,강백호,북산고,188,15,20,10,35,10,
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
2번,정대만,북산고,184,40,35,50,55,25,Java
4번,서태웅,북산고,187,40,60,70,75,80,
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
8번,윤대협,능남고,190,100,85,90,95,95,C#
6번,변덕규,능남고,202,80,100,95,85,80,C
1번,채치수,북산고,197,90,85,100,95,85,Python


In [None]:
df.sort_values(['수학', '영어'], ascending=False) # 수학, 영어 점수 기준으로 내림차순

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
6번,변덕규,능남고,202,80,100,95,85,80,C
8번,윤대협,능남고,190,100,85,90,95,95,C#
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
2번,정대만,북산고,184,40,35,50,55,25,Java
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
5번,강백호,북산고,188,15,20,10,35,10,


In [None]:
df.sort_values(['수학', '영어'], ascending=[True, False]) # 수학 점수는 오름차순으로, 영어 점수는 내림차순으로 정렬

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
5번,강백호,북산고,188,15,20,10,35,10,
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
8번,윤대협,능남고,190,100,85,90,95,95,C#
6번,변덕규,능남고,202,80,100,95,85,80,C
1번,채치수,북산고,197,90,85,100,95,85,Python


In [None]:
df['키'].sort_values()

지원번호
3번    168
2번    184
4번    187
5번    188
7번    188
8번    190
1번    197
6번    202
Name: 키, dtype: int64

In [None]:
df['키'].sort_values(ascending=False)

지원번호
6번    202
1번    197
8번    190
5번    188
7번    188
4번    187
2번    184
3번    168
Name: 키, dtype: int64

In [None]:
df.sort_index()

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.sort_index(ascending=False)

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
8번,윤대협,능남고,190,100,85,90,95,95,C#
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
6번,변덕규,능남고,202,80,100,95,85,80,C
5번,강백호,북산고,188,15,20,10,35,10,
4번,서태웅,북산고,187,40,60,70,75,80,
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
2번,정대만,북산고,184,40,35,50,55,25,Java
1번,채치수,북산고,197,90,85,100,95,85,Python


# 12. 데이터 수정

In [None]:
import pandas as pd
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


## Column 수정

In [None]:
df['학교'].replace({'북산고':'상북고', '능남고':'무슨고'})

지원번호
1번    상북고
2번    상북고
3번    상북고
4번    상북고
5번    상북고
6번    무슨고
7번    무슨고
8번    무슨고
Name: 학교, dtype: object

In [None]:
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df['학교'].replace({'북산고':'상북고'}, inplace=True)

In [None]:
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,상북고,197,90,85,100,95,85,Python
2번,정대만,상북고,184,40,35,50,55,25,Java
3번,송태섭,상북고,168,80,75,70,80,75,Javascript
4번,서태웅,상북고,187,40,60,70,75,80,
5번,강백호,상북고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df['SW특기'].str.lower()

지원번호
1번        python
2번          java
3번    javascript
4번           NaN
5번           NaN
6번             c
7번        python
8번            c#
Name: SW특기, dtype: object

In [None]:
df['SW특기'] = df['SW특기'].str.lower()
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,상북고,197,90,85,100,95,85,python
2번,정대만,상북고,184,40,35,50,55,25,java
3번,송태섭,상북고,168,80,75,70,80,75,javascript
4번,서태웅,상북고,187,40,60,70,75,80,
5번,강백호,상북고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,c
7번,황태산,능남고,188,55,65,45,40,35,python
8번,윤대협,능남고,190,100,85,90,95,95,c#


In [None]:
df['SW특기'] = df['SW특기'].str.upper()
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,상북고,197,90,85,100,95,85,PYTHON
2번,정대만,상북고,184,40,35,50,55,25,JAVA
3번,송태섭,상북고,168,80,75,70,80,75,JAVASCRIPT
4번,서태웅,상북고,187,40,60,70,75,80,
5번,강백호,상북고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df['학교'] = df['학교'] + '등학교' # 학교 데이터 + 등학교
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,상북고등학교,197,90,85,100,95,85,PYTHON
2번,정대만,상북고등학교,184,40,35,50,55,25,JAVA
3번,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT
4번,서태웅,상북고등학교,187,40,60,70,75,80,
5번,강백호,상북고등학교,188,15,20,10,35,10,
6번,변덕규,능남고등학교,202,80,100,95,85,80,C
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#


## Column 추가

In [None]:
df['총합'] = df['국어'] + df['영어'] + df['수학'] + df['과학'] + df['사회']
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1번,채치수,상북고등학교,197,90,85,100,95,85,PYTHON,455
2번,정대만,상북고등학교,184,40,35,50,55,25,JAVA,205
3번,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT,380
4번,서태웅,상북고등학교,187,40,60,70,75,80,,325
5번,강백호,상북고등학교,188,15,20,10,35,10,,90
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465


In [None]:
90 + 85 + 100 + 95 + 85

455

In [None]:
df['결과'] = 'Fail' # 결과 Column 을 추가하고 전체 데이터는 Fail 로 초기화
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,상북고등학교,197,90,85,100,95,85,PYTHON,455,Fail
2번,정대만,상북고등학교,184,40,35,50,55,25,JAVA,205,Fail
3번,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT,380,Fail
4번,서태웅,상북고등학교,187,40,60,70,75,80,,325,Fail
5번,강백호,상북고등학교,188,15,20,10,35,10,,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Fail
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Fail


In [None]:
df.loc[df['총합'] > 400, '결과'] = 'Pass' # 총합이 400보다 큰 데이터에 대해서 결과를 Pass 로 업데이트
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,상북고등학교,197,90,85,100,95,85,PYTHON,455,Pass
2번,정대만,상북고등학교,184,40,35,50,55,25,JAVA,205,Fail
3번,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT,380,Fail
4번,서태웅,상북고등학교,187,40,60,70,75,80,,325,Fail
5번,강백호,상북고등학교,188,15,20,10,35,10,,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass


## Column 삭제

In [None]:
df.drop(columns=['총합']) # 총합 Column 을 삭제

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1번,채치수,상북고등학교,197,90,85,100,95,85,PYTHON,Pass
2번,정대만,상북고등학교,184,40,35,50,55,25,JAVA,Fail
3번,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT,Fail
4번,서태웅,상북고등학교,187,40,60,70,75,80,,Fail
5번,강백호,상북고등학교,188,15,20,10,35,10,,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,Pass


In [None]:
df.drop(columns=['국어', '영어', '수학']) # 국어, 영어, 수학 Column 을 삭제

Unnamed: 0_level_0,이름,학교,키,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1번,채치수,상북고등학교,197,95,85,PYTHON,455,Pass
2번,정대만,상북고등학교,184,55,25,JAVA,205,Fail
3번,송태섭,상북고등학교,168,80,75,JAVASCRIPT,380,Fail
4번,서태웅,상북고등학교,187,75,80,,325,Fail
5번,강백호,상북고등학교,188,35,10,,90,Fail
6번,변덕규,능남고등학교,202,85,80,C,440,Pass
7번,황태산,능남고등학교,188,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,95,95,C#,465,Pass


In [None]:
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,상북고등학교,197,90,85,100,95,85,PYTHON,455,Pass
2번,정대만,상북고등학교,184,40,35,50,55,25,JAVA,205,Fail
3번,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT,380,Fail
4번,서태웅,상북고등학교,187,40,60,70,75,80,,325,Fail
5번,강백호,상북고등학교,188,15,20,10,35,10,,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass


## Row 삭제

In [None]:
df.drop(index='4번') # 4번 학생 데이터 row 를 삭제

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,상북고등학교,197,90,85,100,95,85,PYTHON,455,Pass
2번,정대만,상북고등학교,184,40,35,50,55,25,JAVA,205,Fail
3번,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT,380,Fail
5번,강백호,상북고등학교,188,15,20,10,35,10,,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass


In [None]:
filt = df['수학'] < 80 # 수학 점수 80 점 미만 학생 필터링
df[filt]

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2번,정대만,상북고등학교,184,40,35,50,55,25,JAVA,205,Fail
3번,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT,380,Fail
4번,서태웅,상북고등학교,187,40,60,70,75,80,,325,Fail
5번,강백호,상북고등학교,188,15,20,10,35,10,,90,Fail
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail


In [None]:
df[filt].index

Index(['2번', '3번', '4번', '5번', '7번'], dtype='object', name='지원번호')

In [None]:
df.drop(index=df[filt].index)

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,상북고등학교,197,90,85,100,95,85,PYTHON,455,Pass
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass


In [None]:
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,상북고등학교,197,90,85,100,95,85,PYTHON,455,Pass
2번,정대만,상북고등학교,184,40,35,50,55,25,JAVA,205,Fail
3번,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT,380,Fail
4번,서태웅,상북고등학교,187,40,60,70,75,80,,325,Fail
5번,강백호,상북고등학교,188,15,20,10,35,10,,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass


## Row 추가

In [None]:
df.loc['9번'] = ['이정환', '해남고등학교', 184, 90, 90, 90, 90, 90, 'Kotlin', 450, 'Pass'] # 새로운 Row 추가
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,상북고등학교,197,90,85,100,95,85,PYTHON,455,Pass
2번,정대만,상북고등학교,184,40,35,50,55,25,JAVA,205,Fail
3번,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT,380,Fail
4번,서태웅,상북고등학교,187,40,60,70,75,80,,325,Fail
5번,강백호,상북고등학교,188,15,20,10,35,10,,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass
9번,이정환,해남고등학교,184,90,90,90,90,90,Kotlin,450,Pass


## Cell 수정

In [None]:
df.loc['4번', 'SW특기'] = 'Python' # 4번 학생의 SW특기 데이터를 Python 으로 변경
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,상북고등학교,197,90,85,100,95,85,PYTHON,455,Pass
2번,정대만,상북고등학교,184,40,35,50,55,25,JAVA,205,Fail
3번,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT,380,Fail
4번,서태웅,상북고등학교,187,40,60,70,75,80,Python,325,Fail
5번,강백호,상북고등학교,188,15,20,10,35,10,,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass
9번,이정환,해남고등학교,184,90,90,90,90,90,Kotlin,450,Pass


In [None]:
df.loc['5번', ['학교', 'SW특기']] = ['능남고등학교', 'C'] # 5번 학생의 학교는 능남고등학교로, SW특기는 C로 변경
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합,결과
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,채치수,상북고등학교,197,90,85,100,95,85,PYTHON,455,Pass
2번,정대만,상북고등학교,184,40,35,50,55,25,JAVA,205,Fail
3번,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT,380,Fail
4번,서태웅,상북고등학교,187,40,60,70,75,80,Python,325,Fail
5번,강백호,능남고등학교,188,15,20,10,35,10,C,90,Fail
6번,변덕규,능남고등학교,202,80,100,95,85,80,C,440,Pass
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240,Fail
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#,465,Pass
9번,이정환,해남고등학교,184,90,90,90,90,90,Kotlin,450,Pass


## Colum 순서 변경

In [None]:
cols = list(df.columns)
cols

['이름', '학교', '키', '국어', '영어', '수학', '과학', '사회', 'SW특기', '총합', '결과']

In [None]:
df = df[[cols[-1]] + cols[0:-1]] # 맨 뒤에 있는 결과 Column 을 앞으로 가져오고, 나머지 Column 들과 합쳐서 순서 변경
df

Unnamed: 0_level_0,결과,이름,학교,키,국어,영어,수학,과학,사회,SW특기,총합
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1번,Pass,채치수,상북고등학교,197,90,85,100,95,85,PYTHON,455
2번,Fail,정대만,상북고등학교,184,40,35,50,55,25,JAVA,205
3번,Fail,송태섭,상북고등학교,168,80,75,70,80,75,JAVASCRIPT,380
4번,Fail,서태웅,상북고등학교,187,40,60,70,75,80,Python,325
5번,Fail,강백호,능남고등학교,188,15,20,10,35,10,C,90
6번,Pass,변덕규,능남고등학교,202,80,100,95,85,80,C,440
7번,Fail,황태산,능남고등학교,188,55,65,45,40,35,PYTHON,240
8번,Pass,윤대협,능남고등학교,190,100,85,90,95,95,C#,465
9번,Pass,이정환,해남고등학교,184,90,90,90,90,90,Kotlin,450


In [None]:
df = df[['결과', '이름', '학교']]
df

Unnamed: 0_level_0,결과,이름,학교
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,Pass,채치수,상북고등학교
2번,Fail,정대만,상북고등학교
3번,Fail,송태섭,상북고등학교
4번,Fail,서태웅,상북고등학교
5번,Fail,강백호,능남고등학교
6번,Pass,변덕규,능남고등학교
7번,Fail,황태산,능남고등학교
8번,Pass,윤대협,능남고등학교
9번,Pass,이정환,해남고등학교


## Column 이름 변경

In [None]:
df

Unnamed: 0_level_0,결과,이름,학교
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,Pass,채치수,상북고등학교
2번,Fail,정대만,상북고등학교
3번,Fail,송태섭,상북고등학교
4번,Fail,서태웅,상북고등학교
5번,Fail,강백호,능남고등학교
6번,Pass,변덕규,능남고등학교
7번,Fail,황태산,능남고등학교
8번,Pass,윤대협,능남고등학교
9번,Pass,이정환,해남고등학교


In [None]:
df.columns

Index(['결과', '이름', '학교'], dtype='object')

In [None]:
df.columns = ['Result', 'Name', 'School']
df

Unnamed: 0_level_0,Result,Name,School
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,Pass,채치수,상북고등학교
2번,Fail,정대만,상북고등학교
3번,Fail,송태섭,상북고등학교
4번,Fail,서태웅,상북고등학교
5번,Fail,강백호,능남고등학교
6번,Pass,변덕규,능남고등학교
7번,Fail,황태산,능남고등학교
8번,Pass,윤대협,능남고등학교
9번,Pass,이정환,해남고등학교


# 13. 함수 적용

In [None]:
import pandas as pd
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df['학교'] = df['학교'] + '등학교'
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고등학교,197,90,85,100,95,85,Python
2번,정대만,북산고등학교,184,40,35,50,55,25,Java
3번,송태섭,북산고등학교,168,80,75,70,80,75,Javascript
4번,서태웅,북산고등학교,187,40,60,70,75,80,
5번,강백호,북산고등학교,188,15,20,10,35,10,
6번,변덕규,능남고등학교,202,80,100,95,85,80,C
7번,황태산,능남고등학교,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고등학교,190,100,85,90,95,95,C#


## 데이터에 함수 적용 (apply)

In [None]:
# 키 뒤에 cm 을 붙이는 역할
def add_cm(height):
    return str(height) + 'cm'

df['키'] = df['키'].apply(add_cm) # 키 데이터에 대해서 add_cm 함수를 호출한 결과 데이터를 반영
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고등학교,197cm,90,85,100,95,85,Python
2번,정대만,북산고등학교,184cm,40,35,50,55,25,Java
3번,송태섭,북산고등학교,168cm,80,75,70,80,75,Javascript
4번,서태웅,북산고등학교,187cm,40,60,70,75,80,
5번,강백호,북산고등학교,188cm,15,20,10,35,10,
6번,변덕규,능남고등학교,202cm,80,100,95,85,80,C
7번,황태산,능남고등학교,188cm,55,65,45,40,35,PYTHON
8번,윤대협,능남고등학교,190cm,100,85,90,95,95,C#


In [None]:
def capitalize(lang):
    if pd.notnull(lang): # NaN 이 아닌지
        return lang.capitalize() # 첫 글자는 대문자로, 나머지는 소문자로
    return lang

df['SW특기'] = df['SW특기'].apply(capitalize)
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고등학교,197cm,90,85,100,95,85,Python
2번,정대만,북산고등학교,184cm,40,35,50,55,25,Java
3번,송태섭,북산고등학교,168cm,80,75,70,80,75,Javascript
4번,서태웅,북산고등학교,187cm,40,60,70,75,80,
5번,강백호,북산고등학교,188cm,15,20,10,35,10,
6번,변덕규,능남고등학교,202cm,80,100,95,85,80,C
7번,황태산,능남고등학교,188cm,55,65,45,40,35,Python
8번,윤대협,능남고등학교,190cm,100,85,90,95,95,C#


# 14. 그룹화
동일한 값을 가진 것들끼리 합쳐서 통계 또는 평균 등의 값을 계산하기 위해 사용

In [None]:
import pandas as pd
df = pd.read_excel('score.xlsx', index_col='지원번호')
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.groupby('학교')

<pandas.core.groupby.generic.DataFramegroupBy object at 0x7fe3218f0fd0>

In [None]:
df.groupby('학교').get_group('북산고')

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,


In [None]:
df.groupby('학교').get_group('능남고')

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


In [None]:
df.groupby('학교').mean() # 계산 가능한 데이터들의 평균값

Unnamed: 0_level_0,키,국어,영어,수학,과학,사회
학교,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
능남고,193.333333,78.333333,83.333333,76.666667,73.333333,70.0
북산고,184.8,53.0,55.0,60.0,68.0,55.0


In [None]:
df.groupby('학교').size() # 각 그룹의 크기

학교
능남고    3
북산고    5
dtype: int64

In [None]:
df.groupby('학교').size()['능남고'] # 학교로 그룹화를 한 뒤에 능남고에 해당하는 데이터의 수

3

In [None]:
df.groupby('학교')['키'].mean() # 학교로 그룹화를 한 뒤에 키의 평균 데이터

학교
능남고    193.333333
북산고    184.800000
Name: 키, dtype: float64

In [None]:
df.groupby('학교')[['국어', '영어', '수학']].mean() # 학교로 그룹화를 한 뒤에 국어, 영어, 수학 평균 데이터

Unnamed: 0_level_0,국어,영어,수학
학교,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
능남고,78.333333,83.333333,76.666667
북산고,53.0,55.0,60.0


In [None]:
df['학년'] = [3, 3, 2, 1, 1, 3, 2, 2] # 학년 Column 추가
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기,학년
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python,3
2번,정대만,북산고,184,40,35,50,55,25,Java,3
3번,송태섭,북산고,168,80,75,70,80,75,Javascript,2
4번,서태웅,북산고,187,40,60,70,75,80,,1
5번,강백호,북산고,188,15,20,10,35,10,,1
6번,변덕규,능남고,202,80,100,95,85,80,C,3
7번,황태산,능남고,188,55,65,45,40,35,PYTHON,2
8번,윤대협,능남고,190,100,85,90,95,95,C#,2


In [None]:
df.groupby(['학교', '학년']).mean() # 학교별, 학년별 평균 데이터

Unnamed: 0_level_0,Unnamed: 1_level_0,키,국어,영어,수학,과학,사회
학교,학년,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
능남고,2,189.0,77.5,75.0,67.5,67.5,65.0
능남고,3,202.0,80.0,100.0,95.0,85.0,80.0
북산고,1,187.5,27.5,40.0,40.0,55.0,45.0
북산고,2,168.0,80.0,75.0,70.0,80.0,75.0
북산고,3,190.5,65.0,60.0,75.0,75.0,55.0


In [None]:
df.groupby('학년').mean() # 학년별 평균 데이터

Unnamed: 0_level_0,키,국어,영어,수학,과학,사회
학년,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,187.5,27.5,40.0,40.0,55.0,45.0
2,182.0,78.333333,75.0,68.333333,71.666667,68.333333
3,194.333333,70.0,73.333333,81.666667,78.333333,63.333333


In [None]:
df.groupby('학년').mean().sort_values('키')

Unnamed: 0_level_0,키,국어,영어,수학,과학,사회
학년,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2,182.0,78.333333,75.0,68.333333,71.666667,68.333333
1,187.5,27.5,40.0,40.0,55.0,45.0
3,194.333333,70.0,73.333333,81.666667,78.333333,63.333333


In [None]:
df.groupby('학년').mean().sort_values('키', ascending=False)

Unnamed: 0_level_0,키,국어,영어,수학,과학,사회
학년,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
3,194.333333,70.0,73.333333,81.666667,78.333333,63.333333
1,187.5,27.5,40.0,40.0,55.0,45.0
2,182.0,78.333333,75.0,68.333333,71.666667,68.333333


In [None]:
df.groupby(['학교', '학년']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,키,국어,영어,수학,과학,사회
학교,학년,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
능남고,2,378,155,150,135,135,130
능남고,3,202,80,100,95,85,80
북산고,1,375,55,80,80,110,90
북산고,2,168,80,75,70,80,75
북산고,3,381,130,120,150,150,110


In [None]:
df.groupby('학교')[['이름', 'SW특기']].count() # 학교로 그룹화를 한 뒤에 각 학교별 SW특기 데이터의 수를 가져옴

Unnamed: 0_level_0,이름,SW특기
학교,Unnamed: 1_level_1,Unnamed: 2_level_1
능남고,3,3
북산고,5,3


In [None]:
school = df.groupby('학교')
school['학년'].value_counts() # 학교로 그룹화를 한 뒤에 학년별 학생 수를 가져옴

학교   학년
능남고  2     2
     3     1
북산고  1     2
     3     2
     2     1
Name: 학년, dtype: int64

In [None]:
school['학년'].value_counts().loc['북산고'] # 학교로 그룹화를 한 뒤에 북산고에 대해서 학년별 학생 수를 가져옴

학년
1    2
3    2
2    1
Name: 학년, dtype: int64

In [None]:
school['학년'].value_counts().loc['능남고'] # 학교로 그룹화를 한 뒤에 능남고에 대해서 학년별 학생 수를 가져옴

학년
2    2
3    1
Name: 학년, dtype: int64

In [None]:
school['학년'].value_counts(normalize=True).loc['북산고'] # 학생들의 수 데이터를 퍼센트로 비교하여 가져옴

학년
1    0.4
3    0.4
2    0.2
Name: 학년, dtype: float64