# Pandas로 데이터 정렬하기
- 데이터를 순차적으로 정렬하는 방법으로는 숫자형 데이터라면 크기가 크거나 작은 순서대로 정렬을 할 수 있고, 문자형 데이터라면 알파벳 순서대로 정렬할 수 있음
- 데이터 프레임은 여러 개의 컬럼이 존재하기 때문에 값을 정렬하기 위해서는 기준이 되는 컬럼을 먼저 선택해야 함!

In [1]:
# Pandas 패키지 import
import pandas as pd

In [2]:
df = pd.read_csv('CARD_SUBWAY_MONTH_202412.csv', index_col = False)
df

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20241201,1호선,종각,16268,14378,20241204
1,20241201,1호선,시청,12916,11878,20241204
2,20241201,1호선,서울역,40617,39523,20241204
3,20241201,2호선,역삼,13249,14046,20241204
4,20241201,2호선,선릉,17550,15021,20241204
...,...,...,...,...,...,...
19117,20241231,중앙선,중랑,5799,5330,20250103
19118,20241231,중앙선,회기,26235,23257,20250103
19119,20241231,장항선,신창(순천향대),1320,1171,20250103
19120,20241231,5호선,까치산,28999,26951,20250103


In [4]:
# 승차총승객수 컬럼을 기준으로 데이터 정렬하기
# sort_values()는 해당 컬럼의 값을 기준으로 데이터를 정렬
# by는 정렬의 기준이 되는 컬럼을 설정하는 인자, ascending은 오름차순으로 정렬할지(디폴트), 내림차순으로 정렬할지(False로 설정) 설정하는 인자

df.sort_values(by = ['승차총승객수'])

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
22,20241201,경원선,창동,1,0,20241204
9676,20241216,경의선,임진강,1,9,20241219
11691,20241219,경원선,창동,1,0,20241222
9435,20241216,6호선,연신내,1,0,20241219
12103,20241220,경의선,계양,1,0,20241223
...,...,...,...,...,...,...
12386,20241221,2호선,홍대입구,101767,116191,20241224
15368,20241225,2호선,홍대입구,102405,114750,20241228
12322,20241220,2호선,잠실(송파구청),102457,102210,20241223
14188,20241224,2호선,잠실(송파구청),106243,106992,20241227


In [6]:
# 승차총승객수를 기준으로 내림차순 정렬
df.sort_values(by = ['승차총승객수'], ascending = False)

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
15390,20241225,2호선,잠실(송파구청),115266,112596,20241228
14188,20241224,2호선,잠실(송파구청),106243,106992,20241227
12322,20241220,2호선,잠실(송파구청),102457,102210,20241223
15368,20241225,2호선,홍대입구,102405,114750,20241228
12386,20241221,2호선,홍대입구,101767,116191,20241224
...,...,...,...,...,...,...
9746,20241216,분당선,복정,1,0,20241219
6575,20241211,경의선,계양,1,0,20241214
9832,20241216,일산선,지축,1,0,20241219
3509,20241206,경의선,계양,1,0,20241209


# Pandas로 데이터 선택하기, 데이터 삭제하기
- 데이터 프레임도 배열과 유사하게 인덱스와 불리언 인덱스를 사용하여 원하는 값을 선택 및 필터링 할 수 있음
- 데이터 프레임 이름[’컬럼명’]의 형태로 컬럼을 선택할 수 있으며, 슬라이싱과 인덱싱을 활용해 로우를 선택할 수 있음

In [7]:
# '노선명' 컬럼 선택하기
df['노선명']

0        1호선
1        1호선
2        1호선
3        2호선
4        2호선
        ... 
19117    중앙선
19118    중앙선
19119    장항선
19120    5호선
19121    1호선
Name: 노선명, Length: 19122, dtype: object

In [8]:
# 슬라이싱을 활용하여 로우 선택하기
# 데이터 프레임 위에서부터 10개의 데이터 선택하기
df[0:10]

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20241201,1호선,종각,16268,14378,20241204
1,20241201,1호선,시청,12916,11878,20241204
2,20241201,1호선,서울역,40617,39523,20241204
3,20241201,2호선,역삼,13249,14046,20241204
4,20241201,2호선,선릉,17550,15021,20241204
5,20241201,2호선,삼성(무역센터),30386,27571,20241204
6,20241201,2호선,종합운동장,6654,7510,20241204
7,20241201,2호선,방배,7941,8070,20241204
8,20241201,2호선,사당,28429,29778,20241204
9,20241201,2호선,낙성대(강감찬),17558,18461,20241204


In [9]:
# 특정 인덱스 위치의 로우 선택하기
df.iloc[1]

사용일자      20241201
노선명            1호선
역명              시청
승차총승객수       12916
하차총승객수       11878
등록일자      20241204
Name: 1, dtype: object

In [11]:
# 불리언 인덱스 활용하기
# 조건식을 사용하여 '노선명'과 '2호선'이 같은 값인 경우만 True를 반환하도록 실행
df['노선명'] == '2호선'

0        False
1        False
2        False
3         True
4         True
         ...  
19117    False
19118    False
19119    False
19120    False
19121    False
Name: 노선명, Length: 19122, dtype: bool

In [12]:
# 데이터 프레임이 True인 로우만 반환 받기
# '노선명'이 '2호선'인 로우만 선택하기
# df[조건식]
df[df['노선명'] == '2호선']

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
3,20241201,2호선,역삼,13249,14046,20241204
4,20241201,2호선,선릉,17550,15021,20241204
5,20241201,2호선,삼성(무역센터),30386,27571,20241204
6,20241201,2호선,종합운동장,6654,7510,20241204
7,20241201,2호선,방배,7941,8070,20241204
...,...,...,...,...,...,...
19086,20241231,2호선,동대문역사문화공원(DDP),19280,22791,20250103
19087,20241231,2호선,을지로4가,15621,15425,20250103
19088,20241231,2호선,을지로3가,26702,26285,20250103
19089,20241231,2호선,을지로입구,60555,58231,20250103


In [13]:
# 승차총승객수가 50000명 이상인 로우 선택하기
df[df['승차총승객수'] >= 50000]

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
21,20241201,2호선,홍대입구,72874,74022,20241204
40,20241201,2호선,잠실(송파구청),63085,60374,20241204
72,20241201,3호선,고속터미널,53566,50211,20241204
616,20241202,2호선,신도림,53571,51717,20241205
617,20241202,2호선,구로디지털단지,63294,62812,20241205
...,...,...,...,...,...,...
19071,20241231,2호선,선릉,54870,48062,20250103
19072,20241231,2호선,삼성(무역센터),53441,53371,20250103
19075,20241231,2호선,잠실(송파구청),84647,85799,20250103
19089,20241231,2호선,을지로입구,60555,58231,20250103


In [14]:
# 데이터프레임의 특정 컬럼이나 로우를 삭제 할 때는 drop()을 사용
# 기본적으로 drop()은 하나의 로우를 삭제하도록 설정되어 있음
# 데이터 프레임에서 0번 로우 삭제하기
df.drop(0)

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
1,20241201,1호선,시청,12916,11878,20241204
2,20241201,1호선,서울역,40617,39523,20241204
3,20241201,2호선,역삼,13249,14046,20241204
4,20241201,2호선,선릉,17550,15021,20241204
5,20241201,2호선,삼성(무역센터),30386,27571,20241204
...,...,...,...,...,...,...
19117,20241231,중앙선,중랑,5799,5330,20250103
19118,20241231,중앙선,회기,26235,23257,20250103
19119,20241231,장항선,신창(순천향대),1320,1171,20250103
19120,20241231,5호선,까치산,28999,26951,20250103


In [15]:
# 컬럼을 삭제하기 위해서는 axis = 1을 인자로 설정하여 호출해야 함
# 데이터 프레임에서 '등록일자' 컬럼 삭제하기
df.drop(['등록일자'], axis = 1)

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수
0,20241201,1호선,종각,16268,14378
1,20241201,1호선,시청,12916,11878
2,20241201,1호선,서울역,40617,39523
3,20241201,2호선,역삼,13249,14046
4,20241201,2호선,선릉,17550,15021
...,...,...,...,...,...
19117,20241231,중앙선,중랑,5799,5330
19118,20241231,중앙선,회기,26235,23257
19119,20241231,장항선,신창(순천향대),1320,1171
19120,20241231,5호선,까치산,28999,26951
