# Pandas란?
- Pandas는 Python에서 데이터 분석 및 조작을 위해 널리 사용되는 라이브러리로, 특히 표 형식의 데이터를 처리하는 데 강력한 도구로 사용됨
- Series와 DataFrame이라는 두 가지 주요 데이터 구조를 제공하며, 이를 통해 데이터 정제, 변환, 집계 및 시각화 등을 손쉽게 수행할 수 있음
- Series: 1차원 배열 형태의 데이터
- DataFrame: 2차원 테이블 형태의 데이터

# Pandas의 주요 기능
- 데이터 불러오기 및 저장하기(다양한 데이터 포맷을 읽고 쓸 수 있음)
- 데이터 탐색(데이터 구조를 쉽게 파악 가능)
- 데이터 정제 및 처리(데이터를 필터링하고 정리하는 데 매우 유용)
- 데이터 필터링(특정 조건에 맞는 데이터를 추출하는 작업이 편리)
- 그룹화 및 집계(데이터를 그룹화하여 요약 통계 정보를 쉽게 파악 가능)
- 시계열 데이터 처리(날짜와 시간에 관련된 데이터를 다루는데 유용)

# Series와 DataFrame
- Pandas에서는 Series(시리즈) 라고 하는 1차원 데이터 구조와 더불어 DataFrame(데이터프레임)이라는 구조를 통해 표 형태의 2차원 데이터를 처리할 수 있는 다양한 기능을 제공
- DataFrame은 여러 개의 Series가 모여 있는 형태
- DataFrame의 기본 구조는 가로줄을 행(row, 로우), 세로줄을 열(column, 컬럼)이라고 부름
- 컬럼의 경우 같은 형태의 데이터가 들어 있음(데이터의 타입 동일)
- 각각 로우와 컬럼은 하나의 Series라고 부를 수 있음

In [4]:
# Pandas 패키지 설치
! pip install pandas




[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip





In [5]:
# Pandas 패키지 import
import pandas as pd

In [7]:
# DataFramd 생성하기
# 리스트와 딕셔너리를 사용하여 여러 개의 데이터를 변수에 담아 DataFrame으로 생성 가능
# csv파일이나 엑셀처럼 이미 표 형태로 저장되어 있는 데이터를 DataFrame 형태로 읽어와서 사용 가능
# 딕셔너리 형태의 데이터를 사용하여 데이터 프레임을 생성하면, key에 해당하는 값이 데이터프레임의 컬럼명으로 설정

data = {'학번' : range(2000, 2010), '성적' : [85, 95, 75, 70, 100, 100, 95, 85, 80, 85]}
df = pd.DataFrame(data)
df

Unnamed: 0,학번,성적
0,2000,85
1,2001,95
2,2002,75
3,2003,70
4,2004,100
5,2005,100
6,2006,95
7,2007,85
8,2008,80
9,2009,85


In [10]:
# column에 인자를 넘겨서 컬럼명의 순서를 바꾸어 생성하는 것도 가능
df = pd.DataFrame(data, columns = ['성적', '학번'])
df

Unnamed: 0,성적,학번
0,85,2000
1,95,2001
2,75,2002
3,70,2003
4,100,2004
5,100,2005
6,95,2006
7,85,2007
8,80,2008
9,85,2009


In [11]:
# 인덱스를 특정 값으로 직접 설정도 가능
index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(data, index = index)
df

Unnamed: 0,학번,성적
a,2000,85
b,2001,95
c,2002,75
d,2003,70
e,2004,100
f,2005,100
g,2006,95
h,2007,85
i,2008,80
j,2009,85


In [12]:
# 가로 축과 세로 축 변환 가능
df.T

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
학번,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009
성적,85,95,75,70,100,100,95,85,80,85


In [14]:
# 서울시 지하철 호선별 역별 승하차 인원 정보 데이터프레임 만들기
data = pd.read_csv('CARD_SUBWAY_MONTH_202412.csv')
data

# 데이터가 왼쪽으로 밀리는 현상 발생
# 가장 왼쪽에 있는 데이터를 자동으로 인덱스로 설정하여 문제 발생

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
20241201,1호선,종각,16268,14378,20241204,
20241201,1호선,시청,12916,11878,20241204,
20241201,1호선,서울역,40617,39523,20241204,
20241201,2호선,역삼,13249,14046,20241204,
20241201,2호선,선릉,17550,15021,20241204,
...,...,...,...,...,...,...
20241231,중앙선,중랑,5799,5330,20250103,
20241231,중앙선,회기,26235,23257,20250103,
20241231,장항선,신창(순천향대),1320,1171,20250103,
20241231,5호선,까치산,28999,26951,20250103,


In [16]:
# 인덱스 컬럼 자동으로 생성, 정상적으로 데이터 읽어옴
df = pd.read_csv('CARD_SUBWAY_MONTH_202412.csv', index_col = False)
df

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20241201,1호선,종각,16268,14378,20241204
1,20241201,1호선,시청,12916,11878,20241204
2,20241201,1호선,서울역,40617,39523,20241204
3,20241201,2호선,역삼,13249,14046,20241204
4,20241201,2호선,선릉,17550,15021,20241204
...,...,...,...,...,...,...
19117,20241231,중앙선,중랑,5799,5330,20250103
19118,20241231,중앙선,회기,26235,23257,20250103
19119,20241231,장항선,신창(순천향대),1320,1171,20250103
19120,20241231,5호선,까치산,28999,26951,20250103


# Pandas로 데이터 탐색하기
- 데이터 분석 진행 시 데이터를 읽어들인 다음 총 몇개의 데이터가 있는지, 각각의 컬럼은 어떤 형태의 데이터가 들어가 있는지, 값의 분포는 어떠한지 등 데이터를 이해하기 위해 데이터 구조에 대해서 탐색하는 과정이 필요

In [None]:
# df.head(출력할 로우의 수)
# 출력할 로우의 수는 디폴트로 5로 설정되어 있으며, 설정 값에 따라 출력하는 로우의 수가 달라짐

df.head()

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20241201,1호선,종각,16268,14378,20241204
1,20241201,1호선,시청,12916,11878,20241204
2,20241201,1호선,서울역,40617,39523,20241204
3,20241201,2호선,역삼,13249,14046,20241204
4,20241201,2호선,선릉,17550,15021,20241204


In [19]:
# shape을 사용하여 구조 확인 가능
# (로우 수, 컬럼 수) 형태의 튜플을 반환

df.shape 

(19122, 6)

In [20]:
# 데이터 프레임 뒤쪽의 로우 5개를 출력하는 것도 가능(기본 값이 5)
# 인자로 화면에 보여줄 로우의 수를 지정할 수 있음

df.tail(7)

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
19115,20241231,중앙선,망우,7758,7500,20250103
19116,20241231,중앙선,상봉,6057,5829,20250103
19117,20241231,중앙선,중랑,5799,5330,20250103
19118,20241231,중앙선,회기,26235,23257,20250103
19119,20241231,장항선,신창(순천향대),1320,1171,20250103
19120,20241231,5호선,까치산,28999,26951,20250103
19121,20241231,1호선,서울역,68306,65968,20250103


In [21]:
# 데이터 프레임의 통계 지표 출력
df.describe()

Unnamed: 0,사용일자,승차총승객수,하차총승객수,등록일자
count,19122.0,19122.0,19122.0,19122.0
mean,20241220.0,11407.310375,11356.940697,20242080.0
std,8.944082,11673.072857,11866.413073,2626.455
min,20241200.0,1.0,0.0,20241200.0
25%,20241210.0,3814.5,3711.0,20241210.0
50%,20241220.0,8018.0,7797.5,20241220.0
75%,20241220.0,15090.75,14875.75,20241230.0
max,20241230.0,115266.0,116191.0,20250100.0


In [22]:
# 데이터 프레임에 몇 개의 컬럼이 있는지, 각 컬럼에 포함된 데이터들의 타입은 무엇인지 등의 주요 정보를 반환
# 데이터 구조를 한눈에 파악하는데 도움
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19122 entries, 0 to 19121
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   사용일자    19122 non-null  int64 
 1   노선명     19122 non-null  object
 2   역명      19122 non-null  object
 3   승차총승객수  19122 non-null  int64 
 4   하차총승객수  19122 non-null  int64 
 5   등록일자    19122 non-null  int64 
dtypes: int64(4), object(2)
memory usage: 896.5+ KB


In [23]:
# '노선명' 컬럼이 가지고 있는 데이터의 종류 확인
# unipue()는 컬럼에서 데이터의 중복을 제거하고 유일한 값을 반환하므로, 카테고리형 데이터의 종류를 파악할 수 있음

df['노선명'].unique()

array(['1호선', '2호선', '경원선', '3호선', '4호선', '5호선', '6호선', '7호선', '8호선',
       '9호선', '9호선2~3단계', '경강선', '경부선', '경의선', '경인선', '경춘선', '공항철도 1호선',
       '과천선', '분당선', '서해선', '수인선', '신림선', '안산선', '우이신설선', '일산선', '장항선',
       '중앙선'], dtype=object)

In [24]:
# '노선명' 컬럼의 각 데이터가 몇 개씩 포함되어 있는지 확인
# value_counts()는 해당 컬럼의 값이 몇번 포함되는지 반환
# 카테고리형 데이터의 개수 확인 가능
df['노선명'].value_counts()

노선명
5호선         1736
2호선         1550
7호선         1303
경부선         1209
6호선         1184
분당선         1085
3호선         1054
경원선         1022
경의선          846
4호선          806
9호선          775
중앙선          651
경인선          620
8호선          589
경춘선          589
수인선          558
공항철도 1호선     434
우이신설선        403
9호선2~3단계     403
안산선          403
경강선          372
신림선          341
일산선          321
1호선          310
과천선          248
장항선          217
서해선           93
Name: count, dtype: int64