# Pandas로 데이터 프레임 연산하기
- 데이터 프레임도 다양한 연산 적용 가능

In [1]:
# Pandas 패키지 import
import pandas as pd

In [2]:
df = pd.read_csv('CARD_SUBWAY_MONTH_202412.csv', index_col = False)
df

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20241201,1호선,종각,16268,14378,20241204
1,20241201,1호선,시청,12916,11878,20241204
2,20241201,1호선,서울역,40617,39523,20241204
3,20241201,2호선,역삼,13249,14046,20241204
4,20241201,2호선,선릉,17550,15021,20241204
...,...,...,...,...,...,...
19117,20241231,중앙선,중랑,5799,5330,20250103
19118,20241231,중앙선,회기,26235,23257,20250103
19119,20241231,장항선,신창(순천향대),1320,1171,20250103
19120,20241231,5호선,까치산,28999,26951,20250103


In [3]:
# 산술 연산
# '승차총승객수' 컬럼의 모든 값을 2씩 증가시키기

df['승차총승객수'] + 2

0        16270
1        12918
2        40619
3        13251
4        17552
         ...  
19117     5801
19118    26237
19119     1322
19120    29001
19121    68308
Name: 승차총승객수, Length: 19122, dtype: int64

In [4]:
# 컬럼과 컬럼의 산술 연산을 수행하면, 같은 인덱스에 위치한 데이터간 연산이 수행되어 반환됨
# '승차총승객수'와 '하차총승객수' 컬럼의 차이를 계산한 '승하차총승객수차이' 컬럼 생성
# 5개 컬럼만 출력

df['승하차총승객수차이'] = df['승차총승객수'] - df['하차총승객수']
df.head()

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자,승하차총승객수차이
0,20241201,1호선,종각,16268,14378,20241204,1890
1,20241201,1호선,시청,12916,11878,20241204,1038
2,20241201,1호선,서울역,40617,39523,20241204,1094
3,20241201,2호선,역삼,13249,14046,20241204,-797
4,20241201,2호선,선릉,17550,15021,20241204,2529


In [5]:
# '승하차총승객수차이'의 평균값 계산
df['승하차총승객수차이'].mean()

np.float64(50.36967890388035)

# 샘플링
- 샘플링은 전체 데이터 중에서 일부를 선택하여 분석하는 과정
- 데이터 분석에서는 전체 데이터를 다 사용할 수 없거나 다 사용할 필요가 없을 때 샘플링을 통해 데이터의 일부를 선택하여 분석을 수행

# 샘플링 방법
- 복원 추출법 : 추출한 데이터를 다시 모집단에 복원하여 추출
- 비복원 추출법 : 추출한 데이터를 모집단에서 제외하고 추출

# sample()
- DataFrame에서 sample()은 데이터 프레임의 전체 데이터 중 일부를 추출하여 반환
- df.sample(n = 추출할 데이터의 수)
- 전체 데이터에서 추출할 비율을 지정하여 샘플링 할 수도 있음
- df.sample(frac = 추출할 데이터의 비율)
- sample()은 기본적으로 비복원 추출하여 데이터를 반환
- 복원 추출을 할 경우에는 replace = True 인자를 지정하여 호출

In [6]:
# 데이터 프레임에서 10개의 아이템 샘플링하기
# 비복원 추출, 10개 아이템
sample_df = df.sample(n = 10)
sample_df

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자,승하차총승객수차이
13095,20241222,분당선,야탑,15053,15233,20241225,-180
17445,20241229,5호선,장한평,9605,9609,20250101,-4
10163,20241217,9호선,사평,4780,4658,20241220,122
1027,20241202,7호선,보라매,7250,7535,20241205,-285
5886,20241210,경부선,신길,9623,8423,20241213,1200
3081,20241205,안산선,초지,5481,5599,20241208,-118
16292,20241227,경부선,당정,6374,5912,20241230,462
5536,20241209,2호선,서울대입구(관악구청),48748,47197,20241212,1551
15667,20241226,경강선,부발,2313,2232,20241229,81
12553,20241221,7호선,마들,11238,10370,20241224,868


# 값 치환
- 데이터 프레임의 값을 일괄적으로 변경하는 방법도 존재 -> 값 치환
- replace()는 현재 값과 새로운 값에 해당하는 두 개의 인자를 지정하여 데이터 프레임의 값을 일괄적으로 변경
- df.replace(현재 값, 새로운 값)

In [11]:
# 데이터 프레임의 값 치환하기
# '노선명' 컬럼의 값이 1호선, 2호선, 3호선, 4호선인 값을 영어로 변경하기

sample_df['노선명'].replace(['1호선', '2호선', '3호선', '4호선'], ['line1', 'line2', 'line3', 'line4'])

13095      분당선
17445      5호선
10163      9호선
1027       7호선
5886       경부선
3081       안산선
16292      경부선
5536     line2
15667      경강선
12553      7호선
Name: 노선명, dtype: object

# 함수 적용
- 패키지에서 제공하는 기능이 아닌 경우, 상황에 따라 기능을 직접 함수로 구현하여 데이터 프레임에 일괄적으로 적용할 수 있음

In [12]:
# '사용일자' 컬럼을 연도-월-일 형태로 표시되도록 수정
# 연도월일 형식의 정수형 데이터를 쪼개서 연도-월-일의 형태로 반환하는 함수 생성
def getDate(data):
  data = str(data)
  year = data[0:4]
  month = data[4:6]
  day = data[6:8]
  return year + '-' + month + '-' + day

In [13]:
# 임의의 데이터를 사용해 함수 테스트
d = 20210201
getDate(d)

'2021-02-01'

In [14]:
# getDate(data) 함수를 데이터 프레임의 '사용일자' 컬럼에 있는 모든 데이터에 적용하기
# 데이터 프레임의 apply()는 함수를 인자로 받아 전체 값에 적용하는 기능을 수행
df['사용일자'].apply(getDate)

0        2024-12-01
1        2024-12-01
2        2024-12-01
3        2024-12-01
4        2024-12-01
            ...    
19117    2024-12-31
19118    2024-12-31
19119    2024-12-31
19120    2024-12-31
19121    2024-12-31
Name: 사용일자, Length: 19122, dtype: object

In [17]:
# '사용일자1' 컬럼을 새로 생성하고, '사용일자' 컬럼에 있는 값을 변환하여 '사용일자1' 컬럼에 넣기
df['사용일자1'] = df['사용일자'].apply(getDate)
df.head()

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자,승하차총승객수차이,사용일자1
0,20241201,1호선,종각,16268,14378,20241204,1890,2024-12-01
1,20241201,1호선,시청,12916,11878,20241204,1038,2024-12-01
2,20241201,1호선,서울역,40617,39523,20241204,1094,2024-12-01
3,20241201,2호선,역삼,13249,14046,20241204,-797,2024-12-01
4,20241201,2호선,선릉,17550,15021,20241204,2529,2024-12-01


# DataFrame 구조 변형하기
- Pandas의 DataFrame은 컬럼의 특정 값을 기준으로 값을 그룹핑 하는 방법을 제공
- df.groupby(컬럼명)
- 또한 분석하기 위한 데이터를 여러 개의 파일로부터 읽어 들인 다음 합치는 방법도 제공
- 두 개의 데이터 프레임을 하나의 데이터 프레임으로 합칠 수 있는데, 기준 값을 사용하여 두 개의 데이터 프레임을 합치는 과정을 '데이터 조인' 이라고 함
- 이때 사용하는 기준 값을 키(key) 값이라고 함

In [None]:
# 데이터 프레임을 '노선명'으로 그룹핑하고, 각 필드의 데이터의 평균 값을 표시하기
# df.groupby(컬럼명)을 사용
# 그룹핑을 하게 되면 여러 로우에 있는 값이 하나로 보여지기 때문에 그때 보여주어야 하는 대표 값을 설정해야 함(예 - 평균)

# '노선명'을 기준으로 그룹화하고, 숫자형 데이터에 대해서만 평균을 계산
df_grouped = df.groupby(['노선명']).mean(numeric_only=True) # numeric_only=True는 수치형 데이터만 평균을 계산하도록 함
df_grouped

Unnamed: 0_level_0,사용일자,승차총승객수,하차총승객수,등록일자
노선명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1호선,20241220.0,24564.890323,23709.851613,20242080.0
2호선,20241220.0,28058.918065,28412.207097,20242080.0
3호선,20241220.0,15570.723909,15438.3463,20242080.0
4호선,20241220.0,20062.023573,20601.816377,20242080.0
5호선,20241220.0,11797.657258,11665.46659,20242080.0
6호선,20241220.0,8792.001689,8654.549831,20242070.0
7호선,20241220.0,13507.987721,13263.331543,20242080.0
8호선,20241220.0,10811.775891,10860.480475,20242080.0
9호선,20241220.0,11728.32,11898.352258,20242080.0
9호선2~3단계,20241220.0,8399.930521,8353.066998,20242080.0


In [22]:
# 두 개의 데이터 프레임을 하나의 데이터 프레임으로 합치기
# 데이터 프레임의 조인은 pd.merge()를 사용하여 수행
# 키를 기준으로 두 테이블에 같이 존재하는 데이터를 추출하는 이너조인 방식을 디폴트로 사용
# 이너조인 : 두 데이터 프레임에 공통적으로 포함된 데이터만 합쳐서 새로운 데이터 프레임을 만드는 방식

df1 = pd.DataFrame({'이름' : ['A', 'B', 'D'],
                    '성별' : ['남자', '여자', '남자']
                    })
df1

Unnamed: 0,이름,성별
0,A,남자
1,B,여자
2,D,남자


In [23]:
df2 = pd.DataFrame({'이름' : ['A', 'B', 'C'],
                    '키' : ['180', '160', '150']
                    })
df2

Unnamed: 0,이름,키
0,A,180
1,B,160
2,C,150


In [24]:
# 두 테이블에 공통적으로 존재하는 데이터를 뽑아내어 병합
pd.merge(df1, df2)

Unnamed: 0,이름,성별,키
0,A,남자,180
1,B,여자,160


In [25]:
# 두 테이블에 존재하는 모든 데이터를 뽑아내어 병합
# NaN은 값이 설정되지 않음을 나타냄
pd.merge(df1, df2, how = 'outer')

Unnamed: 0,이름,성별,키
0,A,남자,180.0
1,B,여자,160.0
2,C,,150.0
3,D,남자,


# DataFrame 저장하기
- 데이터 프레임의 다양한 연산을 통해 데이터를 분석 목적에 맞게 가공하는 작업을 ‘데이터 전처리’ 라고 함
- 전처리 과정을 거친 데이터는 저장하여 보관할 수 있음
- 가장 많이 사용하는 csv 파일로 저장하는 방법 -> df.to_csv(파일이름)

In [28]:
df1.to_csv('dataframe.csv', index = False) # 인덱스 컬럼은 저장되지 않도록 설정 가능