In [1]:
import numpy as np
import pandas as pd

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [2]:
# DataFrame 생성자로 만들기
data = {'학번': range(2000, 2010),
        '성적': [85, 95, 75, 70, 100, 100, 95, 85, 80, 85]}
df = pd.DataFrame(data)
df

Unnamed: 0,학번,성적
0,2000,85
1,2001,95
2,2002,75
3,2003,70
4,2004,100
5,2005,100
6,2006,95
7,2007,85
8,2008,80
9,2009,85


In [3]:
# columns에 인자를 넘겨서 컬럼명의 순서를 바꾸어 생성
df = pd.DataFrame(data, columns=['성적', '학번'])
df

Unnamed: 0,성적,학번
0,85,2000
1,95,2001
2,75,2002
3,70,2003
4,100,2004
5,100,2005
6,95,2006
7,85,2007
8,80,2008
9,85,2009


In [4]:
indexs = list('abcdefghij')
df = pd.DataFrame(data, index=indexs)
df

Unnamed: 0,학번,성적
a,2000,85
b,2001,95
c,2002,75
d,2003,70
e,2004,100
f,2005,100
g,2006,95
h,2007,85
i,2008,80
j,2009,85


In [5]:
# 행렬 변환 - 데이터프레임의 T를 호출하여 데이터프레임의 가로축과 세로축을 변환
df.T

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
학번,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009
성적,85,95,75,70,100,100,95,85,80,85


## Pandas 만들기

In [6]:
# 표 형태의 파일 읽어오기
data = pd.read_csv('CARD_SUBWAY_MONTH_202310.csv')
data

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
20231001,장항선,신창(순천향대),1239,1223,20231004,
20231001,중앙선,용문,2594,2176,20231004,
20231001,중앙선,지평,79,73,20231004,
20231001,중앙선,회기,14745,15527,20231004,
20231001,중앙선,중랑,3521,3583,20231004,
...,...,...,...,...,...,...
20231031,중앙선,오빈,356,370,20231103,
20231031,중앙선,양평,3385,3385,20231103,
20231031,중앙선,원덕,405,374,20231103,
20231031,중앙선,용문,2877,2785,20231103,


### read_csv( )에서 설정할 수 있는 입력 인자
- `파일 경로`, `이름`: 읽어올 파일 경로와 파일 이름을 작성
- `sep` 또는 `delimiter`: 데이터가 어떠한 문자열로 구분되어 있는지 표시, csv는 기본적으로 콤마(,)를 구분자로 사용
- `header`: 컬럼 이름으로 사용할 로우 번호 (기본값은 0(첫 번째 로우))
- `names`: 컬럼 이름으로 사용할 리스트 지정
- `index_col`: 인덱스로 사용할 컬럼 번호를 지정, 인덱스 컬럼이 없을 경우 index=False fh todtjd
- `encoding`: Csv 파일을 읽어올 때 인코딩 방식을 지정, 한글이나 특수문자가 포함된 경우 UTF-8이나 EUC-KR로 인코딩된 경우가 있으므로 불러온 데이터가 깨지는 경우 인코딩 방식을 바꿔본다.

In [7]:
# 가장 왼쪽에 있는 데이터를 자동으로 인덱스로 설정해 생긴 문제 해결
df = pd.read_csv('CARD_SUBWAY_MONTH_202310.csv', index_col=False)
df

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20231001,장항선,신창(순천향대),1239,1223,20231004
1,20231001,중앙선,용문,2594,2176,20231004
2,20231001,중앙선,지평,79,73,20231004
3,20231001,중앙선,회기,14745,15527,20231004
4,20231001,중앙선,중랑,3521,3583,20231004
...,...,...,...,...,...,...
18906,20231031,중앙선,오빈,356,370,20231103
18907,20231031,중앙선,양평,3385,3385,20231103
18908,20231031,중앙선,원덕,405,374,20231103
18909,20231031,중앙선,용문,2877,2785,20231103


## 데이터 탐색

- `head()`: 처음 다섯 개의 로우 출력
- `tail()`: 마지막 다섯 개의 로우 출력
- `shape`: 데이터프레임의 구조 반환
- `describe()`: 데이터프레임의 주요 통계 지표(수치형 컬럼)
- `info()`: 데이터프레임의 주요 정보
- `unique()`: 중복 제거된 유일값 반환
- `value_counts()`: 유일값의 개수

In [8]:
df.head()

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20231001,장항선,신창(순천향대),1239,1223,20231004
1,20231001,중앙선,용문,2594,2176,20231004
2,20231001,중앙선,지평,79,73,20231004
3,20231001,중앙선,회기,14745,15527,20231004
4,20231001,중앙선,중랑,3521,3583,20231004


In [9]:
df.tail()

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
18906,20231031,중앙선,오빈,356,370,20231103
18907,20231031,중앙선,양평,3385,3385,20231103
18908,20231031,중앙선,원덕,405,374,20231103
18909,20231031,중앙선,용문,2877,2785,20231103
18910,20231031,중앙선,지평,86,89,20231103


In [10]:
# 구조확인(로우 수, 칼럼 수)
df.shape

(18911, 6)

- `count`: 데이터 개수
- `mean`: 평균
- `std`: 표준편차
- `min`: 최소값
- `25%`: 낮은 순에서 높은 순으로 정렬한 후 4등분했을 때 25%에 해당하는 값(1사분위수)
- `50%`: 중간값 (median)
- `75%`: 낮은 순에서 높은 순으로 정렬한 후 4등분했을 때 75%에 해당하는 값(3사분위수)
- `max`: 최대값

In [11]:
# 주요 통계 지표
df.describe()

Unnamed: 0,사용일자,승차총승객수,하차총승객수,등록일자
count,18911.0,18911.0,18911.0,18911.0
mean,20231020.0,11167.215747,11119.506372,20231030.0
std,8.942235,10930.2837,11117.792454,26.12387
min,20231000.0,1.0,0.0,20231000.0
25%,20231010.0,3919.0,3796.0,20231010.0
50%,20231020.0,8007.0,7809.0,20231020.0
75%,20231020.0,14796.5,14548.5,20231030.0
max,20231030.0,93283.0,102119.0,20231100.0


In [12]:
# 데이터프레임에 몇 개의 컬럼이 있는지,
# 각 컴럼에 포함된 데이터들의 타입은 무엇인지 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18911 entries, 0 to 18910
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   사용일자    18911 non-null  int64 
 1   노선명     18911 non-null  object
 2   역명      18911 non-null  object
 3   승차총승객수  18911 non-null  int64 
 4   하차총승객수  18911 non-null  int64 
 5   등록일자    18911 non-null  int64 
dtypes: int64(4), object(2)
memory usage: 886.6+ KB


In [13]:
# '노선명' 칼럼이 가지고 있는 데이터의 종류 확인
df['노선명'].unique()

array(['장항선', '중앙선', '8호선', '1호선', '2호선', '3호선', '4호선', '5호선', '6호선',
       '7호선', '9호선', '9호선2~3단계', '경강선', '경부선', '경원선', '경의선', '경인선', '경춘선',
       '공항철도 1호선', '과천선', '분당선', '서해선', '수인선', '신림선', '안산선', '우이신설선',
       '일산선'], dtype=object)

In [14]:
# '노선명' 칼럼이 가지고 있는 데이터가 몇 개씩 포함되어 있는지 확인
df['노선명'].value_counts()

노선명
5호선         1736
2호선         1550
7호선         1304
경부선         1209
6호선         1172
분당선         1074
3호선         1047
경원선          905
경의선          848
4호선          806
9호선          775
중앙선          651
경인선          620
경춘선          589
8호선          558
수인선          558
공항철도 1호선     434
안산선          403
9호선2~3단계     403
우이신설선        403
경강선          341
신림선          341
일산선          316
1호선          310
과천선          248
장항선          217
서해선           93
Name: count, dtype: int64

## 데이터 정렬

sort_values()는 해당 컬럼의 값을 기준으로 데이터를 정렬

ascending의 기본값은 오름차순, ascending=False 지정하면 내림차순

In [15]:
# '승차총승객수' 칼럼을 기준으로 데이터 정렬(오름차순)
df.sort_values(by=['승차총승객수'])

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
14595,20231024,6호선,연신내,1,0,20231027
5930,20231010,경의선,계양,1,0,20231013
18092,20231030,6호선,신내,1,0,20231102
18049,20231030,7호선,상동,1,0,20231102
16650,20231028,6호선,연신내,1,0,20231031
...,...,...,...,...,...,...
16042,20231027,2호선,잠실(송파구청),91292,91915,20231030
3613,20231006,2호선,강남,92517,90655,20231009
11621,20231020,2호선,강남,92691,91186,20231023
11615,20231020,2호선,잠실(송파구청),92853,92619,20231023


In [16]:
# '승차총승객수' 칼럼을 기준으로 데이터 정렬(내림차순)
df.sort_values(by=['승차총승객수'], ascending=False)

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
7895,20231013,2호선,강남,93283,91309,20231016
11615,20231020,2호선,잠실(송파구청),92853,92619,20231023
11621,20231020,2호선,강남,92691,91186,20231023
3613,20231006,2호선,강남,92517,90655,20231009
16042,20231027,2호선,잠실(송파구청),91292,91915,20231030
...,...,...,...,...,...,...
7875,20231013,분당선,복정,1,0,20231016
15420,20231026,분당선,복정,1,0,20231029
15489,20231026,경의선,검암,1,0,20231029
7509,20231013,경의선,계양,1,0,20231016


sort_index()는 인덱스로 데이터 정렬

In [17]:
# 오름차순
df.sort_index()

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20231001,장항선,신창(순천향대),1239,1223,20231004
1,20231001,중앙선,용문,2594,2176,20231004
2,20231001,중앙선,지평,79,73,20231004
3,20231001,중앙선,회기,14745,15527,20231004
4,20231001,중앙선,중랑,3521,3583,20231004
...,...,...,...,...,...,...
18906,20231031,중앙선,오빈,356,370,20231103
18907,20231031,중앙선,양평,3385,3385,20231103
18908,20231031,중앙선,원덕,405,374,20231103
18909,20231031,중앙선,용문,2877,2785,20231103


In [18]:
# 내림차순
df.sort_index(ascending=False)

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
18910,20231031,중앙선,지평,86,89,20231103
18909,20231031,중앙선,용문,2877,2785,20231103
18908,20231031,중앙선,원덕,405,374,20231103
18907,20231031,중앙선,양평,3385,3385,20231103
18906,20231031,중앙선,오빈,356,370,20231103
...,...,...,...,...,...,...
4,20231001,중앙선,중랑,3521,3583,20231004
3,20231001,중앙선,회기,14745,15527,20231004
2,20231001,중앙선,지평,79,73,20231004
1,20231001,중앙선,용문,2594,2176,20231004


In [19]:
# '노선명' 칼럼 선택
df['노선명']

0        장항선
1        중앙선
2        중앙선
3        중앙선
4        중앙선
        ... 
18906    중앙선
18907    중앙선
18908    중앙선
18909    중앙선
18910    중앙선
Name: 노선명, Length: 18911, dtype: object

In [20]:
# 데이터프레임의 위에서부터 10개(0번째부터 9번째)의 데이터를 선택
df[:10]    # df.head(10), df[0:10]

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20231001,장항선,신창(순천향대),1239,1223,20231004
1,20231001,중앙선,용문,2594,2176,20231004
2,20231001,중앙선,지평,79,73,20231004
3,20231001,중앙선,회기,14745,15527,20231004
4,20231001,중앙선,중랑,3521,3583,20231004
5,20231001,중앙선,상봉(시외버스터미널),4188,4380,20231004
6,20231001,중앙선,망우,5117,5021,20231004
7,20231001,중앙선,양원,1620,1612,20231004
8,20231001,중앙선,구리,8250,8447,20231004
9,20231001,중앙선,도농,6023,5926,20231004


In [21]:
# iloc[]를 사용해 인덱스 위치로 선택
df.iloc[1]
df.iloc[1:5]

사용일자      20231001
노선명            중앙선
역명              용문
승차총승객수        2594
하차총승객수        2176
등록일자      20231004
Name: 1, dtype: object

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
1,20231001,중앙선,용문,2594,2176,20231004
2,20231001,중앙선,지평,79,73,20231004
3,20231001,중앙선,회기,14745,15527,20231004
4,20231001,중앙선,중랑,3521,3583,20231004


In [22]:
# 인덱스를 '사용일자'로 바꾸어 설정
df2 = df.set_index('사용일자')
df2.head()

Unnamed: 0_level_0,노선명,역명,승차총승객수,하차총승객수,등록일자
사용일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
20231001,장항선,신창(순천향대),1239,1223,20231004
20231001,중앙선,용문,2594,2176,20231004
20231001,중앙선,지평,79,73,20231004
20231001,중앙선,회기,14745,15527,20231004
20231001,중앙선,중랑,3521,3583,20231004


In [23]:
# 인덱스로 값을 선택하는 loc[], iloc[]
df2.iloc[1]
df2.loc[20231001]

노선명            중앙선
역명              용문
승차총승객수        2594
하차총승객수        2176
등록일자      20231004
Name: 20231001, dtype: object

Unnamed: 0_level_0,노선명,역명,승차총승객수,하차총승객수,등록일자
사용일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
20231001,장항선,신창(순천향대),1239,1223,20231004
20231001,중앙선,용문,2594,2176,20231004
20231001,중앙선,지평,79,73,20231004
20231001,중앙선,회기,14745,15527,20231004
20231001,중앙선,중랑,3521,3583,20231004
...,...,...,...,...,...
20231001,장항선,쌍용(나사렛대),1434,1394,20231004
20231001,장항선,아산,3695,2704,20231004
20231001,장항선,탕정,940,976,20231004
20231001,장항선,배방,905,885,20231004


In [24]:
# 데이터프레임에서 '노선명'이 '2호선'인 로수만 선택
df['노선명'] == '2호선'

0        False
1        False
2        False
3        False
4        False
         ...  
18906    False
18907    False
18908    False
18909    False
18910    False
Name: 노선명, Length: 18911, dtype: bool

In [25]:
# 불리언 인덱스를 사용하여 데이터프레임이 True인 로우만 반환
df[ df['노선명'] == '2호선' ]

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
33,20231001,2호선,시청,10898,9066,20231004
34,20231001,2호선,을지로입구,26170,23929,20231004
35,20231001,2호선,을지로3가,11558,11378,20231004
36,20231001,2호선,을지로4가,5547,5634,20231004
37,20231001,2호선,동대문역사문화공원(DDP),10958,12408,20231004
...,...,...,...,...,...,...
18468,20231031,2호선,신촌,42484,43691,20231103
18469,20231031,2호선,홍대입구,66885,74653,20231103
18470,20231031,2호선,합정,33213,35547,20231103
18471,20231031,2호선,당산,20706,24802,20231103


In [26]:
# '승차총승객수'가 50000명 이상인 로우의 '역명'만 선택
df[ df['승차총승객수'] >= 50000 ]
df[ df['승차총승객수'] >= 50000 ]['역명'].unique()
df[ df['승차총승객수'] >= 50000 ]['역명'].value_counts()

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
48,20231001,2호선,잠실(송파구청),56774,53762,20231004
71,20231001,2호선,홍대입구,60368,67802,20231004
103,20231001,3호선,고속터미널,54007,37086,20231004
1065,20231002,3호선,고속터미널,59877,42145,20231005
1096,20231002,2호선,홍대입구,66060,75726,20231005
...,...,...,...,...,...,...
18417,20231031,2호선,선릉,65657,57974,20231103
18418,20231031,2호선,삼성(무역센터),59203,60569,20231103
18421,20231031,2호선,잠실(송파구청),78308,78801,20231103
18469,20231031,2호선,홍대입구,66885,74653,20231103


array(['잠실(송파구청)', '홍대입구', '고속터미널', '서울역', '을지로입구', '삼성(무역센터)', '선릉',
       '역삼', '강남', '신림', '구로디지털단지', '신도림', '가산디지털단지', '서울대입구(관악구청)', '용산',
       '성수'], dtype=object)

역명
잠실(송파구청)       31
홍대입구           31
강남             23
서울역            22
신림             20
삼성(무역센터)       19
선릉             19
역삼             19
구로디지털단지        19
신도림            19
을지로입구          18
가산디지털단지        18
서울대입구(관악구청)    16
고속터미널          14
용산              4
성수              1
Name: count, dtype: int64

In [27]:
df2.head()
df2['승차총승객수'].max()       # 최대값
df2['승차총승객수'].idxmax()    # 최대값의 인덱스
df2['승차총승객수'].argmax()    # 원래 가지고 있던 인덱스

Unnamed: 0_level_0,노선명,역명,승차총승객수,하차총승객수,등록일자
사용일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
20231001,장항선,신창(순천향대),1239,1223,20231004
20231001,중앙선,용문,2594,2176,20231004
20231001,중앙선,지평,79,73,20231004
20231001,중앙선,회기,14745,15527,20231004
20231001,중앙선,중랑,3521,3583,20231004


93283

20231013

7895

## 데이터 삭제

drop()은 하나의 로우를 삭제하도록 설정 (컬럼을 삭제하기 위해서는 axis=1을 인자로 설정)

drop()을 수행할 경우 삭제된 결과값이 보일 뿐, 메모리에 있는 데이터프레임값이 실제로 삭제되는 것은 아님

In [28]:
df.drop(0)

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
1,20231001,중앙선,용문,2594,2176,20231004
2,20231001,중앙선,지평,79,73,20231004
3,20231001,중앙선,회기,14745,15527,20231004
4,20231001,중앙선,중랑,3521,3583,20231004
5,20231001,중앙선,상봉(시외버스터미널),4188,4380,20231004
...,...,...,...,...,...,...
18906,20231031,중앙선,오빈,356,370,20231103
18907,20231031,중앙선,양평,3385,3385,20231103
18908,20231031,중앙선,원덕,405,374,20231103
18909,20231031,중앙선,용문,2877,2785,20231103


In [29]:
# '등록일자' 컬럼 삭제
df.drop(['등록일자'], axis=1)

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수
0,20231001,장항선,신창(순천향대),1239,1223
1,20231001,중앙선,용문,2594,2176
2,20231001,중앙선,지평,79,73
3,20231001,중앙선,회기,14745,15527
4,20231001,중앙선,중랑,3521,3583
...,...,...,...,...,...
18906,20231031,중앙선,오빈,356,370
18907,20231031,중앙선,양평,3385,3385
18908,20231031,중앙선,원덕,405,374
18909,20231031,중앙선,용문,2877,2785


## 데이터 연산

### 산술 연산
데이터프레임에도 NumPy의 다양한 연산을 적용 가능

In [30]:
# '승차총승객수' 컬럼의 모든 값을 2씩 증가
df['승차총승객수'] + 2

0         1241
1         2596
2           81
3        14747
4         3523
         ...  
18906      358
18907     3387
18908      407
18909     2879
18910       88
Name: 승차총승객수, Length: 18911, dtype: int64

In [31]:
# '승차총승객수'와 '하차총승객수' 컬럼의 차이
df['승하차총승객수차이'] = df['승차총승객수'] - df['하차총승객수']
df.head()

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자,승하차총승객수차이
0,20231001,장항선,신창(순천향대),1239,1223,20231004,16
1,20231001,중앙선,용문,2594,2176,20231004,418
2,20231001,중앙선,지평,79,73,20231004,6
3,20231001,중앙선,회기,14745,15527,20231004,-782
4,20231001,중앙선,중랑,3521,3583,20231004,-62


In [32]:
df['승하차총승객수차이'].mean()

47.70937549574322

### 샘플링
- 복원 추출: 추출한 데이터를 다시 모집단에 복원하여 추출하는 방법 (중복O)
- 비복원 추출: 추출한 데이터를 모집단에서 제외하는 방법 (중복X)

In [33]:
# 복원 추출
sample_df = df.sample( n=10, replace=True )
sample_df

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자,승하차총승객수차이
9930,20231017,5호선,강일,6662,6152,20231020,510
3732,20231007,일산선,원당,9787,9011,20231010,776
2807,20231005,9호선,구반포,1166,1224,20231008,-58
6267,20231011,4호선,상계,22231,20887,20231014,1344
3470,20231006,5호선,하남검단산,7420,7067,20231009,353
659,20231002,분당선,서울숲,10302,11067,20231005,-765
10338,20231017,일산선,대곡,3343,2484,20231020,859
16437,20231027,경인선,송내,31054,31052,20231030,2
5401,20231009,분당선,구성,3034,3075,20231012,-41
11864,20231020,8호선,남위례,8162,8244,20231023,-82


In [34]:
# 비복원 추출
sample_df = df.sample( n=10 )
sample_df

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자,승하차총승객수차이
17683,20231029,4호선,명동,29704,32479,20231101,-2775
11351,20231019,안산선,안산,12270,11248,20231022,1022
8014,20231014,3호선,고속터미널,58739,57006,20231017,1733
18260,20231030,2호선,영등포구청,23974,24559,20231102,-585
12363,20231021,장항선,탕정,1435,1280,20231024,155
88,20231001,3호선,홍제,10360,9996,20231004,364
6147,20231011,우이신설선,솔샘,6899,6554,20231014,345
506,20231001,분당선,대모산입구,2595,2440,20231004,155
7141,20231012,경부선,평택,14544,14499,20231015,45
13005,20231022,안산선,신길온천,1667,1548,20231025,119


### 값 치환
replace()는 현재 값과 새로운 값에 해당하는 두 개의 인자를 지정하여 데이터프레임의 값을 일괄적으로 변경

In [35]:
sample_df['노선명'].replace(['1호선', '2호선', '3호선', '4호선'],
                           ['line1', 'line2', 'line3', 'line4'])

17683    line4
11351      안산선
8014     line3
18260    line2
12363      장항선
88       line3
6147     우이신설선
506        분당선
7141       경부선
13005      안산선
Name: 노선명, dtype: object

### 함수 적용

In [36]:
# '사용일자' 컬럼을 연도-월-일의 형태로 변경
def getDate(date):
    data = str(date)
    year = data[0:4]
    month = data[4:5]
    day = data[6:8]
    return year + '-' + month + '-' + day

In [37]:
# 동작 테스트
d = 20231213
getDate(d)

'2023-1-13'

In [40]:
df['사용일자'].apply(getDate)

0        2023-1-01
1        2023-1-01
2        2023-1-01
3        2023-1-01
4        2023-1-01
           ...    
18906    2023-1-31
18907    2023-1-31
18908    2023-1-31
18909    2023-1-31
18910    2023-1-31
Name: 사용일자, Length: 18911, dtype: object

In [41]:
# 사용일자1 컬럼을 새로 생성하고, 사용일자 컬럼에 있는 값을 datetime64의 타입으로 변환해서 넣음
df['사용일자1'] = df['사용일자'].apply(getDate)
df.head()

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자,승하차총승객수차이,사용일자1
0,20231001,장항선,신창(순천향대),1239,1223,20231004,16,2023-1-01
1,20231001,중앙선,용문,2594,2176,20231004,418,2023-1-01
2,20231001,중앙선,지평,79,73,20231004,6,2023-1-01
3,20231001,중앙선,회기,14745,15527,20231004,-782,2023-1-01
4,20231001,중앙선,중랑,3521,3583,20231004,-62,2023-1-01


데이터의 형 변환은 astype()을 사용

In [42]:
df['사용일자1'].astype('datetime64[ns]')
df['사용일자1']

0       2023-01-01
1       2023-01-01
2       2023-01-01
3       2023-01-01
4       2023-01-01
           ...    
18906   2023-01-31
18907   2023-01-31
18908   2023-01-31
18909   2023-01-31
18910   2023-01-31
Name: 사용일자1, Length: 18911, dtype: datetime64[ns]

0        2023-1-01
1        2023-1-01
2        2023-1-01
3        2023-1-01
4        2023-1-01
           ...    
18906    2023-1-31
18907    2023-1-31
18908    2023-1-31
18909    2023-1-31
18910    2023-1-31
Name: 사용일자1, Length: 18911, dtype: object

In [48]:
# 람다식 apply
print('1)')
df['승차총승객수'].apply(lambda x: x + 2)

print('2)')
plus2 = lambda x: x + 2
df['승차총승객수'].apply(plus2)

1)


0         1241
1         2596
2           81
3        14747
4         3523
         ...  
18906      358
18907     3387
18908      407
18909     2879
18910       88
Name: 승차총승객수, Length: 18911, dtype: int64

2)


0         1241
1         2596
2           81
3        14747
4         3523
         ...  
18906      358
18907     3387
18908      407
18909     2879
18910       88
Name: 승차총승객수, Length: 18911, dtype: int64

### 원핫 인코딩

이러한 카테고리형 데이터를 숫자로 변환하는 방법 중 변환하고자 하는 데이터의 차원만큼 벡터를 생성하고 해당하는 카테고리에만 1로 값을 설정하는 방법을 원핫 인코딩이라고 한다.

`get_dummies()`는 데이터 분류를 위한 머신러닝 모델을 만들 때 자주 사용

In [54]:
dummies = pd.get_dummies(sample_df['노선명'], prefix='노선')
dummies

Unnamed: 0,노선_2호선,노선_3호선,노선_4호선,노선_경부선,노선_분당선,노선_안산선,노선_우이신설선,노선_장항선
17683,False,False,True,False,False,False,False,False
11351,False,False,False,False,False,True,False,False
8014,False,True,False,False,False,False,False,False
18260,True,False,False,False,False,False,False,False
12363,False,False,False,False,False,False,False,True
88,False,True,False,False,False,False,False,False
6147,False,False,False,False,False,False,True,False
506,False,False,False,False,True,False,False,False
7141,False,False,False,True,False,False,False,False
13005,False,False,False,False,False,True,False,False


### 결측치 처리

결측치 비율에 따른 처리 방법
- 10% 미만: 로우 삭제 or 치환
- 10%~50%: 모델 기반 처리
- 50% 이상: 컬럼 삭제

In [56]:
data = {"학번": range(2000, 2010),
        "국어성적": [85, 95, 75, 70, 100, np.nan, 95, 85, 80, 85],
        "영어성적": [95, 70, 100, 85, 80, 85, 95, 95, np.nan, 70],
        "수학성적": [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, 95, np.nan, 70],}
df = pd.DataFrame(data)
df

Unnamed: 0,학번,국어성적,영어성적,수학성적
0,2000,85.0,95.0,
1,2001,95.0,70.0,
2,2002,75.0,100.0,
3,2003,70.0,85.0,
4,2004,100.0,80.0,
5,2005,,85.0,
6,2006,95.0,95.0,
7,2007,85.0,95.0,95.0
8,2008,80.0,,
9,2009,85.0,70.0,70.0


In [57]:
# 결측치가 얼마나 포함되어 있는지 확인
df.isna()

Unnamed: 0,학번,국어성적,영어성적,수학성적
0,False,False,False,True
1,False,False,False,True
2,False,False,False,True
3,False,False,False,True
4,False,False,False,True
5,False,True,False,True
6,False,False,False,True
7,False,False,False,False
8,False,False,True,True
9,False,False,False,False


fillna()는 결측치 데이터를 입력 인자로 넘긴 값으로 치환

inplace=True 인자를 함께 설정해야 데이터프레임에 값이 반영

In [58]:
# 데이터프레임에 포함된 모든 결측치를 0으로 치환
df.fillna(0)

Unnamed: 0,학번,국어성적,영어성적,수학성적
0,2000,85.0,95.0,0.0
1,2001,95.0,70.0,0.0
2,2002,75.0,100.0,0.0
3,2003,70.0,85.0,0.0
4,2004,100.0,80.0,0.0
5,2005,0.0,85.0,0.0
6,2006,95.0,95.0,0.0
7,2007,85.0,95.0,95.0
8,2008,80.0,0.0,0.0
9,2009,85.0,70.0,70.0


In [60]:
# 결측치를 50으로 치환
df['수학성적'].fillna(50, inplace=True)
df

Unnamed: 0,학번,국어성적,영어성적,수학성적
0,2000,85.0,95.0,50.0
1,2001,95.0,70.0,50.0
2,2002,75.0,100.0,50.0
3,2003,70.0,85.0,50.0
4,2004,100.0,80.0,50.0
5,2005,,85.0,50.0
6,2006,95.0,95.0,50.0
7,2007,85.0,95.0,95.0
8,2008,80.0,,50.0
9,2009,85.0,70.0,70.0


dropna()는 데이터프레임에 결측치가 포함된 로우를 삭제

In [61]:
# 데이터프레임에 결측치가 포함된 로우를 삭제
df.dropna()

Unnamed: 0,학번,국어성적,영어성적,수학성적
0,2000,85.0,95.0,50.0
1,2001,95.0,70.0,50.0
2,2002,75.0,100.0,50.0
3,2003,70.0,85.0,50.0
4,2004,100.0,80.0,50.0
6,2006,95.0,95.0,50.0
7,2007,85.0,95.0,95.0
9,2009,85.0,70.0,70.0


## 데이터 변형

groupby(컬럼명) 그룹핑을 하게 되면 여러 로우에 있는 값이 하나로 보여지기 때문에 대표값을 설정 

In [62]:
data = pd.read_csv('CARD_SUBWAY_MONTH_202310.csv', index_col=False)
df = data[['사용일자', '노선명', '승차총승객수', '하차총승객수', '등록일자']]
df.groupby(['노선명']).mean()

Unnamed: 0_level_0,사용일자,승차총승객수,하차총승객수,등록일자
노선명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1호선,20231020.0,23887.070968,23197.822581,20231030.0
2호선,20231020.0,25969.512258,26393.827742,20231030.0
3호선,20231020.0,15120.637058,15014.125119,20231030.0
4호선,20231020.0,19059.054591,19503.01861,20231030.0
5호선,20231020.0,11082.473502,11039.560484,20231030.0
6호선,20231020.0,8805.50256,8707.892491,20231030.0
7호선,20231020.0,13265.622699,13034.505368,20231030.0
8호선,20231020.0,10025.141577,10052.227599,20231030.0
9호선,20231020.0,10672.570323,10772.778065,20231030.0
9호선2~3단계,20231020.0,7865.208437,7853.188586,20231030.0


### merge

조인 방법
- `Inner join`:
- `Left join`:
- `Right join`:
- `Outer join`:

In [65]:
df1 = pd.DataFrame({'이름': ['A', 'B', 'D'],
                    '성별': ['남자', '여자', '남자']})
df1

Unnamed: 0,이름,성별
0,A,남자
1,B,여자
2,D,남자


In [67]:
df2 = pd.DataFrame({'이름': ['A', 'B', 'D'],
                    '키': [180, 170, 160]})
df2

Unnamed: 0,이름,키
0,A,180
1,B,170
2,D,160


In [73]:
# Inner join
pd.merge(df1, df2)
pd.merge(df1, df2, how="inner")

Unnamed: 0,이름,성별,키
0,A,남자,180
1,B,여자,170
2,D,남자,160


Unnamed: 0,이름,성별,키
0,A,남자,180
1,B,여자,170
2,D,남자,160


In [69]:
# Left join
pd.merge(df1, df2, how="left")

Unnamed: 0,이름,성별,키
0,A,남자,180
1,B,여자,170
2,D,남자,160


In [71]:
# Right join
pd.merge(df1, df2, how="right")

Unnamed: 0,이름,성별,키
0,A,남자,180
1,B,여자,170
2,D,남자,160


In [72]:
# Outer join
pd.merge(df1, df2, how="outer")

Unnamed: 0,이름,성별,키
0,A,남자,180
1,B,여자,170
2,D,남자,160


### concat

In [76]:
df1 = pd.DataFrame({"이름": ["A", "B", "C", "D", "E"],
                    "키": [180, 160, 150, 170, 170],
                    "나이": [23, 46, 33, 65, 28],
                    "주소": ["서울", "부산", "대전", "원주", "제주"]})
df1

Unnamed: 0,이름,키,나이,주소
0,A,180,23,서울
1,B,160,46,부산
2,C,150,33,대전
3,D,170,65,원주
4,E,170,28,제주


In [77]:
df2 = pd.DataFrame({"이름": ["F", "G", "H", "I", "J"],
                    "키": [190, 180, 150, 160, 170],
                    "나이": [23, 46, 33, 65, 28],
                    "주소": ["전주", "서울", "수원", "부산", "인천"]})
df2

Unnamed: 0,이름,키,나이,주소
0,F,190,23,전주
1,G,180,46,서울
2,H,150,33,수원
3,I,160,65,부산
4,J,170,28,인천


In [78]:
pd.concat([df1, df2])

Unnamed: 0,이름,키,나이,주소
0,A,180,23,서울
1,B,160,46,부산
2,C,150,33,대전
3,D,170,65,원주
4,E,170,28,제주
0,F,190,23,전주
1,G,180,46,서울
2,H,150,33,수원
3,I,160,65,부산
4,J,170,28,인천


In [79]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,이름,키,나이,주소,이름.1,키.1,나이.1,주소.1
0,A,180,23,서울,F,190,23,전주
1,B,160,46,부산,G,180,46,서울
2,C,150,33,대전,H,150,33,수원
3,D,170,65,원주,I,160,65,부산
4,E,170,28,제주,J,170,28,인천


## 데이터 저장

In [85]:
df = pd.DataFrame({'이름': ['A', 'B', 'D'],
                    '성별': ['남자', '여자', '남자']})
df

df.to_csv('dataframe1.csv')
df.to_csv('dataframe2.csv', encoding='euc-kr')    # 한글이 깨짐으로 인코딩 방식 지정

Unnamed: 0,이름,성별
0,A,남자
1,B,여자
2,D,남자


In [86]:
# 인덱스 저장
df.to_csv('dataframe3.csv', encoding='utf-8')

In [88]:
df1 = pd.read_csv("dataframe1.csv", encoding='utf-8')
df1

Unnamed: 0.1,Unnamed: 0,이름,성별
0,0,A,남자
1,1,B,여자
2,2,D,남자


In [89]:
df1 = pd.read_csv("dataframe1.csv", encoding='utf-8', index_col=0)
df1

Unnamed: 0,이름,성별
0,A,남자
1,B,여자
2,D,남자
