### 1.2. 데이터 준비

1. [공공데이터포털]('https://www.data.go.kr/data/15044251/fileData.do)에서 서울교통공사_월별 승차인원 csv 파일 다운로드
2. 특정 저장위치(예: "D:/COSADAMA/Week1/train.csv")에 저장하기
3. 2번 예시처럼 저장 위치 복사해 두기
5. pd.read_csv('저장위치/파일이름.csv', encoding = 'utf-8', sep = ',', names = ['원하는','컬럼 이름으로', '변경하기'], usecols = ['원본 데이터의', '원하는', '컬럼이름들'], index_col = '인덱스로 설정하고 싶은 컬럼명')

- encoding: 한글, 일본어, 중국어 등 영어 외의 언어를 읽어올 때 필요한 인코딩 설정
- sep: 데이터가 어떤 방식으로 나뉘는지.
    - csv: comma-separated values -> 컴마로 구분된 데이터 -> sep = ','
    - tsv: tab-separated values -> tab으로 구분된 데이터 -> sep = '\t'
    - txt: ','일 수도, '\t'일 수도, '|'일 수도, 그 외의 데이터일 수도 있음 -> 직접 확인

- names: 전체 컬럼의 이름을 원하는 대로 다시 입력하기
- usecols: 필요한 컬럼만 가져오기
- index_col: 특정 컬럼을 인덱스로 설정하기

- read_csv 외에 read_tsv, read_table, read_excel, read_json 등 읽어오려는 파일 형식에 따라 여러 모듈이 있으니 자세한 내용은 [판다스 공식 페이지]('https://pandas.pydata.org/docs/index.html')나 필요할 때 검색하면서 찾아보시기 바랍니다.

In [None]:
############ 본인의 경로/파일이름.csv로 바꾸기
import pandas as pd
subway_df = pd.read_csv('/서울교통공사_월별 승차인원_20211130.csv')
subway_df.head()  # 데이터가 너무 많을 때 앞의 5개만 불러오기

Unnamed: 0,����,ȣ��,����ȣ,����.1,2021��1��,2021��2��,2021��3��,2021��4��,2021��5��,2021��6��,2021��7��,2021��8��,2021��9��,2021��10��,2021��11��
0,1,1,150,���￪(1),863461.0,890851.0,1827089,1841712,1841724,1152743,973900,942249,957461,1125594,1270865
1,2,1,151,��û(1),420304.0,420686.0,954481,955202,902354,536217,477840,451248,451677,507332,590817
2,3,1,152,����,685203.0,706115.0,1598997,1572365,1522428,885428,767958,720164,702153,799319,919350
3,4,1,153,����3��(1),507414.0,549933.0,1084476,1059282,1053215,691110,612154,601553,608293,696209,712182
4,5,1,154,����5��,469264.0,475339.0,1100841,1071587,1057283,600243,536493,509050,519447,583177,595547


앗! 한글이 모두 깨져서 나오네요! 이럴 때는 **인코딩encoding**을 설정해 주시면 됩니다. 컴퓨터는 0과 1만 인식하기 때문에 우리가 사용하는 한글, 영어를 인식할 때 특정 문자 집합과 숫자를 매핑한 문자 집합Character Set을 사용합니다. 이때 **문자를 byte 코드로 표현하는 작업을 인코딩encoding**이라고 합니다.

대표적인 한글 인코딩에는 유니코드(**utf-8**, utf-16, utf-32), **euc-kr**, **cp949** 등이 있습니다.


In [None]:
# 인코딩 지정해서 읽어오기
subway_df = pd.read_csv('/서울교통공사_월별 승차인원_20211130.csv',
                        encoding = 'euc-kr')
subway_df.head()  # 데이터가 너무 많을 때 앞의 5개만 불러오기

Unnamed: 0,연번,호선,역번호,역명,2021년1월,2021년2월,2021년3월,2021년4월,2021년5월,2021년6월,2021년7월,2021년8월,2021년9월,2021년10월,2021년11월
0,1,1,150,서울역(1),863461.0,890851.0,1827089,1841712,1841724,1152743,973900,942249,957461,1125594,1270865
1,2,1,151,시청(1),420304.0,420686.0,954481,955202,902354,536217,477840,451248,451677,507332,590817
2,3,1,152,종각,685203.0,706115.0,1598997,1572365,1522428,885428,767958,720164,702153,799319,919350
3,4,1,153,종로3가(1),507414.0,549933.0,1084476,1059282,1053215,691110,612154,601553,608293,696209,712182
4,5,1,154,종로5가,469264.0,475339.0,1100841,1071587,1057283,600243,536493,509050,519447,583177,595547


서울교통공사는 월별 승차인원 데이터를 euc-kr 형식으로 저장했군요! 저장할 때 어떤 인코딩encoding 형식을 사용했는지에 따라 데이터를 불러올 때 확인하는 작업이 필요하답니다.

역번호는 필요 없는 상황일 때 연번, 호선, 역명, 1 ~ 3월의 데이터를 가져오고, 연번이 중복되지 않는 값이니 index로 만들어 봅시다.

In [None]:

subway_df = pd.read_csv('/서울교통공사_월별 승차인원_20211130.csv',
                        encoding = 'euc-kr', 
                        usecols = ['연번', '호선', '역명', 
                                   '2021년1월',	'2021년2월', '2021년3월'],
                        index_col = '연번')

subway_df.head()  # 데이터가 너무 많을 때 앞의 5개만 불러오기

Unnamed: 0_level_0,호선,역명,2021년1월,2021년2월,2021년3월
연번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,서울역(1),863461.0,890851.0,1827089
2,1,시청(1),420304.0,420686.0,954481
3,1,종각,685203.0,706115.0,1598997
4,1,종로3가(1),507414.0,549933.0,1084476
5,1,종로5가,469264.0,475339.0,1100841
