## 다양한 형태의 데이터를 다루기

이번 시간에는 다양한 형태(CSV, excel, Database)로 저장되어 있는 판다스 데이터를 읽어오는 방법을 살펴보고, 이 데이터가 여러 개의 형태(가령 여러 개의 CSV파일)로 흝어져 있을 경우 어떻게 합칠 수 있는지를 살펴보겠습니다.

In [1]:
import pandas as pd

### 파일 읽어오기

데이터는 다양한 형식으로 저장될 수 있고, 데이터를 다룰 땐 땐 이 형식의 장단점을 이해하고 저장해야 합니다. 판다스에서는 다양한 저장 형식에 맡게 데이터를 읽어올 수 있는 기능이 준비되어 있습니다.

** CSV 파일 읽어오기 **

In [2]:
transaction = pd.read_csv("transaction.csv")
transaction

Unnamed: 0,Name,date,amount,result
0,Kang,2017-01-01,500,confirmed
1,Kim,2017-01-03,700,confirmed
2,Choi,2017-01-05,800,confirmed
3,Park,2017-01-07,500,canceled
4,Lee,2017-01-09,700,confirmed
5,Yoon,2017-01-10,200,canceled


In [3]:
# 특정 컬럼을 Index로 지정할 수 있습니다.
# index로 지정하지 않으면 기본 인덱스(0부터 시작)가 설정됩니다.
transaction = pd.read_csv("transaction.csv", index_col="Name")
transaction

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-05,800,confirmed
Park,2017-01-07,500,canceled
Lee,2017-01-09,700,confirmed
Yoon,2017-01-10,200,canceled


판다스의 read_csv에는 다양한 옵션들이 있습니다. [다음의 링크](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)에서 옵션들의 종류와 그 의미를 확인할 수 있습니다.

여기서는 몇 가지 예시만 보여드리겠습니다.

In [4]:
# 가져올 컬럼(column)을 지정할 수 있습니다.
# 데이터가 너무 많을 경우 사용합니다.
transaction = pd.read_csv("transaction.csv",
                          index_col="Name", usecols=["Name", "date", "amount"])
transaction

Unnamed: 0_level_0,date,amount
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kang,2017-01-01,500
Kim,2017-01-03,700
Choi,2017-01-05,800
Park,2017-01-07,500
Lee,2017-01-09,700
Yoon,2017-01-10,200


In [5]:
# 특정 컬럼을 날짜(date)로 지정합니다.
# 이렇게 하면 .dt 옵션으로 연/월/일/시/분/초를 따로 가져올 수 있습니다.
transaction = pd.read_csv("transaction.csv",
                          index_col="Name", parse_dates=["date"])
transaction

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-05,800,confirmed
Park,2017-01-07,500,canceled
Lee,2017-01-09,700,confirmed
Yoon,2017-01-10,200,canceled


In [6]:
# 다음의 코드로 date 컬럼에서 날(day)을 가져올 수 있습니다.
transaction["date"].dt.day

Name
Kang     1
Kim      3
Choi     5
Park     7
Lee      9
Yoon    10
Name: date, dtype: int64

** 파일의 경로를 지정하기 **

``pd.read_csv`` 등으로 파일을 읽어올 때는 언제나 경로를 지정해줘야 합니다.

만일 현재 쥬피터 노트북(.ipynb 확장자로 되어있는 파일)과 동일한 위치에 있다면 별도의 경로를 지정해줄 필요가 없지만, 같은 폴더가 아닌 곳에 위치해 있다면 파일의 경로를 지정해줘야 합니다.

In [7]:
# 현재는 같은 폴더에 있기 떄문에 별도의 경로를 지정해줄 필요가 없습니다.
pd.read_csv("transaction.csv")

Unnamed: 0,Name,date,amount,result
0,Kang,2017-01-01,500,confirmed
1,Kim,2017-01-03,700,confirmed
2,Choi,2017-01-05,800,confirmed
3,Park,2017-01-07,500,canceled
4,Lee,2017-01-09,700,confirmed
5,Yoon,2017-01-10,200,canceled


경로를 지정하는 방식은 크게 1) 절대경로 방식과 2) 상대경로 방식이 있습니다.

**절대경로 방식**

파일이 위치해 있는 전체 경로로 설정해주는 겁니다.

가령 파일이 다운로드(Downloads) 폴더에 있으면 Windows 기준 C:/Users/shaynekang/Downloads/train.csv 가 되고, MacOS 기준 /Users/shaynekang/Downloads/train.csv 가 됩니다.

해당 경로를 참고하여 pd.read_csv 코드를 변경해주시면 됩니다. (ex: pd.read_csv("C:/Users/shaynekang/Downloads/train.csv")) 주의할 점은 파일 경로는 보통 역슬래시(\\)가 포함되는데, 파이썬에서 경로를 읽어올 때는 모든 역슬래시(\\)를 슬래시(/)로 바꿔줘야 합니다.


** 상대경로 방식 **

파일이 위치해 있는 상대적인 경로를 바탕으로 설정해주는 겁니다.

이 경우는 노트북 파일의 위치가 중요합니다. (.ipynb 확장자로 저장됩니다)

가령 노트북 파일이 바탕화면에 저장되어 있고, (C:/Users/shaynekang/Desktop에 저장되어 있는 titanic.ipynb) train.csv가 다운로드 폴더 (C:/Users/shaynekang/Downloads/)에 저장되어 있다면,

pd.read_csv 코드를 pd.read_csv("../Downloads/train.csv") 로 변경해주시면 됩니다. (../ 는 이전 폴더라는 의미이고, Downloads/는 다운로드 폴더에 있다는 의미입니다)


절대경로와 상대경로에 대한 자세한 사항은 [다음의 링크](http://88240.tistory.com/122)를 참고 바랍니다.

** CSV가 아닌 파일을 읽어오기 **

물론 데이터중에는 CSV가 아닌 형식으로 저장한 데이터도 있으며, 이런 데이터도 read_csv나 기타 메소드를 활용해서 읽어올 수 있습니다.

In [8]:
# TSV 파일을 읽어오기.
# CSV는 comma separated values의 약자이며, TSV는 tab separated values의 약자입니다.
# 그러므로 read_csv를 그대로 사용하되, 구분하는 기준을 콤마(",")에서 탭("\t")으로 바꿔주면 됩니다.
transaction = pd.read_csv("transaction.tsv", sep="\t")
transaction

Unnamed: 0,Name,date,amount
0,Kang,2017-01-01,500
1,Kim,2017-01-03,700
2,Choi,2017-01-05,800
3,Park,2017-01-07,500
4,Lee,2017-01-09,700
5,Yoon,2017-01-10,200


In [9]:
# 엑셀 파일 읽어오기
# 이 경우에는 별도로 read_excel 이라는 함수를 사용합니다.
# 엑셀은 하나의 파일에 여러개의 시트(Sheet)를 가지고 있는데, 기본적으로는 첫 번째 시트를 읽어옵니다.
# 하지만 다른 시트를 읽어오고 싶다면 sheet_name 옵션을 활용하면 됩니다.
transaction = pd.read_excel("transaction.xls")
transaction

Unnamed: 0,Name,date,amount
0,Kang,2017-01-01,500
1,Kim,2017-01-03,700
2,Choi,2017-01-05,800
3,Park,2017-01-07,500
4,Lee,2017-01-09,700
5,Yoon,2017-01-10,200


In [10]:
# HDF 파일 읽어오기. 자주 사용하진 않지만, 가끔 대용량 데이터를 다룰 때 나오는 형식이다.
transaction = pd.read_hdf("transaction.h5")
transaction

Unnamed: 0,Name,date,amount
0,Kang,2017-01-01,500
1,Kim,2017-01-03,700
2,Choi,2017-01-05,800
3,Park,2017-01-07,500
4,Lee,2017-01-09,700
5,Yoon,2017-01-10,200


In [11]:
# 심지어 URL로도 읽어올 수 있다!
transaction_url = "https://goo.gl/WhZcFA"

transaction = pd.read_csv(transaction_url)
transaction

Unnamed: 0,Name,date,amount,result
0,Kang,2017-01-01,500,confirmed
1,Kim,2017-01-03,700,confirmed
2,Choi,2017-01-05,800,confirmed
3,Park,2017-01-07,500,canceled
4,Lee,2017-01-09,700,confirmed
5,Yoon,2017-01-10,200,canceled


### 데이터베이스에서 데이터를 읽어오기

실제 현업에서는 많은 데이터들이 CSV등의 파일이 아닌 데이터베이스(Database)에 저장되어 있습니다. 보통 MySQL, Oracle, SQLite3 등으로 불리우는 것이 이 데이터베이스입니다.

보통 회사에서는 데이터베이스를 관리하는 관리자(내지는 개발자)가 데이터베이스에서 정보를 뽑아와 CSV등의 포멧으로 전달하면, 데이터를 분석하는 분석가는 이 파일을 read_csv 등으로 읽어온 뒤 분석을 시작합니다.

하지만 여러분들이 스스로 데이터베이스에서 데이터를 뽑아올 수 있다면, 데이터베이스 관리자를 거치지 않고 바로 데이터를 분석할 수 있습니다. 이 역할을 하는 것이 판다스의 [read_sql](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html) 입니다.

read_sql을 사용할 때는 반드시 데이터베이스를 연결한 뒤 쿼리(SQL, Structured Query Language) 라는 이름의 데이터베이스 전용 언어를 통해 읽어와야 합니다. 쿼리의 예시는 다음과 같습니다.

* SELECT * FROM transaction - transaction 이라는 이름의 테이블에 있는 데이터를 전부 가져와라
* SELECT Name, amount FROM transaction - transaction 이라는 이름의 테이블에서 Name 컬럼과 amount 컬럼만 가져와라.
* SELECT * FROM transaction LIMIT 3 - transaction 이라는 이름의 테이블에서 데이터를 가져오는데, 상위 5개의 행(row)만 가져와라.

SQL 쿼리에 대한 부분은 판다스 수업과는 다소 거리가 멀기 때문에, [간단한 링크](http://playdata.io/sqltutorial/)로 대체하겠습니다. read_sql을 사용하는 코드는 다음과 같습니다.

In [12]:
import sqlite3
import pandas as pd

# transaction.db라는 이름의 SQLite 데이터베이스에 연결합니다.
connection = sqlite3.connect("pandas-transaction.db")
# 쿼리를 조합합니다. 여기서 중요한 건 테이블명은 반드시 홀따옴표(') 등으로 감싸줘야 합니다.
query = "SELECT * FROM 'transaction'"

# read_sql으로 쿼리를 날려서 데이터를 가져옵니다.
transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,date,amount,result
0,Kang,2017-01-01,500,confirmed
1,Kim,2017-01-03,700,confirmed
2,Choi,2017-01-05,800,confirmed
3,Park,2017-01-07,500,canceled
4,Lee,2017-01-09,700,confirmed
5,Yoon,2017-01-10,200,canceled


In [13]:
# 모든 컬럼이 아닌 date 컬럼과 amount 컬럼만 읽어옵니다.
query = "SELECT date, amount FROM 'transaction'"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,date,amount
0,2017-01-01,500
1,2017-01-03,700
2,2017-01-05,800
3,2017-01-07,500
4,2017-01-09,700
5,2017-01-10,200


In [14]:
# 모든 행(row)이 아닌 상위 5개 행만 읽어옵니다.
query = "SELECT * FROM 'transaction' LIMIT 3"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,date,amount,result
0,Kang,2017-01-01,500,confirmed
1,Kim,2017-01-03,700,confirmed
2,Choi,2017-01-05,800,confirmed


물론 SQLite 말고도 MySQL이나 오라클(Oracle) 포함한 다양한 데이터베이스에서도 비슷한 방식으로 데이터를 읽어올 수 있습니다. 자세한 사항은 [다음의 링크](https://stackoverflow.com/a/11138275)를 참고해주세요.

### 여러 개의 데이터를 하나로 합치기

데이터베이스에서는 데이터를 여러 개로 나눠서 저장하는데, 이를 보통은 테이블(Table)이라고 표현합니다. 가령 앞서 사용한 pandas-transaction.db 에는 transaction 이라는 이름의 테이블이 있습니다.

이런 방식은 데이터를 효율적으로 나눠서 저장할 수 있다는 장점이 있지만, 실제 판다스로 데이터를 분석할 때는 하나의 DataFrame으로 묶어서 분석하는 것이 편리합니다.

여러 개의 테이블을 하나로 묶는 방법은 다음과 같습니다.

In [15]:
transaction2017 = pd.read_csv("transaction.csv")
transaction2017

Unnamed: 0,Name,date,amount,result
0,Kang,2017-01-01,500,confirmed
1,Kim,2017-01-03,700,confirmed
2,Choi,2017-01-05,800,confirmed
3,Park,2017-01-07,500,canceled
4,Lee,2017-01-09,700,confirmed
5,Yoon,2017-01-10,200,canceled


In [16]:
transaction2016 = pd.read_csv("transaction2016.csv")
transaction2016

Unnamed: 0,Name,amount,date,result
0,Lee,400,2016-01-01,confirmed
1,Young,300,2016-01-05,confirmed
2,Kim,700,2016-01-06,confirmed
3,Choi,800,2016-01-07,canceled
4,Yoon,500,2016-01-11,confirmed
5,Jang,200,2016-01-13,confirmed
6,Park,300,2016-01-20,canceled


In [17]:
# pd.concat으로 두 개의 DataFrame을 합칠 수 있습니다.
transaction = pd.concat([transaction2017, transaction2016])
transaction

Unnamed: 0,Name,amount,date,result
0,Kang,500,2017-01-01,confirmed
1,Kim,700,2017-01-03,confirmed
2,Choi,800,2017-01-05,confirmed
3,Park,500,2017-01-07,canceled
4,Lee,700,2017-01-09,confirmed
5,Yoon,200,2017-01-10,canceled
0,Lee,400,2016-01-01,confirmed
1,Young,300,2016-01-05,confirmed
2,Kim,700,2016-01-06,confirmed
3,Choi,800,2016-01-07,canceled


In [18]:
transaction2015 = pd.read_csv("transaction2015.csv")
transaction2015

Unnamed: 0,Name,amount,date,result
0,Park,400,2015-01-01,confirmed
1,Kim,800,2015-01-02,confirmed
2,Choi,500,2015-01-05,canceled


In [19]:
# pd.concat으로 세 개 이상의 DataFrame을 합칠 수 있습니다.
transaction = pd.concat([transaction2017, transaction2016, transaction2015])
transaction

Unnamed: 0,Name,amount,date,result
0,Kang,500,2017-01-01,confirmed
1,Kim,700,2017-01-03,confirmed
2,Choi,800,2017-01-05,confirmed
3,Park,500,2017-01-07,canceled
4,Lee,700,2017-01-09,confirmed
5,Yoon,200,2017-01-10,canceled
0,Lee,400,2016-01-01,confirmed
1,Young,300,2016-01-05,confirmed
2,Kim,700,2016-01-06,confirmed
3,Choi,800,2016-01-07,canceled


In [20]:
# DataFrame에는 append라는 기능이 있는데,
# pd.concat과 거의 동일하게 동작하므로 append와 concat 중 마음에 드는 걸 사용하시면 됩니다.
transaction = transaction2017.append([transaction2016, transaction2015])
transaction

Unnamed: 0,Name,amount,date,result
0,Kang,500,2017-01-01,confirmed
1,Kim,700,2017-01-03,confirmed
2,Choi,800,2017-01-05,confirmed
3,Park,500,2017-01-07,canceled
4,Lee,700,2017-01-09,confirmed
5,Yoon,200,2017-01-10,canceled
0,Lee,400,2016-01-01,confirmed
1,Young,300,2016-01-05,confirmed
2,Kim,700,2016-01-06,confirmed
3,Choi,800,2016-01-07,canceled


In [21]:
transaction2015 = transaction2015.set_index("Name")
transaction2015

Unnamed: 0_level_0,amount,date,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Park,400,2015-01-01,confirmed
Kim,800,2015-01-02,confirmed
Choi,500,2015-01-05,canceled


In [22]:
how2015 = [
    {'how': "무통장 입금", 'installment': "없음"},
    {'how': "카드 결제", 'installment': "무이자"},
    {'how': "카드 결제", 'installment': "3개월"},
]

how2015 = pd.DataFrame(how2015, index=["Park", "Kim", "Choi"])

In [23]:
# row가 아니라 column을 추가하고 싶을 때는 axis=1 옵션을 쓴다.
pd.concat([transaction2015, how2015], axis=1)

Unnamed: 0_level_0,amount,date,result,how,installment
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Park,400,2015-01-01,confirmed,무통장 입금,없음
Kim,800,2015-01-02,confirmed,카드 결제,무이자
Choi,500,2015-01-05,canceled,카드 결제,3개월


```pd.concat```도 ```read_csv```나 ```read_sql```같이 다양한 옵션들이 있습니다. 자세한 사항은 [판다스의 API 문서](https://pandas.pydata.org/pandas-docs/stable/merging.html#merging)를 참고해주세요. 

### 서로 다른 형태의 데이터를 하나로 합치기

앞서 설명한 ```pd.concat``` 은 서로 유사한 데이터를 합치는데 많이 사용합니다. 하지만 데이터의 형태가 다른 경우에는 어떻게 하나로 합쳐야 할까요? 다음의 예를 들어보겠습니다.

In [24]:
transaction = pd.read_csv("transaction.csv")
transaction

Unnamed: 0,Name,date,amount,result
0,Kang,2017-01-01,500,confirmed
1,Kim,2017-01-03,700,confirmed
2,Choi,2017-01-05,800,confirmed
3,Park,2017-01-07,500,canceled
4,Lee,2017-01-09,700,confirmed
5,Yoon,2017-01-10,200,canceled


In [25]:
profile = [
    {"Name": "Kang", "phone": "010-1234-5678", "email": "kang@gmail.com"},
    {"Name": "Kim", "phone": "010-1098-1232", "email": "kim@naver.com"},
    {"Name": "Yoon", "phone": "010-6783-9088", "email": "yoon@hanmail.com"},
    {"Name": "Jang", "phone": "010-7257-8864", "email": "lee@gmail.com"},
]

profile = pd.DataFrame(profile)
profile

Unnamed: 0,Name,email,phone
0,Kang,kang@gmail.com,010-1234-5678
1,Kim,kim@naver.com,010-1098-1232
2,Yoon,yoon@hanmail.com,010-6783-9088
3,Jang,lee@gmail.com,010-7257-8864


이 경우에는 ``pd.merge``를 사용합니다. merge를 사용하면 두 DataFrame에서 겹치는 컬럼(Name)을 자동으로 찾아서 그에 맞게 넣어줍니다.

In [26]:
pd.merge(transaction, profile)

Unnamed: 0,Name,date,amount,result,email,phone
0,Kang,2017-01-01,500,confirmed,kang@gmail.com,010-1234-5678
1,Kim,2017-01-03,700,confirmed,kim@naver.com,010-1098-1232
2,Yoon,2017-01-10,200,canceled,yoon@hanmail.com,010-6783-9088


하지만 여기에서 주의할 점이 있습니다. 결과를 보면 알겠지만, merge를 한 순간 Name이 겹치지 않는 transaction은 전부 제거되어 버립니다. 여기에서 겹치지 않는 transaction도 결과에 포함하고 싶다면 how 옵션을 사용하면 됩니다.

In [27]:
# 기본 옵션은 how='inner'. transaction에서도 date에서도 겹치는 부분이 없다면 전부 제거해버린다.
pd.merge(transaction, profile, how='inner')

Unnamed: 0,Name,date,amount,result,email,phone
0,Kang,2017-01-01,500,confirmed,kang@gmail.com,010-1234-5678
1,Kim,2017-01-03,700,confirmed,kim@naver.com,010-1098-1232
2,Yoon,2017-01-10,200,canceled,yoon@hanmail.com,010-6783-9088


In [28]:
# how='outer' 옵션은 transaction에서도 profile에서도 겹치지 않는 부분을 그대로 남겨놓는다.
# 이 경우 빈 컬럼은 NaN으로 표시한다.
pd.merge(transaction, profile, how='outer')

Unnamed: 0,Name,date,amount,result,email,phone
0,Kang,2017-01-01,500.0,confirmed,kang@gmail.com,010-1234-5678
1,Kim,2017-01-03,700.0,confirmed,kim@naver.com,010-1098-1232
2,Choi,2017-01-05,800.0,confirmed,,
3,Park,2017-01-07,500.0,canceled,,
4,Lee,2017-01-09,700.0,confirmed,,
5,Yoon,2017-01-10,200.0,canceled,yoon@hanmail.com,010-6783-9088
6,Jang,,,,lee@gmail.com,010-7257-8864


In [29]:
# how='left'는 pd.merge에서 왼쪽에 넣은 DataFrame(transaction)을 기준으로 갯수를 맞춘다.
# 마찬가지로 빈 값에는 NaN이 들어간다.
pd.merge(transaction, profile, how='left')

Unnamed: 0,Name,date,amount,result,email,phone
0,Kang,2017-01-01,500,confirmed,kang@gmail.com,010-1234-5678
1,Kim,2017-01-03,700,confirmed,kim@naver.com,010-1098-1232
2,Choi,2017-01-05,800,confirmed,,
3,Park,2017-01-07,500,canceled,,
4,Lee,2017-01-09,700,confirmed,,
5,Yoon,2017-01-10,200,canceled,yoon@hanmail.com,010-6783-9088


In [30]:
# how='right'는 left의 정 반대라고 보면 된다.
pd.merge(transaction, profile, how='right')

Unnamed: 0,Name,date,amount,result,email,phone
0,Kang,2017-01-01,500.0,confirmed,kang@gmail.com,010-1234-5678
1,Kim,2017-01-03,700.0,confirmed,kim@naver.com,010-1098-1232
2,Yoon,2017-01-10,200.0,canceled,yoon@hanmail.com,010-6783-9088
3,Jang,,,,lee@gmail.com,010-7257-8864
