### 실전 데이터분석반 2주차 - 다양한 형태로 보관된 데이터를 읽어오기

이번 시간에는 먼저 다양한 형태로 저장되어 있는 데이터를 판다스로 읽어오는 방법을 살펴봅니다. 데이터 분석가는 CSV 파일 외에도 엑셀, 또는 데이터베이스(ex: MySQL, Oracle, etc)에 저장되어 있는 파일을 읽어올 수 있어야 합니다. 이 중 데이터분석가가 가장 많이 다루는 형식은 MySQL과 같은 데이터베이스 시스템이며, 이런 데이터베이스 시스템에서 필요한 데이터를 가져오는 별도의 프로그래밍 언어를 Structured Query Language, 줄여서 SQL 이라고 합니다.

회사마다 다르지만, 보통은 이 SQL을 얼마나 잘 다루는지 여부를 데이터분석가의 실력을 판가름하는 요소 중에 하나로 간주합니다. 그러므로 이번 수업에서는 SQL을 활용해 데이터를 읽어오고 분석하는 노하우를 배웁니다. 가장 기초적인 ```SELECT```문부터 시작하여, 조건을 활용하여 특정 데이터만 읽어올 수 있는 ```WHERE``` 문, 여러 개의 데이터를 하나로 합치는 ```JOIN```문에 대해서도 다룰 것입니다.

또한 데이터를 판다스의 DataFrame으로 읽어온 후에도, 여러 개의 데이터를 읽어와서 하나로 합쳐야 하는 경우가 있습니다. 이런 기술을 ```merge```, ```join```, ```concatenate``` 이라고 부릅니다. 이번 시간에는 ```merge```, ```join```, ```concatenate``` 를 활용 해 여러 개의 데이터를 합치는 방법, 그리고 나아가서 ```merge```, ```join```, ```concatenate``` 세 개가 구체적으로 어떤 차이가 있는지를 집중적으로 다뤄보겠습니다.

In [0]:
import pandas as pd

### 다양한 확장자의 파일 읽어오기

먼저 판다스에서 다양한 형식의 파일을 읽어오는 방법에 대해서 배워봅니다. 판다스에서는 CSV 파일 이외에도 TSV, Excel, HDF와 같은 다양한 형식의 데이터를 읽어올 수 있습니다. 이러한 형식들의 장단점을 이해하고, 이 형식의 데이터를 판다스로 읽어오는 방법을 살펴봅니다. 또한 ```read_csv```를 포함한 다양한 메소드의 옵션들을 활용하는 법을 배울 것입니다.

** CSV 파일 읽어오기 **

csv는 **comma seperated value**의 약자로, 말 그대로 값을 쉼표(```,```)로 구분한 것을 의미합니다. 이 CSV 파일을 엑셀이 아닌 메모장 (notepad)로 열어보시면, 쉼표(```,```)를 기준으로 값이 분리되어 있는 것을 확인할 수 있습니다.

In [0]:
# csv 파일을 파이썬의 open을 활용해 그대로 열어봅니다.
# 여기서 저장된 텍스트 형식의 데이터를 행 단위로 화면에 출력합니다.
for i in open('transaction.csv'):
    print(i)
    # PS) print(i, end='') 를 이용하면 행간에 출력된 엔터를 생략할 수 있습니다.

Name,date,amount,result,date(한글)

Kang,2017-01-01,500,confirmed,2017년 1월 1일

Kim,2017-01-03,700,confirmed,2017년 1월 3일

Choi,2017-01-05,800,confirmed,2017년 1월 5일

Park,2017-01-07,500,canceled,2017년 1월 7일

Lee,2017-01-09,700,confirmed,2017년 1월 9일

Yoon,2017-01-10,200,canceled,2017년 1월 10일



이러한 ```CSV``` 파일은 판다스에서 ```read_csv```라는 메소드를 활용해 간단히 읽어올 수 있습니다. 읽어온 결과는  DataFrame으로 변환합니다.

In [0]:
# 실행파일과 같은 폴더에 위치한 결제정보 데이터(transaction.csv)를 불러옵니다.
# 불러온 결과는 판다스의 DataFrame으로 자동 변환됩니다.
# 이 데이터를 transaction이라는 변수에 저장합니다.
transaction = pd.read_csv("transaction.csv")

# transaction 변수에 저장된 데이터를 화면에 출력합니다.
transaction

Unnamed: 0,Name,date,amount,result,date(한글)
0,Kang,2017-01-01,500,confirmed,2017년 1월 1일
1,Kim,2017-01-03,700,confirmed,2017년 1월 3일
2,Choi,2017-01-05,800,confirmed,2017년 1월 5일
3,Park,2017-01-07,500,canceled,2017년 1월 7일
4,Lee,2017-01-09,700,confirmed,2017년 1월 9일
5,Yoon,2017-01-10,200,canceled,2017년 1월 10일


```read_csv```는 자동으로 첫 번째 행을 헤더 (header)로 사용합니다. (이 헤더는 결국 컬럼 명이 되는 셈입니다.) 만일 첫 행을 헤더로 사용하고 싶지 않은 경우에는 다음의 옵션을 넣을 수 있습니다.

In [0]:
# 몇 번째 행을 header로 사용할지를 header라는 파라미터에 넣어주면 됩니다.
# 헤더로 어떤 행도 사용하지 않고 싶을 때는 None을 입력해주시면 됩니다.
# 이 경우에는 판다스에서 자동으로 열(column) 번호를 컬럼 명으로 사용합니다.
transaction = pd.read_csv("transaction.csv", header=None)

# transaction 변수에 저장된 데이터를 화면에 출력합니다. 
transaction

Unnamed: 0,0,1,2,3,4
0,Name,date,amount,result,date(한글)
1,Kang,2017-01-01,500,confirmed,2017년 1월 1일
2,Kim,2017-01-03,700,confirmed,2017년 1월 3일
3,Choi,2017-01-05,800,confirmed,2017년 1월 5일
4,Park,2017-01-07,500,canceled,2017년 1월 7일
5,Lee,2017-01-09,700,confirmed,2017년 1월 9일
6,Yoon,2017-01-10,200,canceled,2017년 1월 10일


만일 컬럼명을 바꾸고 싶다면, names라는 파라미터에 컬럼명을 별도로 지정할 수 있습니다. 이 패러미터를 활용해 영어 컬럼명을 한글로 변경해보겠습니다.

In [0]:
# 0번째 (프로그래밍 언어에서는 1이 첫번째가 아닙니다.) 행을 헤더로 사용합니다.
# 그리고 그 헤더의 값들을 names라는 파라미터에 리스트로 넣어 한글로 수정합니다. 
names = ['이름', '날짜', '양', '결제결과', '날짜(한글)']

transaction = pd.read_csv("transaction.csv", header=0, names=names)

# names에 들어가는 리스트의 길이가 데이터의 열 수보다 많으면 에러가 발생합니다.
transaction

Unnamed: 0,이름,날짜,양,결제결과,날짜(한글)
0,Kang,2017-01-01,500,confirmed,2017년 1월 1일
1,Kim,2017-01-03,700,confirmed,2017년 1월 3일
2,Choi,2017-01-05,800,confirmed,2017년 1월 5일
3,Park,2017-01-07,500,canceled,2017년 1월 7일
4,Lee,2017-01-09,700,confirmed,2017년 1월 9일
5,Yoon,2017-01-10,200,canceled,2017년 1월 10일


판다스의 DataFrame에는 각 행(row)을 나타내는 인덱스(index)가 존재합니다. 아무런 인덱스(index)를 지정해 주지 않았다면, 디폴트 값으로 0부터 시작하는 숫자(ex: 0, 1, 2, 3, 4, 5, 6...)가 들어갑니다. 하지만 이 디폴트 인덱스가 직관적이지 않다는 느낌이 들고, 인덱스가 될 수 있는 더 좋은 옵션을 열(column)으로 가지고 있다면, ```index_col``` 옵션을 통해 이를 별도로 지정하는 것도 가능합니다.

In [0]:
# index_col 옵션으로 특정 컬럼을 인덱스로 지정할 수 있습니다.
# 인덱스로 지정하지 않으면 디폴트 인덱스가 설정됩니다.
transaction = pd.read_csv("transaction.csv", index_col="Name")
transaction

Unnamed: 0_level_0,date,amount,result,date(한글)
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kang,2017-01-01,500,confirmed,2017년 1월 1일
Kim,2017-01-03,700,confirmed,2017년 1월 3일
Choi,2017-01-05,800,confirmed,2017년 1월 5일
Park,2017-01-07,500,canceled,2017년 1월 7일
Lee,2017-01-09,700,confirmed,2017년 1월 9일
Yoon,2017-01-10,200,canceled,2017년 1월 10일


다만, 주의해야 하는 점은 인덱스(index)로 활용하는 컬럼은 중복 값이 존재하면 안된다는 것입니다. 만일 중복된 값을 사용하면 나중에 여러 개의 데이터를 합칠 때 굉장히 불편하거나 문제가 발생할 소지가 있습니다. 그러므로 인덱스는 항상 고유해야 한다(이를 전문 용어로 unique하다고 합니다)는 점을 숙지하고 있어야 합니다.

위에서 설명한 것 이외에도 판다스의 read_csv에는 다양한 옵션들이 있습니다. 이 기능을 잘 사용한다면 데이터를 전처리 (Pre-processing)하는 과정이 한결 쉬워지는데요, 이번 수업에서는 가장 많이 쓰이는 기능 몇 가지만 소개하도록 하겠습니다. 

PS) read_csv에 존재하는 모든 기능은 [다음의 링크](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)에서 확인할 수 있습니다.

** 판다스 read_csv의 여러 옵션들 **

현업에서 데이터를 분석할 때, 가끔은 필요 이상으로 데이터가 많은 경우가 있습니다. 이런 경우에는 데이터를 한 번에 전부 불러오지 않고, 필요한 데이터만 불러오면 효율적으로 데이터를 분석할 수 있습니다. 먼저 필요한 열(column)만 가져오는 법부터 알아보겠습니다.

In [0]:
# 가져올 컬럼(column)을 지정할 수 있습니다.
# 데이터가 너무 많을 경우 사용합니다.
transaction = pd.read_csv("transaction.csv",
                          index_col="Name",
                          usecols=["Name", "date", "amount"])
transaction

Unnamed: 0_level_0,date,amount
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kang,2017-01-01,500
Kim,2017-01-03,700
Choi,2017-01-05,800
Park,2017-01-07,500
Lee,2017-01-09,700
Yoon,2017-01-10,200


이외에도 열(column)이 아닌 행(row)을 일부만 읽어줘야 하는 경우도 있습니다. 이 경우에는 ```nrows```와 ```skiprows``` 옵션을 활용합니다.

In [0]:
# nrows로 불러올 행의 개수를 지정해줄 수 있습니다.
# 지정한 개수만큼의 행을 위에서부터 불러옵니다.
pd.read_csv('transaction.csv', nrows=2)

Unnamed: 0,Name,date,amount,result,date(한글)
0,Kang,2017-01-01,500,confirmed,2017년 1월 1일
1,Kim,2017-01-03,700,confirmed,2017년 1월 3일


skiprows 옵션을 사용하면 건너 뛰고 싶은 행을 지정할 수 있습니다. skiprows 옵션의 경우 input의 형태에 따라 작동하는 방식이 조금 다릅니다.

In [0]:
# skiprows : int로 옵션을 주는 경우 처음부터 불러들일 때 생략할 행의 개수 (header 포함)
# skiprows : List로 옵션을 주는 경우 생략할 행의 index
# skiprows : 함수 (callable)로 옵션을 주는 경우도 가능 (ex. 홀수행만 불러오기)

pd.read_csv('transaction.csv', skiprows=1)
# pd.read_csv('transaction.csv', skiprows=[0])
# pd.read_csv('transaction.csv', skiprows=lambda x : x in [0,2])

Unnamed: 0,Kang,2017-01-01,500,confirmed,2017년 1월 1일
0,Kim,2017-01-03,700,confirmed,2017년 1월 3일
1,Choi,2017-01-05,800,confirmed,2017년 1월 5일
2,Park,2017-01-07,500,canceled,2017년 1월 7일
3,Lee,2017-01-09,700,confirmed,2017년 1월 9일
4,Yoon,2017-01-10,200,canceled,2017년 1월 10일


chunksize 옵션은 지정된 행의 개수만큼 iterator를 만들어줍니다. iterator는 for문에서 값을 하나씩 반환하는 역할을 하는데, 이는 데이터를 여러개로 쪼개 각각 변수에 저장할 때 유용하게 사용됩니다.

In [0]:
for splited_data in pd.read_csv('transaction.csv', chunksize=2):
    print(splited_data, end='\n\n')

   Name        date  amount     result     date(한글)
0  Kang  2017-01-01     500  confirmed  2017년 1월 1일
1   Kim  2017-01-03     700  confirmed  2017년 1월 3일

   Name        date  amount     result     date(한글)
2  Choi  2017-01-05     800  confirmed  2017년 1월 5일
3  Park  2017-01-07     500   canceled  2017년 1월 7일

   Name        date  amount     result      date(한글)
4   Lee  2017-01-09     700  confirmed   2017년 1월 9일
5  Yoon  2017-01-10     200   canceled  2017년 1월 10일



---

**날짜 처리**

판다스에서 데이터를 읽다보면, 가끔 날짜나 시간 정보가 들어있는 경우가 있습니다. 이 경우 별도의 처리를 해주지 않으면 판다스는 이를 문자열(object, 내지는 string)으로 인식합니다. 이 경우에는 ```parse_dates```라는 별도의 옵션으로 지정해줘야 합니다.

In [0]:
# 특정 컬럼을 날짜(date)로 지정합니다.
# 이렇게 하면 .dt 옵션으로 연/월/일/시/분/초를 따로 가져올 수 있습니다.
transaction = pd.read_csv("transaction.csv",
                          index_col="Name",
                          parse_dates=["date"])

transaction

Unnamed: 0_level_0,date,amount,result,date(한글)
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kang,2017-01-01,500,confirmed,2017년 1월 1일
Kim,2017-01-03,700,confirmed,2017년 1월 3일
Choi,2017-01-05,800,confirmed,2017년 1월 5일
Park,2017-01-07,500,canceled,2017년 1월 7일
Lee,2017-01-09,700,confirmed,2017년 1월 9일
Yoon,2017-01-10,200,canceled,2017년 1월 10일


In [0]:
# 출력된 데이터프레임의 모양은 똑같지만, dtype을 보면 date 칼럼을 datetime64[ns]라는 형태로 인식하고 있음을 알 수 있습니다.
transaction.dtypes

date        datetime64[ns]
amount               int64
result              object
date(한글)            object
dtype: object

In [0]:
# datetime 열에 대해서는 다음의 코드로 date 컬럼에서 날(day)을 가져올 수 있습니다.
transaction["date"].dt.day #year, month, weekday, dayofweek 등 사용 가능.

Name
Kang     1
Kim      3
Choi     5
Park     7
Lee      9
Yoon    10
Name: date, dtype: int64

day말고도 year, month, weekday, hour 등 다양한 시간 정보를 바로 가져오는 것이 가능합니다. 
자세한 사항은 [다음의 링크](https://pandas.pydata.org/pandas-docs/stable/api.html#datetimelike-properties)를 참고해주세요.

가끔은 판다스에서 지원하지 않는 형식의 날짜를 읽어와야 할 경우가 있습니다. 이 경우에는 명시적으로 날짜 형식을 지정해줘야 합니다.

In [0]:
# Date와 date(한글)을 한꺼번에 parsing하기
transaction = pd.read_csv('transaction_date.csv', parse_dates=['date', 'date(한글)'])

# 밑의 결과를 통해 한글 날짜 형식은 판다스가 인식하지 못함을 알 수 있음
transaction.dtypes

date        datetime64[ns]
amount               int64
result              object
date(한글)            object
dtype: object

이 경우에는 판다스의 datetime 클래스를 이용합니다. datetime 클래스 안에 strptime이라는 메소드는 문자열(string)이 입력되었을 때, 그 string의 날짜 표기 형식을 아래의 지정 문자열을 이용하여 만들어주면 문자열을 날짜 자료형으로 만들어줍니다. 지정된 문자열들 중 많이 쓰이는 것은 다음과 같습니다.

- %Y	 4자리 연도 숫자
- %y     2자리 연도 숫자
- %m	2자리 월 숫자
- %d	 2자리 일 숫자
- %H	24시간 기준 시간 숫자 (0-23)
- %I.     12시간 기준 시간 숫자 (0-12)
- %M	2자리 분 숫자
- %S	 2자리 초 숫자
- %A     영어로 된 요일 문자열
- %B 	 영어로 된 월 문자열


이 이외의 지정 문자열을 [다음의 링크](https://www.w3schools.com/python/python_datetime.asp) 에서 확인하실 수 있습니다.

In [0]:
#간략하게 함수를 만들 수 있는 lambda를 이용하여 x라는 data가 들어왔을 때, 이를 datetime으로 해석할 수 있도록 형식을 지정해줍니다.
dateparser = lambda x: pd.datetime.strptime(x, '%Y년 %m월 %d일')

In [0]:
#함수 (callable)을 이용해 date('한글')을 datetime 자료형으로 만들어 줍니다.
transaction_date = pd.read_csv('transaction_date.csv',
                               parse_dates = ['date(한글)'],
                               date_parser = dateparser)

#아래 자료형에서 볼 수 있듯이, date(한글) 컬럼이 datetime자료형으로 바뀐 것을 확인할 수 있습니다.
transaction_date.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
date        6 non-null object
amount      6 non-null int64
result      6 non-null object
date(한글)    6 non-null datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(2)
memory usage: 272.0+ bytes


만일 컬럼마다 날짜의 형식이 다른 경우에는 ```converters```라는 옵션을 쓰는 것이 더 편할 수도 있습니다. 수 있습니다. converters는 dictionary를 input으로 받는데, key에 해당하는 컬럼만 지정된 함수로 변환됩니다.

In [0]:
#'date(한글)'열만 dateparse를 이용하여 datetime 자료형으로 변환, 'date'열은 기본 parse_dates를 이용
transaction_date = pd.read_csv('transaction_date.csv',
                               parse_dates=['date'],
                               converters={'date(한글)' : dateparser})

# 아래 코드는 parse_dates 옵션을 사용하지 않고 converters로만 변환하는 경우입니다. 결과는 위와 같습니다.
#transaction_date = pd.read_csv('transaction_date.csv', converters={'date(한글)' : dateparse, 'date' : lambda x: pd.to_datetime(x)})
transaction_date.dtypes

date        datetime64[ns]
amount               int64
result              object
date(한글)    datetime64[ns]
dtype: object

---

**인코딩**

판다스의 ```read_csv```를 활용해 데이터를 불러올 때, 가끔 에러가 발생하는 경우가 있습니다. 특히나 가장 많이 발생하는 에러중 하나로 ```UnicodeDecodeError```라는게 있는데, 이는 문자열을 저장하는 방식(이하 인코딩)이 잘못되어 있는 경우라고 보시면 됩니다.

우선, data 폴더의 encoding.csv 파일을 불러오겠습니다.

In [0]:
#'euc-kr', 'cp949'를 한글을 불러올 때 사용
pd.read_csv('encoding.csv')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 0: invalid start byte

예전에 작성된 한글 엑셀 파일이나 문서의 경우 'euc-kr'이라는 인코딩 방식을 사용하는데, 이 방식은 판다스와 호환이 잘 되지 않습니다.

따라서 위와 같이 UnicodeDecodeError가 발생한 경우에는 encoding 파라미터를 'euc-kr' 또는 'cp949' (euc-kr의 확장버전)을 사용하여 한글을 인식할 수 있도록 해주세요.

In [0]:
#cp949나 euc-kr을 사용

pd.read_csv('encoding.csv',encoding='cp949')
#pd.read_csv('encoding.csv',encoding='euc-kr')

Unnamed: 0,이름,날짜,양,결과
0,Kang,2017-01-01,500,confirmed
1,Kim,2017-01-03,700,confirmed
2,Choi,2017-01-05,800,confirmed
3,Park,2017-01-07,500,canceled
4,Lee,2017-01-09,700,confirmed
5,Yoon,2017-01-10,200,canceled


**True와 False, 그리고 NaN 형식 받아오기**

유용하게 쓰이는 기능이 하나 더 있습니다. True, False와 같은 bool 타입의 데이터가 일반적이지 않은 형태로 기록된 경우가 있습니다. 이 경우는 ```read_csv```를 활용할 때 bool 타입으로 명시적으로 변환해 줄 수 있습니다. 이 경우 ```true_values```와 ```false_values```라는 옵션을 사용합니다.

In [0]:
#값을 str이 아닌 list 안에 str을 써서 표현해주셔야 합니다.
pd.read_csv('transaction.csv',true_values=['confirmed'], false_values=['canceled'])

Unnamed: 0,Name,date,amount,result,date(한글)
0,Kang,2017-01-01,500,True,2017년 1월 1일
1,Kim,2017-01-03,700,True,2017년 1월 3일
2,Choi,2017-01-05,800,True,2017년 1월 5일
3,Park,2017-01-07,500,False,2017년 1월 7일
4,Lee,2017-01-09,700,True,2017년 1월 9일
5,Yoon,2017-01-10,200,False,2017년 1월 10일


비어있는 값들도 입력자에 따라 다양한 문자로 표시된 경우가 있습니다. 판다스는 다음과 같은 문자를 자동으로 Nan값으로 인식하지만, 나머지는 문자 그대로 인식하므로 다른 형태의 Nan값을 인식시키고 싶은 경우 na_values 라는 파라미터에 값을 추가해주면 됩니다. 

- '', '#N/A', '#N/A N/A', '#NA', '-1.#IND', '-1.#QNAN', '-NaN', '-nan', '1.#IND', '1.#QNAN', 'N/A', 'NA', 'NULL', 'NaN', 'n/a', 'nan', 'null'

In [0]:
#data 폴더의 transaction_NA.csv 파일을 읽어온 다음, isnull 또는 isna 메소드를 이용하여 Nonevalue 열의 어떤 값이 Nan값으로 인식되었는지 확인해보세요.
transaction_na = pd.read_csv('transaction_NA.csv')
transaction_na

Unnamed: 0,Name,date,amount,result,NoneValue
0,Kang,2017-01-01,500,confirmed,Nan
1,Kim,2017-01-03,700,confirmed,NAN
2,Choi,2017-01-05,800,confirmed,
3,Park,2017-01-07,500,canceled,
4,Lee,2017-01-09,700,confirmed,
5,Yoon,2017-01-10,200,canceled,#n/a


In [0]:
transaction_na.isnull()

Unnamed: 0,Name,date,amount,result,NoneValue
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,True
3,False,False,False,False,False
4,False,False,False,False,True
5,False,False,False,False,False


In [0]:
# 비어있는 값으로 인식되지 않은 'Nan', 'NAN', '#n/a' 값을 na_values에 list로 추가해주세요. 
transaction_na = pd.read_csv('transaction_NA.csv', na_values=['Nan', 'NAN', '#n/a'])
transaction_na.isnull()

Unnamed: 0,Name,date,amount,result,NoneValue
0,False,False,False,False,True
1,False,False,False,False,True
2,False,False,False,False,True
3,False,False,False,False,False
4,False,False,False,False,True
5,False,False,False,False,True


In [0]:
#혹시 기본 인식값 중에 문자 그대로 놔두고 싶은 문자가 있는 경우 keep_default_na를 False로 놓아주세요.
transaction_na = pd.read_csv('transaction_NA.csv', na_values=['Nan', 'NAN', '#n/a', '#NA'], keep_default_na=False)
transaction_na.isnull()

Unnamed: 0,Name,date,amount,result,NoneValue
0,False,False,False,False,True
1,False,False,False,False,True
2,False,False,False,False,True
3,False,False,False,False,False
4,False,False,False,False,False
5,False,False,False,False,True


** 파일의 경로를 지정하기 **

``pd.read_csv`` 등으로 파일을 읽어올 때는 언제나 경로를 지정해줘야 합니다.

만일 현재 쥬피터 노트북(.ipynb 확장자로 되어있는 파일)과 동일한 위치에 있다면 별도의 경로를 지정해줄 필요가 없지만, 같은 폴더가 아닌 곳에 위치해 있다면 파일의 경로를 지정해줘야 합니다.

In [0]:
# 현재는 같은 폴더에 있기 떄문에 별도의 경로를 지정해줄 필요가 없습니다.
pd.read_csv("transaction.csv")

Unnamed: 0,Name,date,amount,result,date(한글)
0,Kang,2017-01-01,500,confirmed,2017년 1월 1일
1,Kim,2017-01-03,700,confirmed,2017년 1월 3일
2,Choi,2017-01-05,800,confirmed,2017년 1월 5일
3,Park,2017-01-07,500,canceled,2017년 1월 7일
4,Lee,2017-01-09,700,confirmed,2017년 1월 9일
5,Yoon,2017-01-10,200,canceled,2017년 1월 10일


경로를 지정하는 방식은 크게 1) 절대경로 방식과 2) 상대경로 방식이 있습니다.

**절대경로 방식**

파일이 위치해 있는 전체 경로로 설정해주는 겁니다.

가령 파일이 다운로드(Downloads) 폴더에 있으면 Windows 기준 C:/Users/shaynekang/Downloads/train.csv 가 되고, MacOS 기준 /Users/shaynekang/Downloads/train.csv 가 됩니다.

해당 경로를 참고하여 pd.read_csv 코드를 변경해주시면 됩니다. (ex: pd.read_csv("C:/Users/shaynekang/Downloads/train.csv")) 주의할 점은 파일 경로는 보통 역슬래시(\\)가 포함되는데, 파이썬에서 경로를 읽어올 때는 모든 역슬래시(\\)를 슬래시(/)로 바꿔줘야 합니다.


** 상대경로 방식 **

파일이 위치해 있는 상대적인 경로를 바탕으로 설정해주는 겁니다.

이 경우는 노트북 파일의 위치가 중요합니다. (.ipynb 확장자로 저장됩니다)

가령 노트북 파일이 바탕화면에 저장되어 있고, (C:/Users/shaynekang/Desktop에 저장되어 있는 titanic.ipynb) train.csv가 다운로드 폴더 (C:/Users/shaynekang/Downloads/)에 저장되어 있다면,

pd.read_csv 코드를 pd.read_csv("../Downloads/train.csv") 로 변경해주시면 됩니다. (../ 는 이전 폴더라는 의미이고, Downloads/는 다운로드 폴더에 있다는 의미입니다)


절대경로와 상대경로에 대한 자세한 사항은 [다음의 링크](http://88240.tistory.com/122)를 참고 바랍니다.

** CSV가 아닌 파일을 읽어오기 **

물론 데이터중에는 CSV가 아닌 형식으로 저장한 데이터도 있으며, 이런 데이터도 read_csv나 기타 메소드를 활용해서 읽어올 수 있습니다.

In [0]:
# TSV 파일을 읽어오기.
# CSV는 comma separated values의 약자이며, TSV는 tab separated values의 약자입니다.
# 그러므로 read_csv를 그대로 사용하되, 구분하는 기준을 콤마(",")에서 탭("\t")으로 바꿔주면 됩니다.
transaction = pd.read_csv("transaction.tsv", sep="\t")
transaction

Unnamed: 0,Name,date,amount,result
0,Kang,2017-01-01,500,confirmed
1,Kim,2017-01-03,700,confirmed
2,Choi,2017-01-05,800,confirmed
3,Park,2017-01-07,500,canceled
4,Lee,2017-01-09,700,confirmed
5,Yoon,2017-01-10,200,canceled


In [0]:
# 엑셀 파일 읽어오기
# 이 경우에는 별도로 read_excel 이라는 함수를 사용합니다.
# 엑셀은 하나의 파일에 여러개의 시트(Sheet)를 가지고 있는데, 기본적으로는 첫 번째 시트를 읽어옵니다.
# 하지만 다른 시트를 읽어오고 싶다면 sheet_name 옵션을 활용하면 됩니다.
transaction = pd.read_excel("transaction.xls")
transaction

ImportError: No module named 'xlrd'

In [0]:
# HDF 파일 읽어오기. 자주 사용하진 않지만, 가끔 대용량 데이터를 다룰 때 나오는 형식이다.
transaction = pd.read_hdf("transaction.h5")
transaction

ImportError: HDFStore requires PyTables, "No module named 'tables'" problem importing

In [0]:
# 심지어 URL로도 읽어올 수 있다!
transaction_url = "https://goo.gl/WhZcFA"

transaction = pd.read_csv(transaction_url)
transaction

Unnamed: 0,Name,date,amount,result
0,Kang,2017-01-01,500,confirmed
1,Kim,2017-01-03,700,confirmed
2,Choi,2017-01-05,800,confirmed
3,Park,2017-01-07,500,canceled
4,Lee,2017-01-09,700,confirmed
5,Yoon,2017-01-10,200,canceled


### 데이터베이스에서 데이터를 읽어오기

이번에는 CSV가 아닌 완전히 다른 방식으로 데이터를 읽어와보겠습니다. 바로 데이터베이스(Database)입니다.

현업에서는 대부분의 데이터들이 데이터베이스(Database)라고 하는 전문적인 시스템을 통해 저장되어 있습니다. 가끔 MySQL, Oracle, SQLite3 이라는 프로그램을 들어보셨을텐데, 이 프로그램을 데이터베이스라고 합니다.

보통 회사에서는 데이터베이스 관리자(내지는 개발자)가 데이터를 관리하며, 데이터 분석가는 데이터베이스 관리자에게 데이터를 요청하면, 관리자가 데이터를 뽑아와 CSV형식의 파일로 전달해줍니다.

하지만 여러분들이 데이터베이스 관리자의 손을 거치지 않고 스스로 데이터베이스에서 데이터를 뽑아올 수 있다면, 병목 현상 없이 효율적으로 데이터를 읽어와 분석할 수 있습니다. 이 역할을 하는 것이 판다스의 [read_sql](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html) 입니다.

```read_sql```을 사용할 때는 반드시 데이터베이스를 연결한 뒤 쿼리(SQL, Structured Query Language) 라는 이름의 데이터베이스 전용 언어를 사용해야 합니다. 이번 수업에서는 이 SQL을 집중적으로 다뤄보겠습니다.

수업에서는 SQLite를 이용하여 진행이 되지만, SQLite 말고도 MySQL이나 오라클(Oracle) 포함한 다양한 데이터베이스에서도 비슷한 방식으로 데이터를 읽어올 수 있습니다. 자세한 사항은 [다음의 링크](https://stackoverflow.com/a/11138275)를 참고해주세요.

----

### SQL의 기본

일반적인 SQL 교재를 보면 CREATE, INSERT부터 시작해서 다양한 SQL 문법들을 다루고 있습니다. 하지만 데이터분석가는 데이터를 추출만 하면 되기 때문에, 이러한 기능을 전부 사용할 필요가 없습니다. 여러분은 ```SELECT```, ```WHERE```, ```JOIN```을 필두로 한 몇몇 문법만 집중적으로 학습하면 됩니다. 주요 문법들은 다음과 같습니다.

* SELECT * FROM transaction - transaction 이라는 이름의 데이터베이스 테이블에 있는 데이터를 전부 가져와라
* SELECT Name, amount FROM transaction - transaction 이라는 이름의 데이터베이스 테이블에서, Name 컬럼과 amount 컬럼만 가져와라.
* SELECT * FROM transaction LIMIT 3 - transaction 이라는 이름의 데이터베이스 테이블에서 데이터를 가져오는데, 상위 3개의 행(row)만 가져와라.

쿼리에 대한 설명은 [다음의 링크](http://playdata.io/tutorials/sql)에서도 잘 설명되어 있습니다.

In [0]:
import sqlite3
import pandas as pd

# transaction.db라는 이름의 SQLite 데이터베이스에 연결합니다.
connection = sqlite3.connect("pandas-transaction.db")

# 쿼리를 조합합니다. 여기서 중요한 건 테이블명은 반드시 홀따옴표(') 등으로 감싸줘야 합니다.
query = "SELECT * FROM sqlite_master;"

# read_sql으로 쿼리를 날려서 데이터베이스 스키마를 출력합니다.
transaction = pd.read_sql_query(query, connection)['sql']

for i in transaction:
    print(i)

CREATE TABLE "transaction" (
"Name" TEXT,
  "date" TEXT,
  "amount" INTEGER,
  "product" TEXT,
  "result" TEXT
)
CREATE TABLE "product" (
"product" TEXT,
  "price" REAL
)
CREATE TABLE "user" (
"Name" TEXT,
  "Age" INTEGER,
  "Sex" TEXT,
  "email" TEXT
)


CREATE TABLE 오른쪽에 있는 것이 테이블의 이름이며, 소괄호 안의 문자들은 칼럼의 이름과 그 자료형을 나타냅니다.

**데이터베이스에서 자료 가져오기**

먼저 가장 기본이 되는 ```SELECT```문부터 살펴보겠습니다.  SELECT문에는 언제나 FROM이 항상 따라니는데, FROM 뒤에는 선택을 원하는 데이터베이스 테이블 이름(ex: transaction)을 집어넣습니다. SELECT의 뒤에는 선택하고 싶은 열(column)을 지정하는데, 만일 모든 컬럼을 선택하고 싶은 경우에는 \*을 입력하면 됩니다.

In [0]:
# transaction 테이블에서 모든 칼럼을 가져오는 쿼리문을 작성해보세요.
# 쿼리를 조합합니다. 여기서 중요한 건 테이블명은 반드시 홀따옴표(') 등으로 감싸줘야 합니다.
query = "SELECT * FROM 'transaction'"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,date,amount,product,result
0,Kang,2017-01-01,500,apple,confirmed
1,Kim,2017-01-03,700,banana,confirmed
2,Choi,2017-01-05,800,apple,confirmed
3,Park,2017-01-07,500,cereal,canceled
4,Kang,2017-01-08,1200,kiwi,confirmed
5,Choi,2017-01-09,100,melon,confirmed
6,Lee,2017-01-09,700,banana,confirmed
7,Yoon,2017-01-10,200,cereal,canceled


In [0]:
# 모든 컬럼이 아닌 product 컬럼과 amount 컬럼만 읽어옵니다.
query = "SELECT product, amount FROM 'transaction'"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,product,amount
0,apple,500
1,banana,700
2,apple,800
3,cereal,500
4,kiwi,1200
5,melon,100
6,banana,700
7,cereal,200


SQL도 ```read_csv```의 ```nrows``` 옵션처럼 상위 n개의 데이터만 불러오는 옵션이 있습니다. ```SELECT * FROM table``` 문 뒤에 ```LIMIT n``` 을 입력해주면 됩니다.

In [0]:
# 모든 행(row)이 아닌 상위 3개 행만 읽어옵니다.
query = "SELECT * FROM 'transaction' LIMIT 3"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,date,amount,product,result
0,Kang,2017-01-01,500,apple,confirmed
1,Kim,2017-01-03,700,banana,confirmed
2,Choi,2017-01-05,800,apple,confirmed


데이터를 불러올 때 원하는 조건의 데이터만 불러오고 싶은 경우가 있는데요, 이 때 WHERE을 이용하여 조건에 맞는 행만 불러올 수 있습니다. 조건을 검색할 때 사용하는 연산자가 파이썬이나 판다스와는 조금 다릅니다.


| 기호               | 설명                           |
| ----------------- | -------------------------- |
| =                 | 같음                       |
| <> (또는 !=)      | 같지 않음                  |
| >                 | 크다                       |
| <                 | 작다                       |
| >=                | 크거나 같다                |
| <=                | 작거나 같다                |
| BETWEEN (A AND B) | 특정 범위 (A~B) 사이       |
| LIKE              | 패턴 탐색                  |
| IN (A, B, ...)    | (A, B, ...) 안에 값이 있음 |

LIKE의 기능은 잠시 후 설명하도록 하겠습니다.

In [0]:
# amount가 500 이상인 데이터만 transaction에서 불러와 주세요.
query = "SELECT * FROM 'transaction' WHERE amount > 500"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,date,amount,product,result
0,Kim,2017-01-03,700,banana,confirmed
1,Choi,2017-01-05,800,apple,confirmed
2,Kang,2017-01-08,1200,kiwi,confirmed
3,Lee,2017-01-09,700,banana,confirmed


In [0]:
# product가 banana가 아닌 데이터만 불러와주세요.

query = "SELECT * FROM 'transaction' WHERE product <> 'banana'"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,date,amount,product,result
0,Kang,2017-01-01,500,apple,confirmed
1,Choi,2017-01-05,800,apple,confirmed
2,Park,2017-01-07,500,cereal,canceled
3,Kang,2017-01-08,1200,kiwi,confirmed
4,Choi,2017-01-09,100,melon,confirmed
5,Yoon,2017-01-10,200,cereal,canceled


In [0]:
# amount가 400과 900 사이인 데이터만 불러와 주세요.

query = "SELECT * FROM 'transaction' WHERE amount BETWEEN 400 AND 900"

# AND를 이용하여 아래와 같이 작성할 수도 있습니다.
# query = "SELECT * FROM 'transaction' WHERE (amount > 400 AND amount < 900)"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,date,amount,product,result
0,Kang,2017-01-01,500,apple,confirmed
1,Kim,2017-01-03,700,banana,confirmed
2,Choi,2017-01-05,800,apple,confirmed
3,Park,2017-01-07,500,cereal,canceled
4,Lee,2017-01-09,700,banana,confirmed


In [0]:
# product가 cereal, kiwi, melon인 데이터를 불러와주세요.

query = "SELECT * FROM 'transaction' WHERE product IN ('cereal', 'kiwi', 'melon')"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,date,amount,product,result
0,Park,2017-01-07,500,cereal,canceled
1,Kang,2017-01-08,1200,kiwi,confirmed
2,Choi,2017-01-09,100,melon,confirmed
3,Yoon,2017-01-10,200,cereal,canceled


추출한 데이터를 정렬하여 추출하는 방법도 있습니다.


`WHERE 조건문 ORDER BY 칼럼명 DESC 또는 ASC`

DESC는 데이터를 내림차순 (큰수 -> 작은수)로 정리하고, ASC는 오름차순 (작은수 -> 높은수)로 정리합니다.

In [0]:
#amount가 300이상인 데이터를 내림차순으로 정리해주세요.
query = "SELECT * FROM 'transaction' WHERE amount > 300 ORDER BY amount DESC"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,date,amount,product,result
0,Kang,2017-01-08,1200,kiwi,confirmed
1,Choi,2017-01-05,800,apple,confirmed
2,Kim,2017-01-03,700,banana,confirmed
3,Lee,2017-01-09,700,banana,confirmed
4,Kang,2017-01-01,500,apple,confirmed
5,Park,2017-01-07,500,cereal,canceled


문자열 조건 검색에는 LIKE가 많이 사용됩니다. LIKE는 사용방법이 특이하지만, 한 번 익혀두면 아주 유용하게 사용할 수 있는 기능입니다.

LIKE는 와일드카드라 불리는 %와 _를 이용하여 패턴을 탐색합니다.

%와 _의 기능은 다음과 같습니다.

- % - 0개부터 여러개의 문자를 나타냄
- _ - 하나의 문자를 나타냄

사용예제를 보면 이를 조금 더 쉽게 이해할 수 있습니다.

| LIKE    | 설명                                      |
| ------- | ----------------------------------------- |
| 'a%'    | a로 시작하는 모든 데이터                  |
| '%a'    | a로 끝나는 모든 데이터                    |
| '%or%'  | or가 위치에 상관없이 포함된 데이터        |
| '_r%'   | r이 2번째 위치에 있는 데이터              |
| 'a\_%_' | a로 시작하고 적어도 길이가 3이상인 데이터 |
| 'a%o'   | a로 시작하고 o로 끝나는 데이터            |




In [0]:
# Name에 k가 들어가는 경우를 찾아주세요.
query = "SELECT * FROM 'transaction' WHERE name LIKE '%k%'"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,date,amount,product,result
0,Kang,2017-01-01,500,apple,confirmed
1,Kim,2017-01-03,700,banana,confirmed
2,Park,2017-01-07,500,cereal,canceled
3,Kang,2017-01-08,1200,kiwi,confirmed


In [0]:
# case-insensitive가 기본 옵션인데 sqlite3의 경우는
# a = connection.cursor()
# a.execute("PRAGMA case_sensitive_like = on")
# 를 이용해 case-sensitive하게 만들 수 있다.

### SQL을 사용하여 공통된 칼럼이 있는 데이터를 하나로 합치기

이번에는 SQL 문법 중 가장 핵심에 속하는 ```JOIN```을 배워보도록 하겠습니다.

현업에서는 데이터가 여러 개의 테이블로 나눠져 저장된 경우가 많습니다. 이 때 여러 개로 나눠진 데이터를 하나로 합치는데 가장 중요한 역할을 하는 것이 ```JOIN``` 문법입니다. 이 ```JOIN``` 문법을 잘 쓰냐 그렇지 못하냐에 따라 데이터분석가의 실력이 갈리기도 합니다.

이번 시간에는 ```JOIN``` 문법을 자세히 알아보겠습니다. ```JOIN``` 문법은 여러 가지 종류가 있지만, 그 중 가장 많이 쓰이는 ```INNER JOIN```과 ```LEFT JOIN```을 집중적으로 다뤄보겠습니다.

In [0]:
#transaction 테이블을 불러와 transaction 변수에 저장해주세요.
query = "SELECT * FROM 'transaction' "

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,date,amount,product,result
0,Kang,2017-01-01,500,apple,confirmed
1,Kim,2017-01-03,700,banana,confirmed
2,Choi,2017-01-05,800,apple,confirmed
3,Park,2017-01-07,500,cereal,canceled
4,Kang,2017-01-08,1200,kiwi,confirmed
5,Choi,2017-01-09,100,melon,confirmed
6,Lee,2017-01-09,700,banana,confirmed
7,Yoon,2017-01-10,200,cereal,canceled


In [0]:
# user테이블을 불러와 user 변수에 저장해주세요.
query = "SELECT * FROM 'user' "

user = pd.read_sql(query, connection)
user

Unnamed: 0,Name,Age,Sex,email
0,Kang,30,male,kang@gmail.com
1,Kim,22,female,kim@naver.com
2,Park,37,male,park@dsschool.co.kr
3,Lee,15,female,lee@empas.co.kr
4,Son,29,male,son@google.co.uk
5,Moon,40,female,moon@hanmail.com
6,Choi,34,male,choi@yahoo.com


In [0]:
#product 테이블을 불러와 product 변수에 저장해주세요.
query = "SELECT * FROM 'product' "

product = pd.read_sql(query, connection)
product

Unnamed: 0,product,price
0,apple,5.0
1,blueberry,7.0
2,banana,2.5
3,cereal,4.5
4,kiwi,10.0
5,melon,12.5
6,pineapple,15.0


이 DB의 스키마를 다이어그램으로 그리면 다음과 같습니다.

![](https://i.imgur.com/kl2KD2S.png)

예를 들어, 바나나를 구입한 사람의 평균나이를 구해야하는 경우에는 transaction 테이블과 user 테이블을 JOIN 해야하고, 시리얼의 총 판매금액을 구해야하는 경우에는 transaction 테이블과 product 테이블을 JOIN 해야 합니다.

이렇게 DB 스키마를 다이어그램으로 표현해놓으면, 향후에 어떤 테이블을 어떻게 조인하여 불러와야할지 쉽게 파악할 수 있습니다.

**JOIN의 종류**

![](https://i.imgur.com/qzWkrUx.png)

- LEFT JOIN

LEFT JOIN은 JOIN문을 기준으로 왼쪽 테이블의 정보의 키와 같은 키가 있는 오른쪽 테이블의 정보만 가져오는 것입니다. 만약 오른쪽 테이블에 왼쪽 테이블에 존재하는 키가 없다면 이는 결과에 출력되지 않습니다. 

사용 방법은 `SELECT * FROM 왼쪽 테이블 LEFT JOIN 오른쪽 테이블 ON '왼쪽 테이블'.키 = '오른쪽 테이블'.키` 입니다.
예제로 이를 확인해보세요.

In [0]:
# LEFT JOIN으로 transaction과 user를 합쳐주세요. key는 Name을 사용해주세요.
query = "SELECT * FROM 'transaction' LEFT JOIN 'user' ON 'transaction'.Name = 'user'.Name"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,date,amount,product,result,Name.1,Age,Sex,email
0,Kang,2017-01-01,500,apple,confirmed,Kang,30.0,male,kang@gmail.com
1,Kim,2017-01-03,700,banana,confirmed,Kim,22.0,female,kim@naver.com
2,Choi,2017-01-05,800,apple,confirmed,Choi,34.0,male,choi@yahoo.com
3,Park,2017-01-07,500,cereal,canceled,Park,37.0,male,park@dsschool.co.kr
4,Kang,2017-01-08,1200,kiwi,confirmed,Kang,30.0,male,kang@gmail.com
5,Choi,2017-01-09,100,melon,confirmed,Choi,34.0,male,choi@yahoo.com
6,Lee,2017-01-09,700,banana,confirmed,Lee,15.0,female,lee@empas.co.kr
7,Yoon,2017-01-10,200,cereal,canceled,,,,


테이블의 왼쪽에 transaction 테이블이, 그리고 join된 user 테이블이 오른쪽에 있는 것을 확인할 수 있습니다.

Name을 중심으로 조인했기 때문에 동일한 Name이 왼쪽과 오른쪽에 들어간 것을 확인할 수 있는데, user 테이블에 Yoon에 관련된 데이터는 비어있기 때문에 해당 user 정보는 비어있는 것을 확인할 수 있습니다. 이렇게 왼쪽 테이블을 기준으로 join하는 것을 LEFT JOIN이라고 합니다.

이 중 transaction 테이블의 Name, result, 그리고 user 테이블의 Age, Sex만을 불러오고 싶은 경우 다음과 같이 입력해주시면 됩니다.

In [0]:
# LEFT JOIN으로 transaction과 user를 합쳐주세요. key는 Name을 사용해주세요.
query = "SELECT 'transaction'.Name, 'transaction'.result, 'user'.Age, 'user'.Sex \
FROM 'transaction' \
LEFT JOIN 'user' ON 'transaction'.Name = 'user'.Name"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,result,Age,Sex
0,Kang,confirmed,30.0,male
1,Kim,confirmed,22.0,female
2,Choi,confirmed,34.0,male
3,Park,canceled,37.0,male
4,Kang,confirmed,30.0,male
5,Choi,confirmed,34.0,male
6,Lee,confirmed,15.0,female
7,Yoon,canceled,,


**INNER JOIN**

INNER JOIN은 양쪽에 공통으로 존재하는 키에 대해서만 데이터를 살려 JOIN하는 기능입니다.

In [0]:
#위의 transaction과 user 테이블을 INNER JOIN해주세요.
query = "SELECT 'transaction'.Name, 'transaction'.result, 'user'.Age, 'user'.Sex \
FROM 'transaction' \
INNER JOIN 'user' ON 'transaction'.Name = 'user'.Name"

transaction = pd.read_sql(query, connection)
transaction

Unnamed: 0,Name,result,Age,Sex
0,Kang,confirmed,30,male
1,Kim,confirmed,22,female
2,Choi,confirmed,34,male
3,Park,canceled,37,male
4,Kang,confirmed,30,male
5,Choi,confirmed,34,male
6,Lee,confirmed,15,female


user에 존재하지 않는 'Yoon'의 데이터가 버려진 것을 확인할 수 있습니다. 이렇게, INNER JOIN은 양쪽에 공통으로 존재하는 키의 데이터만 불러옵니다.

마찬가지로 RIGHT JOIN은 오른쪽 테이블의 키를 기준으로 하는 join 방법이고, OUTER JOIN은 키가 한쪽에라도 있으면 데이터를 추출하는 join 방법입니다. 하지만, 실습에 사용하고 있는 sqlite3 는 RIGHT, OUTER JOIN을 지원하지 않습니다.

In [0]:
# RIGHT JOIN과 OUTER JOIN을 지원하지 않습니다.
query = "SELECT * FROM 'transaction' RIGHT JOIN user ON 'transaction'.Name = user.Name"
#query = "SELECT * FROM 'transaction' OUTER JOIN user ON 'transaction'.Name = user.Name"



transaction = pd.read_sql(query, connection)
transaction

DatabaseError: Execution failed on sql 'SELECT * FROM 'transaction' RIGHT JOIN user ON 'transaction'.Name = user.Name': RIGHT and FULL OUTER JOINs are not currently supported

### 여러 개의 데이터를 하나로 합치기

SQL에서 사용하는 JOIN과 비슷하게 판다스에서도 데이터를 합치거나 조인하는 기능이 있습니다. 

앞에서 배웠다시피 데이터베이스에서는 데이터를 여러 개로 나눠서 저장하는데, 이를 보통은 테이블(Table)이라고 표현합니다. 가령 앞서 사용한 pandas-transaction.db 에는 transaction, user, 그리고 product 라는 이름의 테이블이 있습니다.

이런 방식은 데이터를 효율적으로 나눠서 저장할 수 있다는 장점이 있지만, 실제 판다스로 데이터를 분석할 때는 하나의 DataFrame으로 묶어서 분석하는 것이 편리합니다.

여러 개의 테이블을 하나로 묶는 방법인 concat, join, 그리고 merge에 대해 알아봅시다.

**concat**

concat은 판다스의 함수로 데이터를 병합하는 것이 아닌 단순 연결하는데 특화된 함수입니다.

예를 들어, 1월의 거래 데이터와 2월의 거래 데이터를 합칠 때는 concat을 사용하여 연결하여야 합니다.

In [0]:
# transaction01에 database에서 transaction을, transaction02에 transaction2.csv를 불러와주세요.
transaction01 = pd.read_sql("SELECT * FROM 'transaction'", connection)
transaction01

In [0]:
transaction02 = pd.read_csv('transaction2.csv')

transaction02

`pd.concat([연결할 데이터프레임 리스트])` 를 이용하여 데이터를 아래로 더해나갈 수 있습니다.

In [0]:
# pd.concat으로 두 개의 DataFrame을 합칠 수 있습니다.
transaction = pd.concat([transaction01, transaction02])
transaction

이와 동일한 기능을 하는 append라는 메소드가 있는데 이는 pandas에서 불러오는 것이 아닌 데이터프레임을 기준으로 사용합니다.

In [0]:
# append 기능을 이용하여 합친 데이터를 transaction에 저장합니다.
transaction = transaction01.append([transaction02])

#pd.concat과 거의 동일하게 동작하기 때문에 마음에 드는 것을 사용하시면 됩니다.
transaction

데이터프레임을 인덱스와 상관없이 옆으로 붙이고 싶은 경우에도 concat을 이용합니다. 2월의 결제 데이터와 합칠 결제수단 및 할부 데이터를 만들어보겠습니다.

In [0]:
how2 = pd.DataFrame({
    'payment_method' : ['카드 결제', '카드 결제', '무통장 입금', '카드 결제'],
    'installment' : ['일시불', '3개월', None, '일시불']
})

how2

이를 column을 추가하듯 옆으로 붙이는 방법은 pd.concat에 axis=1 옵션을 추가하는 것입니다.

In [0]:
#pd.concat()에 axis=1 파라미터를 추가하여 transaction02와 how2 데이터를 합쳐주세요.
pd.concat([transaction02, how2], axis=1)

주의할 점은 더할 때 index를 기준으로 더하는 것이기 때문에 데이터의 사이즈가 잘 맞는지, 인덱스 또한 일치하는지 잘 확인해주셔야 합니다.

```pd.concat```도 ```read_csv```나 ```read_sql```같이 다양한 옵션들이 있습니다. 자세한 사항은 [판다스의 API 문서](https://pandas.pydata.org/pandas-docs/stable/merging.html#merging)를 참고해주세요. 

### 서로 다른 형태의 데이터를 하나로 합치기

앞서 설명한 ```pd.concat``` 은 서로 유사한 데이터를 합치는데 많이 사용합니다. 하지만 데이터의 형태가 다른 경우에는 어떻게 하나로 합쳐야 할까요? 다음의 예를 들어보겠습니다.

In [0]:
#database에서 transaction과 user 테이블을 불러와 주세요.
transaction = pd.read_sql("SELECT * FROM 'transaction'", connection)
transaction

In [0]:
user = pd.read_sql("SELECT * FROM 'user'", connection)

user

Unnamed: 0,Name,Age,Sex,email
0,Kang,30,male,kang@gmail.com
1,Kim,22,female,kim@naver.com
2,Park,37,male,park@dsschool.co.kr
3,Lee,15,female,lee@empas.co.kr
4,Son,29,male,son@google.co.uk
5,Moon,40,female,moon@hanmail.com
6,Choi,34,male,choi@yahoo.com


위의 SQL JOIN에서 처럼 transaction과 user 테이블을 조인하는 것을 판다스에서는 어떻게 수행해야 할까요?

이 경우에는 ``pd.merge``를 사용합니다. merge를 사용하면 두 DataFrame에서 겹치는 컬럼(Name)을 자동으로 찾아서 그에 맞게 데이터를 합쳐줍니다.

In [0]:
#pd.merge를 이용해 transaction과 user 데이터를 합쳐주세요.
pd.merge(transaction, user)

Unnamed: 0,Name,result,Age,Sex,email
0,Kang,confirmed,30,male,kang@gmail.com
1,Kang,confirmed,30,male,kang@gmail.com
2,Kim,confirmed,22,female,kim@naver.com
3,Choi,confirmed,34,male,choi@yahoo.com
4,Choi,confirmed,34,male,choi@yahoo.com
5,Park,canceled,37,male,park@dsschool.co.kr
6,Lee,confirmed,15,female,lee@empas.co.kr


하지만 여기에서 주의할 점이 있습니다. 결과를 보면 알겠지만, merge를 한 순간 Name이 겹치지 않는 transaction은 전부 제거되어 버립니다. 이는 pd.merge()가 INNER JOIN을 기본 옵션으로 사용하기 때문입니다.

LEFT, RIGHT, OUTER 조인을 사용하고 싶은 경우, how 옵션을 사용하시면 됩니다.

In [0]:
# 기본 옵션은 how='inner'. transaction에서도 date에서도 겹치는 부분이 없다면 전부 제거해버린다.
pd.merge(transaction, user, how='inner')

Unnamed: 0,Name,result,Age,Sex,email
0,Kang,confirmed,30,male,kang@gmail.com
1,Kang,confirmed,30,male,kang@gmail.com
2,Kim,confirmed,22,female,kim@naver.com
3,Choi,confirmed,34,male,choi@yahoo.com
4,Choi,confirmed,34,male,choi@yahoo.com
5,Park,canceled,37,male,park@dsschool.co.kr
6,Lee,confirmed,15,female,lee@empas.co.kr


In [0]:
# 데이터 프레임의 메소드로 merge를 사용해도 괜찮습니다.
transaction.merge(user, how='inner')

Unnamed: 0,Name,result,Age,Sex,email
0,Kang,confirmed,30,male,kang@gmail.com
1,Kang,confirmed,30,male,kang@gmail.com
2,Kim,confirmed,22,female,kim@naver.com
3,Choi,confirmed,34,male,choi@yahoo.com
4,Choi,confirmed,34,male,choi@yahoo.com
5,Park,canceled,37,male,park@dsschool.co.kr
6,Lee,confirmed,15,female,lee@empas.co.kr


In [0]:
# how='outer' 옵션은 transaction에서도 profile에서도 겹치지 않는 부분을 그대로 남겨놓는다.
# 이 경우 빈 컬럼은 NaN으로 표시한다.
pd.merge(transaction, user, how='outer')

Unnamed: 0,Name,result,Age,Sex,email
0,Kang,confirmed,30,male,kang@gmail.com
1,Kang,confirmed,30,male,kang@gmail.com
2,Kim,confirmed,22,female,kim@naver.com
3,Choi,confirmed,34,male,choi@yahoo.com
4,Choi,confirmed,34,male,choi@yahoo.com
5,Park,canceled,37,male,park@dsschool.co.kr
6,Lee,confirmed,15,female,lee@empas.co.kr
7,Son,,29,male,son@google.co.uk
8,Moon,,40,female,moon@hanmail.com


In [0]:
# how='left'는 pd.merge에서 왼쪽에 넣은 DataFrame(transaction)을 기준으로 갯수를 맞춘다.
# 마찬가지로 빈 값에는 NaN이 들어간다.
pd.merge(transaction, user, how='left')

Unnamed: 0,Name,result,Age,Sex,email
0,Kang,confirmed,30,male,kang@gmail.com
1,Kim,confirmed,22,female,kim@naver.com
2,Choi,confirmed,34,male,choi@yahoo.com
3,Park,canceled,37,male,park@dsschool.co.kr
4,Kang,confirmed,30,male,kang@gmail.com
5,Choi,confirmed,34,male,choi@yahoo.com
6,Lee,confirmed,15,female,lee@empas.co.kr


In [0]:
# how='right'는 left의 정 반대라고 보면 된다.
pd.merge(transaction, user, how='right')

Unnamed: 0,Name,result,Age,Sex,email
0,Kang,confirmed,30,male,kang@gmail.com
1,Kang,confirmed,30,male,kang@gmail.com
2,Kim,confirmed,22,female,kim@naver.com
3,Choi,confirmed,34,male,choi@yahoo.com
4,Choi,confirmed,34,male,choi@yahoo.com
5,Park,canceled,37,male,park@dsschool.co.kr
6,Lee,confirmed,15,female,lee@empas.co.kr
7,Son,,29,male,son@google.co.uk
8,Moon,,40,female,moon@hanmail.com


현재는 'Name'이라는 컬럼명이 겹쳐 merge가 잘 이루어졌습니다. 근데 실제 데이터에서는 컬럼명이 다른 경우가 있는데 이 때는 pandas가 자동으로 merge를 하지 못합니다.

In [0]:
# user의 Name 칼럼명을 이름으로 수정하겠습니다.
user.rename(columns={'Name' : '이름'}, inplace = True)

In [0]:
#그리고 다시 transaction과 user를 merge하도록 하겠습니다.
pd.merge(transaction, user, how='inner')

Unnamed: 0,Name,result,Age,Sex,이름,email
0,Kang,confirmed,30,male,Kang,kang@gmail.com
1,Kang,confirmed,30,male,Kang,kang@gmail.com
2,Kim,confirmed,22,female,Kim,kim@naver.com
3,Choi,confirmed,34,male,Choi,choi@yahoo.com
4,Choi,confirmed,34,male,Choi,choi@yahoo.com
5,Park,canceled,37,male,Park,park@dsschool.co.kr
6,Lee,confirmed,15,female,Lee,lee@empas.co.kr


'No common columns to perform merge on.' 이라는 에러가 났습니다 .이러한 경우에는 SQL에서 처럼 left table의 어떤 컬럼과 right table의 어떤 컬럼을 키로 사용하여 조인할 것인지 직접 지정해줘야 합니다. 이는 left_on, right_on 파라미터로 가능합니다.


In [0]:
#그리고 다시 transaction과 user를 merge하도록 하겠습니다.
pd.merge(transaction, user, how='inner', left_on='Name', right_on = '이름')

Unnamed: 0,Name,result,Age_x,Sex_x,이름,Age_y,Sex_y,email
0,Kang,confirmed,30,male,Kang,30,male,kang@gmail.com
1,Kang,confirmed,30,male,Kang,30,male,kang@gmail.com
2,Kim,confirmed,22,female,Kim,22,female,kim@naver.com
3,Choi,confirmed,34,male,Choi,34,male,choi@yahoo.com
4,Choi,confirmed,34,male,Choi,34,male,choi@yahoo.com
5,Park,canceled,37,male,Park,37,male,park@dsschool.co.kr
6,Lee,confirmed,15,female,Lee,15,female,lee@empas.co.kr


merge와 비슷하게 join을 사용할 수 있습니다. join의 특징은 판다스의 함수로 사용할 수 있는 것이 아닌 데이터프레임의 메소드로만 사용할 수 있다는 점입니다. 

(`pd.join()` 이 없고 `table.join()` 으로만 사용할 수 있다는 의미입니다.)

이 기능은 merge와 거의 동일하기 때문에 마음에 드는 것을 사용하시면 됩니다.

In [0]:
#데이터베이스에서 product 테이블을 불러와 transaction에 join을 이용하여 병합하도록 하겠습니다.
# read_sql 을 이용하여 다시 product 테이블을 불러옵니다.
product = pd.read_sql("SELECT * FROM 'product'", connection)
product

Unnamed: 0,product,price
0,apple,5.0
1,blueberry,7.0
2,banana,2.5
3,cereal,4.5
4,kiwi,10.0
5,melon,12.5
6,pineapple,15.0


In [0]:
transaction

Unnamed: 0,Name,result,Age,Sex
0,Kang,confirmed,30,male
1,Kim,confirmed,22,female
2,Choi,confirmed,34,male
3,Park,canceled,37,male
4,Kang,confirmed,30,male
5,Choi,confirmed,34,male
6,Lee,confirmed,15,female


In [0]:
product

Unnamed: 0,product,price
0,apple,5.0
1,blueberry,7.0
2,banana,2.5
3,cereal,4.5
4,kiwi,10.0
5,melon,12.5
6,pineapple,15.0


join이 불편한 점은 반드시 기준이 되는 왼쪽 데이터프레임은 index가 그 기준이 되어야 한다는 것입니다. 따라서, set_index()를 이용하여 기준이 되는 열을 반드시 인덱스로 만들어준 다음 join을 사용해주세요.

In [0]:
#이제 transaction.join()을 이용하여 두 테이블을 LEFT로 병합해보세요.
transaction.set_index('product', inplace=True) #transaction = transaction.set_index('product') 와 동일한 코드입니다. 

#join을 이용하여 두개의 데이터프레임을 병합하는 과정입니다. product의 경우에는 index를 product로 사용하지 않아도 on 옵션을 이용해 열을 지정해줄 수 있습니다.
#on 옵션은 pandas 0.23.0 버전에서 새롭게 추가된 기능이므로 작동하지 않는 경우 product테이블의 index도 'product'로 지정해주세요.
product.set_index('product', inplace = True)


transaction.join(product, on='product', how='left')

KeyError: 'product'