# 일반적인 SQL에 대응되는 판다스 연산
- 이 노트북은 일반적으로 사용되는 SQL가 판다스에서 표현되는 방식을 보여줍니다

# 라이브러리 불러오기 및 데이터 주입
- 경전철 지연 데이터셋에 포함된 한 시트를 판다스 데이터프레임으로 불러옵니다.

In [26]:
import numpy as np # 선형 대수를 위한 라이브러리
import pandas as pd # 데이터 처리를 위한 라이브러리
import datetime
import os


In [27]:
# 이 노트북이 들어있는 디렉터리를 가져옵니다
rawpath = os.getcwd()
print("현재 디렉터리: ",rawpath)

raw path is C:\personal\manning\deep_learning_for_structured_data\notebooks


In [28]:
# 데이터는 "data" 디렉터리에 들어있습니다. 
# 이 디렉터리는 노트북이 들어있는 "notebook"과 같은 수준의 디렉터리입니다.

# 이 코드는 원본 데이터셋(엑셀 파일)을 모두 다음 링크에서 "data" 디렉터리로 다운로드했다고 가정합니다.
# https://www.toronto.ca/city-government/data-research-maps/open-data/open-data-catalogue/#e8f359f0-2f47-3058-bf64-6ec488de52da
path = os.path.abspath(os.path.join(rawpath, '..', 'data'))
print("path is", path)

path is C:\personal\manning\deep_learning_for_structured_data\data


In [29]:
# 데이터셋을 판다스 데이터프레임 형식으로 불러옵니다
file = "Streetcar Jan 2014.csv"
streetcarjan2014=pd.read_csv(os.path.join(path,file))

# SQL와 판다스간 동등한 문장
- 지금부터 보여드릴 코드 셀들은 파이썬 코드와 주석 처리된 SQL 코드를 함께 보여줍니다. 동등한 결과를 얻을 수 있는 두 방법을 서로 비교할 수 있습니다.

In [30]:
# select * from streetcarjan2014 limit 3
streetcarjan2014.head(3)

Unnamed: 0,Report Date,Route,Time,Day,Location,Incident,Min Delay,Min Gap,Direction,Vehicle
0,2014-01-02,505,6:31:00 AM,Thursday,Dundas and Roncesvalles,Late Leaving Garage,4,8.0,E/B,4018.0
1,2014-01-02,504,12:43:00 PM,Thursday,King and Shaw,Utilized Off Route,20,22.0,E/B,4128.0
2,2014-01-02,501,2:01:00 PM,Thursday,Kingston road and Bingham,Held By,13,19.0,W/B,4016.0


In [31]:
# Select에 단일 조건 포함시키기
# select "Route" from streetcarjan2014 where "Location " = 'King and Shaw'
streetcarjan2014[streetcarjan2014.Location == "King and Shaw"].Route

1    504
Name: Route, dtype: int64

In [32]:
# 특정 열의 고유한 값들
# select distinct "Incident" from streetcarjan2014
streetcarjan2014.Incident.unique()

array(['Late Leaving Garage', 'Utilized Off Route', 'Held By',
       'Investigation', 'Mechanical', 'General Delay',
       'Emergency Services', 'Diversion'], dtype=object)

In [33]:
# Select에 여러 조건 포함시키기
# select * from streetcarjan2014 where 'Min Delay' > 20 and Day = "Sunday"
streetcarjan2014[(streetcarjan2014['Min Delay'] > 20) & (streetcarjan2014['Day'] == "Sunday")]


Unnamed: 0,Report Date,Route,Time,Day,Location,Incident,Min Delay,Min Gap,Direction,Vehicle
305,2014-01-19,504,8:33:00 AM,Sunday,King and Queen,Held By,40,50.0,E/B,4089.0
311,2014-01-19,511,7:17:00 PM,Sunday,Bathurst and Front,Investigation,33,40.0,S/B,4179.0


In [34]:
# 정렬
# select "Route", "Min Delay" from streetcarjan2014 where "Min Delay" > 20 order by "Min Delay"
streetcarjan2014[['Route','Min Delay']][(streetcarjan2014['Min Delay'] > 20)].sort_values('Min Delay')


Unnamed: 0,Route,Min Delay
148,501,22
271,501,22
277,506,23
296,506,25
295,504,25
298,511,27
297,504,28
293,505,33
300,511,33
311,511,33
