# Jupyter에서 SQL 사용하는 법
출처: https://towardsdatascience.com/heres-how-to-run-sql-in-jupyter-notebooks-f26eb90f3259
<img src=https://miro.medium.com/max/2000/1*jdFKEeOgpTbwCKfTWlgaWA.jpeg width="300">

## 모듈 설치

### 1. ipython-sql 설치
- ```ipython-sql```: SQL 매직 함수(Python에서 SQL 코드를 쓸 수 있도록 연결하는 도구)

#### 설치방법 1
```conda install -c conda-forge ipython-sql```
1. Anaconda Prompt 창에 위 코드를 입력합니다.
2. 중간에 Proceed ([y]/n)? 질문이 나오면 'y' 를 입력해줍니다.
3. 마지막에 done이 나왔다면 성공적으로 설치된 것입니다.

#### 설치방법 2
```!pip install ipython-sql```
만일 위에서 소개한 conda 명령어로 라이브러리가 설치되지 않는 경우, Jupyter에서 위 코드를 실행해보세요. 그러나 저는 Anaconda Prompt로 설치할 때는 오류가 나지 않았는데 pip install로는 오류가 떴기 때문에, 첫 번째 방법을 더 추천 드립니다.

### 2. cx_Oracle 설치
- ```cx_Oracle```: Oracle Database 명령어를 쓸 수 있는 패키지

```conda install -c conda-forge cx_oracle```

```!pip install cx_Oracle```

1번과 동일한 방법으로 위의 두 코드 중 하나를 선택하여 설치합니다.

#### 만일 Oracle SQL이 아닌 다른 SQL 프로그램을 이용하고 싶을 경우, cs_Oracle 대신 아래에 있는 모듈을 설치하면 됩니다. 오른쪽에 있는 것은 SQL 프로그램 이름이고, 왼쪽에 있는 것은 대응되는 모듈 이름입니다.
- ```pyodbc``` — for SQL Server
- ```mysql``` — for MySQL
- ```psycopg2``` — for PostgreSQL

### 3. sqlalchemy 설치
- ```sqlalchemy```: 데이터베이스에 연결하는 데 필요한 엔진을 설치

## 모듈 불러오기

#### ipython-sql 불러오기

In [1]:
%load_ext sql
#%config SqlMagic.autocommit=False # autocommit을 정지한다

#### cx_Oracle 불러오기

In [2]:
import cx_Oracle

#### sqlalchemy 불러온 뒤, 연결문자열 설정하기

In [3]:
import sqlalchemy

위에서도 언급했듯이 저는 Oracle을 사용하고 싶기 때문에 아래와 같이 코드를 작성했습니다. 

In [4]:
sqlalchemy.create_engine('oracle://orauser:yoo@localhost:1521/xe')

Engine(oracle://orauser:***@localhost:1521/xe)

- ```create_engine``` 함수는 매번 해야하는 작업은 아니고 연결문자열(connection string)당 한 번만 연결시키면 됨
- 연결문자열(connection string): 문자열(string)로 되어있는 데이터에 대한 정보. 예를 들면 드라이버 이름, 서버 이름, 데이터베이스 이름, 사용자 이름과 패스워드 [출처: 위키백과]

#### 만일 Oracle 이외에 다른 SQL 프로그램을 사용하고 싶다면, 아래에 적어둔 연결문자열들을 참고해주세요. 왼쪽에 있는 것이 SQL 프로그램, 오른쪽에 있는 것이 연결문자열입니다. 

```user```: 사용자 이름(user name), ```pass```: 패스워드(password), ```host```: 호스트, ```port```: 포트, ```sid```: 시드 

[코드]

Oracle: ```oracle://user:pass@host:port/sid``` 

MySQL: ```mssql+pymssql://username:passwd@host/database```

[예시]
- PostgreSQL: postgresql://scott:tiger@localhost/mydatabase
- MySQL: mysql://scott:tiger@localhost/foo 
- Oracle: oracle://scott:tiger@127.0.0.1:1521/sidname
- SQL Server: mssql+pyodbc://scott:tiger@mydsn
- SQLite: sqlite:///foo.db

## 연결문자열로 데이터베이스에 연결하기 
- 여기서 연결문자열은 위의 ```create_engine```에서 특정한 연결문자열을 말합니다. 명령어 앞부분에 %(퍼센트 기호)가 들어가있다는 점 유의해주세요.  

In [5]:
%sql oracle://orauser:yoo@localhost:1521/xe

'Connected: orauser@xe'

## SQL 프로그램 사용팁
### 1. 여러 줄 작성: ```%%sql```
Jupyter에서 SQL 쿼리를 **여러 줄로** 작성하고 싶다면 시작 부분에 ```%%sql```만 넣어주면 됩니다. 이때 쿼리 마지막에 쓰는  ```;```은 빼주어야 합니다.

#### 테이블 생성

In [6]:
%%sql

CREATE TABLE employees
(
    employee_id number(6),
    first_name varchar2(20),
    last_name varchar2(25),
    email varchar2(25),
    phone_number varchar2(20),
    hire_date date,
    job_id varchar2(10),
    salary number(8,2),
    commision_pct number(2,2),
    manager_id number(6),
    department_id number(4),
    
    CONSTRAINT emp_salary_min CHECK (salary > 0),
    CONSTRAINT emp_email_uk UNIQUE (email)
)

 * oracle://orauser:***@localhost:1521/xe


DatabaseError: (cx_Oracle.DatabaseError) ORA-00955: name is already used by an existing object
[SQL: CREATE TABLE employees
(
    employee_id number(6),
    first_name varchar2(20),
    last_name varchar2(25),
    email varchar2(25),
    phone_number varchar2(20),
    hire_date date,
    job_id varchar2(10),
    salary number(8,2),
    commision_pct number(2,2),
    manager_id number(6),
    department_id number(4),
    
    CONSTRAINT emp_salary_min CHECK (salary > 0),
    CONSTRAINT emp_email_uk UNIQUE (email)
)]
(Background on this error at: http://sqlalche.me/e/4xp6)

#### 데이터 입력
Jupyter에서 데이터를 직접 입력하는 것은 값 1개를 입력할 때마다 ```%sql```을 붙여야해서 불편합니다. 데이터 입력까지는 SQL Developer, MySQL 등 기존 SQL 프로그램으로 진행하는 것을 추천합니다.

In [7]:
%sql

INSERT INTO employees VALUES (100, 'Steven', 'King', 'SKING', '515.123.4567', '1987-06-17', 'AD_PRES', 24000, NULL, NULL,90)

SyntaxError: invalid syntax (<ipython-input-7-2d45a923a6ce>, line 3)

In [8]:
%sql

INSERT INTO employees VALUES (101, 'Neena', 'Kochhar', 'NKOCHHAR', '515.123.4568', '1989-09-21', 'AD_VP', 17000, NULL, 100,90)

SyntaxError: invalid syntax (<ipython-input-8-e11f32a37743>, line 3)

In [9]:
%sql

INSERT INTO employees VALUES (102, 'Lex', 'De Haan', 'LDEHAAN', '515.123.4569', '1993-01-13', 'AD_VP', 17000, NULL, 100,90)

SyntaxError: invalid syntax (<ipython-input-9-050ceb16298a>, line 3)

In [10]:
%sql

INSERT INTO employees VALUES (103, 'Alexander', 'Hunold', 'AHUNOLD', '590.423.4567', '1990-01-03', 'IT_PROG', 9000, NULL, 102,60)

SyntaxError: invalid syntax (<ipython-input-10-4d394aea9afb>, line 3)

In [11]:
%sql

INSERT INTO employees VALUES (198, 'Donald', 'OConnell', 'DOCONNEL', '650.507.9833', '2007-06-21', 'SH_CLERK', 2600, NULL, 124, 50)

SyntaxError: invalid syntax (<ipython-input-11-9e8a4c809bf3>, line 3)

In [12]:
%sql

INSERT INTO employees VALUES (199, 'Douglas', 'Grant', 'DGRANT', '650.507.9844', '2008-01-13', 'SH_CLERK', 2600, NULL, 124, 50)

SyntaxError: invalid syntax (<ipython-input-12-b3b857e95ad4>, line 3)

In [13]:
%sql

INSERT INTO employees VALUES (200, 'Jennifer', 'Whalen', 'JWHALEN', '515.123.4444', '2003-09-17', 'AD_ASST', 4400, NULL, 101, 10)

SyntaxError: invalid syntax (<ipython-input-13-ac0cb334c510>, line 3)

In [14]:
%sql

INSERT INTO employees VALUES (201, 'Michael', 'Hartstein', 'MHARTSTE', '515.123.5555', '2004-02-17', 'MK_MAN', 13000, NULL, 100, 20)

SyntaxError: invalid syntax (<ipython-input-14-c56f9e66b981>, line 3)

In [15]:
%sql

INSERT INTO employees VALUES (202, 'Pat', 'Fay', 'PFAY', '603.123.6666', '2005-08-17', 'MK_REP', 6000, NULL, 201, 20)

SyntaxError: invalid syntax (<ipython-input-15-ffbf79fd8f06>, line 3)

In [16]:
%%sql

SELECT * FROM employees
WHERE ROWNUM <= 5

 * oracle://orauser:***@localhost:1521/xe
0 rows affected.


employee_id,first_name,last_name,email,phone_number,hire_date,job_id,salary,commision_pct,manager_id,department_id
100,Steven,King,SKING,515.123.4567,1987-06-17 00:00:00,AD_PRES,24000,,,90
101,Neena,Kochhar,NKOCHHAR,515.123.4568,1989-09-21 00:00:00,AD_VP,17000,,100.0,90
102,Lex,De Haan,LDEHAAN,515.123.4569,1993-01-13 00:00:00,AD_VP,17000,,100.0,90
103,Alexander,Hunold,AHUNOLD,590.423.4567,1990-01-03 00:00:00,IT_PROG,9000,,102.0,60
198,Donald,OConnell,DOCONNEL,650.507.9833,2007-06-21 00:00:00,SH_CLERK,2600,,124.0,50


결과창으로 나오는 테이블이 Pandas DataFrame처럼 보이지만, 생긴 것만 비슷해보일 뿐 다릅니다. 

### 2. 단일행 쿼리의 결과를 변수로 저장 
- 다소 귀찮은 과정을 겪으면서까지 굳이 파이썬에서 sql을 사용하는 이유는 무엇일까요? 바로 sql 데이터로 파이썬에서 제공되는 유용한 기능들(pandas을 활용한 기초통계량 계산, matplot을 활용한 그래프 그리기 등)을 활용하기 위해서입니다. 비유를 하자면 sql이라는 꼬마가 파이썬이라는 거인의 어깨 위에 서는 효과입니다. 
- 그런데 파이썬의 여러 가지 함수를 사용하기 위해서는 sql 실행문의 결과를 변수 형태로 저장해야 합니다. 이때 **모든 sql문이 변수로 저장되는 것은 아니고 단일행 쿼리(single line statements)으로 작성한 것만 변수로 저장**됩니다. 단일행 쿼리는 엔터키 없이 작성한 쿼리문으로 ```sql``` 앞에 ```%```를 1번 입력합니다. 아래의 예시를 살펴봅시다.

In [17]:
phone_num = %sql SELECT phone_number FROM employees WHERE email = 'SKING'
print(phone_num)

 * oracle://orauser:***@localhost:1521/xe
0 rows affected.
+--------------+
| phone_number |
+--------------+
| 515.123.4567 |
+--------------+


SQL 문법으로 employees 데이터에서 email 컬럼에서 SKING 값을 가지는 사람들의 phone_number 컬럼을 선택했습니다. 그리고 선택된 데이터를 ```phone_num```라는 변수로 저장했습니다. 즉, ```phone_num```에는 이메일이 SKING인 근무자들의 핸드폰 번호가 저장된 것입니다.

In [18]:
phone_num[0][0]

'515.123.4567'

그런데 변수 ```phone_num```를 출력해보면 예상과는 다른 결과값이 나옵니다. 이 문제는 데이터를 Pandas DataFrame으로 바꾸면 해결됩니다.

### 3. Pandas DataFrame으로 변환 
```ipython-sql```에서 제공되는 ```.DataFrame()``` 매서드를 이용하면 데이터를 Pandas DataFrame 형태로 간편하게 바꿀 수 있습니다.

In [19]:
result = %sql SELECT * FROM employees WHERE ROWNUM <= 5
df = result.DataFrame()

 * oracle://orauser:***@localhost:1521/xe
0 rows affected.


In [20]:
df

Unnamed: 0,employee_id,first_name,last_name,email,phone_number,hire_date,job_id,salary,commision_pct,manager_id,department_id
0,100,Steven,King,SKING,515.123.4567,1987-06-17,AD_PRES,24000,,,90
1,101,Neena,Kochhar,NKOCHHAR,515.123.4568,1989-09-21,AD_VP,17000,,100.0,90
2,102,Lex,De Haan,LDEHAAN,515.123.4569,1993-01-13,AD_VP,17000,,100.0,90
3,103,Alexander,Hunold,AHUNOLD,590.423.4567,1990-01-03,IT_PROG,9000,,102.0,60
4,198,Donald,OConnell,DOCONNEL,650.507.9833,2007-06-21,SH_CLERK,2600,,124.0,50


### 4. 그래프 그리기  
```matplotlib```, ```seaborn```을 사용하여 그래프를 그릴 수 있습니다.

In [21]:
import matplotlib.pyplot as plt
plt.figure(figsize=(18,7))  # 사이즈 늘리기 

chart = %sql SELECT department_id, AVG(salary) FROM employees GROUP BY department_id
chart.bar(color='indigo');

 * oracle://orauser:***@localhost:1521/xe
0 rows affected.


#### 위 코드를 입력했을 때, (cx_Oracle.DatabaseError) 에러가 난다면 지금부터 나오는 방법을 시도해 보세요.

In [None]:
# 환경 변수 확인
import os
os.environ["PATH"]

위에 나온 경로 목록을 보면, 현재 환경변수에 sqlalchemy와 관련된 path가 없다는 것을 알 수 있습니다. sqlalchemy 경로를 환경변수에 추가하도록 하겠습니다. 이때 경로를 그대로 넣으면 안되고, ```\```를 ```\\```으로 변경하여야 한다는 점에 주의해 주세요.
- 예를 들어, 저는 ```C:\Users\Chanmi Yoo\Anaconda3\Lib\site-packages\sqlalchemy\dialects\oracle```가 경로였는데, 이를 ```C:\\Users\\Chanmi Yoo\\Anaconda3\Lib\\site-packages\\sqlalchemy\\dialects\\oracle```로 변경하여 코드에 입력하였습니다.
#### C:\Users\Chanmi Yoo\Anaconda3\Lib\site-packages\cx_Oracle-7.3.0.dist-info

In [None]:
# 환경변수에 경로 추가 
os.environ["PATH"] += os.pathsep + 'C:\\Users\\Chanmi Yoo\\Anaconda3\Lib\\site-packages\\sqlalchemy\\dialects\\oracle\\'

In [None]:
# 업데이트된 환경변수 확인
os.environ["PATH"]

제일 마지막 부분을 보면, 경로가 추가되었다는 것을 알 수 있습니다. 이제 오류가 났던 코드를 다시 실행해보세요.