# Making Database
sqlite서버와 연결 후 Demo Database는 같은 디렉토리에 있는 Northwind.db로 합니다.

## base Variables and functions

In [None]:
# reset database
!pwd
!rm Northwind.db
!cp Northwind_Ori.db Northwind.db
!ls

In [None]:
import sqlite3

#database = 'my.db'
database = 'Northwind.db'
def sendQuery(sql):
    try:
        with sqlite3.connect(database) as conn:
            cursor = conn.cursor()
            cursor.execute(sql)
            conn.commit()
            return cursor.fetchall()
        
    except sqlite3.Error as e:
        print(e)

def sendQueryWithData(sql, data):
    try:
        with sqlite3.connect(database) as conn:
            cursor = conn.cursor()
            for date in data:
                cursor.execute(sql, date)
            conn.commit()
        
        return cursor.fetchall()
        
    except sqlite3.Error as e:
        print(e)
    

# main tutorials

## SELECT
SELECT는 원하는 테이블에서 원하는 Column에 해당하는 데이터를 반환하는 쿼리문이다.

In [None]:
sql = "SELECT * FROM Customers;"
sendQuery(sql)

In [None]:
sql = "SELECT CustomerName, City FROM Customers;"
sendQuery(sql)

In [None]:
sql = "SELECT DISTINCT Country FROM Customers;"
sendQuery(sql)

In [None]:
sql = "SELECT Country FROM Customers;"
sendQuery(sql)

DISTINCT는 처음본다. 실행해보면 중복되는 데이터는 지우고 준다는 것을 알 수 있다.

## WHERE
조건을 거는 구문이다.

In [None]:
sql = "SELECT * FROM Customers WHERE Country='Mexico';"
sendQuery(sql)

In [None]:
sql = """SELECT * FROM Customers
         WHERE CustomerID=1;"""
sendQuery(sql)

In [None]:
sql = """SELECT * FROM Customers
         WHERE CustomerID > 80;"""
sendQuery(sql)

WHERE과 쓰일 수 있는 연산자는 =, >, <, >=, <=, <>, BETWEEN, LIKE, IN이 있다.

## ORDER BY
ORDER BY는 데이터를 정렬해주는 쿼리문이다.

In [None]:
sql = "SELECT * FROM Products ORDER BY Price;"
sendQuery(sql)

In [None]:
sql = "SELECT * FROM Products ORDER BY Price DESC;"
sendQuery(sql)

In [None]:
sql = "SELECT * FROM Customers ORDER BY Country, CustomerName;"
sendQuery(sql)

In [None]:
sql = "SELECT * FROM Customers ORDER BY Country ASC, CustomerName DESC;"
sendQuery(sql)

특징으로는 ASC, DESC를 뒤에 써줄 수 있다. 숫자뿐만 아니라 알파벳 문자열에도 사용 가능하며, 여러 column을 붙이면 맨 처음 입력한 칼럼부터 우선순위를 가지고 정렬한다. 

## AND / OR / NOT
논리 연산자이다. AND, OR는 각 논리식을 연결하는데 사용된다. NOT은 이미 논리연산을 한 조건을 뒤집을 때 사용한다.

In [None]:
sql = """ SELECT *
          FROM Customers
          WHERE Country = 'Spain' AND CustomerName Like 'G%'; """
sendQuery(sql)

In [None]:
sql = """ SELECT *
          FROM Customers
          WHERE Country = 'Spain' OR Country = 'Germany'; """
sendQuery(sql)

In [None]:
sql = """ SELECT DISTINCT Country FROM Customers
          WHERE NOT Country = 'Spain';"""
sendQuery(sql)

AND OR NOT을 섞어 쓸 수 있다. 연산자 우선순위는 AND가 OR보다 높다. NOT은 대부분의 경우에 연산자로 대체가 가능하다. 또, LIKE, BETWEEN, IN 앞에도 쓸 수 있다

## INSERT INTO
Table에 row를 추가하는 구문이다.

In [None]:
sql = """ INSERT INTO Customers (CustomerName, ContactName, Address, City, PostalCode, Country)
VALUES ('Cardinal', 'Tom B. Erichsen', 'Skagen 21', 'Stavanger', '4006', 'Norway'); """
sendQuery(sql)

In [None]:
sql = "SELECT * FROM Customers WHERE CustomerName='Cardinal';"
sendQuery(sql)

Cardinal씨가 리스트에 잘 추가되었다.

## NUlL, IS NULL, IS NOT NULL
NULL 값은 아무 것도 입력이 안된 값이다.

In [None]:
sql = """SELECT CustomerName, ContactName, Address
         FROM Customers
         WHERE Address IS NULL;"""
sendQuery(sql)

In [None]:
sql = """SELECT CustomerName, ContactName, Address
         FROM Customers
         WHERE Address IS NOT NULL;"""
sendQuery(sql)

Customer 테이블에 주소가 등록되지 않은 사람은 아무도 없는 모양이다.

## UPDATE
데이터 값을 바꾸는(갱신하는) 쿼리문이다.

In [None]:
sql = """UPDATE Customers
         SET ContactName = 'Alfred Schmidt', City= 'Frankfurt'
         WHERE CustomerID = 1;"""
sendQuery(sql)

In [None]:
sql = """SELECT *
         FROM Customers
         WHERE CustomerID = 1;"""
sendQuery(sql)

알프레드씨의 정보가 잘 업데이트 되었다. UPDATE를 쓸 때는 WHERE로 조건을 꼭 걸어주자. 그렇지 않으면 모든 데이터가 업데이트 될 수 있다.

## DELETE, DROP
무언가를 삭제하는 쿼리문이다. 이하는 예문이다. 이하는 실행하지 않는 것을 추천한다. 다음에도 계속해서 Customer를 사용한다.

In [None]:
#sql = "DELETE FROM Customers WHERE CustomerName='Alfreds Futterkiste';"
sendQuery(sql)

In [None]:
#sql = "SELECT CustomerName FROM Customers;"
sendQuery(sql)

In [None]:
#sql = "DELETE FROM Customers;"
sendQuery(sql)

In [None]:
#sql = "DROP TABLE Customers;"
sendQuery(sql)

WHERE 조건문을 꼭 달자. 안그럼 테이블 전체가 다 지워진다.

## TOP, LIMIT, FETCH FIRST, ROWNUM
맨 위의 몇개의 row만 가져오게 제한을 거는 구문이다


In [None]:
#sql = "SELECT TOP 3 * FROM Customers;"
sql = "SELECT * FROM Customers LIMIT 3;"
#sql = "SELECT * FROM Customers FETCH FIRST 3 ONLY;"
sendQuery(sql)

sql = "SELECT TOP 3 * FROM Customers;"
sql = "SELECT * FROM Customers LIMIT 3;"
sql = "SELECT * FROM Customers FETCH FIRST 3;"
다 같은 내용의 쿼리문이지만 두번째 LIMIT만 작동을 한다. 추측해보건데 PERCENT를 막기 위해 이렇게 된것이 아닐까 싶다.

In [None]:
sql = """SELECT * FROM Customers LIMIT 3
         ORDER BY CustomerName DESC;"""
sendQuery(sql)

In [None]:
sql = """SELECT * FROM Customers
         ORDER BY CustomerName DESC
         LIMIT 3;"""
sendQuery(sql)

sql = "SELECT * FROM Customers LIMIT 3 ORDER BY CustomerName DESC;"가 되지 않았다. LIMIT로 조금 받아온 데이터를 정렬하고 싶으면 어떻게 해야 하는가? 라는 질문이 생긴다.

## Aggregate Functions

### MIN, MAX (AS, GROUP BY)
지정한 Column의 최대, 최소를 반환한다.

In [None]:
sql = "SELECT MIN(Price) FROM Products"
sendQuery(sql)

In [None]:
sql = "SELECT MAX(Price) FROM Products"
sendQuery(sql)

In [None]:
sendQuery("""SELECT MIN(Price) AS SmallestPrice, CategoryID
             FROM Products;
             GROUP BY CategoryID;""")

AS와 GROUP BY가 등장했다. AS는 TABLE의 칼럼 레이블을 원하는 다른 이름으로 바꿔서 SELECT의 결과로 보내주는 역할을 한다. 또한 Group by는 pandas의 그것과 같이 같은 값을 가진 row끼리 모아서 연산시키는 함수이다.

### COUNT
엑셀의 count 함수처럼 개수를 세준다

In [None]:
sql = "SELECT COUNT(*) FROM Products"
sendQuery(sql)

where함수와 적절이 섞어 쓰면 엑셀의 countif함수처럼 사용할 수 있다.

### SUM

In [None]:
sql = "SELECT SUM(Quantity) FROM OrderDetails;"
sendQuery(sql)

In [None]:
sql = "SELECT OrderID, SUM(Quantity) AS [Total Quantity] FROM OrderDetails GROUP BY OrderID;"
sendQuery(sql)

In [None]:
sql = """SELECT SUM(Price * Quantity)
FROM OrderDetails
LEFT JOIN Products ON OrderDetails.ProductID = Products.ProductID;"""
sendQuery(sql)

Where을 섞어 쓰면 sumif함수를 엑셀에서 쓰듯이 쓸 수 있고, GROUP BY를 이용하면 같은 값에 대한 다른 칼럼의 합을 구할 수 있다.

### AVG
말 그대로 평균을 구하는 함수이다.

In [None]:
sql = "SELECT AVG(Price) FROM Products;"
sendQuery(sql)

In [None]:
sql = "SELECT * FROM Products WHERE price > (SELECT AVG(price) FROM Products);"
sendQuery(sql)

sum과 마찬가지로 where과 같이 쓰면 조건에 부합하는 데이터의 평균이 구해지고, group by를 쓰면 해당 값과 동일한 값끼리 평균을 구하는 연산을 하게 된다. 특이한 쓰임세로는 where문 내부에 avg를 넣어서 평균보다 높은/낮은 값을 갖는 데이터를 불러올수도 있다.

## LIKE, wild card
정규 표현문을 사용하듯이 쓸 수 있는 키워드이다


In [None]:
sql = "SELECT * FROM Customers WHERE CustomerName LIKE 'a%';"
sendQuery(sql)

이 키워드를 잘 쓰기 위해선 와일드카드를 잘 알아야 한다. 

* _는 해당 위치에 아무 문자나 와도 된다는 의미이다.
* %는 해당 위치에는 임의 길이를 갖는 문자열이 들어가도 된다는 의미이다.

## IN
WHERE과 함께 쓰여서 복수의 조건을 한번에 나타내기 위해 쓰인다.

In [None]:
sql = "SELECT * FROM Customers WHERE Country IN ('Germany', 'France', 'UK');"
sendQuery(sql)

In [None]:
sql = "SELECT * FROM Customers WHERE CustomerID IN (SELECT CustomerID FROM Orders);"
sendQuery(sql)

NOT과 함께 쓰여서 부정을 취할수도 있고 내부 조건으로 다른 SELECT의 결과를 줄 수도 있다.

## BETWEEN
범위를 결정하는 키워드이다. 숫자뿐 아니라 문자열 날짜에도 사용가능하다.

In [None]:
sql = "SELECT * FROM Products WHERE Price BETWEEN 10 AND 20;"
sendQuery(sql)

In [None]:
sql = """SELECT * FROM Products
         WHERE ProductName BETWEEN 'Carnarvon Tigers' AND 'Mozzarella di Giovanni'
         ORDER BY ProductName;"""
sendQuery(sql)

In [None]:
sql = "SELECT * FROM Orders WHERE OrderDate BETWEEN '1996-07-01' AND '1996-07-31';"
sendQuery(sql)

## AS (Aliases)
테이블에서 불러오고자 하는 데이터의 column과 내가 다루고자 하는 데이터의 column이 다를 때 요긴하게 쓰인다. 쓰고자 하는 데이터 명에 스페이스 바, 공백문자가 들어가면 대괄호로 쳐서 해결하던가, 큰ㅈ따오포를 쳐서 해결해야 한다.

In [None]:
sql = "SELECT CustomerID AS ID, CustomerName AS Customer FROM Customers;"
sendQuery(sql)

In [None]:
#sql ="SELECT ProductName AS [My Great Products] FROM Products;"
sql ="SELECT ProductName AS ""MyGreatProducts"" FROM Products;"
sendQuery(sql)

Table에도 가능하다.

In [None]:
sql = "SELECT * FROM Customers AS Persons;"
sendQuery(sql)

In [None]:
sql = "SELECT CustomerName, (Address || ', ' || PostalCode || ' ' || City || ', ' || Country) AS Address FROM Customers;"
sendQuery(sql)

## JOIN

join은 연관된 column을 기준으로 여러 테이블의 행을 이어 붙이는 명령어이다.

기본적으로 JOIN만 쓰면 각 테이블에 겹치는 column이 있는 행만 이어 붙이게 되고, LEFT/RIGHT/FULL JOIN등을 쓰게 되면 칼럼이 겹치지 않더라도 여러 테이블의 행을 이어 붙이게 된다.

In [None]:
sql = """SELECT Orders.OrderID, Customers.CustomerName, Orders.OrderDate
         FROM Orders
         INNER JOIN Customers ON Orders.CustomerID=Customers.CustomerID;"""
sendQuery(sql)

In [None]:
sql = """SELECT Customers.CustomerName, Orders.OrderID
         FROM Customers
         LEFT JOIN Orders ON Customers.CustomerID = Orders.CustomerID
         ORDER BY Customers.CustomerName;"""
sendQuery(sql)

In [None]:
sql = """SELECT Orders.OrderID, Employees.LastName, Employees.FirstName
         FROM Orders
         RIGHT JOIN Employees ON Orders.EmployeeID = Employees.EmployeeID
         ORDER BY Orders.OrderID;"""
sendQuery(sql)

In [None]:
sql = """SELECT Customers.CustomerName, Orders.OrderID
         FROM Customers
         FULL OUTER JOIN Orders ON Customers.CustomerID=Orders.CustomerID
         ORDER BY Customers.CustomerName;"""

sendQuery(sql)

In [None]:
sql = """SELECT A.CustomerName AS CustomerName1, B.CustomerName AS CustomerName2, A.City
         FROM Customers A, Customers B
         WHERE A.CustomerID <> B.CustomerID
         AND A.City = B.City 
         ORDER BY A.City;"""
sendQuery(sql)

inner join은 각 테이블에 column중 select하는 column이 있는 경우에만 row를 합쳐서 가져오고, outer join의 경우는 칼럼이 없더라도 LEFT RIGHT 조건에 부합하기만 한다면 row를 합쳐서 보여준다. SELF JOIN같은 경우엔 JOIN 명령을 안쓰더라도 작동한다.

## UNION

SELECT해서 나온 결과를 이어붙여주는 문법이다. 제한사항은 다음과 같다:

* 각 SELECT문의 COLUMN개수는 같아야 한다.
* 각 COLUMN은 데이터 타입이 같아야 한다.
* SELECT문 속 고르는 COLUMN의 순서 또한 같아야 한다.

이렇게 하면 SELECT결과를 합쳐준다고 한다

## GROUP BY

pandas의 groyp by와 동일하게 데이터중 일부 column이 같은 부분을 모아서 각 부분마다 데이터 처리 함수를 실행한 뒤, 다시 모아서 보여주는 명령어이다.

In [None]:
sql = """SELECT COUNT(CustomerID), Country
         FROM Customers
         GROUP BY Country;"""
sendQuery(sql)

위 함수의 실행 결과는 각 국적의 사람들의 수를 집계한 데이터가 나오게 된다. 조금 더 복잡하게는 다음과 같이 JOIN과 엮어서 쓸 수 있다.

In [None]:
sql = """SELECT Shippers.ShipperName, COUNT(Orders.OrderID) AS NumberOfOrders FROM Orders
         LEFT JOIN Shippers ON Orders.ShipperID = Shippers.ShipperID
         GROUP BY ShipperName;"""
sendQuery(sql)

## HAVING

WHERE문 안에서는 추가적인 데이터 처리 함수를 쓰지 못하기 때문에 HAVING을 써서 이를 해결한다.

In [None]:
sql = """SELECT COUNT(CustomerID), Country
         FROM Customers
         GROUP BY Country
         HAVING COUNT(CustomerID) > 5;
"""
sendQuery(sql)

In [None]:
sql = """SELECT COUNT(CustomerID), Country
         FROM Customers
         GROUP BY Country
         HAVING COUNT(CustomerID) > 5
         ORDER BY COUNT(CustomerID) DESC;
"""
sendQuery(sql)

위의 두 쿼리는 국가당 계정이 5개 있는 나라와 계정 수를 출력하는 쿼리였다. ORDER BY DESCENT로 역순 정렬도 하는 보습을 확인할 수 있다.

## EXISTS
서브 쿼리문의 결과에서 아이템이 존재하면 참이 된다.

In [None]:
sql = """SELECT SupplierName
FROM Suppliers
WHERE EXISTS (SELECT ProductName FROM Products WHERE Products.SupplierID = Suppliers.supplierID AND Price < 20);
"""
sendQuery(sql)

위의 코드에서는 마트에 제품을 공급하는 사업자 중 20불보다 싼 물건을 납품하는 업자들의 명단이다.

# ANY and ALL

이름 그대로 서브쿼리에 조건에 맞는 값이 하나라도/모두가 온다면 TRUE를 반환한다.

In [None]:
sql = """SELECT ProductName
         FROM Products
         WHERE ProductID = ANY
         (SELECT ProductID
         FROM OrderDetails
         WHERE Quantity = 10);
"""
sendQuery(sql)

In [None]:
sql = """SELECT ProductName
         FROM Products
         WHERE ProductID = ANY
         (SELECT ProductID
         FROM OrderDetails
         WHERE Quantity > 1000);
"""
sendQuery(sql)

In [None]:
sql = """SELECT ProductName
         FROM Products
         WHERE ProductID = ALL
         (SELECT ProductID
         FROM OrderDetails
         WHERE Quantity = 10);"""
sendQuery(sql)

ALL과 ANY는 작동하지 않았다.

# SELECT INTO
해당 구문은 새로운 테이블에 고른 데이터를 넣을려고 사용한다

In [None]:
sql = "SELECT * INTO CustomersBackup2017 FROM Customers;"
sendQuery(sql)
sql = "SELECT * FROM CustomersBackup2017"
sendQuery(sql)

실행이 안되고 있는 모습을 보여준다

# INSERT INTO SELECT
뒤에서 SELECT에 의해 선택된 데이터를 INSERT INTO 뒤에 오는 테이블에 넣는다.

In [None]:
sql = """INSERT INTO Customers (CustomerName, City, Country)
         SELECT SupplierName, City, Country FROM Suppliers;"""
sendQuery(sql)
sql = "SELECT * FROM Customers"
sendQuery(sql)

맨 뒤에 서플라이어 테이블로붜 일부가 커스토머에 추가된 것을 확인할 수 있다.

# CASE
c 언어의 case문처럼 여러개의 조건을 다루기 위해 사용한다.

In [None]:
sql = """SELECT OrderID, Quantity,
         CASE
             WHEN Quantity > 30 THEN 'The quantity is greater than 30'
             WHEN Quantity = 30 THEN 'The quantity is 30'
             ELSE 'The quantity is under 30'    
         END AS QuantityText
         FROM OrderDetails;"""
sendQuery(sql)

In [None]:
sql = """SELECT CustomerName, City, Country
         FROM Customers
         ORDER BY
         (CASE
             WHEN City IS NULL THEN Country
             ELSE City
         END);
"""
sendQuery(sql)

case문을 이용하여 여타 프로그래밍 언어의 if 문과도 같은 사용을 할 수 있다.

# NULL
NULL값이 왔을 때 다른 값으로 처리하는 함수를 다룬다.

In [None]:
sql = """SELECT ProductName, UnitPrice * (UnitsInStock + IFNULL(UnitsOnOrder, 0))
         FROM Products;"""
sendQuery(sql)

In [None]:
sql = """SELECT ProductName, UnitPrice * (UnitsInStock + ISNULL(UnitsOnOrder, 0))
         FROM Products;"""
sendQuery(sql)

In [None]:
sql = """SELECT ProductName, UnitPrice * (UnitsInStock + IIF(IsNull(UnitsOnOrder), 0, UnitsOnOrder))
         FROM Products;"""
sendQuery(sql)

In [None]:
sql = """SELECT ProductName, UnitPrice * (UnitsInStock + NVL(UnitsOnOrder, 0))
         FROM Products;"""
sendQuery(sql)

In [None]:
sql = """SELECT ProductName, UnitPrice * (UnitsInStock + COALESCE(UnitsOnOrder, 0))
         FROM Products;"""
sendQuery(sql)

뭔가 작동은 잘 안하지만 sqlite3에서는 IFNULL, NVM, COALESCE 함수만 작동하는것을 확인할 수 있었다.

# Stored Procedures
프로그래밍 언어의 함수처럼, 자주 사용하는 쿼리문이 있다면, 저장해서 사용할 수 있는 기능이다.

In [None]:
sql = """CREATE PROCEDURE SelectAllCustomers
         AS
         SELECT * FROM Customers
         GO;
"""
sendQuery(sql)

sql = "EXEC SelectAllCustormer"
sendQuery(sql)

그러나 sqlite3에서는 작동하지 않는다. 댜음과 같이 매개변수를 이용할 수도 있다.

In [None]:
sql = """CREATE PROCEDURE SelectAllCustomers @City nvarchar(30), @PostalCode nvarchar(10)
         AS
         SELECT * FROM Customers WHERE City = @City AND PostalCode = @PostalCode
         GO;"""
sendQuery(sql)

sql = "EXEC SelectAllCustomers @City = 'London', @PostalCode = 'WA1 1DP'"
sendQuery(sql)

아무튼 작동하지는 않지만 위와같은 문법으로 사용할 수 있다.

# Comments
"--" 대쉬 두개를 그은 후에 주석을 달 수 있다.

# Operators
Sql에서 사용할 수 있는 많은 연산자가 있다. + - * / % 와 같이 기본 사칙연산과 관련된 연산자, & | ^ 와 같이 c에서 비트 단위로 연산해주는 연산자, = > < >= <= <> 연산자와 같이 조건에 관한 연산자를 쓸 수 있다. c와 다른 점은 c의 == 대신에 =, c의 != 대신에 <>를 쓴다는 점이다.

계속해서 += -= *= /- %= &= ^-=, |*= 연산자가 있는데, 다른건 c와 같지만 ^-=, |*=연산자 사용에 주의하자. 각각 bitwise xor equals, bitwise OR equals이다.

마지막으로 지금까지 봤던 문자열 형식의 연산자도 연산자이다. ALL, AND, ANY, BETWEEN, EXISTS, IN, LIKE, NOT, OR, SOME이 있다.