## MySQL과 데이터 분석의 시작

## 1. GROUP BY, COUNT, SUM, AVG, MAX, MIN, DISTINCT, AS

#### COUNT 함수
- COUNT: 검색 결과의 row 수를 가져올 수 있는 SQL 문법
- SQL 예제: SELECT COUNT(*) FROM items

```python
sql = """SELECT COUNT(*) FROM items WHERE item_code = '""" + item_info['item_code'] + """';"""
cursor.execute(sql)
result = cursor.fetchone()
print (result[0])
```

- COUNT SQL 예제1: 
  ```mysql
  SELECT COUNT(*) FROM people (전체 row 수)
  ```
  
- COUNT SQL 예제2: 
  ```mysql
  SELECT COUNT(age) FROM people (ori_price field 값이 있는 row 수)
  ```
  
| num | name  | age |
|-----|-------|-----|
| 1   | Dave  | 12  |
| 2   | David | 43  |
| 3   | Jade  |     |

#### SUM, AVG, MAX, MIN 함수
* SUM(): 컬럼값의 합계
* AVG(): 컬럼값의 평균
* MAX(): 최대 컬럼값
* MIN(): 최소 컬럼값
* SQL 예제: 
  ```mysql
  SELECT AVG(age) FROM people
  ```
  
| num | name  | age | gender |
|-----|-------|-----|--------|
| 1   | Dave  | 12  | man    |
| 2   | Candy | 43  | woman  |
| 3   | Jade  | 20  | man    |


#### GROUP BY
- GROUP BY: 그룹을 지어서, 데이터를 분석하고자 할 때 사용
- COUNT, SUM, AVG, MAX, MIN 함수와 함께 사용하면 각 그룹별 row 수, 합계, 평균, 최대, 최소값등을 알 수 있음
- SQL 예제: 
  ```mysql
  SELECT AVG(age) FROM people WHERE 조건 GROUP BY gender -> 각각의 젠더별 평균을 냄
  ```
  
| num | name  | age | gender |
|-----|-------|-----|--------|
| 1   | Dave  | 12  | man    |
| 2   | Candy | 43  | woman  |
| 3   | Jade  | 20  | man    |

#### DISTINCT 
- 특정 컬럼값 출력시 중복된 값을 출력하지 않음
- SQL 예제: 
  ```mysql
  SELECT DISTINCT gender FROM people
  ```
  
| num | name  | age | gender |
|-----|-------|-----|--------|
| 1   | Dave  | 12  | man    |
| 2   | Candy | 43  | woman  |
| 3   | Jade  | 20  | man    |

#### AS 
- 특정 결과값의 이름을 변경하는 방법
- 예: COUNT(*) 를 total_count로 이름을 변경하기
  ```mysql
  SELECT COUNT(*) AS total_count FROM people;
  ```

#### 복합검색
- WHERE, GROUP BY, ORDER BY등 다양한 SQL 문법을 복합적으로 사용하는 방법
- WHERE절, GROUP BY절, ORDER BY절 순으로 작성
- 예: 
  ```mysql
  SELECT provider, COUNT(dis_price) FROM items GROUP BY provider ORDER BY COUNT(dis_price) DESC;
  ```

## 2. GROUP BY와 HAVING

- HAVING 절은 집계함수를 가지고 조건비교를 할 때 사용한다.
- HAVING절은 GROUP BY절과 함께 사용
- 예

```sql
SELECT provider FROM items GROUP BY provider HAVING COUNT(*) >= 100;
```

#### HAVING절을 포함한 복합 검색

```mysql
SELECT provider, COUNT(*) 
  FROM items  
 WHERE provider != '스마일배송'    -- 스마일배송은 제외
 GROUP BY provider              -- 판매처별로 그룹
HAVING COUNT(*) > 100           -- 베스트상품이 100개 이상 등록된 경우만 검색
 ORDER BY COUNT(*) DESC;        -- 베스트상품 등록갯수 순으로 검색
```

## 3. JOIN 구문 익히기

* JOIN은 두 개 이상의 테이블로부터 필요한 데이터를 연결해 하나의 포괄적인 구조로 결합시키는 연산

* JOIN은 다음과 같이 세분화될 수 있지만, 보통은 **INNER JOIN**을 많이 사용함
  - INNER JOIN (일반적인 JOIN): 두 테이블에 해당 필드값이 매칭되는 (두 테이블의 모든 필드로 구성된) 레코드만 가져옴
  - OUTER JOIN (참고)
    - LEFT OUTER JOIN: 왼쪽 테이블에서 모든 레코드와 함께, 오른쪽 테이블에 왼쪽 테이블 레코드와 매칭되는 레코드를 붙여서 가져옴
    - RIGHT OUTER JOIN: 오른쪽 테이블에서 모든 레코드와 함께, 왼쪽 테이블에 왼쪽 테이블 레코드와 매칭되는 레코드를 붙여서 가져옴

### 3.1 JOIN (INNER JOIN)
* INNER JOIN은 조인하는 테이블의 ON 절의 조건이 일치하는 결과만 출력
* 사용법: FROM 테이블1 **INNER JOIN** 테이블2 **ON** 테이블1과 테이블2의 매칭조건

```mysql
SELECT * FROM items INNER JOIN ranking ON ranking.item_code = items.item_code WHERE ranking.main_category = "ALL" 
```
* 테이블 이름 다음에 한칸 띄고 새로운 이름을 쓰면, SQL구문 안에서 해당 이름으로 해당 테이블을 가리킬 수 있음 (AS 용법과 동일함)
  - 일반적으로 이와 같이 많이 사용됨

```mysql
SELECT * FROM items a INNER JOIN ranking b ON a.item_code = b.item_code WHERE b.main_category = "ALL" 
```

<div class="alert alert-block alert-warning">
<font color="blue" size="4em">연습문제</font><br>
전체 베스트상품(ALL 메인 카테고리)에서 판매자별 베스트상품 갯수 출력해보기
</div>

In [None]:
* select provider count(provider) from items where main_category = 'ALL'

* select ranking.provider count(*) from ranking inner join items on items.item_code = ranking.item_code 
where ranking.main_category = 'ALL' group by ranking.provider order by count(*) desc;

<div class="alert alert-block alert-warning">
<font color="blue" size="4em">연습문제</font><br>
메인 카테고리가 패션의류인 서브 카테고리 포함, 패션의류 전체 베스트상품에서 판매자별 베스트상품 갯수가 5이상인 판매자와 베스트상품 갯수 출력해보기
</div>

In [None]:
* select count(provider) from items where (main_category = '패션의류' or sub_category = '패션의류' ) and count(provider) >= 5

* select items.provider, count(*) from ranking inner join items on items.item_code = ranking.item_code 
where ranking.main_category = '패션의류' group by items.provider having count(*) > 5;

<div class="alert alert-block alert-warning">
<font color="blue" size="4em">연습문제</font><br>
메인 카테고리가 신발/잡화인 서브 카테고리 포함, 전체 베스트상품에서 판매자별 베스트상품 갯수가 10이상인 판매자와 베스트상품 갯수를 베스트상품 갯수 순으로 출력해보기
</div>

In [None]:
* select i.provider, count(*) from ranking r inner join items i on i.item_code = r.item_code where r.main_category = '신발/잡화' group by i.provider having count(*) > = 10 order by count(*) desc;

* select i.provider, count(*) from ranking r inner join items  i on i.item_code = r.item_code where r.main_category like '신발%' group by i.provider having count(*) >= 10 order by count(*) desc;

<div class="alert alert-block alert-warning">
<font color="blue" size="4em">연습문제</font><br>
메인 카테고리가 화장품/헤어인 서브 카테고리 포함, 전체 베스트상품의 평균, 최대, 최소 가격 출력해보기
</div>



In [None]:
select max(i.dis_price), min(i.dis_price), avg(i.dis_price) from ranking r inner join items i on i.item_code = r.item_code where r.main_category like '화장품%' group by i.dis_price

### 3.2 OUTER JOIN (참고)
* OUTER JOIN은 조인하는 테이블의 ON 절의 조건 중 한쪽의 데이터를 모두 가져옴
* OUTER JOIN은 LEFT OUTER JOIN, RIGHT OUTER JOIN 이 있음

#### 3.2.1 LEFT OUTER JOIN
- 예: 
  ```mysql
  SELECT * FROM customer_table C LEFT OUTER JOIN order_table O ON C.customer_id = O.customer_id
  ```

 <img src="https://www.fun-coding.org/00_Images/mysql_outer_join.png" />

 <img src="https://www.fun-coding.org/00_Images/mysql_outer_join_reverse.png" />

#### 3.2.2 RIGHT OUTER JOIN
- 예: 
  ```mysql
  SELECT * FROM customer_table C RIGHT OUTER JOIN order_table O ON C.customer_id = O.customer_id
  ```

 <img src="https://www.fun-coding.org/00_Images/mysql_right_outer_join.png" />

## 4. 서브 쿼리 (MySQL SubQuery)
* SQL문 안에 포함되어 있는 SQL문
  - SQL문 안에서 괄호() 를 사용해서, 서브쿼리문을 추가할 수 있음
* 테이블과 테이블간의 검색시, 검색 범위(테이블 중 필요한 부분만 먼저 가져오도록)를 좁히는 기능에 주로 사용

### 4.1. 서브쿼리(Sub Query) 사용법
* JOIN은 출력 결과에 여러 테이블의 열이 필요한 경우 유용
* 대부분의 서브쿼리(Sub Query) 는 JOIN 문으로 처리가 가능

#### 예1: 서브카테코리가 '여성신발'인 상품 타이틀만 가져오기
- JOIN SQL을 사용해서 작성하는 방법
```mysql
    SELECT title
    FROM items
    INNER JOIN ranking ON items.item_code = ranking.item_code
    WHERE ranking.sub_category = '여성신발'
```
- **서브쿼리를 사용해서 작성하는 방법**
  - 컬럼값 IN 서브쿼리 출력값 -> 컬럼값과 서브쿼리값이 같을 때 
```mysql
    SELECT title 
    FROM items
    WHERE item_code IN
        (SELECT item_code FROM ranking WHERE sub_category = '여성신발')
```

#### 예2: 서브카테코리가 '여성신발'인 상품중 할인가격이 가장 높은 상품의 할인가격 가져오기
- JOIN SQL을 사용해서 작성하는 방법
```mysql
    SELECT MAX(items.dis_price)
    FROM items
    INNER JOIN ranking ON items.item_code = ranking.item_code
    WHERE ranking.sub_category = '여성신발'
```
- **서브쿼리를 사용해서 작성하는 방법**
```mysql
    SELECT MAX(dis_price) 
    FROM items 
    WHERE item_code IN 
    (SELECT item_code FROM ranking WHERE sub_category = '여성신발')
```

##### 참고: 다양한 서브 쿼리 삽입 위치
- 비교
```mysql
    SELECT category_id, COUNT(*) AS film_count FROM film_category
    WHERE film_category.category_id >
        (SELECT category.category_id FROM category WHERE category.name = 'Comedy')
    GROUP BY film_category.category_id
```

- FROM 절
```mysql
    SELECT
    a, b, c
    FROM
    (SELECT * FROM  atoz_table)
```

<div class="alert alert-block alert-warning">
<font color="blue" size="4em">연습문제</font><br>
메인 카테고리별로 할인 가격이 10만원 이상인 상품이 몇개 있는지를 출력해보기
</div>

<div class="alert alert-block alert-warning">
<font color="blue" size="4em">다양한 복합쿼리 연습문제</font><br>
메인 카테고리, 서브 카테고리에 대해, 평균할인가격과 평균할인율을 출력해보기 (다양한 SQL 문법 활용)
</div>

<div class="alert alert-block alert-warning">
<font color="blue" size="4em">다양한 복합쿼리 연습문제</font><br>
판매자별, 베스트상품 갯수, 평균할인가격, 평균할인율을 베스트상품 갯수가 높은 순으로 출력해보기 (다양한 SQL 문법 활용)
</div>

<div class="alert alert-block alert-warning">
<font color="blue" size="4em">다양한 복합쿼리 연습문제</font><br>
각 메인 카테고리에서 베스트 상품 갯수가 20개 이상인 판매자의 판매자별 평균할인가격, 평균할인율, 베스트 상품 갯수 출력해보기 (다양한 SQL 문법 활용)
</div>

In [None]:
select main_category, count(*) from ranking where item_code in (select item_code from items where dis_price > 100000 group by main_category)

In [None]:
select ranking.main_category, ranking.sub_category avg(items.main_category), avg(items.discount_percent) from items inner join ranking on items.item_code = ranking.item_code group by ranking.main_category, ranking.sub_category;

In [None]:
select items.provider, count(*), avg(items.dis_price), avg(items.discount_change) from items inner join ranking on items.item_code = ranking.item_code group by items.provider order by count(*) desc

In [None]:
select main_category, items.provider, avg(items.dis_price), avg(discount_change), count(*) from items inner join ranking on items.item_code = ranking.item_code group by items.provider, ranking.main_category having count(*) > 20 