<div class="alert alert-block" style="border: 1px solid #455A64;background-color:#ECEFF1;padding:5px;font-size:0.9em;">
  본 자료와 관련 영상 컨텐츠는 저작권법 제25조 2항에 의해 보호를 받습니다. <br>본 컨텐츠 및 컨텐츠 일부 문구 등을 외부에 공개하거나, 요약해서 게시하지 말아주세요.<br>Copyright <a href="https://www.fun-coding.org">잔재미코딩</a> Dave Lee
</div>

### Sakila 데이터로 연습하는 SQL 코딩 테스트 (기본)

### 실습환경 만들기
* sakila 데이터베이스 다운로드: https://dev.mysql.com/doc/index-other.html 에서 sakila database ZIP 파일로 다운받아서, 압축 해제

### sakila database sql 파일 실행하기
* Mysql Workbench
  - File -> Open SQL Script -> sakila-schema.sql 선택 후 실행
  - File -> Open SQL Script -> sakila-data.sql 선택 후 실행
* 또는 터미널로 해당 파일이 있는 폴더로 이동 후 mysql 터미널 접속해서, 다음과 같이 실행
  ```
  SOURCE sakila-schema.sql;
  SOURCE sakila-data.sql;
  ```

### sakila 테이블 정보 참고
 - https://downloads.mysql.com/docs/sakila-en.pdf
        
> 실제 현업에서도 상세한 테이블 정보를 친절하게 잘 알려주지 못합니다 

### 실습 환경 맞추기
- 파이썬 기반, 테스트는 다음과 같은 코드로 가능 (추천)
- MySQL Workbench 로도 진행 가능 

In [1]:
!pip install pymysql



### 참고
- 암호를 주피터 노트북에 그대로 노출하는 것은 위험하므로, 별도 settings.py 파일을 주피터 노트북 파일의 동일 폴더에 만들고,
- 해당 파일 내에, 다음과 같이 정의하고,
   ```
   USERNAME='root'
   PASSWORD='pass'
   ```
- 다음 코드를 실행해서, 아이디/패스워드를 노출하지 않고, 사용할 수도 있음
   ```
   import settings

   print (settings.USERNAME, settings.PASSWORD)
   ```

In [9]:
import pymysql
import pandas as pd

host_name = "localhost"
username = "root"
password = settings.PASSWORD
database_name = "sakila"

db = pymysql.connect(
    host=host_name,  # DATABASE_HOST
    port=3306,
    user=username,  # DATABASE_USERNAME
    passwd=password,  # DATABASE_PASSWORD
    db=database_name,  # DATABASE_NAME
    charset='utf8'
)

In [10]:
import warnings
warnings.filterwarnings('ignore')
# warning 메세지가 거슬리는 경우가 많으므로, 표시 안해주기로 함

> 이미 mysql 에 연결되어 있으므로, 간단히 원하는 데이터를 SQL 을 사용하여 추출해보면서 SQL 로의 데이터 분석 핵심 구문인 SELECT 구문에 익숙해지고, 추가적인 문법을 이해해보도록 합니다.

- 다음과 같이 딱 세줄로 SQL 구문을 만들어서 실행해보시면서 실제로 문제도 풀어보며 SQL 구문에 익숙해져보도록 합니다
```
SQL = "필요한 SQL 구문 작성해보기"
df = pd.read_sql(SQL, db)
df                 # 화면에 출력 가능, 필요하면 to_csv() 함수로 데이터 파일로 작성 가능
```

### 전체 sakila 데이터베이스 테이블 확인해보기
> 실제 현업에서 사용하는 데이터베이스에는 다양한 테이블이 있지만, 각 테이블에 대한 매우 친절하고, 상세한 설명이 없는 경우도 많습니다. 데이터를 보며 유추하기도 합니다.
- 전체 데이터에 대한 꼼꼼한 설명은 https://downloads.mysql.com/docs/sakila-en.pdf 에 있음

In [11]:
SQL = "SHOW TABLES"
df = pd.read_sql(SQL, db)
df

Unnamed: 0,Tables_in_sakila
0,actor
1,actor_info
2,address
3,category
4,city
5,country
6,customer
7,customer_list
8,film
9,film_actor


### 데이터베이스 정보 이해하기 (실무에서의 방법)
- 결과중 일부만 데이터 가져온 후, 컬럼명과 테이블명으로 대략적인 정보 유추하기
  - 예) 결과중 처음부터 10개만 가져오기
    - SELECT * FROM 테이블이름 LIMIT 10 (테이블 데이터 중 최상위에 있는 10개의 데이터만 가져오기)
    - SELECT * FROM 테이블이름 WHERE 조건문 LIMIT 1 (특정 조건에 맞는 데이터 중 최상위에 있는 1개의 데이터만 가져오기)
> 특정 테이블의 컬럼과 컬럼값 확인을 위해 LIMIT 1 을 많이 사용함
    
### 기본적인 배경지식 이해하기
- sakila 데이터베이스
  - DVD 렌탈샵 관련 실제 정보 저장

In [13]:
SQL = "SELECT * FROM film LIMIT 1"
df = pd.read_sql(SQL, db)
df

Unnamed: 0,film_id,title,description,release_year,language_id,original_language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features,last_update
0,1,ACADEMY DINOSAUR,A Epic Drama of a Feminist And a Mad Scientist...,2006,1,,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes",2006-02-15 05:03:42


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제1</font><br>
영화 테이블(film) 에서 총 영화 수 알아내기<br>
</div>

Unnamed: 0,COUNT(*)
0,1000


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제2</font><br>
영화 테이블(film) 에서 영화 등급 종류 알아내기, 각 영화의 영화 등급은 rating 컬럼에 들어 있음<br>
</div>

- 참고: 각 컬럼값 이해를 위한 배경 지식이 필요할 때가 있음 (이것을 도메인이라고 이야기함)
  - https://en.wikipedia.org/wiki/Motion_Picture_Association_film_rating_system

Unnamed: 0,rating
0,PG
1,G
2,NC-17
3,PG-13
4,R


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제3</font><br>
영화 테이블(film) 에서 영화 release 연도 종류 알아내기, 각 영화의 release 연도는 release_year 컬럼에 있음<br>
</div>

Unnamed: 0,release_year
0,2006


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제4</font><br>
영화 렌탈 테이블(rental) 에서 10개 데이터만 출력하기, rental 테이블은 DVD 를 언제, 누가 빌려갔고, 반환했는지에 대한 정보를 가지고 있음<br>
</div>

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,last_update
0,1,2005-05-24 22:53:30,367,130,2005-05-26 22:04:30,1,2006-02-15 21:30:53
1,2,2005-05-24 22:54:33,1525,459,2005-05-28 19:40:33,1,2006-02-15 21:30:53
2,3,2005-05-24 23:03:39,1711,408,2005-06-01 22:12:39,1,2006-02-15 21:30:53
3,4,2005-05-24 23:04:41,2452,333,2005-06-03 01:43:41,2,2006-02-15 21:30:53
4,5,2005-05-24 23:05:21,2079,222,2005-06-02 04:33:21,1,2006-02-15 21:30:53
5,6,2005-05-24 23:08:07,2792,549,2005-05-27 01:32:07,1,2006-02-15 21:30:53
6,7,2005-05-24 23:11:53,3995,269,2005-05-29 20:34:53,2,2006-02-15 21:30:53
7,8,2005-05-24 23:31:46,2346,239,2005-05-27 23:33:46,2,2006-02-15 21:30:53
8,9,2005-05-25 00:00:40,2580,126,2005-05-28 00:22:40,1,2006-02-15 21:30:53
9,10,2005-05-25 00:02:21,1824,399,2005-05-31 22:44:21,2,2006-02-15 21:30:53


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제5</font><br>
영화 렌탈 테이블(rental) 에서 inventory_id 가 367 인 로우(Row) 전체 출력하기, inventory_id 는 빌려간 DVD 의 ID 를 의미함<br>
</div>

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,last_update
0,1,2005-05-24 22:53:30,367,130,2005-05-26 22:04:30,1,2006-02-15 21:30:53
1,1577,2005-06-16 04:03:28,367,327,2005-06-24 22:40:28,2,2006-02-15 21:30:53
2,3584,2005-07-06 04:16:43,367,207,2005-07-13 07:08:43,1,2006-02-15 21:30:53
3,10507,2005-08-01 11:22:20,367,45,2005-08-04 13:18:20,2,2006-02-15 21:30:53
4,13641,2005-08-20 07:34:42,367,281,2005-08-26 05:18:42,1,2006-02-15 21:30:53


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제6</font><br>
customer 테이블에서 customer 수 알아내기<br>
</div>

Unnamed: 0,COUNT(*)
0,599


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제7</font><br>
payment 테이블에서 렌탈비용 합계, 평균, 최대값, 최소값 구하기, payment 테이블은 렌탈 비용을 포함한 정보를 담고 있는 테이블임<br>
</div>

Unnamed: 0,SUM(amount),AVG(amount),MAX(amount),MIN(amount)
0,67416.51,4.200667,11.99,0.0


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제8</font><br>
영화 렌탈 테이블(rental) 에서 inventory_id 가 367 이고, staff_id가 1인 로우(Row) 전체 출력하기<br>
</div>

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,last_update
0,1,2005-05-24 22:53:30,367,130,2005-05-26 22:04:30,1,2006-02-15 21:30:53
1,3584,2005-07-06 04:16:43,367,207,2005-07-13 07:08:43,1,2006-02-15 21:30:53
2,13641,2005-08-20 07:34:42,367,281,2005-08-26 05:18:42,1,2006-02-15 21:30:53


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제9</font><br>
영화(film table)에 매겨진 등급(rating) 종류를 모두 출력하시요 (GROUP BY 를 사용하세요)<br>
</div>

Unnamed: 0,rating
0,PG
1,G
2,NC-17
3,PG-13
4,R


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제10</font><br>
영화(film table)에 매겨진 등급(rating) 종류에 따른 영화 갯수를 모두 출력하시요 (rating 값과 각 rating 값에 따른 영화 갯수를 출력하세요)<br>
</div>

Unnamed: 0,rating,COUNT(*)
0,PG,194
1,G,178
2,NC-17,210
3,PG-13,223
4,R,195


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제11</font><br>
영화(film table)에서 영화가 PG 또는 G 등급인 영화 수를 출력하세요 (rating 값과 각 rating 값에 따른 영화 갯수를 출력하세요)<br>
</div>

Unnamed: 0,rating,COUNT(*)
0,PG,194
1,G,178


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제12</font><br>
영화(film table)에서 영화가 G 등급인 영화 제목을 출력하세요<br>
</div>

Unnamed: 0,rating,title
0,G,ACE GOLDFINGER
1,G,AFFAIR PREJUDICE
2,G,AFRICAN EGG
3,G,ALAMO VIDEOTAPE
4,G,AMISTAD MIDSUMMER
...,...,...
173,G,WATERFRONT DELIVERANCE
174,G,WATERSHIP FRONTIER
175,G,WEREWOLF LOLA
176,G,WEST LION


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제13</font><br>
영화(film table)에서 영화가 PG 또는 G 등급인 영화 제목을 출력하세요<br>
</div>

Unnamed: 0,title
0,ACADEMY DINOSAUR
1,ACE GOLDFINGER
2,AFFAIR PREJUDICE
3,AFRICAN EGG
4,AGENT TRUMAN
...,...
367,WON DARES
368,WONDERLAND CHRISTMAS
369,WORDS HUNTER
370,WORST BANGER


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제14</font><br>
영화(film table)에서 release 연도가 2006 또는 2007 연도이고, 영화가 PG 또는 G 등급인 영화 제목을 출력하세요<br>
</div>

Unnamed: 0,title
0,ACADEMY DINOSAUR
1,ACE GOLDFINGER
2,AFFAIR PREJUDICE
3,AFRICAN EGG
4,AGENT TRUMAN
...,...
367,WON DARES
368,WONDERLAND CHRISTMAS
369,WORDS HUNTER
370,WORST BANGER


### SQL 작성 방법: SQL 이 길어질 경우, 다음과 같이 여러 줄에 걸쳐서 작성함
- 따옴표 3개 로 표시

In [None]:
SQL = """
    SELECT *
    FROM film 
    WHERE 
        rating = 'PG'
"""
df = pd.read_sql(SQL, db)
df

### SQL 과 데이터 분석
- 실제 요구사항은 여러 조건이 있을 수 있습니다.

<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">

film테이블에서 rating (등급)으로 그룹을 묶어서, 각 등급별 영화 갯수와 rating (등급), 각 그룹별 평균 rental_rate (렌탈 비용) 출력하세요
</div>

### 접근 방법
- 단계별로 나눠서 SQL을 작성해보세요

<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제15</font><br>
film테이블에서 rating (등급)으로 그룹을 묶어서, 각 등급별 영화 갯수 출력하기 (각 등급별 갯수 출력하기)<br>
</div>

Unnamed: 0,COUNT(*)
0,194
1,178
2,210
3,223
4,195


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제16</font><br>
film테이블에서 rating (등급)으로 그룹을 묶어서, 각 등급별 영화 갯수 출력하기 (등급과 각 등급별 갯수 출력하기)<br>
</div>

Unnamed: 0,rating,COUNT(*)
0,PG,194
1,G,178
2,NC-17,210
3,PG-13,223
4,R,195


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제17</font><br>
film테이블에서 rating (등급)으로 그룹을 묶어서, 각 등급별 영화 갯수와 각 등급별 평균 렌탈 비용 출력하기 (등급과 각 등급별 갯수, 각 등급별 평균 렌탈 비용 출력하기)<br>
</div>

Unnamed: 0,rating,COUNT(*),AVG(rental_rate)
0,PG,194,3.051856
1,G,178,2.888876
2,NC-17,210,2.970952
3,PG-13,223,3.034843
4,R,195,2.938718


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제18</font><br>
film테이블에서 rating (등급)으로 그룹을 묶어서, 각 등급별 영화 갯수와 각 등급별 평균 렌탈 비용 출력하기, 단 평균 렌탈비용이 높은 순으로 출력하기 (등급과 각 등급별 갯수, 각 등급별 평균 렌탈 비용 출력하기)<br>
</div>

Unnamed: 0,rating,COUNT(*),AVG(rental_rate)
0,PG,194,3.051856
1,PG-13,223,3.034843
2,NC-17,210,2.970952
3,R,195,2.938718
4,G,178,2.888876


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제19</font><br>
film테이블에서 rating (등급)으로 그룹을 묶어서, 각 등급별 영화 갯수와 rating (등급), 각 그룹별 평균 rental_rate (렌탈 비용) 출력하되, 영화 갯수와 평균 렌탈 비용은 각각 total_films, avg_rental_rate 으로 출력하고, avg_rental_rate이 높은 순으로 출력하시오<br>
</div>

Unnamed: 0,rating,total_films,avg_rental_rate
0,PG,194,3.051856
1,PG-13,223,3.034843
2,NC-17,210,2.970952
3,R,195,2.938718
4,G,178,2.888876


<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제20</font><br>
film테이블에서 rating (등급)으로 그룹을 묶어서, 각 등급별 영화 갯수와 rating (등급), 각 그룹별 평균 rental_rate (렌탈 비용) 출력하되, 영화 갯수와 평균 렌탈 비용은 각각 total_films, avg_rental_rate 으로 출력하고, avg_rental_rate이 높은 순으로 출력하시오 (SQL 구문을 보기 좋게 여러 줄에 걸쳐서 써보기)<br>
</div>

Unnamed: 0,rating,total_films,avg_rental_rate
0,PG,194,3.051856
1,PG-13,223,3.034843
2,NC-17,210,2.970952
3,R,195,2.938718
4,G,178,2.888876


### 데이터베이스 접속 끊기

In [49]:
db.close()

<div class="alert alert-block" style="border: 1px solid #455A64;background-color:#ECEFF1;padding:5px;font-size:0.9em;">
  본 자료와 관련 영상 컨텐츠는 저작권법 제25조 2항에 의해 보호를 받습니다. <br>본 컨텐츠 및 컨텐츠 일부 문구 등을 외부에 공개하거나, 요약해서 게시하지 말아주세요.<br>Copyright <a href="https://www.fun-coding.org">잔재미코딩</a> Dave Lee
</div>