# 데이터 베이스 설치

- 로컬 pc
    - **개발 PC**에 설치 하는 방식
        - 라이센스, 유료/무료 모델 따라서 제한적 사용 가능
    - 외부 접속이 불가(편법은 가능함)
- Cloud 설치
    - **AWS(아마존)**, AZURE(마소), 구글클라우드
        - 클라우드에서 서비스로 제공
    - 관리가 용이, 외부 접속 편리함
    - AWS
        - RDS 서비스 제공
            - 전용 서비스, 비용이 발생
            - 서비스 이용 및 관리 편함
        - EC2 서비스에서 데이터베이스 설치
            - 상대적으로 고사양 db를 저렴하게 운용 가능함
            - 보안 이슈
- Docker 설치
    - **컨테이너** 기반 설치
        - PC(서버등) 상에서 격리되어서 관리
        - 업데이트 이슈 => 컨테이너 교체, 이방식으로 업그레이트 수행
    - 개발 => 컨테이더로 구성 -> 팀원 배포 => 개발후 => 서비스에 컨테이너를 그대로 올려버린다 (개발, 디비등 다 포함해서)
    - 컨테이너 -> 이미지 -> 허브 배포 -> 다운로드 -> 컨테이너 설치
    - 개발 => 배포및 운영
    - 쿠버네티스를 이용한 관리

# 실습데이터

- sql_test_db.sql
    - 쿼리 연습용
    - select 계열, 내장함수
        - 분석 <- 데이터 <- 조회(select)
    - 목적
        - 분석을 위한 데이터 확보 차원(pandas로 분석)
        - sql 자체로 분석(sql 쿼리로 분석)
    - mysql 연습용 데이터 출처(일부)
        - https://dev.mysql.com/doc/index-other.html
    - mariadb의 client 툴 하이디sql
        - 파일 > sql파일 불러오기 > 자동 인코딩 OK > 파일 그대로 실행하기 >  디비 입력 완료(복원 완료)
    - t1 데이터베이스
        - city, **city2**
        - country, **country2**
        - **countrylanguage**

- 기타
    - create, insert, delete, update,...

# SQL 구성


- Structured Query Language
    - 구조화된 **질의 언어**
    - 데이터베이스와 통신을 수행하는 언어
- 데이터베이스와 대화을 하기 위한 언어
- SQL = DQL + DDL + DCL + DML (+ TCL)
    - 4개의 서브 언어로 구성된다
    - 대소문자 구분 X

# DQL

- Data Query Language
- 데이터베이스에서 원하는 데이터를 가져오기 위한 쿼리
- 데이터 질의어
- SQL
    - SELECT

#### show databases

- 현재 서버에 어떤 데이터베이스가 존재하는지 출

```
    show databases;
```

#### use 데이터베이스명

- 사용할 데이터베이스 지정
- 지정 이후, 명시적으로 다른 디비를 지정하지 않으면 지속된다
- Tool에서는 디비를 클릭하면 전환(지정) 됨
```
    -- 데이터베이스 사용(지정)
    USE t1;
```

#### show 테이블명

- 데이터베이스내에 모든 테이블의 이름을 출력
```
    -- 모든 테이블 목록을 출력
    show tables;
```

#### DESCRIBE( or DESC) 테이블명

- 특정 테이블의 상세 정보 출력
```
    -- 특정 테이블의 구조(컬럼, 타입, null 여부, 기본값,)
    DESC city2;
    DESCRIBE country2;
```

#### SELECT

- 특정 테이블에서 필요한 데이터 가져오는 구문
- 가장 많이 사용(조회, 데이터 분석용 데이터 추출용도)

```
    SELECT select_express(조회 결과로 받을 내용(컬럼,..))
        [FROM table_referecnce]
        [WHERE condition ]
        [GROUP BY {col_name|express|postion} ]
        [HAVING condifion(1차결과에 대한 조건)]
        [ORDER BY 정렬(오름|내림)n개 ]
        [LIMIT [시작], 끝]
```

#### SELECT ~ FROM

- 특정 테이블로로 부터 데이터 획득

```
    -- city2의 모든 데이터를 가져오시오
    -- 데이터 shape (4079, 5)
    -- 모든 컬럼에 모든 데이터 추출
    SELECT *
    FROM city2;


    -- name 컬럼만 추출
    -- 컬럼명이 예약어와 동일하다면, 무난하게 넘어가는 경우 혹은 오류를 발생하는 경우가 존재 => `컬럼명` 안전하게 처리 가능
    SELECT `name` FROM city2;
    or
    SELECT name FROM city2;

    -- name, Population 컬럼만 추출
    -- 필요한 컬럼을 나열, 순서는 분석에 편리하게
    -- 컬럼의 순서는 분석에 용이하게 배치하여서 수행
    SELECT Population, `name` FROM city2;


    -- 컬럼의 이름을 짧게 줄이거나, 의미가 명확하게 변경
    -- 별칭 => as 별칭
    SELECT Population  AS popu, `name` AS nm FROM city2;
```

#### SELECT ~ FROM ~ WHERE ~

- 특정 조건에 해당되는 조회 결과만 가져온다
- 조건이 없으면 -> 전체데이터 -> 가져오는 시간이 길게 걸린다(데이터가 많을수록)

- 연산자를 통한 조건식
    - 조건 연산자( =, <, >, <=, >=, !=, <> )
    - 관계 연산자(NOT, AND, OR)
    - 연산자 조합

```
    -- 인구수 5000000 이상(>=)되는 도시를 추출하시오
    -- (24,5)
    SELECT *
    FROM city2
    WHERE Population >= 5000000;

    -- 인구수 5백만 이상(>=), 6백만 이하(<=)인 도시의 수?
    SELECT COUNT(*) AS cnt
    FROM city2
    WHERE Population >= 5000000 AND Population <= 6000000;

    -- 일치하지 않는다 (!=, <>)
    SELECT COUNT(*)
    FROM city2
    WHERE Population != 5598953;

    SELECT COUNT(*)
    FROM city2
    WHERE Population <> 5598953;

    -- 한국이거나 미국에 있는 모든 도시(city) 정보를 출력하시오
    -- 조건의 대상이 되는 컬럼 체크
    DESC city2;

    -- 쿼리
    SELECT *
    FROM city2
    WHERE CountryCode='KOR' OR CountryCode='USA';

    -- 한국의 도시들 중에서, 인구수가 백만 이상인 도시만 추출하시오
    SELECT *
    FROM city2
    WHERE CountryCode='KOR' AND Population >= 1000000;

    -- 조건의 배치에 따라서 수행 시간이 달라진다 ->
    -- 데이터 상황에 따라서는 조건 순서도 달라질수 있다
    SELECT *
    FROM city2
    WHERE Population >= 1000000 AND CountryCode='KOR';

```

#### SELECT ~ FROM ~ WHERE ~ BETWEEN

- BETWEEN
- 조건을 부여하는 컬럼의 데이터이가 **수치형**인 경우
- 연속형인 값 인경우
    - BETWEEN a AND b 조합 가능
    - a <= x <= b

```
    -- 인구수가 5백만이상, 6백만 이하인 도시 정보를 모두 추출(조회)하시오
    SELECT *
    FROM city2
    WHERE Population BETWEEN 5000000 AND 6000000;

    SELECT *
    FROM city2
    WHERE Population BETWEEN 5063499 AND 5598953;
```

#### IN

- 명목형 데이터 적합하게 사용
- 내가 나열한것만 조건의 대상이 되는 방식

```
    -- 도시 이름이 서울, 부산, 인천 인 경우 전체 정보를 출력
    -- 데이터의 대소문자도 별도의 조건없으면 구분 X
    SELECT *
    FROM city2
    WHERE NAME IN('seoul','pusan','inchon');

    -- 한국(KOR), 미국(USA), 일본(JPN), 프랑스(FRA) 도시들을
    -- 다 모아서 총수를 리턴
    SELECT COUNT(*) AS city_count
    FROM city2
    WHERE COUNTRYCODE  IN('KOR','USA','JPN','FRA');

    -- 한국(KOR), 미국(USA), 일본(JPN), 프랑스(FRA) 도시들중
    -- 인구수 6백만이상 인 도시의 이름, 인구수을 출력
    SELECT NAME, Population
    FROM city2
    WHERE COUNTRYCODE  IN('KOR','USA','JPN','FRA')
    AND Population >= 6000000;
```

#### 서브쿼리

- 쿼리문안에 쿼리문이 존재
- 단, 서브쿼리의 결과가 2개 이상인 경우 오류 발생 -> 단, 해결방안도 존재

```
    -- FR까지는 알겠는데 FR() 이 뒤값을 모르겠다(국가코드)
    -- 파리가 프랑스 도시인것을 아니까.
    -- 파리 => 국가코드 획득 = 도시 정보 출력
    -- 파리(paris) 도시 정보 출력
    SELECT countrycode FROM city2 WHERE NAME='paris';

    -- 프랑스에 속한 모든 도시 정보 출력
    -- 단, 국가코드를 모른다
    SELECT *
    FROM city2
    WHERE countrycode=(SELECT countrycode
                            FROM city2
                            WHERE NAME='paris');

    -- 서브쿼리의 결과가 2개 이상인 경우 오류
    SELECT *
    FROM city2
    WHERE District='New York';

    -- 국가코드가 6개 나옴
    SELECT CountryCode
    FROM city2
    WHERE District='New York';

    -- 서브쿼리의 결과가 1개 이상이므로 에러
    SELECT *
    FROM city2
    WHERE CountryCode=(SELECT CountryCode
                                FROM city2
                                WHERE District='New York');
```

##### ANY

- 서브쿼리의 결과가 여러개가 나왔다, 이중 한가지만 만족해도 사용 가능하게 처리하는 방식
- SOME, ANY 동일

```
    -- 서로 다른 결과값인 6개가 출력
SELECT Population
FROM city2
WHERE District='New York';

-- 오류
/*
SELECT *
FROM city2
WHERE Population > (SELECT Population
							FROM city2
							WHERE District='New York');
*/
    -- 해석 : 뉴욕주에 있는 모든 도시들의
    -- 인구수보다 많기만 하면 다 포함(하나만 일치해도 OK)
    SELECT *
    FROM city2
    WHERE Population > ANY (SELECT Population
                                FROM city2
                                WHERE District='New York');
                                
    SELECT *
    FROM city2
    WHERE Population > SOME (SELECT Population
                                FROM city2
                                WHERE District='New York');
                                
                                
    -- = ANY => IN과 같은 결과
    SELECT *
    FROM city2
    WHERE Population = ANY (SELECT Population
                                FROM city2
                                WHERE District='New York');
                                
                                
                                
                                
```

##### ALL

- 서브쿼리의 모든 결과를 다 만족해야 한다

```
    -- 가장 큰값보다 커야 한다(결론적)
    SELECT *
    FROM city2
    WHERE Population > ALL (SELECT Population
                                FROM city2
                                WHERE District='New York');
```

#### ORDER BY

- 조회 결과를 특정 조건에 맞게 정렬
- 기본값
    - ASC (오름차순)
    - 생략가능
- 기타값
    - DESC (내림차순)
- 형식
    - ORDER BY 컬럼명|조건 정렬

```
    -- 도시의 모든 정보를 인구 수의 오름차순으로 정렬하여 출력하시오
    -- 오름차순 : 작은값 => 큰값순 정렬
    SELECT *
    FROM city2
    ORDER BY population;

    SELECT *
    FROM city2
    ORDER BY population ASC;

    SELECT *
    FROM city2
    ORDER BY population DESC;

    -- 조합 (,)로 나열 : 명목형먼저 처리, 연속형을 나중에 처리
    -- 인구순은 내림차순, 국가코드는 오름차순
    -- => 내림차순만 처리됨
    SELECT *
    FROM city2
    ORDER BY population DESC, countrycode ASC;
    -- 국가코드는 오름차순, 인구순은 내림차순
    -- => 동일 국가 코드내에서 인구순 내림차순 처리됨
    SELECT *
    FROM city2
    ORDER BY countrycode ASC, population DESC;

    -- 인구순 내림차순, 한국만 처리
    SELECT *
    FROM city2
    WHERE countrycode='KOR'
    ORDER BY population DESC;

    -- 국가 면적(SurfaceArea)순 내림차순, country2 정보 출력,
    -- 국가명, SurfaceArea 출력
    -- (239, 2)
    DESC country2;
    SELECT NAME, SurfaceArea
    FROM country2
    ORDER BY SurfaceArea DESC;
```

### select ~ distinct ~ from

- 중복 제거
    - 중복된 데이터를 1개씩만 출력
    - 특정 컬럼과 조합으로 사용

```
    -- 모든 국가코드를 출력하시오, 1개씩만
    -- 컬럼의 데이터가 몇몇의 데이터로 구성되는 유형, 범주형일 경우 적합
    -- city2에서 국가 코드 출력
    -- (4027,) => (232,)
    SELECT distinct countrycode
    FROM city2;
```

### LIMIT

- 출력개수를 제한
- 형식
    - limit n : 상위부터 n개까지만 출력
    - limit n, m :  
- 데이터베이스의 조회시 처리량 개선

```
    -- 국가 면적순으로 내림차순 정렬, 상위 10개만 출력하시오(이름, 면적 출력)
    SELECT NAME, SurfaceArea
    FROM country2
    ORDER BY SurfaceArea DESC
    LIMIT 10;

    -- 리미트를 활용하여 게시판에서 출려되는 데이터를 가져오기
    -- 1페이지당 데이터는 10개씩 출력
    -- 1페이지는 => limit (1-1)*10, 10 => limit 시작위치, 페이지당데이터수
    SELECT NAME, SurfaceArea
    FROM country2
    ORDER BY SurfaceArea DESC
    LIMIT 0, 10;
    -- LIMIT (페이지번호-1)*(페이지당출력되는데이터수=A), A;
```

### GROUP BY : 집계

- 컬럼을 그룹으로 집계
- 집계함수들와 같이 활용
    - AVG()
    - MIN()
    - MAX()
    - COUNT()
    - COUNT( DISTINCT )
    - STDEV()
    - VARIANCE()
- 집계된 데이터는 별칭을 사용하여 관리

```
    -- 같은 국가코드를 가진 데이터끼리 집계
    -- GROUP BY CountryCode
    -- 최소인구수 탑 10을 오름차순으로 정렬하여 출력하시오
    -- 출력 내용, 국가코드, 도시명, 인구수 <= 최소 인구를 가진 도시

    -- 국가별로 가장 인구수가 작은 도시들중 하위 탑 10을 출력하시오

    -- 집계 => 국가별 대표값이 추출되었다
    -- 국가별 가장 작인 도시의 인구수,
    -- 도시명은 국가별 최초값(추측), <- 의도한 결과는 아님
    -- 국가코드
    -- (232, 5)
    -- 리뷰때 도시명도 가장 인구가 작은 도시명으로 수정할것
    SELECT CountryCode, NAME, MIN(Population) AS min_popu
    FROM city2
    GROUP BY CountryCode
    ORDER BY min_popu  ASC
    LIMIT 10;

    -- 국가별 도시 인구 평균을 구해서, 내림차순 정렬,
    -- 상위 탑 5위 10위까지 출력하시오 => 비교 상위 15개도 출력
    -- 출력값 국가코드, 평균인구수( avg_popu )
    SELECT CountryCode, AVG(Population) AS avg_popu
    FROM city2
    GROUP BY CountryCode
    ORDER BY avg_popu  DESC
    LIMIT 4, 10;
    -- LIMIT 15;
```

### HAVING

- 조건 부여
    - WHERE : 최초 결과 집합에 대한 조건
    - HAVING : 최초 혹은 집계 이후 데이터에 대한 조건
        - WHERE ~ HAVING ~
        - WHERE ~ GROUP BY ~ HAVING ~

```
    -- 국가별로 인구가 가장 만은 도시(그룹 대표)들을 모아서
    -- 내림차순 정렬
    SELECT CountryCode, max(Population) AS max_popu
    FROM city2
    GROUP BY CountryCode
    ORDER BY max_popu DESC;

    -- 위의 결과에서 인구 9백만 이상만 출력하시오
    SELECT CountryCode, max(Population) AS max_popu
    FROM city2
    GROUP BY CountryCode
    HAVING max_popu >= 9000000
    ORDER BY max_popu DESC;
```

### ROLLUP

- GROUP BY 와 같이 사용
    - GROUP BY ~ with ROLLUP
- 중간 집계

```
    -- 같은 국가코드를 가진 데이터들의 도시의 인구수를 합산(SUM())하여
    -- 해당 국가코드의 데이터 나열이 끝나면 중간결과(중간합계) 넣어서 출력    
    SELECT countrycode, NAME, SUM(Population) AS sum_popu
    FROM city2
    GROUP BY countrycode, NAME WITH ROLLUP
    HAVING countrycode='KOR';
    -- ORDER BY sum_popu DESC; -- 오류발생(리뷰시간에 해보세요)
```

### JOIN

- 데이터베이스내에서 다른 테이블의 레코드와 조합(결합)해서, 새로운 결과 집합을 생성

```
    -- 대상 테이블의 총 데이터수
    SELECT COUNT(*) FROM city2;     # (4079, )
    SELECT COUNT(*) FROM country2;  # (239,)

    -- 2개 테이블 조인
    -- city2, country2 테이블 조인-> 공통된 값을 가진 컬럼 존재해야함
    -- city2.countrycode = country2.code 일차하는것으로 확인
    DESC city2;
    DESC country2;
    SELECT * FROM country2 LIMIT 1;
    -- 조인, 조건이 일치하는 레코드 끼리 조인 -> 새로운 데이터셋 구성
    -- 왼쪽(시작, 기준 테이블) 의 레코드수로 결과가 나옴(누락없음)
    -- 조건이 되는 컬럼은 중복으로 노출( 단, 컬럼을 지정하면 처리 가능)
    SELECT *
    FROM city2
    JOIN country2
    ON city2.countrycode = country2.code;

    -- 개선, 테이블명 별칭 처리
    SELECT *
    FROM city2 AS A
    JOIN country2 AS B
    ON A.countrycode = B.code;

    -- 개선, 필요한 데이터만 추출
    SELECT A.Name, B.Code, A.District, A.Population, B.SurfaceArea
    FROM city2 AS A
    JOIN country2 AS B
    ON A.countrycode = B.code;


    -- countrylanguage의 데이터수가 국가 코드수와 동일하지 않다
    -- 국가별로 사용하는 언어가 1개가 아니다
    select COUNT(*) from countrylanguage;

    -- 한국에 대한 언어 데이터 출력
    select *
    from countrylanguage
    WHERE countrycode='JPN';


    -- 3개 테이블 조인
    -- city2, countrycode, countrylanguage
    -- (4079, 24)
    -- 국가별로 사용 언어가 1개가 아니므로, 비대칭적으로 데이터수 증가
    SELECT *
    FROM city2 AS A
    JOIN country2 AS B ON A.countrycode = B.code
    JOIN countrylanguage AS C ON A.countrycode = C.countrycode;
```

```
    -- (inner) join, left join, rigth join
    -- full ->  union과 결합해서 처리 가능 (mysql)
    -- (4079,5)
    SELECT A.Name, B.Code, A.District, A.Population, B.SurfaceArea
    FROM city2 AS A
    JOIN country2 AS B
    ON A.countrycode = B.code;

    SELECT A.Name, B.Code, A.District, A.Population, B.SurfaceArea
    FROM city2 AS A
    inner JOIN country2 AS B
    ON A.countrycode = B.code;

    SELECT A.Name, B.Code, A.District, A.Population, B.SurfaceArea
    FROM city2 AS A
    left JOIN country2 AS B
    ON A.countrycode = B.code;

    -- 결과가 일부 다른다(기준이 오른쪽)
    SELECT A.Name, B.Code, A.District, A.Population, B.SurfaceArea
    FROM city2 AS A
    right JOIN country2 AS B
    ON A.countrycode = B.code;


```

<img src="https://firebasestorage.googleapis.com/v0/b/repo-27c12.appspot.com/o/sql%2Fsql_join.png?alt=media&token=9779d791-580e-44dc-8e0f-05d17a58148b">

### union, union all

- 두개 이상 결과 집합을 합친다
- 단, 컬럼수, 이름 동일해야 한다
- union, union all의 차이점
    - union은 중복 제거
    - union all 모든 데이터를 보여줌(중복 제거X)

```
    -- 이름, 인구수 출력, city2, 한국만 대상, 인구수 9백만 이상
    -- 이름, 인구수 출력, city2, 한국만 대상, 인구수 8십만 이상
    -- 2개의의 결과를 합치시오
    SELECT NAME, population
    FROM city2
    WHERE countrycode='KOR' AND population >= 9000000
    UNION
    SELECT NAME, population
    FROM city2
    WHERE countrycode='KOR' AND population >= 800000;

    -- seoul 두번 데이터가 출현 (중복 제거 x)
    SELECT NAME, population
    FROM city2
    WHERE countrycode='KOR' AND population >= 9000000
    UNION all
    SELECT NAME, population
    FROM city2
    WHERE countrycode='KOR' AND population >= 800000;

```

### 주요내장함수 - 전처리용/정제

#### 문자열

#### 수학

#### 시간

# DDL

- CREATE
- ALTER
- INDEX
- DROP
- VIEW

# DML


- INSERT
- UPDATE
- DELETE
- TRUNCATE
- DROP

# DCL

- GRANT
- REVOKE