스키마는 데이터베이스의 구조를 만드는 디자인

- NoSQL
    - NoSQL : Not Only SQL
    - RDBMS의 한계를 극복하기 위해 만들어진 데이터 베이스
    - 확장성이 좋음 - 데이터의 분산처리 용이
    - 데이터 저장이 유연함 - RDBMS와 다르게 구조의 변경이 불필요
    - 스키마(Schema) 및 Join이 없음
    - Collection 별로 관계가 없기 때문에 모든 데이터가 들어있어야 함
    - 저장되는 데이터는 Key- Value 형태의 JSON 포멧을 사용
    - Select는 RDBMS 보다 느리지만 Insert가 빨라 대용량 데이터 베이스에 많이 사용됨 트랜젝션(transaction)이 지원되지 않음 (동시수정에 대한 신뢰성이 지원되지 않음)

In [2]:
# 조인이 없음. 관계가 없기 때문에.
# 저장되는 형태는 키 밸류 형태
# 저장은 빠르고 가져오는 건 느리다.
    # 빅데이터에서 뜬 이유는 로그 데이터가 많이 수집되기 때문에 인서트가 빨리돼야 함
    # RDBMS는 인서트가 느리다. 서로 연결돼 있고 해서 하나 넣으면 여기저기 업데이트해줘야 한다
    # 그런데 노sql은 넣으면 넣는대로 쌓아놓는다
# 트랜잭션은 서로다른 atm기에서 한번에 출금이 안 되는 것을 생각하면 된다. 트랜잭션이 안 된다는 것

In [5]:
# 판다스는 데이터를 램에 저장해서 다루지만 데이터베이스는 롬에 저장해서 다룬다
# 데이터가 너무 많거나 용량이 많으면 mysql같은 데이터베이스관리시스템을 써야 한다
# 데이터가 1테라가 넘어가면 빅데이터. 스파크 같은 거 쓰는 것
# 판다스보다 mysql이 필터링해서 데이터 가져오는 것은 빠르다. 입출력(IO) 시간은 더 들어갈 수 있지만

In [6]:
# source tree 참고, git 쉽게 쓸 수 있다. 이것만 쓰면 커맨드 다 까먹는다

In [None]:
# Server - Database - Table

# 1. 데이터 베이스

SHOW DATABASES # 현재 데이터 베이스 확인
# 변수는 소문자를 쓰고, 커맨드는 대문자를 쓰는 것을 원칙. 소문자로 써도 상관 없다. 

# 생성
CREATE DATABASE test

# 선택
USE test

# 현재 확인
SELECT DATABASE()

# 2. Table
CREATE TABLE user1(
	user_id INT,
	name VARCHAR(20),
	email VARCHAR(30),
	age INT(3),
	rdate DATE
)

# 제약 조건 걸어줄 수 있다
CREATE TABLE user2(
	user_id INT PRIMARY KEY AUTO_INCREMENT, # 중복되는 데이터가 들어갈 수 없다는 unique 조건과 Null 값이 들어갈 수 없다는 Not Null 조건을 같이 가지고 있는 프라이머리 제약 조건
	# AUTO_INCREMENT는 데이터 없으면 1씩 증가하게끔 숫자로 자동으로 넣어준다	
	name VARCHAR(20) NOT NULL,
	email VARCHAR(30) UNIQUE NOT NULL,
	age INT(3) DEFAULT 30, # 데이터를 설정하지 않으면 자동으로 30이 들어간다
	rdate TIMESTAMP # 현재 시간이 자동으로 들어가는 데이터 타입, 한국 시간이 아니라 표준시로
)

In [None]:
# 2. 수정 Alter

# 2-1 데이터 베이스
SHOW variables like "character_set_database"
ALTER DATABASE test CHARACTER SET = utf8 # latin에서 utf8로 변경

# 2-2 테이블
ALTER TABLE user2 ADD tmp TEXT
ALTER TABLE user2 MODIFY COLUMN tmp INT(3)
ALTER TABLE user2 DROP tmp 

In [None]:
# 3. Drop

# 3-1 데이터 베이스 삭제
CREATE DATABASE tmp
DROP DATABASE tmp
SHOW DATABASES

# 3-2 테이블
DROP TABLE user3
SELECT DATABASE()

# 4. Insert
INSERT INTO user1(user_id, name, email, age, rdate)
VALUE(2, "peter", "peter@gmail.com", 32, now()),
(3, "andy", "andy@gmail.com", 33, now()),
(4, "bread", "bread@gmail.com", 23, now()),
(5, "pete", "pete@gmail.com", 44, now())

# 5. SELECT : 데이터 조회
SELECT user_id, name, age
FROM user1

SELECT * # 모든 컬럼 데이터 전체 
FROM user1

SELECT user_id as "ID", name as "UserName", age as "AGES" # 가져올 때 컬럼명 지정
FROM user1

# DISTINCT : 중복 제거
SELECT DISTINCT(name)
FROM user1

# WHERE : 조건 검색
SELECT DISTINCT(name)
FROM user1
WHERE age >= 30

SELECT *
FROM user1
WHERE age > 20 AND age < 40 # AND OR 논리 연산자를 쓸 수 있다

# BETWEEN A AND B
SELECT *
FROM user1
WHERE age BETWEEN 20 AND 39

# ORDER BY 정렬
SELECT *
FROM user1
ORDER BY age ASC # 나이 순 정렬

SELECT *
FROM user1
ORDER BY age DESC # 내림차순, 안 써주면 자동으로 오름차순

SELECT *
FROM user1
ORDER BY name, age DESC # 이름으로 오름차순 정렬하고 같은 애들끼리는 나이로 내림차순 정렬하는 것

# 나이가 20세에서 40세 사이에 있는 사용자를 이름 순으로 정렬하고 중복 데이터를 제거해서 이름만 출력, 한번 해볼 것
SELECT DISTINCT(name)
FROM user1
WHERE age BETWEEN 20 and 39
ORDER BY name DESC

In [None]:
# concat
select name, age, concat(name, "(", age, ")") as "name_age" # 괄호 추가해줄 수도 있다
from user1

# like : where 절에서 특정 문자열이 들어간 데이터 조회할 때 사용
select *
from user1
-- where email like "%jin@gmail.%"
-- where email like "p%" # 제일 앞에 p가 오는 데이터 선택
# %의 의미는 문자가 있거나 없거나를 찾는 것
where email not like "peter%"

# in : 여러 개의 조건을 조화할 때 사용
select *
from user1
/*where name="andy" or name="peter" or name = "po"*/
where name in ("andy", "peter", "po") # 더 간단하게 표현 가능

# 서브 쿼리 맛보기
select *
from user1
where name in (
	select distinct(name)
	from user1
	where age > 30
)

#LIMIT
select *
from user1
limit 3 # 가장 상단에 있는 3개의 데이터 출력

select *
from user1
limit 3, 5 # 3번째부터 밑으로 5개 출력
# 잘못해서 데이터가 날아갈 수 있는 경우를 대비해 limit 많이 쓴다. 날아가도 일부만 날아가니까

In [None]:
# 6. UPDATE
UPDATE user1
SET age=20, rdate="2019-12-12"
WHERE age BETWEEN 20 AND 29 # where절 안 써주면 회사 망하는 것

select *
from user1
WHERE age BETWEEN 20 AND 29

In [None]:
# 7. delete
DELETE FROM user1
WHERE rdate > "2019-11-01"

select *
from user1

In [None]:
# quiz1
select distinct(continent)
from country

# quiz2
select Name, Population
from city
where CountryCode = "KOR" AND Population >= 1000000
order by Population DESC

# quiz3
select Name, CountryCode, Population
from city
where Population BETWEEN 8000000 AND 10000000
order by Population DESC

# quiz4
select Code, concat(Name, "(", IndepYear, ")"), Continent, Population
from country
where IndepYear BETWEEN 1940 AND 1950
order by IndepYear ASC, Population DESC

# quiz5
select CountryCode, Language, Percentage/100
from countrylanguage
where Language in ("English", "Korean", "Spanish")
and Percentage >= 95
order by Percentage DESC

# quiz6
select Code, Name, Continent, GovernmentForm, Population
from country
where Code like "A%" and GovernmentForm like "%Republic%"

In [None]:

# city 테이블에서 나라별 도시의 개수를 출력
select CountryCode, count(CountryCode) as count
from city
group by CountryCode

# countrylanguage 테이블에서 전체 언어의 개수를 출력
select count(distinct(Language))
from countrylanguage

# 대륙별 인구 수와 GNP의 최대값을 출력
-- select continent, max(population), max(GNP) # max 빠지면 어떻게 처리할지 몰라 에러난다, sum으로 바꿔줄수도
select continent, sum(population), sum(GNP), sum(GNP) / sum(population)
from country
group by continent

# 대륙별 전체인구를 구하고 5억 이상인 대륙만 출력
# Having: group by가 실행되고 난 결과에 조건을 추가
select continent, sum(population) as data
from country
group by continent
having data >= 500000000
# where는 select from where 순으로 와야 한다, having은 group by 한 거에서 조건 주려 할 때 쓴다