# SQL 활용 데이터 프레임 생성

Python에서 Pandas와의 연계를 위한 `MySQL과의 연동`은 다양한 방법이 있지만 
그 중에서 `pymysql` 과 `SQLAlchemy` 가 가장 널리 사용된다.

## 필요한 패키지 참조
- `pymysql`과 `sqlalchemy` 패키지가 미리 설치되어 있어야 한다.

In [39]:
# 필요한 패키지 가져오기
import pymysql
from sqlalchemy import create_engine
from pandas import DataFrame
from pandas import read_sql, read_sql_table

## 1. `pymysql` 사용
- `pymysql`은 가장 기본적인 python MySQL 관련 패키지
- SQL문을 직접적으로 사용할 수 있다
### 1) 데이터베이스 접속
- 우선 아래를 실행
```
mysql 및 WorkBench 설치
- docker run --name board_mysql -e MYSQL_ROOT_PASSWORD=1234 -d -p 3406:3306 mysql
- 원래는 "docker run --name board_mysql -e MYSQL_ROOT_PASSWORD=1234 -d -p 3306:3306 mysql" 인데 학원에서는 공용컴퓨터이다 보니 다른 사람이 그 컴퓨터에 docker가 아닌 컴퓨터에 이미 깔아놓아서 같은 이름으로 설치하지 못하게 하는 것 --> 그래서 3306을 3406으로 변환해서 설치했음
- 3406으로 했어도 껍데기만 3406으로 저장해놨을 뿐 안에서는 3306으로 인식 될 것임. 왜냐하면 mysql개발자가 최초에 만들 때 3306으로 만들었기 때문임

docker 컨테이너 내부로 접속
- docker ps -a
- docker start 컨테이너ID
- docker exec -it 컨테이너ID(또는 컨테이너명) mysql -u root -p 1234*****
    - 여기서 -p 다음을 입력하지 않고 enter 누르기 
    - 왜냐하면 history보면 다른 사람이 볼 수도 있기 때문
    - *****빼고 enter 누른 다음 enter password: 뜨면 1234 입력하고 enter
- -u : user
- -p : password

docker exec -it board_mysql mysql -u root -p
```

In [40]:
dbcon = pymysql.connect(host="127.0.0.1",   # 서버주소 - "127.0.0.1" 또는 "localhost"
                        port = 3406,        # 포트번호
                        user = "root",      # 계정이름
                        password = "1234",  # 비밀번호
                        db = "board",       # 데이터베이스 이름
                        charset = "utf8"    # 인코딩
                        )

### 2) 데이터 조회

#### <기본 사용 방법>
- 테이블의 각 record를 튜플로 표현하는 리스트 객체를 얻을 수 있다

##### 데이터 조회를 위한 `커서 객체` 생성

In [41]:
cursor = dbcon.cursor()

##### 데이터 조회를 위한 `sql문 처리`

In [42]:
sql = "SELECT * FROM board_main_post"
cursor.execute(sql)         # 쿼리문 실행
result = cursor.fetchall()  # 데이터 반환받기
result

((1,
  'I live for you alone.',
  'This is my desire to honour you.',
  datetime.datetime(2023, 6, 15, 1, 26, 25, 979626),
  datetime.datetime(2023, 6, 15, 6, 6, 34, 734273),
  2),
 (2,
  'Parenting',
  "Parenting is difficult. Children don't follow your instructions.",
  datetime.datetime(2023, 6, 15, 2, 41, 40, 198218),
  datetime.datetime(2023, 6, 15, 2, 41, 40, 198349),
  1),
 (3,
  'hello',
  'My love how are you?',
  datetime.datetime(2023, 6, 15, 5, 46, 3, 855349),
  datetime.datetime(2023, 6, 15, 6, 5, 57, 403641),
  3),
 (4,
  'Thinking',
  'I am thinking',
  datetime.datetime(2023, 6, 15, 6, 21, 47, 528438),
  datetime.datetime(2023, 6, 15, 6, 21, 47, 528538),
  1))

#### <`딕셔너리 형태`로 데이터 조회>
- 데이터 조회를 위한 커서 객체 생성: 객체 생성시 `파라미터를 전달`해야 된다
##### 데이터 조회를 위한 `커서 객체` 생성 (파라미터에 `pymysql.cursors.DictCursor` 포함)

In [43]:
cursor = dbcon.cursor(pymysql.cursors.DictCursor)

##### 데이터 조회를 위한 `sql문 처리`

In [44]:
sql = "SELECT * FROM board_main_post"
cursor.execute(sql)         # 쿼리문 실행
result = cursor.fetchall()  # 데이터 반환받기
result

[{'id': 1,
  'title': 'I live for you alone.',
  'contents': 'This is my desire to honour you.',
  'created_at': datetime.datetime(2023, 6, 15, 1, 26, 25, 979626),
  'updated_at': datetime.datetime(2023, 6, 15, 6, 6, 34, 734273),
  'author_id': 2},
 {'id': 2,
  'title': 'Parenting',
  'contents': "Parenting is difficult. Children don't follow your instructions.",
  'created_at': datetime.datetime(2023, 6, 15, 2, 41, 40, 198218),
  'updated_at': datetime.datetime(2023, 6, 15, 2, 41, 40, 198349),
  'author_id': 1},
 {'id': 3,
  'title': 'hello',
  'contents': 'My love how are you?',
  'created_at': datetime.datetime(2023, 6, 15, 5, 46, 3, 855349),
  'updated_at': datetime.datetime(2023, 6, 15, 6, 5, 57, 403641),
  'author_id': 3},
 {'id': 4,
  'title': 'Thinking',
  'contents': 'I am thinking',
  'created_at': datetime.datetime(2023, 6, 15, 6, 21, 47, 528438),
  'updated_at': datetime.datetime(2023, 6, 15, 6, 21, 47, 528538),
  'author_id': 1}]

### 3) 조회 결과를 데이터프레임으로 변환

In [45]:
df = DataFrame(result)
df

Unnamed: 0,id,title,contents,created_at,updated_at,author_id
0,1,I live for you alone.,This is my desire to honour you.,2023-06-15 01:26:25.979626,2023-06-15 06:06:34.734273,2
1,2,Parenting,Parenting is difficult. Children don't follow ...,2023-06-15 02:41:40.198218,2023-06-15 02:41:40.198349,1
2,3,hello,My love how are you?,2023-06-15 05:46:03.855349,2023-06-15 06:05:57.403641,3
3,4,Thinking,I am thinking,2023-06-15 06:21:47.528438,2023-06-15 06:21:47.528538,1


### 4) 데이터프레임에 대한 인덱스 설정

In [46]:
df.set_index('id', inplace= True)
df

Unnamed: 0_level_0,title,contents,created_at,updated_at,author_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,I live for you alone.,This is my desire to honour you.,2023-06-15 01:26:25.979626,2023-06-15 06:06:34.734273,2
2,Parenting,Parenting is difficult. Children don't follow ...,2023-06-15 02:41:40.198218,2023-06-15 02:41:40.198349,1
3,hello,My love how are you?,2023-06-15 05:46:03.855349,2023-06-15 06:05:57.403641,3
4,Thinking,I am thinking,2023-06-15 06:21:47.528438,2023-06-15 06:21:47.528538,1


### 5) 데이터 입력, 수정, 삭제

In [51]:
# 입력 INSERT INTO

sql = """INSERT INTO board_main_post (title, contents, created_at, updated_at) 
         VALUES ('pandas test', '이것은 테스트 입니다.', now(), now())"""
print(sql)

rows = cursor.execute(sql)
print("%d개의 행이 저장됨" % rows)
print("생성된 PK: %d" % cursor.lastrowid)

# 처리 결과를 실제로 반영함 -> commit해야지 적용이 된다
dbcon.commit()

# 되돌리기
# -> 이미 commit()한 내역은 적용안됨
# dbcon.rollback()

INSERT INTO board_main_post (title, contents, created_at, updated_at) 
         VALUES ('pandas test', '이것은 테스트 입니다.', now(), now())
1개의 행이 저장됨
생성된 PK: 8


In [55]:
# 입력 결과 확인
sql = "SELECT * FROM board_main_post"
cursor.execute(sql)         # 쿼리문 실행
result = cursor.fetchall()  # 데이터 반환받기
df2 = DataFrame(result)
df2.set_index('id', inplace= True)
df2

Unnamed: 0_level_0,title,contents,created_at,updated_at,author_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,I live for you alone.,This is my desire to honour you.,2023-06-15 01:26:25.979626,2023-06-15 06:06:34.734273,2.0
2,Parenting,Parenting is difficult. Children don't follow ...,2023-06-15 02:41:40.198218,2023-06-15 02:41:40.198349,1.0
3,hello,My love how are you?,2023-06-15 05:46:03.855349,2023-06-15 06:05:57.403641,3.0
4,Thinking,I am thinking,2023-06-15 06:21:47.528438,2023-06-15 06:21:47.528538,1.0
7,pandas test,이것은 테스트 입니다.,2024-01-07 13:29:26.000000,2024-01-07 13:29:26.000000,
8,pandas test,이것은 테스트 입니다.,2024-01-07 13:30:30.000000,2024-01-07 13:30:30.000000,


In [56]:
# 수정 UPDATE ... SET

sql = """UPDATE board_main_post
         SET title = '수정된 제목',
             contents = '수정된 내용',
             updated_at = now()
        WHERE id = 7"""
print(sql)

rows = cursor.execute(sql)
print("%d개의 행이 수정됨" % rows)

# 처리 결과를 실제로 반영함 -> commit해야지 적용이 된다
dbcon.commit()

UPDATE board_main_post
         SET title = '수정된 제목',
             contents = '수정된 내용',
             updated_at = now()
        WHERE id = 7
1개의 행이 수정됨


In [57]:
# 수정 결과 확인
sql = "SELECT * FROM board_main_post"
cursor.execute(sql)         # 쿼리문 실행
result = cursor.fetchall()  # 데이터 반환받기
df3 = DataFrame(result)
df3.set_index('id', inplace= True)
df3

Unnamed: 0_level_0,title,contents,created_at,updated_at,author_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,I live for you alone.,This is my desire to honour you.,2023-06-15 01:26:25.979626,2023-06-15 06:06:34.734273,2.0
2,Parenting,Parenting is difficult. Children don't follow ...,2023-06-15 02:41:40.198218,2023-06-15 02:41:40.198349,1.0
3,hello,My love how are you?,2023-06-15 05:46:03.855349,2023-06-15 06:05:57.403641,3.0
4,Thinking,I am thinking,2023-06-15 06:21:47.528438,2023-06-15 06:21:47.528538,1.0
7,수정된 제목,수정된 내용,2024-01-07 13:29:26.000000,2024-01-07 13:37:51.000000,
8,pandas test,이것은 테스트 입니다.,2024-01-07 13:30:30.000000,2024-01-07 13:30:30.000000,


In [58]:
# 삭제 DELETE

sql = "DELETE FROM board_main_post WHERE id >= 5"
print(sql)

rows = cursor.execute(sql)
print("%d개의 행이 삭제됨" % rows)

# 처리 결과를 실제로 반영함 -> commit해야지 적용이 된다
dbcon.commit()

DELETE FROM board_main_post WHERE id >= 5
2개의 행이 삭제됨


In [59]:
# 삭제 결과 확인
sql = "SELECT * FROM board_main_post"
cursor.execute(sql)         # 쿼리문 실행
result = cursor.fetchall()  # 데이터 반환받기
df4 = DataFrame(result)
df4.set_index('id', inplace= True)
df4

Unnamed: 0_level_0,title,contents,created_at,updated_at,author_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,I live for you alone.,This is my desire to honour you.,2023-06-15 01:26:25.979626,2023-06-15 06:06:34.734273,2
2,Parenting,Parenting is difficult. Children don't follow ...,2023-06-15 02:41:40.198218,2023-06-15 02:41:40.198349,1
3,hello,My love how are you?,2023-06-15 05:46:03.855349,2023-06-15 06:05:57.403641,3
4,Thinking,I am thinking,2023-06-15 06:21:47.528438,2023-06-15 06:21:47.528538,1


### 6) 데이터베이스 접속 해제

In [60]:
cursor.close()
dbcon.close()

## 2. `SQLAlchemy` 사용
### 1) 데이터베이스 접속
- 데이터베이스 접속 패키지 설치 필요
    - 주의: pip 명령어로 설치가 안되고 여기서 이렇게 설치해야 됨

In [35]:
pymysql.install_as_MySQLdb()
import MySQLdb

### 2) 접속 문자열 생성
- `"mysql+mysqldb://계정이름:비밀번호@:포트번호/데이터베이스이름?charset=인코딩"`

In [36]:
conStr = "mysql+mysqldb://root:1234@127.0.0.1:3406/board?charset=utf8"
conStr

'mysql+mysqldb://root:1234@127.0.0.1:3406/board?charset=utf8'

### 3) 데이터베이스 접속하기

In [67]:
engine = create_engine(conStr)
conn = engine.connect()

### 4) 데이터 조회하기
#### 방법1: SQL문 사용하기
- `read_sql()`

In [68]:
df = read_sql("SELECT * FROM board_main_post", 
              index_col = "id", 
              con=conn) # 접속 객체
df

Unnamed: 0_level_0,title,contents,created_at,updated_at,author_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,I live for you alone.,This is my desire to honour you.,2023-06-15 01:26:25.979626,2023-06-15 06:06:34.734273,2
2,Parenting,Parenting is difficult. Children don't follow ...,2023-06-15 02:41:40.198218,2023-06-15 02:41:40.198349,1
3,hello,My love how are you?,2023-06-15 05:46:03.855349,2023-06-15 06:05:57.403641,3
4,Thinking,I am thinking,2023-06-15 06:21:47.528438,2023-06-15 06:21:47.528538,1


#### 방법2: 테이블의 데이터를 직접 가져오기
- `read_sql_table()`
- 장점: 쉽다
- 단점: read_sql_table()을 사용할 경우 WHERE절 사용 불가능
    - 그러나 dataframe으로 갖고 와서 pandas로 조건 처리해도 상관 없어서 괜찮음

In [70]:
# 모든 데이터 조회
df2 = read_sql_table ('board_main_post', 
                      con=conn)             # 접속 객체
df2

# 인덱스를 지정한 조회
df3 = read_sql_table('board_main_post', index_col = 'id', con=conn)
df3

# 특정 컬럼만 가져오기
df4 = read_sql_table('board_main_post', index_col = 'id', columns=['title', 'contents'], con=conn)
df4

Unnamed: 0_level_0,title,contents
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,I live for you alone.,This is my desire to honour you.
2,Parenting,Parenting is difficult. Children don't follow ...
3,hello,My love how are you?
4,Thinking,I am thinking


### 5) 데이터 내보내기

- name = '테이블명' 이름으로 기존 테이블이 있는 경우 -> 해당 테이블의 컬럼명에 맞게 데이터를 넣을 수 있음
- if_exists = 'append' 옵션을 넣는 경우 -> 기존 테이블에 데이터를 추가로 넣음
- if_exists = 'fail' 옵션을 넣는 경우 -> 기존 테이블이 있으면, 아무일도 하지 않음
- if_exists = 'replace' 옵션을 넣는 경우 -> 기존 테이블이 있으면, 기존 테이블 삭제 후 다시 테이블 생성 후 새로운 데이터 입력

이미 만들어진 테이블이 없을 경우 -> name = '테이블명' 이름으로 테이블 자동생성, 데이터 입력 가능
테이블이 자동으로 만들어지므로, 테이블 구조가 최적화되지 않아 자동으로 테이블 만드는 것은 비추천

In [71]:
df4.to_sql(name='new_table', con=conn, if_exists='replace', index=False)
conn.commit()

##### 4) 데이터베이스 접속 해제

In [72]:
conn.close()