# pymysql
- mysql을 python에서 사용할 수 있는 라이브러리
- 코드 작성 순서
    - pymysql 모듈 import
    - pymysql.connect() 메소드를 사용하여 연결
    - cursor() 메소드를 호출해서 가져옴
    - fetchall(), fetchone(), fetchmany() 메소드로 코드에서 활용
    - DML 문장 실행 후 commit() 메소드로 데이터 확정
    - close() 메소드로 DB 연결 닫음

### 데이터베이스 연동하기

In [2]:
# pymysql 설치
# !pip install pymysql

Collecting pymysql
[?25l  Downloading https://files.pythonhosted.org/packages/4f/52/a115fe175028b058df353c5a3d5290b71514a83f67078a6482cff24d6137/PyMySQL-1.0.2-py3-none-any.whl (43kB)
[K    100% |████████████████████████████████| 51kB 1.7MB/s ta 0:00:01
[31mtwisted 18.7.0 requires PyHamcrest>=1.9.0, which is not installed.[0m
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.0.2
[33mYou are using pip version 10.0.1, however version 21.2.4 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [3]:
# You should consider upgrading via the 'pip install --upgrade pip' command.
! pip install --upgrade pip

Collecting pip
[?25l  Downloading https://files.pythonhosted.org/packages/ca/31/b88ef447d595963c01060998cb329251648acf4a067721b0452c45527eb8/pip-21.2.4-py3-none-any.whl (1.6MB)
[K    100% |████████████████████████████████| 1.6MB 14.0MB/s ta 0:00:01  7% |██▌                             | 122kB 1.6MB/s eta 0:00:01
[31mtwisted 18.7.0 requires PyHamcrest>=1.9.0, which is not installed.[0m
[?25hInstalling collected packages: pip
  Found existing installation: pip 10.0.1
    Uninstalling pip-10.0.1:
      Successfully uninstalled pip-10.0.1
Successfully installed pip-21.2.4


In [4]:
# pymysql import 
import pymysql

In [10]:
# mysql 연결
conn = pymysql.connect(host = '3.38.70.165', # DB IP (local에 접속하는 경우 : localhost)
                     port = 3306, # 포트 번호
                     user = 'min',
                     passwd = 'yumin!', # mySQL 접속 계정 패스워드
                     db = 'movie', # 데이터베이스명
                     charset='utf8') # 한글 깨짐 방지

In [11]:
# 데이터베이스 연결 확인
conn

<pymysql.connections.Connection at 0x7f683f73d438>

In [12]:
# DB 조회 결과를 dictionary로 저장
curs = conn.cursor(pymysql.cursors.DictCursor)

### CSV 파일 불러오기

In [15]:
# pandas 라이브러리 import 
import pandas as pd

# Data/movies_train 파일과 Data/movies_test 파일 불러오기
movie_tr = pd.read_csv('./Data/movies_train.csv')
movie_te = pd.read_csv('./Data/movies_test.csv')

In [17]:
# head(3): 상위 3개의 데이터 행만 확인
movie_tr.head(3)

Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor,box_off_num
0,개들의 전쟁,롯데엔터테인먼트,액션,2012-11-22,96,청소년 관람불가,조병옥,,0,91,2,23398
1,내부자들,(주)쇼박스,느와르,2015-11-19,130,청소년 관람불가,우민호,1161602.5,2,387,3,7072501
2,은밀하게 위대하게,(주)쇼박스,액션,2013-06-05,123,15세 관람가,장철수,220775.25,4,343,4,6959083


In [18]:
movie_te.head(3)

Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor
0,용서는 없다,시네마서비스,느와르,2010-01-07,125,청소년 관람불가,김형준,300529.0,2,304,3
1,아빠가 여자를 좋아해,(주)쇼박스,멜로/로맨스,2010-01-14,113,12세 관람가,이광재,342700.2,4,275,3
2,하모니,CJ 엔터테인먼트,드라마,2010-01-28,115,12세 관람가,강대규,4206611.0,3,419,7


- movies_train과 movies_test는 **box_off_num** 컬럼 유무의 차이

### 테이블 생성하기
- sql문 직접 입력하기 vs 테이블 자동 생성 쿼리 사용하기
- 컬럼
    - `title` : 영화의 제목
    - `distributor` : 배급사
    - `genre` : 장르
    - `release_time` : 개봉일
    - `time` : 상영시간(분)
    - `screening_rat` : 상영등급
    - `director` : 감독이름
    - `dir_prev_bfnum` : 해당 감독이 이 영화를 만들기 전 제작에 참여한 영화에서의 평균 관객수(단 관객수가 알려지지 않은 영화 제외)
    - `dir_prev_num` : 해당 감독이 이 영화를 만들기 전 제작에 참여한 영화의 개수(단 관객수가 알려지지 않은 영화 제외)
    - `num_staff` : 스텝수
    - `num_actor` : 주연배우수
    - `box_off_num` : 관객수

In [19]:
# sql문 직접 입력하기
# 일련번호가 없기 때문에 영화 제목을 기본키로 지정
sql = '''
CREATE TABLE movie ( 
    title varchar(50) not null comment '영화명' primary key, 
    distributor varchar(50) null comment '배급사', 
    genre varchar(10) null comment '장르',
    release_time date null comment '개봉일',
    time int null comment '상영시간(분)',
    screening_rat varchar(10) null comment '상영등급',
    director varchar(10) null comment '감독명',
    dir_prev_bfnum float null comment '감독 평균 관객수',
    dir_prev_num int null comment '감독 영화 개수',
    num_staff int null comment '스텝수',
    num_actor int null comment '주연배우수',
    box_off_num int null comment '관객수'
) 
''' 
curs.execute(sql)

0

### 데이터 삽입하기
- sqlalchemy 사용

In [None]:
# !pip install sqlalchemy

In [36]:
from sqlalchemy import create_engine

# MySQL Connector using pymysql
pymysql.install_as_MySQLdb()
import MySQLdb

# create_engint("mysql+pymysql://사용자명:"+"패스워드"+"@IP 주소:포트번호/DB 이름?charset=utf8", encoding ='utf-8')
engine = create_engine("mysql+pymysql://min:"+"yumin!"+"@3.38.70.165:3306/movie?charset=utf8", encoding ='utf-8')

In [37]:
# engine 연결
conn = engine.connect()

- train 데이터 삽입

In [39]:
# to_sql(name=테이블명, con=engine, if_exists='옵션', index=False)
# 옵션: append(기존 테이블에 데이터 추가), fail(기존 테이블이 있으면 아무것도 하지 않음), replace(기존 테이블 삭제후 새로 생성)
movie_tr.to_sql(name='movie', con=engine, if_exists='append', index=False)

In [41]:
# 연결 종료
conn.close()

### 데이터 불러오기

In [43]:
# movie 데이터 조회
sql = '''
SELECT * FROM movie
''' 
curs.execute(sql)

600

In [44]:
# 데이터 조회 결과를 result에 저장
result = curs.fetchall()
    
print(result[0])

{'title': '              개를 훔치는 완벽한 방법', 'distributor': '리틀빅픽처스', 'genre': '드라마', 'release_time': datetime.date(2014, 12, 31), 'time': 109, 'screening_rat': '전체 관람가', 'director': '김성호', 'dir_prev_bfnum': 495535.0, 'dir_prev_num': 1, 'num_staff': 292, 'num_actor': 8, 'box_off_num': 306642}


In [46]:
# 데이터 프레임으로 result 결과 저장
df = pd.DataFrame(result)
print(df.columns) # columns
print(df.head())

Index(['box_off_num', 'dir_prev_bfnum', 'dir_prev_num', 'director',
       'distributor', 'genre', 'num_actor', 'num_staff', 'release_time',
       'screening_rat', 'time', 'title'],
      dtype='object')
   box_off_num  dir_prev_bfnum  dir_prev_num director      distributor genre  \
0       306642        495535.0             1      김성호           리틀빅픽처스   드라마   
1         4778             NaN             0      정성복  유니버설픽쳐스인터내셔널코리아   뮤지컬   
2         1124         35348.0             1      한윤선              어뮤즈   느와르   
3         3404             NaN             0      김태곤            인디스토리   드라마   
4      2963652       2636380.0             1      조근현            인벤트 디    액션   

   num_actor  num_staff release_time screening_rat  time  \
0          8        292   2014-12-31        전체 관람가   109   
1          5          3   2014-09-18        전체 관람가   129   
2          3        126   2014-08-14      청소년 관람불가   104   
3          4         32   2013-02-21       15세 관람가    85   
4          3  

In [47]:
df

Unnamed: 0,box_off_num,dir_prev_bfnum,dir_prev_num,director,distributor,genre,num_actor,num_staff,release_time,screening_rat,time,title
0,306642,495535.000,1,김성호,리틀빅픽처스,드라마,8,292,2014-12-31,전체 관람가,109,개를 훔치는 완벽한 방법
1,4778,,0,정성복,유니버설픽쳐스인터내셔널코리아,뮤지컬,5,3,2014-09-18,전체 관람가,129,"1789, 바스티유의 연인들"
2,1124,35348.000,1,한윤선,어뮤즈,느와르,3,126,2014-08-14,청소년 관람불가,104,18: 우리들의 성장 느와르
3,3404,,0,김태곤,인디스토리,드라마,4,32,2013-02-21,15세 관람가,85,"1999, 면회"
4,2963652,2636380.000,1,조근현,인벤트 디,액션,3,365,2012-11-29,15세 관람가,135,26년
5,13886,57943.000,1,민백두,CJ 엔터테인먼트,드라마,4,78,2013-07-04,15세 관람가,97,48미터
6,96080,1198420.000,2,이근우,필라멘트 픽쳐스,코미디,2,150,2012-08-30,15세 관람가,99,577 프로젝트
7,104736,107376.000,2,김익로,CJ 엔터테인먼트,코미디,3,157,2012-07-19,15세 관람가,107,5백만불의 사나이
8,79,,0,박성미,인터콘미디어,다큐멘터리,0,10,2010-06-24,전체 관람가,63,"60년전, 사선에서"
9,21483,,0,박사유,인디스토리,다큐멘터리,5,37,2014-09-18,12세 관람가,106,60만번의 트라이


### 문제점
- 데이터를 불러왔을 때 역순으로 저장