## 1. pymysql

* mysql을 python에서 사용할 수 있는 라이브러리 (pymysql 라이브러리 이외에도 MySQLdb(Mysql-pytion), MySQL connector 등 다양한 라이브러리 존재)
* 이 중에서 설치가 가장 쉬운 라이브러리

* mysql 코드 작성 순서

```
  1. 모듈 import
  2. pymysql.connect() 메소드로 MySQL에 연결
     - 호스트명, 포트, 로그인, 암호, 접속할 DB 등을 파라미터로 지정
  3. MySQL 접속이 성공하면, Connection 객체로부터 cursor() 메서드를 호출하여 Cursor 객체를 가져옴
  4. Cursor 객체의 execute() 메서드를 사용하여 SQL 문장을 DB 서버에 전송
  5. SQL 쿼리의 경우 Cursor 객체의 fetchall(), fetchone(), fetchmany() 등의 메서드를 사용하여 서버로부터 가져온 데이타를 코드에서 활용
  6. 삽입, 갱신, 삭제 등의 DML(Data Manipulation Language) 문장을 실행하는 경우, INSERT/UPDATE/DELETE 후 Connection 객체의 commit() 메서드를 사용하여 데이타를 확정
  7. Connection 객체의 close() 메서드를 사용하여 DB 연결을 닫음
  ```

* PyMySql 모듈 import

In [3]:
!pip install numpy pandas

Collecting numpy
  Downloading numpy-2.3.2-cp313-cp313-win_amd64.whl.metadata (60 kB)
Collecting pandas
  Using cached pandas-2.3.1-cp313-cp313-win_amd64.whl.metadata (19 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Using cached tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading numpy-2.3.2-cp313-cp313-win_amd64.whl (12.8 MB)
   ---------------------------------------- 0.0/12.8 MB ? eta -:--:--
   ---------------------------------------- 12.8/12.8 MB 69.7 MB/s eta 0:00:00
Using cached pandas-2.3.1-cp313-cp313-win_amd64.whl (11.0 MB)
Using cached pytz-2025.2-py2.py3-none-any.whl (509 kB)
Using cached tzdata-2025.2-py2.py3-none-any.whl (347 kB)
Installing collected packages: pytz, tzdata, numpy, pandas

   ---------------------------------------- 0/4 [pytz]
   ---------------------------------------- 0/4 [pytz]
   ---------- ----------------------------- 1/4 [tzdata]
   -

In [1]:
# 1. pymysql을 설치한다
!pip install pymysql

Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
Installing collected packages: pymysql
Successfully installed pymysql-1.1.1


In [4]:
# 2. import 한다
import pymysql, numpy, pandas

- 접속정보는 중요하므로 별개 파일에 저장 (주로 json이나 yaml 사용)

In [None]:
%%writefile db.yaml
HOST: 'host_name'
USER: 'user_name'
PASSWD: 'user_password'

Writing db.yaml


In [9]:
!pip install pyyaml


Collecting pyyaml
  Downloading PyYAML-6.0.2-cp313-cp313-win_amd64.whl.metadata (2.1 kB)
Downloading PyYAML-6.0.2-cp313-cp313-win_amd64.whl (156 kB)
Installing collected packages: pyyaml
Successfully installed pyyaml-6.0.2


In [10]:
import yaml

DB_INFO = "db.yaml"
with open(DB_INFO,"r") as f:
    db_info = yaml.load(f, Loader=yaml.Loader)

In [11]:
db_info

{'HOST': 'localhost', 'USER': 'root', 'PASSWD': 'Woorifisa5!'}

In [12]:
HOST = db_info["HOST"]
USER = db_info["USER"]
PASSWD = db_info["PASSWD"]
PORT = 3306

* pymysql.connect() 메소드를 사용하여 MySQL에 연결
     - 호스트명, 포트, 로그인, 암호, 접속할 DB 등을 파라미터로 지정
     - 주요 파라미터
       - host : 접속할 mysql server 주소
       - port : 접속할 mysql server 의 포트 번호
       - user : mysql ID
       - passwd : mysql ID의 암호
       - db : 접속할 데이터베이스
       - charset='utf8' : mysql에서 select하여 데이타를 가져올 때 한글이 깨질 수 있으므로 연결 설정에 넣어줌


In [14]:
import pymysql
import pandas as pd
pd.options.display.float_format = '{:.2f}'.format

connection = pymysql.connect(
    host=HOST,     # MySQL Server Address
    port=PORT,          # MySQL Server Port
    user=USER,      # MySQL username
    passwd=PASSWD,    # password for MySQL username
    db='fisa',       # Database name
    charset='utf8mb4'
)


- DB 접속 정보

In [None]:
# 3. 대신 일하게 만들 커서를 만듭니다.
cursor = connection.cursor()

# 4. 실행할 SQL문을 넘깁니다. - 옵션을 바꿔서 접속하면 여러 문장을 한번에 넘기는구나
sql = f'SELECT * FROM emp'
sql2 = f"DELETE FROM emp WHERE ename = 'SMITH'" # 커밋을 완료해서 delete 같은 동작들이 완료됨

result=cursor.execute(sql)  # 범용적
# 5. DB에 현재 상태를 COMMIT 합니다.
connection.commit()

# 6. DB와 연결을 닫습니다.
connection.close()

int

### 패턴으로 익히는 pymysql

* 데이터 삽입(INSERT)
  - Cursor Object 가져오기: cursor = db.cursor()  
  - SQL 실행하기: cursor.execute(SQL)
  - 실행 mysql 서버에 확정 반영하기: db.commit()

In [None]:
cursor.execute("CREATE TABLE IF NOT EXISTS emp01(SELECT ename, empno FROM emp);")
cursor.execute("INSERT INTO emp01 VALUES('신짱구', 1);")
connection.commit()

* 데이터 조회(SELECT)
  - Cursor Object 가져오기: cursor = db.cursor()  
  - SQL 실행하기: cursor.execute(SQL)
  - mysql 서버로부터 데이터 가져오기: fetch 메서드 사용
    - fetchall(): Fetch all the rows
    - fetchmany(size=None): Fetch several rows
    - fetchone(): Fetch the next row

In [58]:


# 4. SQL 구문 만들기 (CRUD SQL 구문 등)

# 5. SQL 구문 실행하기
result = cursor.execute("SELECT ename, empno FROM emp01;")
data = cursor.fetchall()
cursor.execute("SHOW COLUMNS FROM emp01;")
columns = pd.DataFrame(cursor.fetchall())[0]

result = pd.DataFrame(data=data, columns=columns)
result
# 6. DB에 Complete 하기

# 7. DB 연결 닫기
connection.close()

* 데이터 수정(UPDATE)
  - Cursor Object 가져오기: cursor = db.cursor()  
  - SQL 실행하기: cursor.execute(SQL)
  - 실행 mysql 서버에 확정 반영하기: db.commit()

In [None]:
# 1. 라이브러리 가져오기

# 2. 접속하기

# 3. 커서 가져오기

# 4. SQL 구문 만들기 (CRUD SQL 구문 등)

# 5. SQL 구문 실행하기

# 6. DB에 Complete 하기

# 7. DB 연결 닫기

* 데이터 삭제(DELETE)
  - Cursor Object 가져오기: cursor = db.cursor()  
  - SQL 실행하기: cursor.execute(SQL)
  - 실행 mysql 서버에 확정 반영하기: db.commit()

In [None]:
# 1. 라이브러리 가져오기

# 2. 접속하기

# 3. 커서 가져오기

# 4. SQL 구문 만들기 (CRUD SQL 구문 등)

# 5. SQL 구문 실행하기

# 6. DB에 Complete 하기

# 7. DB 연결 닫기

# 2. Pandas와 PyMySQL 연동

In [None]:
!pip install PyMySQL

In [69]:
import pymysql
import pandas as pd
pd.options.display.float_format = '{:.2f}'.format

host_name = '118.67.131.22' # 구글 컴퓨터라 내 컴퓨터의 localhost에 접속 불가 - 어디서나 접속할 수 있는 원격 DB가 필요하다
host_port = 3306
username = 'fisaai'
password = 'Woorifisa5!'
database_name = 'fisa'

import pymysql

db = pymysql.connect(
    user = USER,
    passwd = PASSWD,
    host = HOST,
    port = PORT,
    db = 'fisa'
)
db

SQL = "SELECT * FROM emp"
db.cursor().execute(SQL)
result = pd.read_sql(SQL, db)
result.info()
# db.close()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   empno     14 non-null     int64  
 1   ename     14 non-null     object 
 2   job       14 non-null     object 
 3   mgr       13 non-null     float64
 4   hiredate  14 non-null     object 
 5   sal       14 non-null     float64
 6   comm      4 non-null      float64
 7   deptno    14 non-null     int64  
dtypes: float64(3), int64(2), object(3)
memory usage: 1.0+ KB


  result = pd.read_sql(SQL, db)


- 클라우드에 설치된 MySQL 8.0 SERVER


- pymysql의 연결 객체를 이용하여 pandas의 자료형인 데이터프레임 객체 생성하기

In [None]:
import pymysql

conn = pymysql.connect(
    user = USER,
    passwd = PASSWD,
    host = HOST,
    port = PORT,
    db = 'fisa'
)
conn

In [None]:
 ### 이전 DB 커넥션을 끊어주세요

# DF를 데이터베이스 서버로 보내기

## SQLAlchemy
- python에서 사용하는 대표적인 ORM
- ORM(Object Relational Mapping) 이란?
    - 객체와 DB의 테이블이 매핑을 이루는 것을 말한다.
    - DB의 테이블 객체화 시켜서 데이터를 CRUD
    - SQL 을 직접 작성하지 않고 테이블을 조작할수 있다.
    - 사용하는 DBMS가 변경된다면 엔진만 바꿔주면 된다.
    - 쿼리 대신 메소드를 이용해서 CRUD 한다.

``` df.to_sql(name=테이블이름, con=engine, if_exists='append', index=False)```
-  Dataframe은 항상 index가 있기 때문에, 테이블 구조와 안맞을 수 있음, 그래서 index=False 로 작성
-  if_exists = 'fail' : 같은 이름의 Table이 존재할 경우 ValueError 가 남
   - if_exists = 'replace': 같은 이름의 Table이 존재할 경우 기존 Table을 Drop하고 새로운 값을 Insert함
  - if_exists = 'append': 같은 이름의 Table이 존재할 경우 기존 Table에 추가로 새로운 값을 Insert함
- 각 column name을 테이블의 컬럼명과 동일하게 하면 해당 컬럼에 데이터 입력
- empno 는 PRIMARY KEY로 AUTO_INCREMENT 옵션을 넣었으므로, 데이터 입력을 하지 않음

In [None]:
!pip install sqlalchemy
!pip install pymysql



In [None]:
import pymysql
from sqlalchemy import create_engine  # InnoDB
import pandas as pd


## 방법은 거의
## 접속할DB종류+접속에사용할패키지명 + :// + userid:password @ 주소:포트번호/db?인코딩방법 의 형태를 띔
engine = create_engine(f"")

- DB 선택 없이 접속

In [None]:
conn = pymysql.connect(
    user = USER,
    passwd = PASSWD,
    host = HOST,
    port = PORT,
    # autocommit = True # default : False # 오토커밋 기능 설정
)

conn

<pymysql.connections.Connection at 0x7f2cff504250>

- DB 선택하기

In [None]:
conn.select_db("fisa") # use DB명;

- 현재 작업한 데이터프레임을 MySQL 서버에 보내기

- 동적 SQL 사용

In [None]:
# SQL문 실행 - %s 로 변하는 값이 들어갈 자리를 비워둠.


# 비워둔 자리 개수만큼 2번째 인자로 값을 튜플 안에 순서대로 전달


# 데이터 Fetch


- df를 csv 파일로 저장

- 사용후엔 꼭 connection을 닫아주세요!

In [None]:
conn.close()

# 실습.
1. 'data/KOBIS_개봉일람_2025-07-16.xlsx'를 import 하여 전처리하고
2. db에 box_office_name 이라는 스키마를 만들어서 movies 라는 테이블에 적재하세요.

In [None]:
%%writefile db.yaml
HOST: '118.67.131.22'
USER: 'fisaai'
PASSWD: 'Woorifisa5!'

Writing db.yaml


In [None]:
import yaml

DB_INFO = "db.yaml"
with open(DB_INFO,"r") as f:
    db_info = yaml.load(f, Loader=yaml.Loader)

In [None]:
db_info

{'HOST': '118.67.131.22', 'USER': 'fisaai', 'PASSWD': 'Woorifisa5!'}

In [None]:
HOST = db_info["HOST"]
USER = db_info["USER"]
PASSWD = db_info["PASSWD"]
PORT = 3306

In [None]:
import pymysql

conn = pymysql.connect(
    user = USER,
    passwd = PASSWD,
    host = HOST,
    port = PORT,
    db = 'fisa'
)

conn

<pymysql.connections.Connection at 0x7a0865d7d350>

- DB 선택하기

In [None]:
conn.select_db("fisa") # use DB명;

In [None]:
pd.read_excel??

In [None]:
df = pd.read_excel('/content/KOBIS_개봉일람_2025-07-16.xlsx')
df.head()

Unnamed: 0,순번,영화명,감독,제작사,수입사,배급사,개봉일,영화유형,영화형태,국적,전국\n스크린수,전국\n매출액,전국\n관객수,서울\n매출액,서울\n관객수,장르,등급,영화구분
0,1,명량,김한민,(주)빅스톤픽쳐스,,(주)씨제이이엔엠,2014-07-30,개봉영화,장편,한국,1587,135748400000.0,17613682,33121230000.0,4163666,사극,15세이상관람가,일반영화
1,2,극한직업,이병헌,"(주)어바웃잇,영화사 해그림 주식회사,(주)씨제이이엔엠",,(주)씨제이이엔엠,2019-01-23,개봉영화,장편,한국,1978,139648000000.0,16264944,31858660000.0,3638287,코미디,15세이상관람가,일반영화
2,3,신과함께-죄와 벌,김용화,"리얼라이즈픽쳐스(주),(주)덱스터스튜디오",,롯데쇼핑㈜롯데엔터테인먼트,2017-12-20,개봉영화,장편,한국,1912,115698700000.0,14410754,27530830000.0,3346172,판타지,12세이상관람가,일반영화
3,4,국제시장,윤제균,"(주)제이케이필름,(주)씨제이이엔엠",,(주)씨제이이엔엠,2014-12-17,개봉영화,장편,한국,966,110828000000.0,14245998,25842520000.0,3233946,드라마,12세이상관람가,일반영화
4,5,어벤져스: 엔드게임,"안소니 루소,조 루소",,월트디즈니컴퍼니코리아 유한책임회사,월트디즈니컴퍼니코리아 유한책임회사,2019-04-24,개봉영화,장편,미국,2835,122182700000.0,13934592,33577140000.0,3597963,액션,12세이상관람가,일반영화


In [None]:
df_og = df.copy()

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30481 entries, 0 to 30480
Data columns (total 18 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   순번       30481 non-null  int64         
 1   영화명      30481 non-null  object        
 2   감독       27621 non-null  object        
 3   제작사      12822 non-null  object        
 4   수입사      16721 non-null  object        
 5   배급사      23952 non-null  object        
 6   개봉일      30428 non-null  datetime64[ns]
 7   영화유형     30481 non-null  object        
 8   영화형태     30464 non-null  object        
 9   국적       30470 non-null  object        
 10  전국
스크린수  30481 non-null  int64         
 11  전국
매출액   29425 non-null  float64       
 12  전국
관객수   30481 non-null  int64         
 13  서울
매출액   29419 non-null  float64       
 14  서울
관객수   30481 non-null  int64         
 15  장르       30230 non-null  object        
 16  등급       29985 non-null  object        
 17  영화구분     30481 non-null  object

In [None]:
df.tail()

Unnamed: 0,순번,영화명,감독,제작사,수입사,배급사,개봉일,영화유형,영화형태,국적,전국\n스크린수,전국\n매출액,전국\n관객수,서울\n매출액,서울\n관객수,장르,등급,영화구분
30476,30477,V2 폭파대작전,엔조 G. 카스텔라리,,(주)동아수출공사,,1978-12-21,개봉영화,장편,이탈리아,0,,0,,174276,액션,,일반영화
30477,30478,W의 비극,김수형,한진흥업주식회사,,,1985-06-09,개봉영화,장편,한국,0,0.0,0,0.0,8624,드라마,연소자관람불가,일반영화
30478,30479,X게임,엠마뉴엘 그리센티,,(주)한영필림,,1997-07-05,개봉영화,장편,이탈리아,0,0.0,0,0.0,434,범죄,연소자관람불가,일반영화
30479,30480,Y의 체험,이장호,판영화사(주),,,1987-10-03,개봉영화,장편,한국,0,0.0,0,0.0,37520,성인물(에로),고등학생이상관람가,일반영화
30480,30481,YMCA야구단,김현석,"(주)명필름,씨제이엔터테인먼트",,,2002-10-02,개봉영화,장편,한국,0,,0,,560000,드라마,전체관람가,일반영화


In [None]:
df.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,min,25%,50%,75%,max,std
순번,30481.0,,,,15241.0,1.0,7621.0,15241.0,22861.0,30481.0,8799.251114
영화명,30481.0,29577.0,토스카,9.0,,,,,,,
감독,27621.0,10818.0,사쿠라비토,192.0,,,,,,,
제작사,12822.0,3965.0,(주)영화사가을,833.0,,,,,,,
수입사,16721.0,1346.0,(주)도키엔터테인먼트,1529.0,,,,,,,
배급사,23952.0,1752.0,(주)영진크리에이티브,2242.0,,,,,,,
개봉일,30428.0,,,,2011-03-14 04:50:00.394373632,1962-11-03 00:00:00,2004-02-27 00:00:00,2016-08-10 00:00:00,2020-09-23 00:00:00,2025-05-30 00:00:00,
영화유형,30481.0,1.0,개봉영화,30481.0,,,,,,,
영화형태,30464.0,5.0,장편,30316.0,,,,,,,
국적,30470.0,76.0,한국,10493.0,,,,,,,


In [None]:
[*df.장르.unique()]

['사극',
 '코미디',
 '판타지',
 '드라마',
 '액션',
 '애니메이션',
 'SF',
 '범죄',
 '어드벤처',
 '미스터리',
 '전쟁',
 '서부극(웨스턴)',
 '멜로/로맨스',
 '스릴러',
 '다큐멘터리',
 '공포(호러)',
 '가족',
 '뮤지컬',
 '기타',
 '공연',
 '성인물(에로)',
 nan]

In [None]:
df.장르[df.장르.isnull()] = '미정'

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df.장르[df.장르.isnull()] = '미정'
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.장르[df.장르.isnull()] = '미정'


In [None]:
df[df.장르.str.contains('에로')| df.장르.str.contains('성인물')].index

Index([ 2931,  7419,  8081,  8123,  8169,  9097,  9779,  9888,  9942, 10007,
       ...
       30223, 30322, 30409, 30434, 30435, 30442, 30443, 30444, 30445, 30479],
      dtype='int64', length=4904)

In [None]:
df.columns

Index(['순번', '영화명', '감독', '제작사', '수입사', '배급사', '개봉일', '영화유형', '영화형태', '국적',
       '전국\n스크린수', '전국\n매출액', '전국\n관객수', '서울\n매출액', '서울\n관객수', '장르', '등급',
       '영화구분'],
      dtype='object')

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30481 entries, 0 to 30480
Data columns (total 18 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   순번       30481 non-null  int64         
 1   영화명      30481 non-null  object        
 2   감독       27621 non-null  object        
 3   제작사      12822 non-null  object        
 4   수입사      16721 non-null  object        
 5   배급사      23952 non-null  object        
 6   개봉일      30428 non-null  datetime64[ns]
 7   영화유형     30481 non-null  object        
 8   영화형태     30464 non-null  object        
 9   국적       30470 non-null  object        
 10  전국
스크린수  30481 non-null  int64         
 11  전국
매출액   29425 non-null  float64       
 12  전국
관객수   30481 non-null  int64         
 13  서울
매출액   29419 non-null  float64       
 14  서울
관객수   30481 non-null  int64         
 15  장르       30481 non-null  object        
 16  등급       29985 non-null  object        
 17  영화구분     30481 non-null  object

- 아래 컬럼명 매핑 함수와 전처리 로직을 참조하세요.

In [None]:
df.drop(df[df.장르.str.contains('에로')| df.장르.str.contains('성인물')].index, axis=0, inplace=True)

In [None]:
# 컬럼명 매핑 함수
def rename_columns(df):
    # 변경할 컬럼명 매핑 딕셔너리
    column_mapping = {
        '순번': 'seq_id',
        '영화명': 'title',
        '감독': 'director',
        '제작사': 'production',
        '수입사': 'importer',
        '배급사': 'distributor',
        '개봉일': 'release_date',
        '영화형태': 'movie_type',
        '국적': 'country',
        '전국\n스크린수': 'screens',
        '전국\n매출액': 'revenue',
        '전국\n관객수': 'audience',
        '등급':'rating',
        '장르':'genre'
    }
    # 컬럼명 변경
    df.rename(columns=column_mapping, inplace=True)
    return df

df = rename_columns(df)
df.head()

Unnamed: 0,seq_id,title,director,production,importer,distributor,release_date,영화유형,movie_type,country,screens,revenue,audience,서울\n매출액,서울\n관객수,genre,rating,영화구분
0,1,명량,김한민,(주)빅스톤픽쳐스,,(주)씨제이이엔엠,2014-07-30,개봉영화,장편,한국,1587,135748400000.0,17613682,33121230000.0,4163666,사극,15세이상관람가,일반영화
1,2,극한직업,이병헌,"(주)어바웃잇,영화사 해그림 주식회사,(주)씨제이이엔엠",,(주)씨제이이엔엠,2019-01-23,개봉영화,장편,한국,1978,139648000000.0,16264944,31858660000.0,3638287,코미디,15세이상관람가,일반영화
2,3,신과함께-죄와 벌,김용화,"리얼라이즈픽쳐스(주),(주)덱스터스튜디오",,롯데쇼핑㈜롯데엔터테인먼트,2017-12-20,개봉영화,장편,한국,1912,115698700000.0,14410754,27530830000.0,3346172,판타지,12세이상관람가,일반영화
3,4,국제시장,윤제균,"(주)제이케이필름,(주)씨제이이엔엠",,(주)씨제이이엔엠,2014-12-17,개봉영화,장편,한국,966,110828000000.0,14245998,25842520000.0,3233946,드라마,12세이상관람가,일반영화
4,5,어벤져스: 엔드게임,"안소니 루소,조 루소",,월트디즈니컴퍼니코리아 유한책임회사,월트디즈니컴퍼니코리아 유한책임회사,2019-04-24,개봉영화,장편,미국,2835,122182700000.0,13934592,33577140000.0,3597963,액션,12세이상관람가,일반영화


In [None]:
df.revenue[df.revenue.isnull()]

Unnamed: 0,revenue
118,
134,
227,
296,
326,
...,...
30430,
30468,
30470,
30476,


In [None]:
df['revenue'] = df['revenue'].fillna(0).astype(int) # 결측치를 0으로 채우는 명령어

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 25577 entries, 0 to 30480
Data columns (total 18 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   seq_id        25577 non-null  int64         
 1   title         25577 non-null  object        
 2   director      23795 non-null  object        
 3   production    11088 non-null  object        
 4   importer      14928 non-null  object        
 5   distributor   19293 non-null  object        
 6   release_date  25524 non-null  datetime64[ns]
 7   영화유형          25577 non-null  object        
 8   movie_type    25561 non-null  object        
 9   country       25566 non-null  object        
 10  screens       25577 non-null  int64         
 11  revenue       25577 non-null  int64         
 12  audience      25577 non-null  int64         
 13  서울
매출액        24518 non-null  float64       
 14  서울
관객수        25577 non-null  int64         
 15  genre         25577 non-null  object     

In [None]:
df.describe()

Unnamed: 0,seq_id,release_date,screens,revenue,audience,서울\n매출액,서울\n관객수
count,25577.0,25524,25577.0,25577.0,25577.0,24518.0,25577.0
mean,14688.568362,2009-07-29 14:13:22.256699648,74.244947,894349300.0,139879.3,267160300.0,58176.46
min,1.0,1962-11-03 00:00:00,0.0,0.0,0.0,0.0,0.0
25%,6396.0,2000-09-01 00:00:00,0.0,0.0,0.0,0.0,27.0
50%,13133.0,2015-02-26 00:00:00,1.0,6000.0,35.0,0.0,1910.0
75%,23866.0,2019-09-05 00:00:00,20.0,19051000.0,5279.0,13020720.0,21693.0
max,30481.0,2025-05-30 00:00:00,2980.0,139648000000.0,17613680.0,40547520000.0,4163666.0
std,9368.797801,,223.040953,5686170000.0,742381.6,1575163000.0,212871.5


In [None]:
import re

# 한글이 포함된 컬럼만 찾기
korean_columns = [col for col in df.columns if re.search(r'[ㄱ-ㅎㅏ-ㅣ가-힣]', col)]

# 한글로 되어있는 컬럼만 드롭하기
df = df.drop(columns=korean_columns)

Unnamed: 0,seq_id,title,director,production,importer,distributor,release_date,movie_type,country,screens,revenue,audience,genre,rating
0,1,명량,김한민,(주)빅스톤픽쳐스,,(주)씨제이이엔엠,2014-07-30,장편,한국,1587,135748398910,17613682,사극,15세이상관람가
1,2,극한직업,이병헌,"(주)어바웃잇,영화사 해그림 주식회사,(주)씨제이이엔엠",,(주)씨제이이엔엠,2019-01-23,장편,한국,1978,139647979516,16264944,코미디,15세이상관람가
2,3,신과함께-죄와 벌,김용화,"리얼라이즈픽쳐스(주),(주)덱스터스튜디오",,롯데쇼핑㈜롯데엔터테인먼트,2017-12-20,장편,한국,1912,115698654137,14410754,판타지,12세이상관람가
3,4,국제시장,윤제균,"(주)제이케이필름,(주)씨제이이엔엠",,(주)씨제이이엔엠,2014-12-17,장편,한국,966,110828014630,14245998,드라마,12세이상관람가
4,5,어벤져스: 엔드게임,"안소니 루소,조 루소",,월트디즈니컴퍼니코리아 유한책임회사,월트디즈니컴퍼니코리아 유한책임회사,2019-04-24,장편,미국,2835,122182694160,13934592,액션,12세이상관람가
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
30475,30476,UFO를 타고 온 외계인 왕자,,,,,1984-01-01,장편,한국,0,0,0,SF,연소자관람가
30476,30477,V2 폭파대작전,엔조 G. 카스텔라리,,(주)동아수출공사,,1978-12-21,장편,이탈리아,0,0,0,액션,
30477,30478,W의 비극,김수형,한진흥업주식회사,,,1985-06-09,장편,한국,0,0,0,드라마,연소자관람불가
30478,30479,X게임,엠마뉴엘 그리센티,,(주)한영필림,,1997-07-05,장편,이탈리아,0,0,0,범죄,연소자관람불가


In [None]:
df = df[df.genre != '미정'] # genre가 미정인 데이터는 에로물인 경우가 많으므로 전체 drop
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 25326 entries, 0 to 30480
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   seq_id        25326 non-null  int64         
 1   title         25326 non-null  object        
 2   director      23613 non-null  object        
 3   production    10933 non-null  object        
 4   importer      14877 non-null  object        
 5   distributor   19153 non-null  object        
 6   release_date  25282 non-null  datetime64[ns]
 7   movie_type    25318 non-null  object        
 8   country       25320 non-null  object        
 9   screens       25326 non-null  int64         
 10  revenue       25326 non-null  int64         
 11  audience      25326 non-null  int64         
 12  genre         25326 non-null  object        
 13  rating        24915 non-null  object        
dtypes: datetime64[ns](1), int64(4), object(9)
memory usage: 2.9+ MB


In [None]:
engine

Engine(mysql+pymysql://fisaai:***@118.67.131.22:3306/box_office)

In [None]:
engine = create_engine(f"mysql+pymysql://fisaai:Woorifisa5!@118.67.131.22:3306/{name}")

# DataFrame을 MySQL에 저장
# if_exists: 'fail', 'replace', 'append'
df.to_sql(
    name='movies',      # 테이블 이름
    con=engine,
    if_exists='replace',  # 기존 테이블 덮어쓰기. 'append'는 추가 삽입
    index=False,          # DataFrame index 저장 안함
    dtype=None            # 필요시 컬럼 데이터타입 명시 가능
)