In [3]:
import pandas as pd
import numpy as np
from db_conn import *

import sys

def create_movie_table():
    excel_file = "movie_list.xls"
    conn, cur = open_db()
    movie_table = "university.movie"
    colum_to_read=['영화명', '영화명(영문)', '제작연도', '제작국가', '유형', '제작상태', '제작사']
    
    df1 = pd.read_excel(excel_file, sheet_name='영화정보 리스트',usecols=colum_to_read, skiprows=4)
    
    # 두 번째 시트: 헤더가 없으므로 None으로 설정
    colum_to_read2=[0,1,2,3,4,6,8]
    df2 = pd.read_excel(excel_file, sheet_name='영화정보 리스트_2',usecols=colum_to_read2, header=None)
    
    
    # 두 번째 시트의 데이터프레임에 헤더 추가
    df2.columns = ['영화명', '영화명(영문)', '제작연도', '제작국가', '유형', '제작상태', '제작사']
    
    # 두 데이터프레임 합치기
    df = pd.concat([df1, df2], ignore_index=True)
    
    #df = list(df.itertuples(index=False, name=None))
    df = df.where(pd.notnull(df), None)
    df['제작연도'] = df['제작연도'].astype('Int64').where(pd.notnull(df['제작연도']), 0)
    #print(df.head())
    
    create_sql = f"""
        drop table if exists {movie_table} ;

        create table {movie_table} (
            m_id INT AUTO_INCREMENT PRIMARY KEY,
            title VARCHAR(500),
            eng_title VARCHAR(500),
            year INT,
            country VARCHAR(100),
            m_type VARCHAR(20),
            status VARCHAR(30),
            company TEXT,
            enter_date DATETIME DEFAULT NOW()
        ); """
    cur.execute(create_sql)
    conn.commit()
    
    insert_sql = f"""insert into {movie_table} (title, eng_title, year, country, m_type,status, company)
                    values(%s,%s,%s,%s,%s,%s,%s);"""

    for i, r in df.iterrows():
        row = tuple(r)
        try:
            cur.execute(insert_sql, row)
            if (i+1) % 1000 == 0:
                print(f"{i} rows")
        
        except Exception as e:
            #pass
            print(e)
            print(row)
            sys.exit()
       
    
    conn.commit()
    close_db(conn, cur)

def create_directors_table():
    excel_file = "movie_list.xls"
    conn, cur = open_db()
    director_table="university.director"
    colum_to_read=['감독']
    
    df1 = pd.read_excel(excel_file, sheet_name='영화정보 리스트',usecols=colum_to_read, skiprows=4)
    
    # 두 번째 시트: 헤더가 없으므로 None으로 설정
    colum_to_read2=[7]
    df2 = pd.read_excel(excel_file, sheet_name='영화정보 리스트_2',usecols=colum_to_read2, header=None)
    
    
    # 두 번째 시트의 데이터프레임에 헤더 추가
    df2.columns = ['감독']
    
    # 두 데이터프레임 합치기
    df = pd.concat([df1, df2], ignore_index=True)
    
    #df = list(df.itertuples(index=False, name=None))
    df = df.where(pd.notnull(df), None)
    #print(df.head())
    create_sql = f"""
        drop table if exists {director_table} ;

        create table {director_table} (
            d_id INT AUTO_INCREMENT PRIMARY KEY,
            name VARCHAR(255)
        ); """

    cur.execute(create_sql)
    conn.commit()
    
    insert_sql = f"""insert into {director_table} (name)
                    values(%s);"""

    for i, r in df.iterrows():
        row = tuple(r)
        try:
            cur.execute(insert_sql, row)
            if (i+1) % 1000 == 0:
                print(f"{i} rows")
        
        except Exception as e:
            #pass
            print(e)
            print(row)
            sys.exit()
       
    
    conn.commit()
    close_db(conn, cur)

def create_genre_table():
    excel_file = "movie_list.xls"
    conn, cur = open_db()
    genre_table="university.genre"
    
    colum_to_read=['장르']
    
    df1 = pd.read_excel(excel_file, sheet_name='영화정보 리스트',usecols=colum_to_read, skiprows=4)
    
    # 두 번째 시트: 헤더가 없으므로 None으로 설정
    colum_to_read2=[5]
    df2 = pd.read_excel(excel_file, sheet_name='영화정보 리스트_2',usecols=colum_to_read2, header=None)
    
    
    # 두 번째 시트의 데이터프레임에 헤더 추가
    df2.columns = ['장르']
    
    # 두 데이터프레임 합치기
    df = pd.concat([df1, df2], ignore_index=True)
    
    #df = list(df.itertuples(index=False, name=None))
    df = df.where(pd.notnull(df), None)
    #print(df.head())
    create_sql = f"""
        drop table if exists {genre_table} ;

        create table {genre_table} (
            m_id INT,
            genre VARCHAR(100),
            PRIMARY KEY (m_id, genre),
            FOREIGN KEY (m_id) REFERENCES university.movie(m_id)
        ); """

    cur.execute(create_sql)
    conn.commit()
    
    insert_sql = f"""INSERT INTO {genre_table} (m_id, genre) VALUES (%s, %s);"""

    for i, row in df.iterrows():
        m_id = i + 1  # Assuming m_id should be unique for each row or derived from data
        genre = row['장르']
        try:
            cur.execute(insert_sql, (m_id, genre))
            if (i + 1) % 1000 == 0:
                print(f"{i+1} rows inserted")
        
        except Exception as e:
            print(e)
            print(row)
            # continue processing other rows or raise the exception as needed
    
    conn.commit()
    close_db(conn, cur)

def create_movie_director_table():
    conn, cur = open_db()
    movie_director_table = "university.movie_director"
    
    create_sql = f"""
        DROP TABLE IF EXISTS {movie_director_table};
        
        CREATE TABLE {movie_director_table} (
            m_id INT,
            d_id INT,
            PRIMARY KEY (m_id, d_id),
            FOREIGN KEY (m_id) REFERENCES university.movie(m_id),
            FOREIGN KEY (d_id) REFERENCES university.director(d_id)
        ); """
    
    cur.execute(create_sql)
    conn.commit()

    insert_sql = f"""
        INSERT INTO {movie_director_table} (m_id, d_id)
        SELECT m_id, d_id
        FROM university.movie, university.director
        WHERE m_id <= 102176 AND d_id <= 102176;
    """
    
    try:
        cur.execute(insert_sql)
        conn.commit()
        print(f"Inserted into movie_director table")
    except Exception as e:
        print(f"Error inserting into movie_director table: {e}")
    finally:
        close_db(conn, cur)

    
 


In [None]:
if __name__ == '__main__': 
    create_movie_director_table()

In [2]:
import pandas as pd
import numpy as np
from db_conn import *

import sys

excel_file = "movie_list.xls"
df1 = pd.read_excel(excel_file, sheet_name='영화정보 리스트', skiprows=4)

# 두 번째 시트: 헤더가 없으므로 None으로 설정
df2 = pd.read_excel(excel_file, sheet_name='영화정보 리스트_2', header=None)


# 두 번째 시트의 데이터프레임에 헤더 추가
df2.columns = ['영화명', '영화명(영문)', '제작연도', '제작국가', '유형', '장르', '제작상태', '감독', '제작사']

# 두 데이터프레임 합치기
df = pd.concat([df1, df2], ignore_index=True)

#df = list(df.itertuples(index=False, name=None))

In [3]:
df

Unnamed: 0,영화명,영화명(영문),제작연도,제작국가,유형,장르,제작상태,감독,제작사
0,탈주,Escape,2024.0,한국,장편,액션,개봉예정,이종필,더램프(주)
1,고독한 미식가: 여름휴가,Solitary Gourmet 2023 New Year’s Eve Special,2023.0,일본,장편,드라마,기타,,
2,하이재킹,Hijack 1971,2024.0,한국,장편,"범죄,액션",개봉예정,김성한,(주)퍼펙트스톰필름
3,빼꼼: 미션 투 마스,Backkom Bear: Mars Mission,2023.0,중국,장편,애니메이션,개봉,,
4,아찔한 유혹,BOSO DOS,2023.0,필리핀,장편,"범죄,스릴러,드라마",기타,,비바 필름
...,...,...,...,...,...,...,...,...,...
102171,CJ 아시아인디영화제[2005.11.3-11.8],,2005.0,,기타,,기타,,
102172,제2회 서울환경영화제[2005.9.8-9.14],2nd Green Film Festival in Seoul,2005.0,,기타,,기타,,
102173,레슨/달이지고 비가 옵니다/저푸른 초원(단편),,2002.0,한국,단편,,기타,,
102174,엔조이/ 특집! 노래자랑(단편),,2001.0,한국,단편,,기타,,


In [3]:
import pandas as pd
from db_conn import *

def read_excel_into_mysql():
    excel_file = "movie_list.xls"

    conn, cur = open_db()

    df1 = pd.read_excel(excel_file, sheet_name='영화정보 리스트', skiprows=4)

    # 두 번째 시트: 헤더가 없으므로 None으로 설정
    df2 = pd.read_excel(excel_file, sheet_name='영화정보 리스트_2', header=None)
    
    # 두 번째 시트의 데이터프레임에 헤더 추가
    df2.columns = ['영화명', '영화명(영문)', '제작연도', '제작국가', '유형', '장르', '제작상태', '감독', '제작사']
    
    # 두 데이터프레임 합치기
    df = pd.concat([df1, df2], ignore_index=True)
    
    # 빈 값을 None으로 변경
    df = df.where(pd.notnull(df), None)
    
    # '제작연도' 열의 데이터 타입을 Int64로 변경하고 NaN 값을 0으로 변경
    df['제작연도'] = df['제작연도'].astype('Int64').where(pd.notnull(df['제작연도']), 0)
    
    movie_table = "university.movie"

    create_sql = f"""
        DROP TABLE IF EXISTS {movie_table};

        CREATE TABLE {movie_table} (
            id INT AUTO_INCREMENT PRIMARY KEY,
            title VARCHAR(500),
            eng_title VARCHAR(500),
            year INT,
            country VARCHAR(100),
            m_type VARCHAR(10),
            genre VARCHAR(100),
            status VARCHAR(30),
            director TEXT,
            company TEXT,
            enter_date DATETIME DEFAULT NOW()
        );"""

    cur.execute(create_sql)

    insert_sql = f"""INSERT INTO {movie_table} (title, eng_title, year, country, m_type, genre, status, director, company)
                    VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s);"""

    # 데이터프레임의 값을 튜플로 변환하여 리스트에 저장
    data = [tuple(row) for row in df.values]

    try:
        # executemany 메서드를 사용하여 여러 개의 행을 삽입
        cur.executemany(insert_sql, data)
        print("Data inserted successfully!")

    except Exception as e:
        print("An error occurred:", e)

    conn.commit()
    close_db(conn, cur)


In [4]:
if __name__ == '__main__':
    read_excel_into_mysql() 

Data inserted successfully!


In [31]:
import pandas as pd
from db_conn import *

def create_tables():
    conn, cur = open_db()
    
    try:
        # 외래 키 제약 조건을 삭제하기 위해 SET FOREIGN_KEY_CHECKS=0을 실행합니다.
        cur.execute("SET FOREIGN_KEY_CHECKS=0;")
        
        # 테이블 삭제
        cur.execute("DROP TABLE IF EXISTS movie;")
        cur.execute("DROP TABLE IF EXISTS director;")
        cur.execute("DROP TABLE IF EXISTS genre;")

        # 외래 키 제약 조건이 제거된 후 다시 FOREIGN_KEY_CHECKS=1을 실행합니다.
        cur.execute("SET FOREIGN_KEY_CHECKS=1;")

        # 테이블 생성
        cur.execute("""
            CREATE TABLE director (
                id INT AUTO_INCREMENT PRIMARY KEY,
                name VARCHAR(255) UNIQUE
            );
        """)
        
        cur.execute("""
            CREATE TABLE genre (
                id INT AUTO_INCREMENT PRIMARY KEY,
                name VARCHAR(255) UNIQUE
            );
        """)
        
        cur.execute("""
            CREATE TABLE movie (
                id INT AUTO_INCREMENT PRIMARY KEY,
                title VARCHAR(500),
                eng_title VARCHAR(500),
                year INT,
                country VARCHAR(100),
                m_type VARCHAR(10),
                status VARCHAR(30),
                director_id INT,
                genre_id INT,
                enter_date DATETIME DEFAULT NOW(),
                FOREIGN KEY (director_id) REFERENCES director(id),
                FOREIGN KEY (genre_id) REFERENCES genre(id)
            );
        """)
        
        print("Tables created successfully!")
    except Exception as e:
        print("An error occurred while creating tables:", e)
    
    conn.commit()
    close_db(conn, cur)


def read_excel_into_mysql():
    excel_file = "movie_list.xls"

    conn, cur = open_db()

    df1 = pd.read_excel(excel_file, sheet_name='영화정보 리스트', skiprows=4)

    # 두 번째 시트: 헤더가 없으므로 None으로 설정
    df2 = pd.read_excel(excel_file, sheet_name='영화정보 리스트_2', header=None)
    
    # 두 번째 시트의 데이터프레임에 헤더 추가
    df2.columns = ['영화명', '영화명(영문)', '제작연도', '제작국가', '유형', '장르', '제작상태', '감독', '제작사']
    
    # 두 데이터프레임 합치기
    df = pd.concat([df1, df2], ignore_index=True)
    
    # 빈 값을 None으로 변경
    df = df.where(pd.notnull(df), None)
    
    # '제작연도' 열의 데이터 타입을 Int64로 변경하고 NaN 값을 0으로 변경
    df['제작연도'] = df['제작연도'].astype('Int64').where(pd.notnull(df['제작연도']), 0)
    
    movie_table = "movie"
    director_table = "director"
    genre_table = "genre"

    insert_movie_sql = f"""INSERT INTO {movie_table} (title, eng_title, year, country, m_type, status, director_id, genre_id)
                           VALUES (%s, %s, %s, %s, %s, %s, %s, %s);"""

    insert_director_sql = f"""INSERT IGNORE INTO {director_table} (name)
                              VALUES (%s);"""

    insert_genre_sql = f"""INSERT INTO {genre_table} (name)
                           VALUES (%s);"""

    try:
        # 영화 삽입
        cur.executemany(insert_movie_sql, df[['영화명', '영화명(영문)', '제작연도', '제작국가', '유형', '제작상태']].values.tolist())
        print("Movies inserted successfully!")

        # 감독 삽입 (중복된 감독 이름은 무시)
        directors = set(df['감독'].dropna())  # 중복 감독 제거
        cur.executemany(insert_director_sql, [(director,) for director in directors])
        print("Directors inserted successfully!")

        # 장르 삽입 (기존 코드와 동일)
        genres = set(genre.strip() for sublist in df['장르'].dropna().str.split(',') for genre in sublist)
        cur.executemany(insert_genre_sql, [(genre,) for genre in genres])
        print("Genres inserted successfully!")

        # 영화의 감독 ID와 장르 ID 업데이트
        # 감독과 장르 이름을 ID로 변환하여 업데이트
        for index, row in df.iterrows():
            director_id = cur.execute("SELECT id FROM director WHERE name = %s", (row['감독'],))
            genre_ids = []
        for genre in row['장르'].split(','):
            genre_id = cur.execute("SELECT id FROM genre WHERE name = %s", (genre.strip(),))
            genre_ids.append(genre_id)
        # df에 외래 키 값 업데이트
        df.at[index, 'director_id'] = director_id
        df.at[index, 'genre_id'] = genre_ids[0]  # 여러 장르 중 첫 번째 장르만 선택
    
        # 영화 테이블에 외래 키 값 업데이트
        cur.execute(insert_movie_sql, (row['영화명'], row['영화명(영문)'], row['제작연도'], row['제작국가'], 
                                        row['유형'], row['제작상태'], director_id, genre_ids[0]))

        print("Foreign keys updated successfully!")

    except Exception as e:
        print("An error occurred while inserting data:", e)

    conn.commit()
    close_db(conn, cur)









Tables created successfully!
An error occurred while inserting data: not enough arguments for format string


Collecting xlrd
  Downloading xlrd-2.0.1-py2.py3-none-any.whl.metadata (3.4 kB)
Downloading xlrd-2.0.1-py2.py3-none-any.whl (96 kB)
   ---------------------------------------- 0.0/96.5 kB ? eta -:--:--
   ---- ----------------------------------- 10.2/96.5 kB ? eta -:--:--
   ------------------------- -------------- 61.4/96.5 kB 1.1 MB/s eta 0:00:01
   ---------------------------------------- 96.5/96.5 kB 1.4 MB/s eta 0:00:00
Installing collected packages: xlrd
Successfully installed xlrd-2.0.1
Note: you may need to restart the kernel to use updated packages.
