## 2019~2022년도 데이터 추출

In [None]:
import pymysql

conn = pymysql.connect(
    host='127.0.0.1',
    user='root',
    password='dpsjwlvk7&',
    db='hyperanalystic',
    charset='utf8'
)

# 커서 생성
cursor = conn.cursor()

# 2019~2022년도 데이터 추출 후 새로운 테이블 생성
try:
    # 새로운 테이블 생성
    create_table_sql = """
    CREATE TABLE patent_registration_2019_2022 AS 
    SELECT * FROM raw_data 
    WHERE application_year BETWEEN 2019 AND 2022;
    """
    cursor.execute(create_table_sql)
    print("Table 'patent_registration_2019_2022' created successfully with data from 2019 to 2022.")
    
    # 에러
except pymysql.Error as err:
    print(f"Error creating or inserting data into new table: {err}")

# 저장
conn.commit()

# 닫기
cursor.close()
conn.close()


## 데이터 전처리

#### 불용어 제거

In [None]:
import pandas as pd
from sqlalchemy import create_engine

# SQLAlchemy 엔진 생성 (MySQL 연결 설정)
engine = create_engine('mysql+pymysql://root:dpsjwlvk7&@127.0.0.1/hyperanalystic')

# 데이터 불러오기
query = "SELECT * FROM patent_registration_2019_2022"
data = pd.read_sql(query, engine)

# 데이터 확인
print(data.head())


In [None]:
import pandas as pd
import re

# 데이터 전처리 함수 정의 (한글과 영어 모두 허용)
def preprocess_text(text):
    try:
        # 모든 문자를 소문자로 변환
        text = text.lower()
        # 한글과 영어 이외의 특수 문자 및 숫자 제거
        text = re.sub(r'[^a-zA-Z가-힣\s]', '', text)
        # 여러 개의 공백을 하나로 줄임
        text = re.sub(r'\s+', ' ', text).strip()
    except Exception as e:
        print(f"Error processing text: {text} - {e}")
        text = ''
    return text

# 특허명 열에 대해 전처리 수행
data['preprocessed_patent_name'] = data['patent_name'].apply(preprocess_text)

# 데이터 확인
print(data[['preprocessed_patent_name']].head())


## Hannanum

In [None]:
import pandas as pd
from konlpy.tag import Hannanum

hannanum = Hannanum()

# 명사만 추출하는 함수 정의
def extract_nouns(text):
    try:
        # 명사만 추출
        nouns = hannanum.nouns(text)
    except Exception as e:
        print(f"Error processing text: {text} - {e}")
        nouns = []
    return ' '.join(nouns)

# 특허명 전처리 후 명사만 추출
data['processed_patent_name'] = data['preprocessed_patent_name'].apply(extract_nouns)

# 결과 확인
print(data[['processed_patent_name']].head(30))

In [None]:
import pandas as pd
from konlpy.tag import Hannanum
import mysql.connector

db_connection = mysql.connector.connect(
    host='127.0.0.1',
    user='root',
    password='dpsjwlvk7&',
    db='hyperanalystic',
)

# 커서 생성
cursor = db_connection.cursor()

# purified_data 테이블 생성
create_table_query = '''
CREATE TABLE IF NOT EXISTS purified_data (
    id INT AUTO_INCREMENT PRIMARY KEY,
    processed_patent_name TEXT,
    country VARCHAR(255),
    application_year INT
);
'''
cursor.execute(create_table_query)

# 데이터 삽입 쿼리
insert_query = '''
INSERT INTO purified_data (processed_patent_name, country, application_year)
VALUES (%s, %s, %s);
'''

# 데이터 삽입
for index, row in data.iterrows():
    cursor.execute(insert_query, (row['processed_patent_name'], row['country'], row['application_year']))

# 변경 사항 커밋
db_connection.commit()

# 연결 종료
cursor.close()
db_connection.close()
