# 글로벌 R&D 분석센터 DB의 'web_of_sciecne_2300_raw' 이름의 데이터베이스에서 필요한 테이블 및 컬럼을 추출함

< 보고사항 >
1. 여러 주피터 노트북 워크시트를 합한 파일이므로 변수명의 중복이 있을 수 있음. 이 점을 인지하여 코드를 활용하길 바람.  
2. 쿼리 요청시 필요 테이블끼리 join해서 데려오는 방법도 있지만, 필자는 테이블별로 우선 필요 컬럼만 필터링하여 로컬에 txt로 저장한 후, 이 txt 파일들을 pandas df로 로드하여 pandas의 merge()를 사용하여 조인을 구현.  
3. 최종본은 txt로 저장하는게 규정돼있지만, 중간과정은 parquet로 저장 및 로드하는게 효율적임. 하지만 txt로 저장하면 미리보기를 이용하여 보기 편리해서 중간과정도 txt로 저장함. 더 효율적인걸 추구하려면 parquet를 추천함.  

In [None]:
import pymysql
from sqlalchemy import create_engine
import pandas as pd
from pandas.io import sql
import datetime
import pandas as pd
import pandasql as ps
import csv

## DB connection 정보 입력

In [None]:
# DB connection Info
user = 'user'
pw = 'pw'
ip = 'ip'
port = 'port'
db = 'db_name'    # SQL client -> 필요한 DB 이름 확인

## DB로부터 abstract 테이블 데이터 추출(필요컬럼만)

In [None]:
now = datetime.datetime.now() 
print('시작:', now)

# Query
query = """
SELECT uid, abstract_text AS abstract
FROM abstract
;
"""

# DB Connect
pymysql.install_as_MySQLdb()
cnx = create_engine("mysql://{user}:{pw}@{ip}:{port}/{db}".format(user=user, pw=pw, ip=ip, port=port, db=db))
cnx.begin()

# Query Execution
df = pd.read_sql_query(query, cnx)

# DB Disconnect
cnx.dispose()

# Save DataFrame to txt
df.to_csv('./dict/abstract.txt', sep='\t', index=False)

now = datetime.datetime.now()
print('종료:', now)

df

In [None]:
df['abstract'] = df['abstract'].str.strip('"')

df

In [None]:
df['abstract'] = df['abstract'].str.strip('\n')

df

In [None]:
# 텍스트 파일로 저장, 큰따옴표 없이
df.to_csv('./mid/abstract.txt', sep='\t', index=False, quoting=csv.QUOTE_NONE, escapechar='\\')

## DB로부터 keyword 테이블 데이터 추출(필요컬럼만), 복분류시 ;로 collapse

In [None]:
now = datetime.datetime.now() 
print('시작:', now)

# Query
query = """
SELECT uid, keyword
FROM keyword
;
"""

# DB Connect
pymysql.install_as_MySQLdb()
cnx = create_engine("mysql://{user}:{pw}@{ip}:{port}/{db}".format(user=user, pw=pw, ip=ip, port=port, db=db))
cnx.begin()

# Query Execution
df = pd.read_sql_query(query, cnx)

# DB Disconnect
cnx.dispose()


# Save DataFrame to txt
df.to_csv('./dict/keyword.txt', sep='\t', index=False)

now = datetime.datetime.now()
print('종료:', now)

df

In [None]:
# reading 
now = datetime.datetime.now() 
print('시작:', now)
df = pd.read_csv('./dict/keyword.txt', sep='\t')
now = datetime.datetime.now()
print('종료:', now)

In [None]:
# null 값이 아닌 keyword 값만을 선택합니다.
df = df.dropna(subset=['keyword'])

# 이제 keyword 열의 모든 값을 문자열로 변환합니다.
df['keyword'] = df['keyword'].astype(str)

# uid 별로 keyword를 세미콜론으로 연결합니다. null 값은 이미 제거되었습니다.
df_grouped = df.groupby('uid')['keyword'].apply(lambda x: ';'.join(x)).reset_index()

# 결과를 확인합니다.
print(df_grouped)

In [None]:
# Save DataFrame to txt
df_grouped.to_csv('./mid/aukey.txt', sep='\t', index=False)

## DB로부터 doctype 테이블 데이터 추출(필요컬럼만)

In [None]:
now = datetime.datetime.now() 
print('시작:', now)

# Query
query = """
SELECT uid, doctype AS doctype2
FROM doctype

;
"""

# DB Connect
pymysql.install_as_MySQLdb()
cnx = create_engine("mysql://{user}:{pw}@{ip}:{port}/{db}".format(user=user, pw=pw, ip=ip, port=port, db=db))
cnx.begin()

# Query Execution
df = pd.read_sql_query(query, cnx)

# DB Disconnect
cnx.dispose()


# Save DataFrame to txt
df.to_csv('./dict/doctype.txt', sep='\t', index=False)

now = datetime.datetime.now()
print('종료:', now)

df

## DB로부터 edition 테이블 데이터 추출(필요컬럼만)

In [None]:
now = datetime.datetime.now() 
print('시작:', now)

# Query
query = """
SELECT uid,edition
FROM edition
;
"""

# DB Connect
pymysql.install_as_MySQLdb()
cnx = create_engine("mysql://{user}:{pw}@{ip}:{port}/{db}".format(user=user, pw=pw, ip=ip, port=port, db=db))
cnx.begin()

# Query Execution
df = pd.read_sql_query(query, cnx)

# DB Disconnect
cnx.dispose()


# Save DataFrame to txt
df.to_csv('./dict/edition.txt', sep='\t', index=False)

now = datetime.datetime.now()
print('종료:', now)

df

## DB로부터 identifier테이블 데이터 추출(필요컬럼만)

In [None]:
now = datetime.datetime.now() 
print('시작:', now)

# Query
query = """
SELECT uid,edition
FROM edition
;
"""

# DB Connect
pymysql.install_as_MySQLdb()
cnx = create_engine("mysql://{user}:{pw}@{ip}:{port}/{db}".format(user=user, pw=pw, ip=ip, port=port, db=db))
cnx.begin()

# Query Execution
df = pd.read_sql_query(query, cnx)

# DB Disconnect
cnx.dispose()

# 필요 컬럼만 추출
#df = df[['uid', 'sortdate', 'pubyear', 'pubtype']]

# Save DataFrame to txt
df.to_csv('./dict/edition.txt', sep='\t', index=False)

now = datetime.datetime.now()
print('종료:', now)

df

## DB로부터 source 테이블 데이터 추출(필요컬럼만)

In [None]:
now = datetime.datetime.now() 
print('시작:', now)

# Query
query = """
SELECT uid,source,source_abbrev
FROM source
;
"""

# DB Connect
pymysql.install_as_MySQLdb()
cnx = create_engine("mysql://{user}:{pw}@{ip}:{port}/{db}".format(user=user, pw=pw, ip=ip, port=port, db=db))
cnx.begin()

# Query Execution
df = pd.read_sql_query(query, cnx)

# DB Disconnect
cnx.dispose()

# 필요 컬럼만 추출
#df = df[['uid', 'sortdate', 'pubyear', 'pubtype']]

# Save DataFrame to txt
df.to_csv('./dict/source.txt', sep='\t', index=False)

now = datetime.datetime.now()
print('종료:', now)

df

## DB로부터 coretc 테이블 데이터 추출(필요컬럼만)

In [None]:
now = datetime.datetime.now() 
print('시작:', now)

# Query
query = """
SELECT uid,title AS item
FROM title
;
"""

# DB Connect
pymysql.install_as_MySQLdb()
cnx = create_engine("mysql://{user}:{pw}@{ip}:{port}/{db}".format(user=user, pw=pw, ip=ip, port=port, db=db))
cnx.begin()

# Query Execution
df = pd.read_sql_query(query, cnx)

# DB Disconnect
cnx.dispose()

# 필요 컬럼만 추출
#df = df[['uid', 'sortdate', 'pubyear', 'pubtype']]

# Save DataFrame to txt
df.to_csv('./dict/title.txt', sep='\t', index=False)

now = datetime.datetime.now()
print('종료:', now)

df

## DB로부터 title 테이블 데이터 추출(필요컬럼만)

In [None]:
now = datetime.datetime.now() 
print('시작:', now)

# Query
query = """
SELECT uid, wos_total AS tc
FROM coretc
;
"""

# DB Connect
pymysql.install_as_MySQLdb()
cnx = create_engine("mysql://{user}:{pw}@{ip}:{port}/{db}".format(user=user, pw=pw, ip=ip, port=port, db=db))
cnx.begin()

# Query Execution
df = pd.read_sql_query(query, cnx)

# DB Disconnect
cnx.dispose()

# 필요 컬럼만 추출
#df = df[['uid', 'sortdate', 'pubyear', 'pubtype']]

# Save DataFrame to txt
df.to_csv('./dict/coretc.txt', sep='\t', index=False)

now = datetime.datetime.now()
print('종료:', now)

df

## DB로부터 pub_info 테이블 데이터 추출(필요컬럼만). pubyear ≥ 2006인것만 추출.

In [None]:
now = datetime.datetime.now() 
print('시작:', now)

# Query
query = """
SELECT *
FROM pub_info
WHERE pubyear >= 2006
;
"""

# DB Connect
pymysql.install_as_MySQLdb()
cnx = create_engine("mysql://{user}:{pw}@{ip}:{port}/{db}".format(user=user, pw=pw, ip=ip, port=port, db=db))
cnx.begin()

# Query Execution
df = pd.read_sql_query(query, cnx)

# DB Disconnect
cnx.dispose()

# 필요 컬럼만 추출
#df = df[['uid', 'sortdate', 'pubyear', 'pubtype']]

# Save DataFrame to txt
df.to_csv('./dict/pub_info_total.txt', sep='\t', index=False)

now = datetime.datetime.now()
print('종료:', now)

df

### uid 컬럼 uniqueness 검증 및 처리
uid 컬럼에 대해 유일성 검토하여 중복 제거 처리  
중복된 uid 행을 추출하여 csv파일로 저장 -> 육안 검토 후 내용이 모두 같음을 파악 -> uid 컬럼 기준으로 중복제거함

In [None]:
# uid 컬럼에서 중복된 값을 찾음 (모든 중복 표시)
duplicated_rows = df[df.duplicated('uid', keep=False)]

# 중복된 uid 값들을 가진 행 출력
print(duplicated_rows)

duplicated_rows.to_csv('./check/duplicated_uids_total.csv', index=False)

In [None]:
# uid 컬럼 기준으로 중복 제거 (첫 번째 행만 남김)
df_unique = df.drop_duplicates(subset='uid', keep='first')

# 결과 확인
print(df_unique)# 추가 작업시 행 변환 해야함 pubyear -> pubyear2

In [None]:
now = datetime.datetime.now() 
print('시작:', now)
df_unique.to_csv('./dict/pub_info_unique.txt', sep='\t', index=False)
now = datetime.datetime.now()
print('종료:', now)



In [None]:
# 두 개의 컬럼만 추출하여 저장
now = datetime.datetime.now() 
print('시작:', now)

# Query
query = """
SELECT uid, pubyear AS pubyear2
FROM df_unique
;
"""

# pandasql을 사용하여 쿼리 실행
df3= ps.sqldf(query)


now = datetime.datetime.now()
print('종료:', now)

df3

In [None]:
now = datetime.datetime.now() 
print('시작:', now)
df3.to_csv('./dict/pub_info_unique_2col.txt', sep='\t', index=False)
now = datetime.datetime.now()
print('종료:', now)