# MariaDB 설치 및 데이터적재 실습

## Step.1 관련 툴 설치

- [MariaDB 설치방법](https://cha-coding.tistory.com/entry/MariaDB-%EC%9C%88%EB%8F%84%EC%9A%B010-MariaDB-%EC%84%A4%EC%B9%98%ED%95%98%EA%B8%B0)

    **(주의) id/password 는 root/root1234 로 통일**  
    -- Enable access from remote machines for 'root' user : 외부 원격 시스템에서 'root' 계정에 대해 접근을 허용한다.   
    -- **User UTF8 as default server's charactor set (필수) : 서버의 문자셋을 UTF8로 설정한다.**    
    -- MySQL과 MariaDB는 기본적으로 3306 포트를 이용한다.


- [MariaDB 다운로드](https://mariadb.org/download/?t=mariadb&p=mariadb&r=11.3.2&os=windows&cpu=x86_64&pkg=msi&mirror=blendbyte)


- [HeidiSQL다운로드](https://www.heidisql.com/download.php)

    **(신규 데이터베이스 생성**   
    -- <새로생성> - <데이터베이스> - 이름은 'dbmaria'    
          
    **(신규 사용자 등록)**    
    -- 1. 프로그램 상단의 [도구] - [사용자 관리자] 메뉴 클릭   
    -- 2. [추가] 버튼 클릭    
    -- 3. 사용자 이름(user), 암호(user1234), 호스트(모든곳에서접근), 데이터베이스(dbmaria) 설정을 해준다.  

## Step.2 데이터 파일 다운로드

- (공공데이터분석) 국토부 아파트매매 실거래가 API[data.go.kr] 연동

-  XML 국토교통부_아파트매매 실거래자료 : https://www.data.go.kr/data/15058747/openapi.do

-  행정표준관리시스템 : https://www.code.go.kr/index.do ( [메뉴] 자주이용하는 코드 > 법정동 > [법정동코드전체자료] )

- **(필수) 특정월에 서울시 전체 구의 데이터를 한번에 가져오기(입력값: 연월 202403)**
- (선택) 특정 서울시 하나의 구의 과거 1년치 데이터를 한번에 가져오기(입력값: 특정구 하나) 
- 또는 첨부된 data 폴더 파일 사용

## Step.3 데이터 파일 통합 읽기

- 폴더내 CSV 파일 전체 읽기
- 하나의 데이터프레임으로 통합
- (문제점) 파일명의 정보(예시: 구이름)가 모두 포함되지 않음 ... 포함하는 방안은? (답:새로운 컬럼추가)


In [52]:
import os
import pandas as pd

In [53]:
# CSV 파일이 들어있는 디렉토리 경로
directory = './data/'
# 빈 리스트 생성
dfs = []

In [54]:
for filename in os.listdir(directory)[0:1]:
    print(filename)
    print(filename.split("_")[1])
    print(filename.split("_")[2].split(".")[0])

result_강남구_202403.csv
강남구
202403


In [56]:
# 디렉토리 내 모든 CSV 파일 가져오기
for filename in os.listdir(directory):
    if filename.endswith(".csv"):
        filepath = os.path.join(directory, filename)
        print(f"Reading file: {filename}")
        
        # CSV 파일을 데이터프레임으로 읽기
        df = pd.read_csv(filepath, encoding='cp949')
        df = df.drop_duplicates()
        df['GU'] = filename.split("_")[1]
        df['YM'] = str(filename.split("_")[2].split(".")[0])
        df['transaction_id'] = [f"{i+1:03d}" for i in range(len(df))]

        
        # 데이터프레임을 리스트에 추가
        dfs.append(df)

Reading file: result_강남구_202403.csv
Reading file: result_강동구_202403.csv
Reading file: result_강북구_202403.csv
Reading file: result_강서구_202403.csv
Reading file: result_관악구_202403.csv
Reading file: result_광진구_202403.csv
Reading file: result_구로구_202403.csv
Reading file: result_금천구_202403.csv
Reading file: result_노원구_202403.csv
Reading file: result_도봉구_202403.csv
Reading file: result_동대문구_202403.csv
Reading file: result_동작구_202403.csv
Reading file: result_마포구_202403.csv
Reading file: result_서대문구_202403.csv
Reading file: result_서초구_202403.csv
Reading file: result_성동구_202403.csv
Reading file: result_성북구_202403.csv
Reading file: result_송파구_202403.csv
Reading file: result_양천구_202403.csv
Reading file: result_영등포구_202403.csv
Reading file: result_용산구_202403.csv
Reading file: result_은평구_202403.csv
Reading file: result_종로구_202403.csv
Reading file: result_중구_202403.csv
Reading file: result_중랑구_202403.csv


In [59]:
# 리스트에 있는 모든 데이터프레임을 합치기
result = pd.concat(dfs, ignore_index=True)
result.head(1)

Unnamed: 0,거래금액,거래유형,건축년도,년,동,등기일자,매도자,매수자,법정동,아파트,...,전용면적,중개사소재지,지번,지역코드,층,해제사유발생일,해제여부,GU,YM,transaction_id
0,197000,중개거래,2005,2024,,,개인,개인,역삼동,e-편한세상,...,59.606,서울 강남구,755-4,11680,6,,,강남구,202403,1


In [60]:
# 결과 저장 및 확인
result.to_csv("result_all.csv", index=False)

## Step.4 MariaDB 연결 (pymysql 사용)

In [None]:
# pymysql 라이브러리를 설치합니다.
#!pip install pymysql

In [None]:
#### 아래 실행 전 테이블 삭제
def db_delete():
    import pymysql
    # MariaDB 연결
    conn = pymysql.connect(host='127.0.0.1', user='user', password='user1234', db='dbmaria', charset='utf8')
    # 커서 생성
    cur = conn.cursor()
    # User 테이블 생성 (nameUser에 UNIQUE 제약 추가)
    cur.execute('''DROP TABLE user''')
    # 변경사항 커밋
    conn.commit()
    # 연결 종료
    conn.close()

In [None]:
#db_delete()

- 테이블 생성 및 샘플 데이터 추가

In [None]:
import pymysql
# MariaDB 연결
conn = pymysql.connect(host='127.0.0.1', port=3306, user='user', password='user1234', db='dbmaria', charset='utf8')
# 커서 생성
cur = conn.cursor()
# User 테이블 생성 (nameUser에 UNIQUE 제약 추가)
cur.execute('''CREATE TABLE IF NOT EXISTS user (
                nameUser VARCHAR(255) PRIMARY KEY,
                ageUser INTEGER,
                phoneUser VARCHAR(20)
            )''')
# 삽입할 데이터
data_list = [
    ('user1', 25, '010-0123-4567'),
    ('user2', 30, '010-1234-5678'),
    ('user3', 35, '010-2345-6789'),
    ('user4', 40, '010-3456-7890'),
    ('user5', 66, '010-3676-7230')
]
# 데이터 삽입
sql = "INSERT INTO user (nameUser, ageUser, phoneUser) VALUES (%s, %s, %s)"
cur.executemany(sql, data_list)
# 변경사항 커밋
conn.commit()
# 연결 종료
conn.close()

- 테이블 데이터 조회

In [None]:
import pymysql
conn = pymysql.connect(host='127.0.0.1', user='user', password='user1234', db='dbmaria', charset='utf8')
cur = conn.cursor()
sql = "SELECT * FROM user"
cur.execute(sql)
results = cur.fetchall()
for i in results:
    print(i[0] + " / " + str(i[1]) + " / " + i[2])
conn.close()

In [None]:
import pymysql
def db_query():
    conn = pymysql.connect(host='127.0.0.1', user='user', password='user1234', db='dbmaria', charset='utf8')
    cur = conn.cursor()
    sql = "SELECT * FROM user"
    cur.execute(sql)
    results = cur.fetchall()
    for i in results:
        print(i[0] + " / " + str(i[1]) + " / " + i[2])
    conn.close()

- 테이블에서 데이터 수정

In [None]:
import pymysql
conn = pymysql.connect(host='127.0.0.1', user='user', password='user1234', db='dbmaria', charset='utf8')
cur = conn.cursor()
sql = "UPDATE user SET ageUser = 25 WHERE nameUser = 'user4'"
cur.execute(sql)
conn.commit()
conn.close()

In [None]:
db_query()

- 테이블에 데이터 추가

In [None]:
import pymysql
conn = pymysql.connect(host='127.0.0.1', user='user', password='user1234', db='dbmaria', charset='utf8')
cur = conn.cursor()
#sql = "INSERT INTO User (nameUser, ageUser, phoneUser) VALUE ('user6',25,'010-0123-4567')"
sql = "INSERT INTO User (nameUser, ageUser, phoneUser) VALUE ('user8',35,'010-0233-4587')"
cur.execute(sql)
conn.commit()
conn.close()

In [None]:
db_query()

- 테이블에서 데이터 삭제

In [None]:
import pymysql
conn = pymysql.connect(host='127.0.0.1', user='user', password='user1234', db='dbmaria', charset='utf8')
cur = conn.cursor()
sql = "DELETE FROM user WHERE nameUser = 'user6'"
cur.execute(sql)
conn.commit()
conn.close()

In [None]:
db_query()

In [None]:
db_delete()

## Step.5 (쉬운방법) MariaDB에 to_sql로 적재 (sqlalchemy 사용)

In [None]:
import pandas as pd
import pymysql

In [None]:
conn = pymysql.connect(host='127.0.0.1', port=3306, user='user', password='user1234', db='dbmaria', charset='utf8')

In [None]:
#C:\Users\salix\anaconda3\lib\site-packages\pandas\io\sql.py:761: 
#UserWarning: pandas only support SQLAlchemy connectable(engine/connection) 
#ordatabase string URI or sqlite3 DBAPI2 connectionother DBAPI2 objects 
#are not tested, please consider using SQLAlchemy warnings

#result.to_sql(name='gu_land_data', con=conn, if_exists='replace', index=False) #append, replace

In [None]:
result = pd.read_csv("result_all.csv", index_col=None)

In [None]:
result.tail()

In [None]:
#!pip install sqlalchemy

In [None]:
from sqlalchemy import create_engine

In [None]:
db_con_str = 'mysql+pymysql://user:user1234@localhost:3306/dbmaria'
db_con_ac = create_engine(db_con_str)

In [None]:
conn_ac = db_con_ac.connect()

In [None]:
result.to_sql(name='gu_land_data', con=conn_ac, if_exists='append', index=False) #append, replace

## Step.6 (일반적) MariaDB에 통합데이터를 insert로 적재

- pymysql을 사용하여 데이터를 삽입하는 예제 코드

In [61]:
import pandas as pd
import pymysql
import numpy as np

# 데이터 프레임 생성
result = pd.read_csv("result_all.csv", index_col=None)
df = result
df['YM'] = df['YM'].astype(str)
df['transaction_id'] = df['transaction_id'].apply(lambda x: '{:04d}'.format(x))

In [62]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4128 entries, 0 to 4127
Data columns (total 22 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   거래금액            4128 non-null   object 
 1   거래유형            4128 non-null   object 
 2   건축년도            4128 non-null   int64  
 3   년               4128 non-null   int64  
 4   동               579 non-null    object 
 5   등기일자            699 non-null    object 
 6   매도자             4128 non-null   object 
 7   매수자             4128 non-null   object 
 8   법정동             4128 non-null   object 
 9   아파트             4128 non-null   object 
 10  월               4128 non-null   int64  
 11  일               4128 non-null   int64  
 12  전용면적            4128 non-null   float64
 13  중개사소재지          3967 non-null   object 
 14  지번              4128 non-null   object 
 15  지역코드            4128 non-null   int64  
 16  층               4128 non-null   int64  
 17  해제사유발생일         100 non-null    o

In [63]:
df.tail()

Unnamed: 0,거래금액,거래유형,건축년도,년,동,등기일자,매도자,매수자,법정동,아파트,...,전용면적,중개사소재지,지번,지역코드,층,해제사유발생일,해제여부,GU,YM,transaction_id
4123,49147,직거래,2023,2024,,,개인,개인,신내동,망우역신원아침도시,...,57.991,,838,11260,2,24.04.16,O,중랑구,202403,117
4124,48500,중개거래,1997,2024,,,개인,개인,신내동,동성3,...,59.4,서울 중랑구,618,11260,20,,,중랑구,202403,118
4125,27500,중개거래,1996,2024,,,개인,개인,신내동,신내9진흥,...,33.18,서울 중랑구,657,11260,1,,,중랑구,202403,119
4126,27500,중개거래,1989,2024,,,개인,개인,신내동,경원,...,59.4,서울 중랑구,449-1,11260,4,,,중랑구,202403,120
4127,38500,중개거래,1996,2024,,,개인,개인,신내동,신내6대주,...,39.84,서울 중랑구,650,11260,3,,,중랑구,202403,121


In [64]:
# 데이터프레임의 NaN 값을 NULL로 대체
df = df.fillna("")

In [65]:
##############################
# ChatGPT 활용 및 테이블 생성
##############################
# 파이썬 데이터프레임을 maria db에 적재하기 위한 테이블 생성문을 작성해줘 ... 
# 다음 데이터프레임 정보를 참고해서...

# CREATE TABLE IF NOT EXISTS gu_real_estate (
#     transaction_id INT AUTO_INCREMENT PRIMARY KEY,
#     transaction_amount VARCHAR(255),
#     transaction_type VARCHAR(255),
#     construction_year VARCHAR(255),
#     year INT,
#     dong VARCHAR(255),
#     registration_date VARCHAR(255),
#     seller VARCHAR(255),
#     buyer VARCHAR(255),
#     legal_dong VARCHAR(255),
#     apartment_name VARCHAR(255),
#     month INT,
#     day INT,
#     exclusive_area FLOAT,
#     broker_location VARCHAR(255),
#     jibun VARCHAR(255),
#     region_code INT,
#     floor INT,
#     cancellation_reason_date VARCHAR(255),
#     cancellation_yn VARCHAR(255)
# );

In [66]:
# CREATE TABLE idv_stocks(
# 	user_id VARCHAR(50),
# 	stocks_id VARCHAR(10),
# 	stocks_name VARCHAR(30),
# 	ins_date DATETIME,
# 	PRIMARY KEY (user_id, stocks_id)
# );

# CREATE TABLE IF NOT EXISTS real_estate_yyyymmgu (
#     yyyymm_id VARCHAR(255),
#     gu_id VARCHAR(255),
#     transaction_id VARCHAR(255),
#     transaction_amount VARCHAR(255),
#     transaction_type VARCHAR(255),
#     construction_year VARCHAR(255),
#     year VARCHAR(255),
#     dong VARCHAR(255),
#     registration_date VARCHAR(255),
#     seller VARCHAR(255),
#     buyer VARCHAR(255),
#     legal_dong VARCHAR(255),
#     apartment_name VARCHAR(255),
#     month INT,
#     day INT,
#     exclusive_area FLOAT,
#     broker_location VARCHAR(255),
#     jibun VARCHAR(255),
#     region_code VARCHAR(255),
#     floor VARCHAR(255),
#     cancellation_reason_date VARCHAR(255),
#     cancellation_yn VARCHAR(255),
#     PRIMARY KEY (yyyymm_id, gu_id, transaction_id)
# );

In [67]:
# pymysql을 사용하여 MariaDB에 연결
conn = pymysql.connect(host='127.0.0.1', user='user', password='user1234', db='dbmaria', charset='utf8')
# 커서 생성
cur = conn.cursor()

In [68]:
# User 테이블 생성
# cur.execute('''CREATE TABLE IF NOT EXISTS user (
#                 nameUser VARCHAR(255),
#                 ageUser INTEGER,
#                 phoneUser VARCHAR(20)
#             )''')

In [69]:
df[df.duplicated(keep=False)]

Unnamed: 0,거래금액,거래유형,건축년도,년,동,등기일자,매도자,매수자,법정동,아파트,...,전용면적,중개사소재지,지번,지역코드,층,해제사유발생일,해제여부,GU,YM,transaction_id


In [70]:
df = df.drop_duplicates()

In [71]:
df[df.duplicated()]

Unnamed: 0,거래금액,거래유형,건축년도,년,동,등기일자,매도자,매수자,법정동,아파트,...,전용면적,중개사소재지,지번,지역코드,층,해제사유발생일,해제여부,GU,YM,transaction_id


In [72]:
df.head(1)

Unnamed: 0,거래금액,거래유형,건축년도,년,동,등기일자,매도자,매수자,법정동,아파트,...,전용면적,중개사소재지,지번,지역코드,층,해제사유발생일,해제여부,GU,YM,transaction_id
0,197000,중개거래,2005,2024,,,개인,개인,역삼동,e-편한세상,...,59.606,서울 강남구,755-4,11680,6,,,강남구,202403,1


In [73]:
# # 데이터 프레임의 데이터를 데이터베이스에 삽입
for index, row in df.iterrows():
    cur.execute("""
        INSERT INTO real_estate_yyyymmgu (
            yyyymm_id,
            gu_id,
            transaction_id,
            transaction_amount,
            transaction_type,
            construction_year,
            year,
            dong,
            registration_date,
            seller,
            buyer,
            legal_dong,
            apartment_name,
            month,
            day,
            exclusive_area,
            broker_location,
            jibun,
            region_code,
            floor,
            cancellation_reason_date,
            cancellation_yn
        ) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
    """, (
        row['YM'],
        row['GU'],
        row['transaction_id'],
        row['거래금액'],
        row['거래유형'],
        row['건축년도'],
        row['년'],
        row['동'],
        row['등기일자'],
        row['매도자'],
        row['매수자'],
        row['법정동'],
        row['아파트'],
        row['월'],
        row['일'],
        row['전용면적'],
        row['중개사소재지'],
        row['지번'],
        row['지역코드'],
        row['층'],
        row['해제사유발생일'],
        row['해제여부']
    ))

In [74]:
# 변경사항 커밋
conn.commit()

# 연결 종료
conn.close()

- (아마도 Step.8) 또다른 INSERT 구문 예시 (수정 필요)

In [None]:
#############################################
### 최종 버전
# cursor.execute("select * from sbuck_address2")
# rows = cursor.fetchall()

# if rows : # 레코드 있는 경우 : 레코드 조회
#     for row in rows :
#         for i in range(0,len(rows[0])):
#             print(f"{row[i]}", end = ' ')
#         print(f"\n")
#     print('전체 레코드 수 : ', len(rows))
    
# else: # 레코드 없는 경우 : 레코드 추가
#     len_df = len(df) 
#     print(f"{len_df} : 레코드 추가")
#     for i in range(0, len(df)):
#         sql = """INSERT INTO sbuck_address2 \
#         (sido_code, gugun_code, s_code, doro_address, open_dt) \
#         VALUES (%s, %s, %s, %s, %s)"""
#         val = (df.iloc[i,0], df.iloc[i,1], df.iloc[i,2], df.iloc[i,3],
#                df.iloc[i,4])
#         cursor.execute(sql, val)
#         conn.commit()