## 형태소 분석

In [2]:
from glob import glob
import os
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import json

In [3]:
property_details_dir = "./property_details"
property_detail_paths = glob(os.path.join(property_details_dir, "*.txt"))
print("전체 파일 개수:", len(property_detail_paths))

전체 파일 개수: 1772


- 필요한 기능
    - 딕셔너리 구조를 모르더라도 하나하나 타고 내려가면서 구조별로 파싱하는 기능
    - 그리고 구조가 다르더라도 충돌이 나지 않고 데이터 집계가 가능해야 함

In [4]:
def str_to_json(property_detail):
    data_str = ''.join(property_detail) # 문자열 병합
    converted_data = json.loads(data_str) # JSON 파싱

    # 정렬된 JSON 문자열로 변환 (indent=2는 보기 좋게 들여쓰기)
    pretty_json = json.dumps(converted_data, ensure_ascii=False, indent=2)

    return converted_data, pretty_json

In [5]:
csv_path = "./descriptions.csv"
df = pd.DataFrame(
    columns=["description"],
    data=[],
)

for i, txt_path in enumerate(property_detail_paths):
    with open(txt_path, "r", encoding="utf-8") as f:
        property_detail = f.readlines()
        converted_data, _ = str_to_json(property_detail)
        # csv로 저장을 하기 위해 "," 제거
        data = converted_data["item"]["description"].replace(",", "")
        df.loc[i] = data

    if i == 10:
        break

df.to_csv(csv_path, index=False)

In [6]:
df

Unnamed: 0,description
0,🌷매물 특징🌷\n- 깔끔하고 넓은 쓰리룸+ 입니다. \n- 싱크대 신발장 옵션이 모...
1,🏡 건물 정보 🏡\n- 넓은 포룸 구조로 가족 단위 거주에 적합합니다.\n- 깔끔하...
2,🏡 건물 정보 🏡\r\n- 넓고 깨끗한 쓰리룸입니다.\r\n- 깔끔한 인테리어와 관...
3,🏡 이 집의 특징 🏡\r\n✔️ 넓은 공간의 쓰리룸으로 가족 단위로 살기 좋습니다....
4,🏡 이 집의 특징 🏡\r\n✔️ 넓은 공간의 쓰리룸으로 가족 단위로 살기 좋습니다....
5,허그보증 전세대출 불가\nHF보증 전세대출 가능\n\n- 임대인이 보증보험 비용 내...
6,🏡 이 집의 특징 🏡\r\n✔️ 넓은 공간의 투룸으로 가족 단위로 살기 좋습니다.\...
7,🏡 이 집의 특징 🏡\r\n✔️ 넓은 공간의 투룸으로 가족 단위로 살기 좋습니다.\...
8,🌟 매물 정보 🌟\r\n- 신축 투룸으로 깔끔하고 깨끗한 인테리어가 특징입니다.\r...
9,🌟 매물 특징 🌟\r\n- 신축 건물로 첫 입주 가능한 깨끗한 쓰리룸입니다.\r\n...


In [7]:
csv_path = "./description_with_corpus.csv"
corpus_df = pd.read_csv(csv_path)

In [8]:
for i in range(len(corpus_df)):
    print(corpus_df.loc[i, "corpus"])
    print()

"*공부상 면적과 실면적(평수)은 차이가 있을 수 있습니다", "- 깔끔하고 넓은 쓰리룸+ 입니다", "- 넓고 깨끗한 공간에서 편안하게 생활하실 수 있습니다", "- 싱크대 신발장 옵션이 모두 갖춰져 있습니다", "- 주변 환경이 좋아 쾌적하고 편안한 생활을 보장합니다", "- 주변에 다양한 편의시설이 위치해 있어 생활이 편리합니다", "- 주차 가능합니다", "12월", "24년", "26일", "가능합니다", "강조", "갖춰져", "공간에서", "공부상", "깔끔하고", "깨끗한", "넓고", "넓은", "다양한", "매물", "면적과", "모두", "보장합니다", "생활을", "생활이", "생활하실", "수", "신발장", "실면적평수은", "싱크대", "쓰리룸", "여부", "옵션이", "위반건축물", "위반건축물 여부 확인일 : 24년 12월 26일", "위치해", "입니다", "있습니다", "있어", "있을", "좋아", "주변", "주변에", "주차", "차이가", "쾌적하고", "특징", "편리합니다", "편안하게", "편안한", "편의시설이", "확인일", "환경이", "🌷매물 강조🌷", "🌷매물 특징🌷"

"- 깔끔하고 깨끗한 상태로 유지되어 있어 쾌적한 생활 환경을 제공합니다", "- 깔끔하고 깨끗한 인테리어로 바로 입주 가능합니다", "- 넓은 포룸 구조로 가족 단위 거주에 적합합니다", "- 싱크대와 에어컨이 설치되어 있어 생활이 편리합니다", "- 옵션으로 에어컨 김치냉장고 인덕션 냉장고가 포함되어 있습니다", "- 전세 대출 및 보증보험 일부 가능하여 금융 부담을 줄일 수 있습니다", "- 주차 공간이 확보되어 있어 주차 걱정 없습니다", "- 즉시 입주 가능하여 빠른 이사를 원하시는 분들께 최적의 선택입니다", "가능하여", "가능합니다", "가족", "강조", "거주에", "걱정", "건물", "공간이", "구조로", "금융", "김치냉장고", "깔끔하고", "깨끗한", "냉장고가", "넓은", "단위", "대출", "매물",

## konply 적용하여 단어 위주로 분석하기

In [21]:
from konlpy.tag import Okt, Kkma

In [22]:
from konlpy.tag import Okt, Kkma

okt = Okt()
kkma = Kkma()

text = "주차 가능하고 반려동물도 키울 수 있어요."

print("Okt nouns:", okt.nouns(text))
print("Kkma nouns:", kkma.nouns(text))


Okt nouns: ['주차', '반려동물', '수']
Kkma nouns: ['주차', '가능', '반려', '반려동물', '동물', '수']


In [None]:
csv_path = "./descriptions.csv"
df = pd.read_csv(csv_path)

for i in range(len(df)):
    text = df["description"].loc[i]
    
    sentences = kkma.sentences(text)

    for i, sentence in enumerate(sentences):
        print("문장 ---------------------------------------------------------------------")
        print(f"{i+1}. {sentence}")
        print()
        print("단어 ---------------------------------------------------------------------")
        print(kkma.nouns(sentence))
        print("\n\n")

In [27]:
csv_path = "./descriptions.csv"
df = pd.read_csv(csv_path)

for i in range(len(df)):
    text = df["description"].loc[i]
    
    sentences = kkma.sentences(text)

    for i, sentence in enumerate(sentences):
        print("문장 ---------------------------------------------------------------------")
        print(f"{i+1}. {sentence}")
        print()
        print("단어 ---------------------------------------------------------------------")
        print(okt.nouns(sentence))
        print("\n\n")

    break

문장 ---------------------------------------------------------------------
1. 🌷 매물 특징🌷 - 깔끔하고 넓은 쓰리 룸+ 입니다.

단어 ---------------------------------------------------------------------
['매물', '특징', '룸']



문장 ---------------------------------------------------------------------
2. - 싱크대 신발장 옵션이 모두 갖춰 져 있습니다.

단어 ---------------------------------------------------------------------
['싱크대', '신발장', '옵션', '모두']



문장 ---------------------------------------------------------------------
3. - 주차 가능합니다.

단어 ---------------------------------------------------------------------
['주차']



문장 ---------------------------------------------------------------------
4. - 주변에 다양한 편의 시설이 위치해 있어 생활이 편리합니다.

단어 ---------------------------------------------------------------------
['주변', '편의', '시설', '위치', '생활']



문장 ---------------------------------------------------------------------
5. 🌷 매물 강조🌷 - 넓고 깨끗한 공간에서 편안하게 생활하실 수 있습니다.

단어 ---------------------------------------------------------------------
['매물', '강

In [None]:
okt = Okt()
kkma = Kkma()

text = "이 집은 주차가 가능합니다. 반려동물도 키울 수 있어요. 주변에 공원이 많아 좋아요!"
sentences = kkma.sentences(text)

for i, sentence in enumerate(sentences):
    print(f"{i+1}. {sentence}")

1. 이 집은 주차가 가능합니다.
2. 반려 동물도 키울 수 있어요.
3. 주변에 공원이 많아 좋아요!


In [20]:
csv_path = "./descriptions.csv"
df = pd.read_csv(csv_path)

for i in range(len(df)):
    text = df["description"].loc[i]
    
    sentences = kkma.sentences(text)

    for i, sentence in enumerate(sentences):
        print("문장 ---------------------------------------------------------------------")
        print(f"{i+1}. {sentence}")

    break

문장 ---------------------------------------------------------------------
1. 🌷 매물 특징🌷 - 깔끔하고 넓은 쓰리 룸+ 입니다.
문장 ---------------------------------------------------------------------
2. - 싱크대 신발장 옵션이 모두 갖춰 져 있습니다.
문장 ---------------------------------------------------------------------
3. - 주차 가능합니다.
문장 ---------------------------------------------------------------------
4. - 주변에 다양한 편의 시설이 위치해 있어 생활이 편리합니다.
문장 ---------------------------------------------------------------------
5. 🌷 매물 강조🌷 - 넓고 깨끗한 공간에서 편안하게 생활하실 수 있습니다.
문장 ---------------------------------------------------------------------
6. - 주변 환경이 좋아 쾌적하고 편안한 생활을 보장합니다.
문장 ---------------------------------------------------------------------
7. * 공부상 면적과 실 면적( 평 수) 은 차이가 있을 수 있습니다.
문장 ---------------------------------------------------------------------
8. 위반 건축물 여부 확인 일 : 24년 12월 26일


In [17]:
df["description"].loc[0]

'🌷매물 특징🌷\n- 깔끔하고 넓은 쓰리룸+ 입니다. \n- 싱크대 신발장 옵션이 모두 갖춰져 있습니다.\n- 주차 가능합니다.\n- 주변에 다양한 편의시설이 위치해 있어 생활이 편리합니다.\n\n🌷매물 강조🌷\n- 넓고 깨끗한 공간에서 편안하게 생활하실 수 있습니다.\n- 주변 환경이 좋아 쾌적하고 편안한 생활을 보장합니다.\n\n*공부상 면적과 실면적(평수)은 차이가 있을 수 있습니다.\n\n위반건축물 여부 확인일 : 24년 12월 26일'