In [6]:
import pandas as pd

# 기존 CSV 파일 경로와 인코딩
input_path = '세종특별자치시_정류장정보_20250418.csv'
input_encoding = 'cp949'  # 예: euc-kr, cp949 등

# 변경 후 저장할 경로와 원하는 인코딩
output_path = 'utf8_정류장정보.csv'
output_encoding = 'utf-8'

# CSV 파일 읽기
df = pd.read_csv(input_path, encoding=input_encoding)

# 인코딩 변경하여 저장
df.to_csv(output_path, index=False, encoding=output_encoding)

print(f"{output_encoding} 인코딩으로 저장 완료: {output_path}")

utf-8 인코딩으로 저장 완료: utf8_정류장정보.csv


In [14]:
# 이름 + 위도 + 경도가 모두 같은 중복만 찾기
duplicates = df[df.duplicated(subset=['정류장 명', '위도', '경도'], keep=False)]

# 중복 그룹별로 몇 번 나오는지 확인
grouped = (
    duplicates
    .groupby(['정류장 명', '위도', '경도'])
    .size()
    .reset_index(name='중복횟수')
    .sort_values(by='중복횟수', ascending=False)
)

# 출력
print("이름과 위치가 모두 같은 중복 정류장:")
print(grouped)

이름과 위치가 모두 같은 중복 정류장:
  정류장 명        위도         경도  중복횟수
0  조치원역  36.60099  127.29713     2


In [57]:
import pandas as pd

# CSV 파일 불러오기
df = pd.read_csv('data/sejong_poi_recovered.csv')

# 필요한 컬럼만 선택
df_filtered = df[['id', 'place_name', 'group_name', 'x', 'y']]

# 컬럼명 변경
df_filtered = df_filtered.rename(columns={
    'place_name': 'name',
    'group_name': 'category'
})

# 저장
df_filtered.to_csv('output/카카오맵스.csv', index=False, encoding='utf-8')

print("컬럼 선택 및 이름 변경 완료:")
print(df_filtered.head())

컬럼 선택 및 이름 변경 완료:
          id      name category           x          y
0    8983853      물레가든      음식점  127.150682  36.705487
1  518507667  세종가마솥설렁탕      음식점  127.153675  36.695419
2  925177802   깡장투가리제육      음식점  127.155557  36.692263
3  148679508       홍순당      음식점  127.155512  36.692278
4  827925869  카페예담꼬마김밥      음식점  127.153715  36.695427


In [25]:
bus = pd.read_csv('utf8_정류장정보.csv')
print(bus.columns)

# 2. 컬럼 이름 변경: '정류장ID' → 'id', '정류장명' → 'place_name', '경도' → 'x', '위도' → 'y'
bus = bus.rename(columns={
    '정류장 고유번호': 'id',
    '정류장 명': 'place_name',
    '경도': 'x',
    '위도': 'y'
})

# 3. group_name 컬럼 생성 및 모든 값에 "버스정류장" 추가
bus['group_name'] = '버스정류장'

# 4. 최종 컬럼명 변경: 'place_name' → 'name', 'group_name' → 'category'
bus = bus.rename(columns={
    'place_name': 'name',
    'group_name': 'category'
})

# 5. 필요한 컬럼만 추출
final_df = bus[['id', 'name', 'category', 'x', 'y']]

final_df.head(10)

Index(['정류장 고유번호', '정류장 명', '위도', '경도'], dtype='object')


Unnamed: 0,id,name,category,x,y
0,11100,세종시보건소(대동초),버스정류장,127.29538,36.595585
1,11101,세종시보건소(대동초),버스정류장,127.293552,36.5956
2,34110,대평리원형교차로,버스정류장,127.280519,36.46002
3,34111,대평리원형교차로,버스정류장,127.280725,36.460002
4,32087,삼성전기,버스정류장,127.336143,36.539646
5,32088,삼성전기,버스정류장,127.335948,36.539502
6,32089,리봄화장품,버스정류장,127.330858,36.545165
7,32090,리봄화장품,버스정류장,127.330511,36.545066
8,32091,명학산업단지입구,버스정류장,127.328022,36.549245
9,32092,명학산업단지입구,버스정류장,127.327709,36.549109


In [58]:
merged_df = pd.concat([df_filtered, final_df], ignore_index=True)
merged_df.to_csv('output/버스추가(1).csv', index=False, encoding='utf-8')
print(f"병합 완료! 총 {len(merged_df)}개 데이터가 저장되었습니다.")
print(f"원래 개수 : {len(df)}")

병합 완료! 총 6519개 데이터가 저장되었습니다.
원래 개수 : 5001


In [39]:
import pandas as pd

# CSV 파일 불러오기
df = pd.read_csv('data\세종특별자치시_공공데이터.csv', encoding='utf-8')

# 실제 주소 컬럼명 확인 (예: 'adress' 또는 '주소')
print(df.columns)  # 먼저 실행해서 컬럼명 확인하세요

# 예: 'adress' 컬럼 기준으로 중복 제거
df_deduped = df.drop_duplicates(subset=['adress'], keep='first')

df_cleaned = df.dropna(subset=['adress'])                         # NaN 제거
df_cleaned = df_cleaned[df_cleaned['adress'].str.strip() != '']

# 저장
df_cleaned.to_csv('data\세종특별자치시_공공데이터(1).csv', index=False, encoding='utf-8')

print(f"중복 제거 완료! 총 {len(df) - len(df_cleaned)}개의 중복 행이 제거되었습니다.")

Index(['name', 'category', 'adress', 'x', 'y'], dtype='object')
중복 제거 완료! 총 4개의 중복 행이 제거되었습니다.


In [42]:
import pandas as pd

# CSV 파일 불러오기
df = pd.read_csv('data\세종특별자치시_공공데이터(1).csv', encoding='cp949')

# 1. x가 NaN 또는 빈 문자열인 행 필터링
x_missing = df[df['x'].isna() | (df['x'].astype(str).str.strip() == '')]

# 2. 개수 출력
print(f"x가 비어있는 행의 개수: {len(x_missing)}")

# 3. CSV로 저장
x_missing.to_csv('data\세종특별자치시_공공데이터(2).csv', index=False, encoding='utf-8')


x가 비어있는 행의 개수: 3380


In [45]:
import pandas as pd
import asyncio
import aiohttp
from aiolimiter import AsyncLimiter
from dotenv import load_dotenv
import os
from tqdm.asyncio import tqdm_asyncio
import nest_asyncio

# 중첩 루프 허용
nest_asyncio.apply()

# .env에서 API 키 불러오기
load_dotenv()
KAKAO_API_KEY = os.getenv("KAKAO_API_KEY")
HEADERS = {"Authorization": f"KakaoAK {KAKAO_API_KEY}"}

limiter = AsyncLimiter(max_rate=5, time_period=1.0)

async def fetch_coords(session, address):
    async with limiter:
        try:
            url = "https://dapi.kakao.com/v2/local/search/address.json"
            params = {"query": address}
            async with session.get(url, headers=HEADERS, params=params) as resp:
                data = await resp.json()
                if data.get("documents"):
                    x = data["documents"][0]["x"]
                    y = data["documents"][0]["y"]
                    return address, x, y
                else:
                    return address, None, None
        except Exception as e:
            print(f"오류: {address} → {e}")
            return address, None, None

async def main():
    df = pd.read_csv("data\세종특별자치시_공공데이터(2).csv", encoding="utf-8")
    addresses = df['adress'].fillna("").tolist()
    results = []

    async with aiohttp.ClientSession() as session:
        tasks = [fetch_coords(session, addr) for addr in addresses if addr.strip() != ""]
        for result in tqdm_asyncio.as_completed(tasks, total=len(tasks)):
            results.append(await result)

    coord_df = pd.DataFrame(results, columns=["adress", "x", "y"])
    df = df.merge(coord_df, on="adress", how="left")
    df.to_csv("data\세종특별자치시_공공데이터(3).csv", index=False, encoding="utf-8")
    print("좌표 병렬 처리 완료!")

# Notebook이나 Colab에서는 asyncio.run 대신 await 사용
await main()

100%|██████████| 3380/3380 [11:15<00:00,  5.01it/s]


좌표 병렬 처리 완료!


In [53]:
df = pd.read_csv("data\세종특별자치시_공공데이터(3).csv", encoding="utf-8")
print(df.columns)

Index(['name', 'category', 'adress', 'x', 'y'], dtype='object')


In [None]:
# X_y와 y_y 컬럼을 사용해서 새 좌표(x, y) 컬럼 생성
df['x'] = df['x_y']
df['y'] = df['y_y']

# 불필요한 좌표 관련 컬럼 제거
df = df.drop(columns=['x_x', 'y_x', 'x_y', 'y_y'])

# 저장 (선택)
df.to_csv("data\세종특별자치시_공공데이터(3).csv", index=False, encoding="utf-8")

In [62]:
import pandas as pd

# 1. 두 파일 불러오기
df = pd.read_csv("data/세종특별자치시_공공데이터(3).csv", encoding="utf-8")
merged_df = pd.read_csv("output/버스추가(1).csv", encoding="utf-8")

# 2. 공공데이터에 id 컬럼 추가 (예: 자동 부여)
df['id'] = ['sj_%04d' % i for i in range(len(df))]

# 3. 컬럼 순서를 맞추기
df = df[['id', 'name', 'category', 'x', 'y']]  # 'adress'는 제외
merged_df = merged_df[['id', 'name', 'category', 'x', 'y']]  # 혹시 모르니 확인

# 4. 행 방향 병합
combined_df = pd.concat([merged_df, df], ignore_index=True)

In [69]:
# 1. x 열의 NaN 개수
nan_count = combined_df['x'].isna().sum()

# 2. 빈 문자열 개수
empty_count = (combined_df['x'].astype(str).str.strip() == '').sum()

# 총 결측치 개수
total_missing = nan_count + empty_count

print(f"NaN 개수: {nan_count}")
print(f"빈 문자열 개수: {empty_count}")
print(f"총 결측치 개수: {total_missing}")

# 3. 결측치 제거
combined_df_cleaned = combined_df.dropna(subset=['x'])
combined_df_cleaned = combined_df_cleaned[combined_df_cleaned['x'].astype(str).str.strip() != '']
print(f"\n제거 후 데이터 수: {len(combined_df_cleaned)}")

NaN 개수: 115
빈 문자열 개수: 0
총 결측치 개수: 115

제거 후 데이터 수: 10240


In [74]:
import pandas as pd
import numpy as np
from sklearn.neighbors import BallTree
from sklearn.metrics.pairwise import haversine_distances
import networkx as nx
import math

# 1. 데이터 로드 및 준비
df = combined_df_cleaned.reset_index(drop=True)
coords = np.radians(df[['y', 'x']].astype(float).values)

# 2. 공통 문자 수 확인 함수
def common_chars(s1, s2):
    return len(set(str(s1)) & set(str(s2)))

# 3. BallTree
tree = BallTree(coords, metric='haversine')
radius_km = 0.05
radius_rad = radius_km / 6371

# 4. 유사 쌍 탐색
similar_pairs = []

for i, row in df.iterrows():
    name1 = row['name']
    coord1 = coords[i].reshape(1, -1)
    indices = tree.query_radius(coord1, r=radius_rad)[0]

    for j in indices:
        if i >= j:
            continue

        name2 = df.loc[j, 'name']
        if common_chars(name1, name2) >= 3:
            dist_km = haversine_distances([coord1[0], coords[j]])[0, 1] * 6371
            similar_pairs.append((i, j, name1, name2, dist_km))

# 5. 유사 POI 쌍 → 그래프로 연결
G = nx.Graph()
G.add_edges_from([(i, j) for i, j, _, _, _ in similar_pairs])

components = list(nx.connected_components(G))

# 6. 군집별 POI 정보 보기
cluster_info = []

for idx, group in enumerate(components):
    group = list(group)
    for i in group:
        cluster_info.append({
            'cluster_id': idx,
            'index': i,
            'name': df.loc[i, 'name'],
            'category': df.loc[i, 'category'],
            'x': df.loc[i, 'x'],
            'y': df.loc[i, 'y'],
        })

# 7. 군집 정보를 DataFrame으로 저장/출력
cluster_df = pd.DataFrame(cluster_info).sort_values(by='cluster_id')

# 저장 (선택)
cluster_df.to_csv("output/중복군집_목록.csv", index=False, encoding='utf-8')
print(f"🔍 유사 POI가 포함된 군집 수: {len(components)}개")
print("📝 중복 군집 정보가 'output/중복군집_목록.csv'에 저장되었습니다.")

🔍 유사 POI가 포함된 군집 수: 1951개
📝 중복 군집 정보가 'output/중복군집_목록.csv'에 저장되었습니다.


In [77]:
import pandas as pd

# 1. 원본 데이터 인덱스 정리 (꼭 필요!)
combined_df_cleaned = combined_df_cleaned.reset_index(drop=True)

# 2. cluster_df 불러오기 (방금 만든 군집 정보 파일)
cluster_df = pd.read_csv("output/중복군집_목록.csv", encoding="utf-8")

# 3. 군집별 대표 1개만 남기고 나머지 index 수집
to_drop = []

for cluster_id, group in cluster_df.groupby("cluster_id"):
    sorted_group = group.sort_values(by="index")  # 인덱스 기준 정렬
    drop_indices = sorted_group["index"].iloc[1:]  # 대표 1개 제외 나머지 제거
    to_drop.extend(drop_indices.tolist())

# 4. 중복 제거
df_deduplicated = combined_df_cleaned.drop(index=to_drop).reset_index(drop=True)

# 5. 저장
df_deduplicated.to_csv("output/중복제거_POI.csv", index=False, encoding="utf-8")


print(f"✅ 중복 제거 완료!")
print(f"🗃️ 원래 POI 수: {len(combined_df_cleaned)}개")
print(f"🗃️ 최종 남은 POI 수: {len(df_deduplicated)}개")
print(f"🗑️ 제거된 중복 항목 수: {len(to_drop)}개")


✅ 중복 제거 완료!
🗃️ 원래 POI 수: 10240개
🗃️ 최종 남은 POI 수: 5539개
🗑️ 제거된 중복 항목 수: 4701개


In [79]:
# 1. 이름 기준 가나다순 정렬
sorted_df = combined_df_cleaned.sort_values(by='name').reset_index(drop=True)

# 2. 저장
sorted_df.to_csv("output/중복제거전.csv", index=True, encoding='utf-8')

print("✅ 가나다순 정렬 및 저장 완료!")
print(f"📄 저장 파일: output/POI_가나다순정렬.csv")


✅ 가나다순 정렬 및 저장 완료!
📄 저장 파일: output/POI_가나다순정렬.csv


In [80]:
# 1. 이름 기준 가나다순 정렬
sorted_df = df_deduplicated.sort_values(by='name').reset_index(drop=True)

# 2. 저장
sorted_df.to_csv("output/중복제거후.csv", index=True, encoding='utf-8')

print("✅ 가나다순 정렬 및 저장 완료!")
print(f"📄 저장 파일: output/POI_가나다순정렬.csv")


✅ 가나다순 정렬 및 저장 완료!
📄 저장 파일: output/POI_가나다순정렬.csv


In [81]:
print# 1. 고유값 목록
unique_categories = sorted_df['category'].unique()

# 2. 개수 출력
print(f"🔎 category 종류 수: {len(unique_categories)}개")
print("📋 category 목록:")
for c in unique_categories:
    print("-", c)

category_counts = combined_df_cleaned['category'].value_counts()

print("📊 category별 개수:")
print(category_counts)


🔎 category 종류 수: 36개
📋 category 목록:
- 미용업
- 부동산중개업
- 버스정류장
- 인터넷컴퓨터게임시설제공업
- 음식점
- 카페
- 약국
- 노래연습장업
- 이용업
- 편의점
- 숙박업(일반)
- 복합유통게임제공업
- 청소년게임제공업
- 노인요양시설
- 재가노인복지시설
- 세탁업
- 한의원
- 한방병원
- 치과의원
- 목욕장업
- 의원
- 청소년복지시설
- 보건지소
- 노인요양공동생활가정
- 일반게임제공업
- 주유소
- 영화관
- 노인복지주택
- 아동복지시설
- 양로시설
- 병원
- 숙박업(생활)
- 보건소
- 보건진료소
- 요양병원(일반요양병원)
- 정신병원
📊 category별 개수:
category
음식점              3200
버스정류장            1518
부동산중개업           1434
카페               1366
미용업              1000
편의점               435
의원                225
약국                178
노래연습장업            143
한의원                95
치과의원               88
숙박업(일반)            83
이용업                67
세탁업                67
인터넷컴퓨터게임시설제공업      56
노인요양시설             46
재가노인복지시설           44
보건지소               26
청소년게임제공업           25
보건진료소              22
복합유통게임제공업          20
목욕장업               19
청소년복지시설            13
아동복지시설             12
일반게임제공업            10
노인요양공동생활가정         10
양로시설                6
영화관                 6
노인복지주택              4
주유소   

In [82]:
SECOND_CATEGORY_MAP = {
    '숙박업(일반)': '숙박업',
    '숙박업(생활)': '숙박업',
    '의원': '병원',
    '한의원': '병원',
    '한방병원': '병원',
    '요양병원(일반요양병원)': '병원',
    '정신병원': '병원',
    '병원': '병원',
    '치과의원': '병원',
    '치과병원': '병원',
    '보건소': '보건시설',
    '보건지소': '보건시설',
    '보건진료소': '보건시설',
    '노인요양시설': '노인복지시설',
    '재가노인복지시설': '노인복지시설',
    '노인요양공동생활가정': '노인복지시설',
    '노인복지주택': '노인복지시설',
    '양로시설': '노인복지시설',
    '아동복지시설': '복지시설',
    '청소년복지시설': '복지시설',
    '노래연습장업': '문화시설',
    '복합유통게임제공업': '게임시설',
    '인터넷컴퓨터게임시설제공업': '게임시설',
    '일반게임제공업': '게임시설',
    '청소년게임제공업': '게임시설',
    '영화관': '문화시설',
    # 나머지는 그대로 유지
}

In [83]:
df=pd.read_csv('output/중복제거후.csv', encoding='utf-8')

# 카카오맵 1차 카테고리 및 코드 매핑
FIRST_CATEGORY_CODE_MAP = {
    '숙박': 'AD5',
    '음식점': 'FD6',
    '카페': 'CE7',
    '병원': 'HP8',
    '편의점': 'CS2',
    '약국': 'PM9',
    '중개업소': 'AG2',
    '학교': 'SC4',
    '보건시설': 'PO3',
    '노인복지시설': 'PO3',
    '복지시설': 'PO3',
    '문화시설': 'CT1',
    '게임시설': 'CT1',
    '공공기관': 'PO3'
}

# 1. 2차 카테고리 생성
def get_second_category(cat):
    return SECOND_CATEGORY_MAP.get(cat, cat)

df['카카오_2차카테고리'] = df['category'].apply(get_second_category)

# 2. 1차 카테고리 생성
def get_first_category(second_cat):
    if second_cat in ['숙박업']:
        return '숙박'
    elif second_cat in ['병원']:
        return '병원'
    elif second_cat in ['보건시설', '노인복지시설', '복지시설']:
        return '공공기관'
    elif second_cat in ['게임시설', '문화시설']:
        return '문화시설'
    else:
        return second_cat  # 그대로 사용


df['카카오_1차카테고리'] = df['카카오_2차카테고리'].apply(get_first_category)

# 3. 카카오 코드 생성
df['카카오_카테고리코드'] = df['카카오_1차카테고리'].map(FIRST_CATEGORY_CODE_MAP)

In [85]:
# NaN인 행 확인
unmatched = df[df['카카오_카테고리코드'].isna()]

# 어떤 1차 카테고리에서 누락됐는지 확인
print("❗ 매핑되지 않은 1차 카테고리:")
print(unmatched['카카오_1차카테고리'].value_counts())

❗ 매핑되지 않은 1차 카테고리:
카카오_1차카테고리
버스정류장     856
미용업       758
부동산중개업    372
이용업        57
세탁업        52
목욕장업       11
주유소         3
Name: count, dtype: int64


In [86]:
# FIRST_CATEGORY_CODE_MAP에 누락된 항목 보완
FIRST_CATEGORY_CODE_MAP.update({
    '버스정류장': 'PO3',
    '미용업': 'CT1',
    '이용업': 'CT1',
    '세탁업': 'CT1',
    '목욕장업': 'CT1',
    '주유소': 'OL7',
    '부동산중개업': 'AG2'  # 혹시 누락되어 있었으면 재확인용
})

# 다시 코드 매핑
df['카카오_카테고리코드'] = df['카카오_1차카테고리'].map(FIRST_CATEGORY_CODE_MAP)

# 검증
still_missing = df[df['카카오_카테고리코드'].isna()]
print(f"✅ 보완 후 여전히 누락된 항목 수: {len(still_missing)}")


✅ 보완 후 여전히 누락된 항목 수: 0


In [87]:
df.head(5)

Unnamed: 0.1,Unnamed: 0,id,name,category,x,y,카카오_2차카테고리,카카오_1차카테고리,카카오_카테고리코드
0,0,sj_3110,#깔롱,미용업,127.292112,36.59106,미용업,미용업,CT1
1,1,sj_1479,(주)골든복부동산중개법인,부동산중개업,127.303271,36.492362,부동산중개업,부동산중개업,AG2
2,2,37107,(주)레이크엘이디앞,버스정류장,127.221011,36.698097,버스정류장,버스정류장,PO3
3,3,sj_2966,0.1프로헤어,미용업,127.25785,36.489648,미용업,미용업,CT1
4,4,sj_3697,1-TOP PC,인터넷컴퓨터게임시설제공업,127.257808,36.515119,게임시설,문화시설,CT1


In [88]:
# 1. 인덱스, 불필요한 컬럼 제거
df_final = df.drop(columns=['Unnamed: 0'], errors='ignore')  # 혹시 이미 존재한다면 제거
df_final = df_final.drop(columns=['category'])  # 원래 카테고리 삭제

# 2. 컬럼명 영어로 통일
df_final = df_final.rename(columns={
    '카카오_2차카테고리': 'category_2nd',
    '카카오_1차카테고리': 'category_1st',
    '카카오_카테고리코드': 'category_code',
    '이름': 'name',  # 한글일 경우만 해당
})

# 3. 저장 (index 없이)
df_final.to_csv("result/세종특별자치시_POI.csv", index=False, encoding='utf-8')

print("✅ 인덱스 제거 + 컬럼 정리 + 영어 변수명 + 저장 완료!")

✅ 인덱스 제거 + 컬럼 정리 + 영어 변수명 + 저장 완료!


In [89]:
df_final.head(5)

Unnamed: 0,id,name,x,y,category_2nd,category_1st,category_code
0,sj_3110,#깔롱,127.292112,36.59106,미용업,미용업,CT1
1,sj_1479,(주)골든복부동산중개법인,127.303271,36.492362,부동산중개업,부동산중개업,AG2
2,37107,(주)레이크엘이디앞,127.221011,36.698097,버스정류장,버스정류장,PO3
3,sj_2966,0.1프로헤어,127.25785,36.489648,미용업,미용업,CT1
4,sj_3697,1-TOP PC,127.257808,36.515119,게임시설,문화시설,CT1


In [91]:
# 대분류 종류 (중복 제거)
unique_major_categories = df_final['category_1st'].unique()
print("📋 대분류 종류:")
for cat in unique_major_categories:
    print("-", cat)

# 대분류별 개수 정리
major_category_counts = df_final['category_1st'].value_counts()
print("\n📊 대분류별 개수:")
print(major_category_counts)


📋 대분류 종류:
- 미용업
- 부동산중개업
- 버스정류장
- 문화시설
- 음식점
- 카페
- 약국
- 이용업
- 편의점
- 숙박
- 공공기관
- 세탁업
- 병원
- 목욕장업
- 주유소

📊 대분류별 개수:
category_1st
음식점       1850
버스정류장      856
카페         800
미용업        758
부동산중개업     372
편의점        189
문화시설       172
약국         138
병원         138
공공기관        80
숙박          63
이용업         57
세탁업         52
목욕장업        11
주유소          3
Name: count, dtype: int64


In [96]:
import pandas as pd

# 1. CSV 파일 불러오기
df = pd.read_csv("data/세종특별자치시_공공데이터(1).csv", encoding="cp949")

# 2. x열 결측치(NaN 또는 빈 문자열) 제거
df_non_null = df.dropna(subset=['x'])  # NaN 제거
df_non_null = df_non_null[df_non_null['x'].astype(str).str.strip() != '']  # 빈 문자열 제거

# 3. 저장
df_non_null.to_csv("output/세종_공공데이터_x결측치제거.csv", index=False, encoding="utf-8")

print(f"✅ 저장 완료! x값이 결측치가 아닌 행 수: {len(df_non_null)}개")
print("📄 저장 경로: output/세종_공공데이터_x결측치제거.csv")

✅ 저장 완료! x값이 결측치가 아닌 행 수: 110개
📄 저장 경로: output/세종_공공데이터_x결측치제거.csv


In [97]:
# 카테고리 종류 확인 (고유값)
unique_categories = df_non_null['category'].unique()

print(f"📋 카테고리 종류 수: {len(unique_categories)}개")
print("카테고리 목록:")
for cat in unique_categories:
    print("-", cat)

# (선택) 카테고리별 개수
print("\n📊 카테고리별 개수:")
print(df_non_null['category'].value_counts())

📋 카테고리 종류 수: 5개
카테고리 목록:
- 대형마트
- 쇼핑센터
- 소매유통업
- 주유소
- 공공기관

📊 카테고리별 개수:
category
주유소      65
공공기관     41
대형마트      2
소매유통업     1
쇼핑센터      1
Name: count, dtype: int64


In [98]:
print(df_non_null.columns)

Index(['name', 'category', 'adress', 'x', 'y'], dtype='object')


In [99]:
print(df_final.columns)

Index(['id', 'name', 'x', 'y', 'category_2nd', 'category_1st',
       'category_code'],
      dtype='object')


In [100]:
import pandas as pd

# 1. 1차 카테고리 및 코드 매핑 정의
CATEGORY_GROUP_CODES = {
    '음식점': 'FD6',
    '카페': 'CE7',
    '학원': 'AC5',
    '병원': 'HP8',
    '편의점': 'CS2',
    '약국': 'PM9',
    '중개업소': 'AG2',
    '주차장': 'PK6',
    '은행': 'BK9',
    '학교': 'SC4',
    '숙박': 'AD5',
    '관광명소': 'AT4',
    '대형마트': 'MT1',
    '공공기관': 'PO3',
    '주유소,충전소': 'OL7',
    '어린이집,유치원': 'PS3',
    '문화시설': 'CT1'
}

# 2. 2차 → 1차 매핑 정의 (카카오맵 분류 기준에 맞게)
SECOND_TO_FIRST = {
    '대형마트': '대형마트',
    '쇼핑센터': '대형마트',
    '소매유통업': '대형마트',
    '주유소': '주유소,충전소',
    '공공기관': '공공기관'
}

# 3. 2차 카테고리 추가
df_non_null['category_2nd'] = df_non_null['category']

# 4. 1차 카테고리 추가
df_non_null['category_1st'] = df_non_null['category_2nd'].map(SECOND_TO_FIRST)

# 5. 코드 추가
df_non_null['category_code'] = df_non_null['category_1st'].map(CATEGORY_GROUP_CODES)

# 6. id 컬럼 생성 (예: "pub_{인덱스}")
df_non_null = df_non_null.reset_index(drop=True)
df_non_null['id'] = df_non_null.index.map(lambda i: f"pub_{i:04d}")

# 7. 컬럼 순서 정리
df_ready = df_non_null[['id', 'name', 'x', 'y', 'category_2nd', 'category_1st', 'category_code']]

In [None]:
# 1. 두 데이터프레임을 세로 방향으로 concat
df_merged = pd.concat([df_final, df_deduplicated], ignore_index=True)

# 2. 상위 5개 행 출력
print("✅ 병합 결과 (상위 5개):")
df_merged.head(5)

✅ 병합 결과 (상위 5개):
        id           name           x          y category_2nd category_1st  \
0  sj_3110            #깔롱  127.292112  36.591060          미용업          미용업   
1  sj_1479  (주)골든복부동산중개법인  127.303271  36.492362       부동산중개업       부동산중개업   
2    37107     (주)레이크엘이디앞  127.221011  36.698097        버스정류장        버스정류장   
3  sj_2966        0.1프로헤어  127.257850  36.489648          미용업          미용업   
4  sj_3697       1-TOP PC  127.257808  36.515119         게임시설         문화시설   

  category_code  
0           CT1  
1           AG2  
2           PO3  
3           CT1  
4           CT1  


In [104]:
print(len(df_merged))
df_merged.head(5)

5644


Unnamed: 0,id,name,x,y,category_2nd,category_1st,category_code
0,sj_3110,#깔롱,127.292112,36.59106,미용업,미용업,CT1
1,sj_1479,(주)골든복부동산중개법인,127.303271,36.492362,부동산중개업,부동산중개업,AG2
2,37107,(주)레이크엘이디앞,127.221011,36.698097,버스정류장,버스정류장,PO3
3,sj_2966,0.1프로헤어,127.25785,36.489648,미용업,미용업,CT1
4,sj_3697,1-TOP PC,127.257808,36.515119,게임시설,문화시설,CT1


In [105]:
# 1. 원래 데이터 로드 및 인덱스 정리
df = df_merged.reset_index(drop=True)
coords = np.radians(df[['y', 'x']].astype(float).values)

# 2. 공통 문자 수 함수
def common_chars(s1, s2):
    return len(set(str(s1)) & set(str(s2)))

# 3. BallTree 설정
from sklearn.neighbors import BallTree
tree = BallTree(coords, metric='haversine')
radius_km = 0.05
radius_rad = radius_km / 6371

# 4. 유사 쌍 탐색
similar_pairs = []

for i, row in df.iterrows():
    name1 = row['name']
    coord1 = coords[i].reshape(1, -1)
    indices = tree.query_radius(coord1, r=radius_rad)[0]

    for j in indices:
        if i >= j:
            continue
        name2 = df.loc[j, 'name']
        if common_chars(name1, name2) >= 3:
            similar_pairs.append((i, j))

# 5. 그래프 구성 → 군집 생성
import networkx as nx
G = nx.Graph()
G.add_edges_from(similar_pairs)
components = list(nx.connected_components(G))

# 6. 대표 1개만 남기고 나머지 index 제거
to_drop = set()
for group in components:
    group = sorted(group)
    to_drop.update(group[1:])  # 첫 번째만 남기고 나머지 제거

# 7. 제거 수행
df_deduplicated = df.drop(index=to_drop).reset_index(drop=True)

# 8. 저장
df_deduplicated.to_csv("output/공공데이터_POI_중복제거완료.csv", index=False, encoding='utf-8')

# 9. 결과 출력
print(f"📌 원래 데이터 수: {len(df)}개")
print(f"🗑️ 제거된 중복 항목 수: {len(to_drop)}개")
print(f"✅ 최종 남은 POI 수: {len(df_deduplicated)}개")

📌 원래 데이터 수: 5644개
🗑️ 제거된 중복 항목 수: 0개
✅ 최종 남은 POI 수: 5644개


In [106]:
# 2차 카테고리 종류
unique_2nd_categories = df_deduplicated['category_2nd'].unique()
print(f"📋 2차 카테고리 종류 수: {len(unique_2nd_categories)}개")
print("카테고리 목록:")
for cat in unique_2nd_categories:
    print("-", cat)

# 2차 카테고리별 개수
print("\n📊 2차 카테고리별 개수:")
print(df_merged['category_2nd'].value_counts())

📋 2차 카테고리 종류 수: 22개
카테고리 목록:
- 미용업
- 부동산중개업
- 버스정류장
- 게임시설
- 음식점
- 카페
- 약국
- 문화시설
- 이용업
- 편의점
- 숙박업
- 노인복지시설
- 세탁업
- 병원
- 목욕장업
- 복지시설
- 보건시설
- 주유소
- 대형마트
- 쇼핑센터
- 소매유통업
- 공공기관

📊 2차 카테고리별 개수:
category_2nd
음식점       1850
버스정류장      856
카페         800
미용업        758
부동산중개업     372
편의점        189
병원         138
약국         138
문화시설        87
게임시설        85
주유소         64
숙박업         63
이용업         57
세탁업         52
노인복지시설      46
공공기관        40
복지시설        20
보건시설        14
목욕장업        11
대형마트         2
쇼핑센터         1
소매유통업        1
Name: count, dtype: int64


In [108]:
df = pd.read_csv('output\버스추가(1).csv')
print(len(df))

6519


In [109]:
import pandas as pd

# 파일 경로
file_paths = {
    '공공데이터포탈': "data/공공데이터포탈.csv",
    '중복제거전': "output/중복제거전.csv",
    '버스추가(1)': "output/버스추가(1).csv"
}

# 각 파일 컬럼 출력
for name, path in file_paths.items():
    try:
        df = pd.read_csv(path, encoding='utf-8')
        print(f"\n📂 {name} 컬럼 목록:")
        print(df.columns.tolist())
    except Exception as e:
        print(f"\n⚠️ {name} 파일 불러오기 실패: {e}")


📂 공공데이터포탈 컬럼 목록:
['name', 'category', 'adress', 'x', 'y']

📂 중복제거전 컬럼 목록:
['Unnamed: 0', 'id', 'name', 'category', 'x', 'y']

📂 버스추가(1) 컬럼 목록:
['id', 'name', 'category', 'x', 'y']


In [None]:
# 1. 파일 불러오기
df_origin = pd.read_csv("data/공공데이터포탈.csv", encoding='cp949')
df_fixed = pd.read_csv("output/중복제거전.csv", encoding='utf-8')
df_bus = pd.read_csv("output/버스추가(1).csv", encoding='utf-8')

# 2. 공공데이터포탈: id 생성, category 컬럼명 통일, adress 제거
df_origin = df_origin.drop(columns=['adress'])
df_origin = df_origin.rename(columns={'category': 'category_2nd'})
df_origin['id'] = ['origin_{:04d}'.format(i) for i in range(len(df_origin))]

# 3. 중복제거전: 불필요 컬럼 제거, category 통일
df_fixed = df_fixed.drop(columns=['Unnamed: 0'], errors='ignore')
df_fixed = df_fixed.rename(columns={'category': 'category_2nd'})

# 4. 버스추가(1): category 컬럼명 통일
df_bus = df_bus.rename(columns={'category': 'category_2nd'})

# 5. 공통 컬럼으로 재정렬
final_columns = ['id', 'name', 'x', 'y', 'category_2nd']
df_origin = df_origin[final_columns]
df_fixed = df_fixed[final_columns]
df_bus = df_bus[final_columns]

# 6. 병합
df_merged = pd.concat([df_origin, df_fixed, df_bus], ignore_index=True)

# 7. 결과 확인
print(f"✅ 총 병합된 데이터 수: {len(df_merged)}개")
print("\n📊 category_2nd별 개수:")
print(df_merged['category_2nd'].value_counts())

# 8. 저장
df_merged.to_csv("output/공공데이터_POI_병합완료.csv", index=False, encoding='utf-8')

In [114]:
# 컬럼별 결측치 개수 확인
print("📉 컬럼별 결측치 개수:")
print(df_merged.isnull().sum())

📉 컬럼별 결측치 개수:
id                 0
name               0
x               3384
y               3384
category_2nd       0
dtype: int64


In [116]:
import pandas as pd

# 1. 병합된 전체 데이터
df_merged = pd.read_csv("output/공공데이터_POI_병합완료.csv", encoding="utf-8")

# 2. 중복제거전 데이터 (좌표가 보완된 POI들)
df_fixed = pd.read_csv("output/중복제거전.csv", encoding="utf-8")

# 3. 병합 데이터 중 x 또는 y가 결측인 행 추출
df_missing_coords = df_merged[df_merged['x'].isna() | df_merged['y'].isna()]
print(f"❗ x 또는 y가 결측치인 행 수: {len(df_missing_coords)}개")

# 4. 이름(name) 기준으로 중복제거전.csv와 겹치는 POI 찾기
missing_names = set(df_missing_coords['name'])
fixed_names = set(df_fixed['name'])

intersect_names = missing_names & fixed_names
print(f"🔁 결측치가 있는 POI 중 중복제거전.csv와 이름이 겹치는 수: {len(intersect_names)}개")

❗ x 또는 y가 결측치인 행 수: 3384개
🔁 결측치가 있는 POI 중 중복제거전.csv와 이름이 겹치는 수: 3194개


In [118]:
# 1. name 기준으로 중복 제거 (가장 먼저 나온 좌표만 사용)
df_fixed_unique = df_fixed.drop_duplicates(subset='name')

# 2. name → (x, y) 매핑 딕셔너리 생성
name_to_coords = df_fixed_unique.set_index('name')[['x', 'y']].to_dict(orient='index')

# 3. 결측치 보완 함수 정의
def fill_coords(row):
    if pd.isna(row['x']) or pd.isna(row['y']):
        if row['name'] in name_to_coords:
            row['x'] = name_to_coords[row['name']]['x']
            row['y'] = name_to_coords[row['name']]['y']
    return row

# 4. 보완 적용
df_filled = df_merged.apply(fill_coords, axis=1)

# 5. 보완 후 결측치 개수 확인
remaining_nulls = df_filled['x'].isna().sum() + df_filled['y'].isna().sum()
print(f"✅ 보완 완료! 남은 x/y 결측치 수: {remaining_nulls}개")

# 6. 저장
df_filled.to_csv("output/공공데이터_POI_좌표보완완료.csv", index=False, encoding="utf-8")
print("📄 저장 완료: output/공공데이터_POI_좌표보완완료.csv")

✅ 보완 완료! 남은 x/y 결측치 수: 214개
📄 저장 완료: output/공공데이터_POI_좌표보완완료.csv


In [120]:
# x 또는 y가 결측치인 행 제거
df_cleaned = df_filled.dropna(subset=['x', 'y']).reset_index(drop=True)

# 결과 확인
print(f"✅ 결측치 제거 완료! 최종 POI 수: {len(df_cleaned)}개")

# 저장
df_cleaned.to_csv("output/공공데이터_POI_최종정제본.csv", index=False, encoding="utf-8")
print("📄 저장 완료: output/공공데이터_POI_최종정제본.csv")

✅ 결측치 제거 완료! 최종 POI 수: 20146개
📄 저장 완료: output/공공데이터_POI_최종정제본.csv


In [121]:
print(df_cleaned.columns)

Index(['id', 'name', 'x', 'y', 'category_2nd'], dtype='object')


In [122]:
# 1. 고유값 목록 확인
unique_2nd_categories = df_cleaned['category_2nd'].dropna().unique()

print(f"📋 category_2nd 고유값 개수: {len(unique_2nd_categories)}개")
print("🗂️ category_2nd 목록:")
for cat in sorted(unique_2nd_categories):
    print("-", cat)


📋 category_2nd 고유값 개수: 57개
🗂️ category_2nd 목록:
- 공공기관
- 네일미용업
- 네일미용업, 화장ㆍ분장 미용업
- 노래연습장업
- 노인복지주택
- 노인요양공동생활가정
- 노인요양시설
- 대형마트
- 목욕장업
- 미용업
- 버스정류장
- 병원
- 보건소
- 보건지소
- 보건진료소
- 복합유통게임제공업
- 부동산중개업
- 세탁업
- 소매유통업
- 쇼핑센터
- 숙박업(생활)
- 숙박업(일반)
- 아동복지시설
- 약국
- 양로시설
- 영화관
- 요양병원(일반요양병원)
- 음식점
- 의원
- 이용업
- 인터넷컴퓨터게임시설제공업
- 일반게임제공업
- 일반미용업
- 일반미용업, 네일미용업
- 일반미용업, 네일미용업, 화장ㆍ분장 미용업
- 일반미용업, 피부미용업
- 일반미용업, 피부미용업, 네일미용업
- 일반미용업, 피부미용업, 화장ㆍ분장 미용업
- 일반미용업, 화장ㆍ분장 미용업
- 재가노인복지시설
- 정신병원
- 종합미용업
- 종합병원
- 주유소
- 청소년게임제공업
- 청소년복지시설
- 치과병원
- 치과의원
- 카페
- 편의점
- 피부미용업
- 피부미용업, 네일미용업
- 피부미용업, 네일미용업, 화장ㆍ분장 미용업
- 피부미용업, 화장ㆍ분장 미용업
- 한방병원
- 한의원
- 화장ㆍ분장 미용업


In [123]:
# ','로 묶인 카테고리는 가장 앞 항목만 사용
df_cleaned['category_2nd'] = df_cleaned['category_2nd'].apply(lambda x: str(x).split(',')[0].strip())

In [124]:
SECOND_TO_FIRST = {
    # 음식/카페/편의
    '음식점': '음식점',
    '카페': '카페',
    '편의점': '편의점',

    # 병원 및 보건
    '의원': '병원',
    '한의원': '병원',
    '한방병원': '병원',
    '치과의원': '병원',
    '치과병원': '병원',
    '종합병원': '병원',
    '요양병원(일반요양병원)': '병원',
    '정신병원': '병원',
    '병원': '병원',

    # 공공기관 계열
    '보건소': '공공기관',
    '보건지소': '공공기관',
    '보건진료소': '공공기관',
    '공공기관': '공공기관',
    '아동복지시설': '공공기관',
    '청소년복지시설': '공공기관',
    '노인요양시설': '공공기관',
    '재가노인복지시설': '공공기관',
    '노인요양공동생활가정': '공공기관',
    '노인복지주택': '공공기관',
    '양로시설': '공공기관',

    # 문화시설
    '노래연습장업': '문화시설',
    '복합유통게임제공업': '문화시설',
    '인터넷컴퓨터게임시설제공업': '문화시설',
    '청소년게임제공업': '문화시설',
    '일반게임제공업': '문화시설',
    '영화관': '문화시설',

    # 미용업 통합
    '미용업': '생활서비스',
    '일반미용업': '생활서비스',
    '종합미용업': '생활서비스',
    '피부미용업': '생활서비스',
    '네일미용업': '생활서비스',
    '화장ㆍ분장 미용업': '생활서비스',

    # 기타 생활서비스
    '세탁업': '생활서비스',
    '이용업': '생활서비스',
    '목욕장업': '생활서비스',

    # 교통/에너지
    '버스정류장': '교통시설',
    '주유소': '주유소,충전소',

    # 부동산, 쇼핑, 숙박
    '부동산중개업': '중개업소',
    '대형마트': '쇼핑',
    '소매유통업': '쇼핑',
    '쇼핑센터': '쇼핑',
    '숙박업(일반)': '숙박',
    '숙박업(생활)': '숙박'
}


In [125]:
# 대분류
df_cleaned['category_1st'] = df_cleaned['category_2nd'].map(SECOND_TO_FIRST)

# 대분류 → 카카오맵 코드
FIRST_TO_CODE = {
    '음식점': 'FD6',
    '카페': 'CE7',
    '편의점': 'CS2',
    '약국': 'PM9',
    '중개업소': 'AG2',
    '숙박': 'AD5',
    '병원': 'HP8',
    '공공기관': 'PO3',
    '문화시설': 'CT1',
    '생활서비스': 'CT1',
    '쇼핑': 'MT1',
    '주유소,충전소': 'OL7',
    '교통시설': 'PO3'
}

df_cleaned['category_code'] = df_cleaned['category_1st'].map(FIRST_TO_CODE)


In [127]:
# 1. 고유값 목록 확인
unique_2nd_categories = df_cleaned['category_1st'].dropna().unique()

print(f"📋 category_1st 고유값 개수: {len(unique_2nd_categories)}개")
print("🗂️ category_1st 목록:")
for cat in sorted(unique_2nd_categories):
    print("-", cat)

📋 category_1st 고유값 개수: 12개
🗂️ category_1st 목록:
- 공공기관
- 교통시설
- 문화시설
- 병원
- 생활서비스
- 쇼핑
- 숙박
- 음식점
- 주유소,충전소
- 중개업소
- 카페
- 편의점


In [128]:
print  (df_cleaned.columns)

Index(['id', 'name', 'x', 'y', 'category_2nd', 'category_1st',
       'category_code'],
      dtype='object')


In [129]:
df_cleaned.to_csv("output/공공데이터_POI_카테고리완성.csv", index=False, encoding="utf-8")
print("📁 저장 완료: output/공공데이터_POI_카테고리완성.csv")

📁 저장 완료: output/공공데이터_POI_카테고리완성.csv


In [133]:
# 1. category_1st가 결측치인 행 추출
df_unmapped = df_cleaned[df_cleaned['category_1st'].isna()]

# 2. 몇 개나 되는지 확인
print(f"❗ 대분류(category_1st) 매핑이 누락된 항목 수: {len(df_unmapped)}개")

# 3. 어떤 category_2nd에서 누락되었는지 확인
print("\n📋 매핑 누락된 category_2nd 목록:")
print(df_unmapped['category_2nd'].value_counts())

❗ 대분류(category_1st) 매핑이 누락된 항목 수: 0개

📋 매핑 누락된 category_2nd 목록:
Series([], Name: count, dtype: int64)


In [132]:
# 누락된 매핑 보완
SECOND_TO_FIRST['약국'] = '약국'
FIRST_TO_CODE['약국'] = 'PM9'  # 카카오맵 기준 약국 코드

# 다시 대분류 및 코드 컬럼 업데이트
df_cleaned['category_1st'] = df_cleaned['category_2nd'].map(SECOND_TO_FIRST)
df_cleaned['category_code'] = df_cleaned['category_1st'].map(FIRST_TO_CODE)

In [150]:
import pandas as pd
import numpy as np
from sklearn.neighbors import BallTree

df_cleaned = pd.read_csv("output/공공데이터_POI_카테고리완성.csv", encoding="utf-8")

# 누락된 매핑 보완
SECOND_TO_FIRST['약국'] = '약국'
FIRST_TO_CODE['약국'] = 'PM9'  # 카카오맵 기준 약국 코드

# 다시 대분류 및 코드 컬럼 업데이트
df_cleaned['category_1st'] = df_cleaned['category_2nd'].map(SECOND_TO_FIRST)
df_cleaned['category_code'] = df_cleaned['category_1st'].map(FIRST_TO_CODE)

# 1. 데이터 준비
df = df_cleaned.reset_index(drop=True)

# 좌표 결측치 제거 (혹시 남아있을 경우 대비)
df = df[df['x'].notnull() & df['y'].notnull()].copy()
coords = np.radians(df[['y', 'x']].astype(float).values)

# 2. 이름 등장 횟수 계산
name_counts = df['name'].value_counts()
multi_names = name_counts[name_counts > 1].index  # 2번 이상 등장한 이름만

# 3. BallTree 설정
tree = BallTree(coords, metric='haversine')
radius_km = 0.05  # 50m
radius_rad = radius_km / 6371  # 지구 반지름으로 환산

# 4. 중복 후보 탐색
duplicate_indices = set()

for i, row in df.iterrows():
    name_i = row['name']
    if name_i not in multi_names:
        continue  # 단 1회 등장한 이름은 무시

    coord_i = coords[i].reshape(1, -1)
    indices = tree.query_radius(coord_i, r=radius_rad)[0]

    for j in indices:
        if i >= j:
            continue
        if df.loc[j, 'name'] == name_i:
            duplicate_indices.add(j)  # 나중 항목만 제거

# 5. 제거 수행
df_deduplicated = df.drop(index=duplicate_indices).reset_index(drop=True)
df_removed = df.loc[list(duplicate_indices)].reset_index(drop=True)

# 6. 저장
df_deduplicated.to_csv("output/공공데이터_POI_중복제거_안전완료.csv", index=False, encoding="utf-8")
df_removed.to_csv("output/중복제거된_POI_안전목록.csv", index=False, encoding="utf-8")

# 7. 로그 출력
print(f"📦 전체 원본 개수: {len(df)}")
print(f"🗑️ 제거된 중복 POI 수: {len(df_removed)}")
print(f"✅ 최종 남은 POI 수: {len(df_deduplicated)}")

📦 전체 원본 개수: 20146
🗑️ 제거된 중복 POI 수: 11936
✅ 최종 남은 POI 수: 8210


In [171]:
import pandas as pd

# 1. 데이터 불러오기
df_cleaned = pd.read_csv("output/공공데이터_POI_카테고리완성.csv", encoding="utf-8")

# (선택) 약국 카테고리 보완
SECOND_TO_FIRST = {'약국': '약국'}  # 필요 시 추가 매핑 전체 사용
FIRST_TO_CODE = {'약국': 'PM9'}
df_cleaned['category_1st'] = df_cleaned['category_2nd'].map(SECOND_TO_FIRST)
df_cleaned['category_code'] = df_cleaned['category_1st'].map(FIRST_TO_CODE)

# 2. 데이터 정리
df = df_cleaned.reset_index(drop=True)

# 3. 완전히 동일한 name + x + y 기준 중복 제거
df_deduplicated = df.drop_duplicates(subset=['name', 'x', 'y'], keep='first').reset_index(drop=True)

# 4. 제거된 POI 추출
duplicated_mask = df.duplicated(subset=['name', 'x', 'y'], keep='first')
df_removed = df[duplicated_mask].reset_index(drop=True)

# 5. 로그 출력
print(f"📦 전체 원본 개수: {len(df)}")
print(f"🗑️ 제거된 POI 수 (이름+좌표 완전 일치): {len(df_removed)}")
print(f"✅ 최종 남은 POI 수: {len(df_deduplicated)}")

# 6. 저장
df_deduplicated.to_csv("output/공공데이터_POI_이름좌표완전중복제거.csv", index=False, encoding="utf-8")
df_removed.to_csv("output/중복제거된_POI_이름좌표완전일치.csv", index=False, encoding="utf-8")

📦 전체 원본 개수: 20146
🗑️ 제거된 POI 수 (이름+좌표 완전 일치): 11338
✅ 최종 남은 POI 수: 8808


In [172]:
# category_1st별 개수
final_counts = df_deduplicated['category_2nd'].value_counts()

# 출력
print("📊 최종 category_1st별 POI 개수:")
print(final_counts.sort_values(ascending=False))

📊 최종 category_1st별 POI 개수:
category_2nd
음식점              2514
버스정류장            1515
부동산중개업           1145
카페               1086
일반미용업             399
편의점               346
의원                202
피부미용업             187
약국                160
종합미용업             159
노래연습장업            136
미용업               107
네일미용업             101
한의원                86
치과의원               80
숙박업(일반)            77
주유소                69
세탁업                67
이용업                65
인터넷컴퓨터게임시설제공업      53
공공기관               41
재가노인복지시설           32
화장ㆍ분장 미용업          24
청소년게임제공업           23
노인요양시설             17
목욕장업               16
복합유통게임제공업          12
보건지소               12
아동복지시설             12
청소년복지시설            11
일반게임제공업            10
보건진료소               7
영화관                 6
한방병원                4
요양병원(일반요양병원)        4
양로시설                3
노인요양공동생활가정          3
병원                  3
종합병원                3
대형마트                2
보건소                 2
숙박업(생활)             2
쇼핑센터                1
정신병원          

In [174]:

import pandas as pd

# CSV 불러오기
df = pd.read_csv("output/공공데이터_POI_이름좌표완전중복제거.csv")

# 소분류 종류 확인
unique_minor_categories = df["category_2nd"].dropna().unique()
print(f"소분류 종류 ({len(unique_minor_categories)}개):")
for category in sorted(unique_minor_categories):
    print("-", category)


소분류 종류 (47개):
- 공공기관
- 네일미용업
- 노래연습장업
- 노인복지주택
- 노인요양공동생활가정
- 노인요양시설
- 대형마트
- 목욕장업
- 미용업
- 버스정류장
- 병원
- 보건소
- 보건지소
- 보건진료소
- 복합유통게임제공업
- 부동산중개업
- 세탁업
- 소매유통업
- 쇼핑센터
- 숙박업(생활)
- 숙박업(일반)
- 아동복지시설
- 약국
- 양로시설
- 영화관
- 요양병원(일반요양병원)
- 음식점
- 의원
- 이용업
- 인터넷컴퓨터게임시설제공업
- 일반게임제공업
- 일반미용업
- 재가노인복지시설
- 정신병원
- 종합미용업
- 종합병원
- 주유소
- 청소년게임제공업
- 청소년복지시설
- 치과병원
- 치과의원
- 카페
- 편의점
- 피부미용업
- 한방병원
- 한의원
- 화장ㆍ분장 미용업


In [175]:
poi_category_map = {
    # 음식점 / 카페
    '음식점': ('음식점', 'FD6'),
    '카페': ('카페', 'CE7'),

    # 병원/의료
    '병원': ('병원', 'HP8'),
    '의원': ('병원', 'HP8'),
    '치과병원': ('병원', 'HP8'),
    '치과의원': ('병원', 'HP8'),
    '정신병원': ('병원', 'HP8'),
    '요양병원(일반요양병원)': ('병원', 'HP8'),
    '한방병원': ('병원', 'HP8'),
    '한의원': ('병원', 'HP8'),

    # 약국
    '약국': ('약국', 'PM9'),

    # 편의점 / 마트
    '편의점': ('편의점', 'CS2'),
    '대형마트': ('대형마트', 'MT1'),

    # 중개업
    '부동산중개업': ('중개업소', 'AG2'),

    # 공공기관
    '공공기관': ('공공기관', 'PO3'),
    '보건소': ('공공기관', 'PO3'),
    '보건지소': ('공공기관', 'PO3'),
    '보건진료소': ('공공기관', 'PO3'),

    # 주유소
    '주유소': ('주유소,충전소', 'OL7'),

    # 숙박
    '숙박업(생활)': ('숙박', 'AD5'),
    '숙박업(일반)': ('숙박', 'AD5'),

    # 문화시설
    '영화관': ('문화시설', 'CT1'),
    '노래연습장업': ('문화시설', 'CT1'),

    # 기타 매핑 가능한 것들
    '쇼핑센터': ('대형마트', 'MT1'),
    '소매유통업': ('대형마트', 'MT1'),
    '세탁업': ('생활서비스', None),
    '네일미용업': ('생활서비스', None),
    '일반미용업': ('생활서비스', None),
    '종합미용업': ('생활서비스', None),
    '피부미용업': ('생활서비스', None),
    '화장ㆍ분장 미용업': ('생활서비스', None),
    '인터넷컴퓨터게임시설제공업': ('문화시설', 'CT1'),
    '청소년게임제공업': ('문화시설', 'CT1'),
    '일반게임제공업': ('문화시설', 'CT1'),
    '복합유통게임제공업': ('문화시설', 'CT1'),
}


In [176]:
# 소분류 ➝ 대분류명 + 대분류코드 부여
df['category_1st'] = df['category_2nd'].map(lambda x: poi_category_map.get(x, (None, None))[0])
df['category_code'] = df['category_2nd'].map(lambda x: poi_category_map.get(x, (None, None))[1])

# 누락 항목 확인
missing = df[df['category_1st'].isna()]
print("❗️대분류가 없는 category_2nd:")
print(missing['category_2nd'].dropna().unique())


❗️대분류가 없는 category_2nd:
['청소년복지시설' '아동복지시설' '종합병원' '양로시설' '노인복지주택' '노인요양시설' '노인요양공동생활가정'
 '재가노인복지시설' '목욕장업' '이용업' '미용업' '버스정류장']


In [177]:
# 누락된 항목을 category_map에 추가
poi_category_map.update({
    '청소년복지시설': ('공공기관', 'PO3'),
    '아동복지시설': ('공공기관', 'PO3'),
    '종합병원': ('병원', 'HP8'),
    '양로시설': ('공공기관', 'PO3'),
    '노인복지주택': ('공공기관', 'PO3'),
    '노인요양시설': ('병원', 'HP8'),
    '노인요양공동생활가정': ('공공기관', 'PO3'),
    '재가노인복지시설': ('공공기관', 'PO3'),
    '목욕장업': ('문화시설', 'CT1'),
    '이용업': ('문화시설', 'CT1'),
    '미용업': ('문화시설', 'CT1'),
    '버스정류장': ('버스정류장', 'B01')
})

In [179]:
# 1. 대분류/대분류코드가 없는 행만 필터링
mask_unmapped = df['category_1st'].isna() | df['category_code'].isna()

# 2. 누락된 항목에 대해서만 부여
df.loc[mask_unmapped, 'category_1st'] = df.loc[mask_unmapped, 'category_2nd'].map(lambda x: poi_category_map.get(x, (None, None))[0])
df.loc[mask_unmapped, 'category_code'] = df.loc[mask_unmapped, 'category_2nd'].map(lambda x: poi_category_map.get(x, (None, None))[1])


In [183]:
df.to_csv("result/공공데이터_POI_카테고리완성_최종.csv", index=False, encoding="utf-8")

In [181]:
import pandas as pd

# 1. 데이터 불러오기
df_bus = pd.read_csv("output/버스추가(1).csv", encoding="utf-8")

# 2. name, x, y 기준 중복 여부 판단 (전체 중복 그룹 표시)
duplicated_mask = df_bus.duplicated(subset=['name', 'x', 'y'], keep=False)

# 3. 중복된 행만 추출
df_duplicated = df_bus[duplicated_mask]

# 4. category별로 중복된 개수 집계
category_counts = df_duplicated['category'].value_counts()

# 5. 결과 출력
print("📊 category별 중복된 (name, x, y) 항목 개수:")
print(category_counts)


📊 category별 중복된 (name, x, y) 항목 개수:
category
음식점      1372
카페        558
편의점       178
버스정류장       2
Name: count, dtype: int64
