In [33]:
import os
import pandas as pd

file_dir = '202301_kor_adr'
files = os.listdir(file_dir)

# "rnaddrkor_"로 시작하는 파일만 선택
rnaddrkor_files = [f for f in files if f.startswith('rnaddrkor_') and f.endswith('.txt')]

for filename in rnaddrkor_files:
    with open(os.path.join(file_dir, filename), 'r', encoding='cp949') as file:
        lines = file.readlines()

    data_list = []

    for line in lines:
        parts = line.split('|')

        # parts의 길이가 17 미만이면 무시하고 다음 라인으로 넘어감
        if len(parts) < 17:
            continue

        city = parts[2]
        borough = parts[3]
        town = parts[4]
        old_postal_code = f"{parts[7]}-{parts[8]}"
        road_name = parts[10]
        road_number = parts[12]
        postcode = parts[16]
        data_list.append([city, borough, town, old_postal_code, road_name, road_number, postcode])

    # 리스트를 DataFrame으로 변환
    df = pd.DataFrame(data_list, columns=["city", "borough", "town", "old postal code", "road_name","road_number" ,"postcode"])

    # DataFrame을 CSV 파일로 저장 (rnaddrkor_ulsan.txt -> rnaddrkor_ulsan.csv)
    csv_filename = filename.replace('.txt', '.csv')
    df.to_csv(os.path.join(file_dir, csv_filename), index=False, encoding='cp949')


In [39]:
import pandas as pd

def load_real_addresses(directory='202301_kor_adr/', filename='merged_result.csv'):
    df = pd.read_csv(directory + filename, encoding='cp949')
    cities = set(df['city'].unique())
    boroughs = {city: set(df[df['city'] == city]['borough'].unique()) for city in cities}
    return cities, boroughs

def validate_fake_address(fake_address, cities, boroughs):
    parts = fake_address.split(' ')
    city = parts[0]
    borough = parts[1]

    if city not in cities:
        return False
    elif borough not in boroughs.get(city, set()):
        return False
    else:
        return True

if __name__ == "__main__":
    cities, boroughs = load_real_addresses()
    fake_addresses_df = pd.read_csv('202301_kor_adr/fake_addresses.csv',encoding='cp949')
    
    mismatches = fake_addresses_df['Address'].apply(lambda x: not validate_fake_address(x, cities, boroughs))
    mismatch_count = mismatches.sum()

    print(f"Number of mismatched addresses: {mismatch_count} out of {len(fake_addresses_df)}")


Number of mismatched addresses: 8555 out of 10000


In [34]:
import os
import pandas as pd

file_dir = '202301_kor_adr'
files = os.listdir(file_dir)

# "rnaddrkor_"로 시작하며 ".csv"로 끝나는 파일만 선택
csv_files = [f for f in files if f.startswith('rnaddrkor_') and f.endswith('.csv')]

dfs = []  # 각 파일의 DataFrame을 담을 리스트

for csv_file in csv_files:
    full_path = os.path.join(file_dir, csv_file)
    df = pd.read_csv(full_path, encoding='cp949')
    dfs.append(df)

# 모든 DataFrame을 하나로 합치기
merged_df = pd.concat(dfs, ignore_index=True)

# 합친 DataFrame을 CSV 파일로 저장
merged_df.to_csv(os.path.join(file_dir, 'merged_result.csv'), index=False, encoding='cp949')


In [24]:
import pandas as pd
import random

# CSV 파일 읽기
df = pd.read_csv('result.csv', encoding='cp949')

# 주소 데이터 구조화하기
cities = df['city'].unique().tolist()
boroughs = {city: df[df['city'] == city]['borough'].unique().tolist() for city in cities}
towns = {(city, borough): df[(df['city'] == city) & (df['borough'] == borough)]['town'].unique().tolist() for city in cities for borough in boroughs[city]}
road_names = {(city, borough, town): df[(df['city'] == city) & (df['borough'] == borough) & (df['town'] == town)]['road_name'].unique().tolist() for city in cities for borough in boroughs[city] for town in towns[(city, borough)]}

# 주소 생성 함수
def generate_address():
    city = random.choice(cities)
    borough = random.choice(boroughs[city])
    town = random.choice(towns[(city, borough)])
    road_name = random.choice(road_names[(city, borough, town)])
    
    return f"{city} {borough} {town} {road_name}"

# 테스트
for _ in range(10):
    print(generate_address())


울산광역시 북구 매곡동 신기8길
울산광역시 남구 달동 신정로20번길
울산광역시 남구 선암동 산업로303번길
울산광역시 울주군 두서면 박달로
울산광역시 남구 남화동 용잠로
울산광역시 북구 호계동 당수골23길
울산광역시 북구 시례동 안시례길
울산광역시 중구 우정동 종가6길
울산광역시 남구 고사동 용잠로
울산광역시 북구 명촌동 진장5길


In [30]:
road_names

{('울산광역시', '중구', '학성동'): ['화합로',
  '가구거리',
  '강북로',
  '계변로',
  '구교로',
  '새치로',
  '옥교로',
  '학산로',
  '학성로',
  '구역전1길',
  '구역전2길',
  '구역전길',
  '내황7길',
  '새벽시장1길',
  '새벽시장2길',
  '새벽시장3길',
  '새벽시장길',
  '서원10길',
  '서원11길',
  '서원12길',
  '서원13길',
  '서원14길',
  '서원3길',
  '옥교10길',
  '옥교11길',
  '옥교12길',
  '옥교14길',
  '옥교15길',
  '옥교3길',
  '옥교9길',
  '학성10길',
  '학성1길',
  '학성4길',
  '학성5길',
  '학성6길',
  '학성7길',
  '학성8길',
  '학성9길',
  '학성공원10길',
  '학성공원10안길',
  '학성공원11길',
  '학성공원12길',
  '학성공원13길',
  '학성공원1길',
  '학성공원2길',
  '학성공원3길',
  '학성공원4길',
  '학성공원5길',
  '학성공원6길',
  '학성공원7길',
  '학성공원8길',
  '학성공원길'],
 ('울산광역시', '중구', '학산동'): ['구교로',
  '새치로',
  '옥교로',
  '장춘로',
  '학산로',
  '학성로',
  '번영로',
  '구역전1길',
  '구역전2길',
  '구역전길',
  '옥골샘1길',
  '옥골샘2길',
  '옥골샘3길',
  '옥골샘4길',
  '옥골샘길',
  '옥교12길',
  '옥교13길',
  '옥교2길',
  '옥교3길',
  '옥교6길',
  '옥교7길',
  '옥교8길',
  '중앙길',
  '푸름길'],
 ('울산광역시', '중구', '복산동'): ['화합로',
  '계변로',
  '번영로',
  '북부순환도로',
  '종가로',
  '계변고개',
  '단장1길',
  '단장2길',
  '단장3길',
  '단장골길',
  '도화골10길',
  '도화골11길',


In [46]:
import requests
from bs4 import BeautifulSoup

url = "https://namu.wiki/w/%ED%95%9C%EA%B5%AD%EC%9D%98%20%EC%84%B1%EC%94%A8%EB%B3%84%20%EC%9D%B8%EA%B5%AC%20%EB%B6%84%ED%8F%AC"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 첫 번째 표에서 데이터 추출
table = soup.find_all('table', {'class':'wiki-table'})[0]

# 성씨와 인구비율을 저장할 빈 리스트 생성
surname_population = []

# 행 데이터 추출
for row in table.find_all('tr')[1:]:  # 첫 두 행은 헤더이므로 제외
    cells = row.find_all('td')
    if len(cells) > 1:  # 셀이 1개 이상 있는 행만 처리
        surname = cells[1].text.strip()  # 성씨 추출
        try:
            # 숫자만 추출하고 퍼센트 제거
            population_ratio = float(cells[2].text.strip().replace('%',''))/100  
            surname_population.append((surname, population_ratio))
        except ValueError:
            # 숫자 변환에 실패하면 해당 행은 건너뜀
            pass

for item in surname_population:
    print(item)


('화(化)', 9.15)
('창(昌)', 9.08)
('방(龐)', 8.93)
('옹(邕)', 8.37)
('위(韋)', 8.34)
('승(昇)', 8.11)
('순(荀)', 7.91)
('강(強)', 7.7)
('빙(氷)', 7.63)
('우(于)', 7.56)
('종(鍾)', 6.75)
('풍(馮)', 6.51)
('대(大)', 6.46)
('엽(葉)', 5.71)
('지(地)', 5.68)
('궁(弓)', 5.57)
('아(阿)', 5.29)
('평(平)', 5.15)
('독고(獨孤)', 5.02)
('원(袁)', 4.98)
('공(公)', 4.72)
('양(粱)', 4.46)
('장(莊)', 4.45)
('백(百)', 4.43)
('견(堅)', 4.33)
('장(長)', 4.09)
('서(俆)', 3.83)
('모(毛)', 3.61)
('내(乃)', 3.52)
('이(異)', 3.39)
('동(蕫)', 3.19)
('판(判)', 2.78)
('방(邦)', 2.77)
('류(劉)[劉]', 2.71)
('권(勸)', 2.5)
('마(麻)', 2.47)
('리(李)', 2.4)
('황(皇)', 2.32)
('순(筍)', 2.17)
('엄(儼)', 2.17)
('양(揚)', 2.14)
('매(梅)', 2.01)
('초(楚)', 2.0)
('노(蘆)', 1.95)
('창(倉)', 1.87)
('채(菜)', 1.86)
('심(沁)', 1.85)
('궉(鴌)', 1.83)
('낭(浪)', 1.81)
('동방(東方)', 1.8)
('노(路)', 1.78)
('우(寓)', 1.73)
('묵(墨)', 1.72)
('곽(廓)', 1.71)
('근(斤)', 1.7)
('빈(彬)', 1.69)
('기(寄)', 1.67)
('양(陽)', 1.63)
('반(班)', 1.61)
('점(占)', 1.58)
('탄(彈)', 1.49)
('순(舜)', 1.47)
('해(海)', 1.46)
('천(天)', 1.41)
('정(政)', 1.39)
('동(童)', 1.36)
('사(司)', 

In [44]:
import requests
from bs4 import BeautifulSoup

url = "https://namu.wiki/w/%ED%95%9C%EA%B5%AD%EC%9D%98%20%EC%84%B1%EC%94%A8%EB%B3%84%20%EC%9D%B8%EA%B5%AC%20%EB%B6%84%ED%8F%AC"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 2. 순위 항목 찾기
table = soup.find_all('table', {'class':'wiki-table'})[0]
for row in table.find_all('tr')[1:]:  # 첫 번째 행은 헤더이므로 제외
    cells = row.find_all('td')
    surname = cells[1].text.strip()  # 성씨 추출
    print(surname)

김(金)
이(李)
박(朴)
최(崔)
정(鄭)
강(姜)
조(趙)
윤(尹)
장(張)
임(林)
한(韓)
오(吳)
서(徐)
신(申)
권(權)
황(黃)
안(安)
송(宋)
전(全)
홍(洪)
유(柳)[柳]
고(高)
문(文)
양(梁)
손(孫)
배(裵)
조(曺)
백(白)
허(許)
유(劉)[劉]
남(南)
심(沈)
노(盧)
정(丁)
하(河)
곽(郭)
성(成)
차(車)
주(朱)
우(禹)
구(具)
신(辛)
임(任)
전(田)
민(閔)
유(兪)
류(柳)[柳]
나(羅)[羅]
진(陳)
지(池)
엄(嚴)
채(蔡)
원(元)
천(千)
방(方)
공(孔)
강(康)
현(玄)
함(咸)
변(卞)
염(廉)
양(楊)
변(邊)
여(呂)
추(秋)
노(魯)
도(都)
소(蘇)
신(愼)
석(石)
선(宣)
설(薛)
마(馬)
길(吉)
주(周)
연(延)
방(房)
위(魏)
표(表)
명(明)
기(奇)
반(潘)
라(羅[羅])
왕(王)
금(琴)
옥(玉)
육(陸)
인(印)
맹(孟)
제(諸)
모(牟)
장(蔣)
남궁(南宮)
탁(卓)
국(鞠)
여(余)
진(秦)
어(魚)
은(殷)
편(片)
구(丘)
용(龍)
유(庾)
예(芮)
경(慶)
봉(奉)
정(程)
석(昔)
사(史)
부(夫)
황보(皇甫)
가(賈)
복(卜)
태(太)
목(睦)
진(晋)
형(邢)
계(桂)
최(催)
피(皮)
두(杜)
지(智)
감(甘)
장(章)
제갈(諸葛)
음(陰)
빈(賓)
동(董)
온(溫)
사공(司空)
호(扈)
경(景)
범(范)
전(錢)
선우(鮮于)
좌(左)
설(偰)
팽(彭)
승(承)
간(簡)
하(夏)
상(尙)
시(施)
시(柴)
갈(葛)
서문(西門)
진(陣)
단(段)
호(胡)
소(邵)
견(甄)
당(唐)
도(陶)
화(化)
창(昌)
방(龐)
옹(邕)
위(韋)
승(昇)
순(荀)
강(強)
빙(氷)
우(于)
종(鍾)
풍(馮)
대(大)
엽(葉)
지(地)
궁(弓)
아(阿)
평(平)
독고(獨孤)
원(袁)
공(公)
양(粱)
장(莊)
백(百)
견(堅)
장(長)
서(俆)
모(毛)
내(乃)
이(異)
동(蕫)
판(判)
방(邦)
류(劉)[劉]
권(勸)
마(麻)
리(李)
황(皇)
순(筍)
엄(儼)
양(揚

In [47]:
import requests
from bs4 import BeautifulSoup

url = "https://namu.wiki/w/%ED%95%9C%EA%B5%AD%EC%9D%98%20%EC%84%B1%EC%94%A8%EB%B3%84%20%EC%9D%B8%EA%B5%AC%20%EB%B6%84%ED%8F%AC"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 첫 번째 표에서 데이터 추출
table = soup.find_all('table', {'class':'wiki-table'})[0]

# 성씨와 인구비율을 저장할 빈 리스트 생성
surname_population = []

# 행 데이터 추출
for row in table.find_all('tr')[2:]:  # 첫 두 행은 헤더이므로 제외
    cells = row.find_all('td')
    if len(cells) > 1:  # 셀이 1개 이상 있는 행만 처리
        surname = cells[1].text.strip().split('(')[0]  # 한글 성씨만 추출
        try:
            # 숫자만 추출하고 퍼센트 제거
            population_ratio = float(cells[2].text.strip().replace('%',''))/100  
            surname_population.append((surname, population_ratio))
        except ValueError:
            # 숫자 변환에 실패하면 해당 행은 건너뜀
            pass

for item in surname_population:
    print(item)

('화', 9.15)
('창', 9.08)
('방', 8.93)
('옹', 8.37)
('위', 8.34)
('승', 8.11)
('순', 7.91)
('강', 7.7)
('빙', 7.63)
('우', 7.56)
('종', 6.75)
('풍', 6.51)
('대', 6.46)
('엽', 5.71)
('지', 5.68)
('궁', 5.57)
('아', 5.29)
('평', 5.15)
('독고', 5.02)
('원', 4.98)
('공', 4.72)
('양', 4.46)
('장', 4.45)
('백', 4.43)
('견', 4.33)
('장', 4.09)
('서', 3.83)
('모', 3.61)
('내', 3.52)
('이', 3.39)
('동', 3.19)
('판', 2.78)
('방', 2.77)
('류', 2.71)
('권', 2.5)
('마', 2.47)
('리', 2.4)
('황', 2.32)
('순', 2.17)
('엄', 2.17)
('양', 2.14)
('매', 2.01)
('초', 2.0)
('노', 1.95)
('창', 1.87)
('채', 1.86)
('심', 1.85)
('궉', 1.83)
('낭', 1.81)
('동방', 1.8)
('노', 1.78)
('우', 1.73)
('묵', 1.72)
('곽', 1.71)
('근', 1.7)
('빈', 1.69)
('기', 1.67)
('양', 1.63)
('반', 1.61)
('점', 1.58)
('탄', 1.49)
('순', 1.47)
('해', 1.46)
('천', 1.41)
('정', 1.39)
('동', 1.36)
('사', 1.35)
('옹', 1.3)
('랑', 1.25)
('125', 0.0)
('국', 1.24)
('124', 0.07)
('유', 1.21)
('121', 0.03)
('한', 1.2)
('돈', 1.17)
('장', 1.09)
('하', 1.05)
('선', 1.03)
('운', 0.97)
('곡', 0.89)
('설', 0.86)
('구', 0.83)
('신',