**판례 주소명 찾기**

* 데이터: 형사법 12,154건
* 데이터 형식: csv 파일
* 코드 원리: 정규표현식
* 코드 결과: 한국의 주소를 찾기에 적합한 성능으로 일상에서 사용하기에 용이

In [None]:
#시부터 시작하고, 순서대로 출력

import pandas as pd
import re

def find_korean_addresses(text):
    """
    주어진 텍스트에서 한국 주소 형식에 맞는 문자열을 찾습니다.

    :param text: 검색할 전체 텍스트
    :return: 찾은 주소 목록
    """
    # 시부터 시작하고, 마지막에 '가' 또는 '의 숫자'를 포함하는 주소 패턴
    address_pattern = r'([가-힣]+(?:시|도)\s?[가-힣]+(?:구|군)?\s?[가-힣]+(?:동|면|리)\s?\d+(?:-\d+)?(?:의\s?\d+)?(?:가|나|다|라|마|바|사|아|자|차|카|타|파|하)?)'
    text = str(text)
    found_addresses = re.findall(address_pattern, text)
    return found_addresses


def extract_addresses_from_csv(file_path):
    """
    CSV 파일에서 A열과 B열을 읽고, B열의 텍스트 내에서 한국 주소를 찾아 A열의 판례일련번호와 연결합니다.

    :param file_path: CSV 파일의 경로
    :return: 판례일련번호와 찾은 주소 목록
    """
    df = pd.read_csv(file_path)
    df['Found_Addresses'] = df['판례내용'].apply(find_korean_addresses)

    return df[df['Found_Addresses'].map(lambda d: len(d) > 0)][['판례일련번호', 'Found_Addresses']]

# CSV 파일 경로
csv_file_path = '/content/비실명화_형사.csv'  # 여기에 실제 파일 경로를 입력하세요.

# CSV 파일에서 주소 추출 및 판례일련번호와 연결
address_data = extract_addresses_from_csv(csv_file_path)

# 결과 출력
for index, row in address_data.iterrows():
    print(f"판례일련번호: {row['판례일련번호']}, 찾은 주소: {row['Found_Addresses']}")

판례일련번호: 64477, 찾은 주소: ['의정부시 신곡동 679']
판례일련번호: 64832, 찾은 주소: ['남양주시 수동면 수산리 167', '남양주시 수동면 수산리 167']
판례일련번호: 65129, 찾은 주소: ['양주시 율정동 281', '양주시 율정동 2의 16']
판례일련번호: 67163, 찾은 주소: ['진주시 일반성면 창촌리 53-3', '진주시 일반성면 남산리 1225', '진주시 일반성면 창촌리 666-5', '진주시 일반성면 창촌리 22', '진주시 일반성면 창촌리 698-1']
판례일련번호: 67223, 찾은 주소: ['진주시 칠암동 90']
판례일련번호: 67482, 찾은 주소: ['수원시 권선구 고색동 886', '수원시 권선구 고색동 886-11']
판례일련번호: 67497, 찾은 주소: ['수원시 권선구 평동 151']
판례일련번호: 67641, 찾은 주소: ['알코올농도를 계산하면 0']
판례일련번호: 67723, 찾은 주소: ['하남시 덕풍동 378-7']
판례일련번호: 67753, 찾은 주소: ['원주시 평원동 349-1']
판례일련번호: 67758, 찾은 주소: ['남원시 주천면 용담리 344', '남원시 주천면 용담리 172', '남원시 광치동 548-3']
판례일련번호: 68242, 찾은 주소: ['혈중알코올농도를 계산하면 0']
판례일련번호: 68289, 찾은 주소: ['시흥시사무전결처리규칙개정규칙에 의하면 7']
판례일련번호: 68795, 찾은 주소: ['수입시와 달리 2차']
판례일련번호: 69087, 찾은 주소: ['성남시 분당구 정자동 6']
판례일련번호: 69529, 찾은 주소: ['경주시 강동면 유금리 1020의 2']
판례일련번호: 69565, 찾은 주소: ['천안시 쌍용동 567']
판례일련번호: 69634, 찾은 주소: ['전주시 덕진구 인후동2가']
판례일련번호: 69754, 찾은 주소: ['광주시 퇴촌면 관음리 549-10']
판례일련번호: 69787, 찾은 주소: ['마산시 회성동 233-7'

In [None]:
#군이나 구부터 시작하고, 순서대로 출력

import pandas as pd
import re

def find_korean_addresses(text):
    """
    주어진 텍스트에서 한국 주소 형식에 맞는 문자열을 찾습니다.

    :param text: 검색할 전체 텍스트
    :return: 찾은 주소 목록
    """
    # 군이나 구부터 시작하고, 마지막에 '가' 또는 '의 숫자'를 포함하는 주소 패턴
    address_pattern = r'([가-힣]+(?:구|군)\s?[가-힣]+(?:동|면|리)\s?\d+(?:-\d+)?(?:의\s?\d+)?(?:가|나|다|라|마|바|사|아|자|차|카|타|파|하)?)'
    text = str(text)
    found_addresses = re.findall(address_pattern, text)
    return found_addresses


def extract_addresses_from_csv(file_path):
    """
    CSV 파일에서 A열과 B열을 읽고, B열의 텍스트 내에서 한국 주소를 찾아 A열의 판례일련번호와 연결합니다.

    :param file_path: CSV 파일의 경로
    :return: 판례일련번호와 찾은 주소 목록
    """
    df = pd.read_csv(file_path)
    df['Found_Addresses'] = df['판례내용'].apply(find_korean_addresses)

    return df[df['Found_Addresses'].map(lambda d: len(d) > 0)][['판례일련번호', 'Found_Addresses']]

# CSV 파일 경로
csv_file_path = '/content/비실명화_형사.csv'  # 여기에 실제 파일 경로를 입력하세요.

# CSV 파일에서 주소 추출 및 판례일련번호와 연결
address_data = extract_addresses_from_csv(csv_file_path)

# 결과 출력
for index, row in address_data.iterrows():
    print(f"판례일련번호: {row['판례일련번호']}, 찾은 주소: {row['Found_Addresses']}")

판례일련번호: 65128, 찾은 주소: ['대덕구 석봉동 177의 7']
판례일련번호: 67362, 찾은 주소: ['부평구 부평동 549의 38']
판례일련번호: 67482, 찾은 주소: ['권선구 고색동 886', '권선구 고색동 886-11']
판례일련번호: 67497, 찾은 주소: ['권선구 평동 151']
판례일련번호: 67501, 찾은 주소: ['영등포구 여의도동 63']
판례일련번호: 67752, 찾은 주소: ['금천구 기산동 140-25']
판례일련번호: 67796, 찾은 주소: ['강남구 논현동 63-9']
판례일련번호: 68103, 찾은 주소: ['영등포구 여의도동 23-2']
판례일련번호: 69011, 찾은 주소: ['동구 화평동 66', '남구 주안동 197의 20']
판례일련번호: 69087, 찾은 주소: ['분당구 정자동 6']
판례일련번호: 69181, 찾은 주소: ['서구 화정동 1051', '서구 화정동 1051']
판례일련번호: 69284, 찾은 주소: ['남구 대연동 243-23']
판례일련번호: 69427, 찾은 주소: ['광진구 화양동 111의 102']
판례일련번호: 69528, 찾은 주소: ['중구 선화동 21-13', '중구 선화동 21-13', '중구 선화동 21-13', '중구 선화동 21-13', '중구 선화동 21-13']
판례일련번호: 69530, 찾은 주소: ['종로구 봉익동 23', '종로구 봉익동 23']
판례일련번호: 69562, 찾은 주소: ['강동구 천호동 454-2', '강동구 천호동 454-2', '영등포구 영등포동 434-5']
판례일련번호: 69563, 찾은 주소: ['강남구 역삼동 676', '강남구 역삼동 676']
판례일련번호: 69564, 찾은 주소: ['성동구 송정동 79-2', '서초구 서초동 1624-4']
판례일련번호: 69591, 찾은 주소: ['종로구 관철동 10-2']
판례일련번호: 69617, 찾은 주소: ['관악구 봉천동 874-9']
판례일련번호: 69634, 찾은 주

In [None]:
# 동이나 리로 시작하고, 상세 주소에서 순서대로 출력
import pandas as pd
import re

def find_korean_addresses(text):
    """
    주어진 텍스트에서 한국 주소 형식에 맞는 문자열을 찾습니다.

    :param text: 검색할 전체 텍스트
    :return: 찾은 주소 목록
    """
    # 동 이나 리부터 시작하고, 마지막에 '가' 또는 '의 숫자'를 포함하는 주소 패턴
    address_pattern = r'([가-힣]{1,2}(?:동|리)\s?\d+(?:-\d+)?(?:가|의\s?\d+)?)'
    text = str(text)
    found_addresses = re.findall(address_pattern, text)
    return found_addresses

def extract_addresses_from_csv(file_path):
    """
    CSV 파일에서 판례일련번호와 판례내용을 읽고, 각 텍스트 내에서 한국 주소를 찾아 판례일련번호와 연결합니다.

    :param file_path: CSV 파일의 경로
    :return: 판례일련번호와 찾은 주소 목록
    """
    df = pd.read_csv(file_path)
    df['Found_Addresses'] = df['판례내용'].apply(find_korean_addresses)

    return df[df['Found_Addresses'].map(lambda d: len(d) > 0)][['판례일련번호', 'Found_Addresses']]

# CSV 파일 경로
csv_file_path = '/content/비실명화_형사.csv'  # 여기에 실제 파일 경로를 입력하세요.

# CSV 파일에서 주소 추출 및 판례일련번호와 연결
address_data = extract_addresses_from_csv(csv_file_path)

# 결과 출력
for index, row in address_data.iterrows():
    print(f"판례일련번호: {row['판례일련번호']}, 찾은 주소: {row['Found_Addresses']}")

판례일련번호: 64477, 찾은 주소: ['신곡동 679']
판례일련번호: 64832, 찾은 주소: ['수산리 167-1', '수산리 167', '수산리 167']
판례일련번호: 65128, 찾은 주소: ['석봉동 177의 7']
판례일련번호: 65129, 찾은 주소: ['율정동 281', '율정동 2의 16']
판례일련번호: 65301, 찾은 주소: ['삼바리 1', '삼프리 1', '다리 1', '사고리 150']
판례일련번호: 67163, 찾은 주소: ['창촌리 53-3', '남산리 1225', '창촌리 666-5', '창촌리 22', '창촌리 698-1']
판례일련번호: 67223, 찾은 주소: ['칠암동 90']
판례일련번호: 67317, 찾은 주소: ['소문동 120-33']
판례일련번호: 67362, 찾은 주소: ['부평동 549의 38']
판례일련번호: 67482, 찾은 주소: ['고색동 886', '고색동 886-11', '고색동 886-14']
판례일련번호: 67497, 찾은 주소: ['평동 151']
판례일련번호: 67501, 찾은 주소: ['의도동 63']
판례일련번호: 67698, 찾은 주소: ['경원동 3가']
판례일련번호: 67720, 찾은 주소: ['원짜리 3']
판례일련번호: 67723, 찾은 주소: ['덕풍동 378-7']
판례일련번호: 67752, 찾은 주소: ['비동 301', '기산동 140-25']
판례일련번호: 67753, 찾은 주소: ['평원동 349-1']
판례일련번호: 67758, 찾은 주소: ['용담리 344', '용담리 172', '광치동 548-3', '광치동 548-3']
판례일련번호: 67796, 찾은 주소: ['논현동 63-9']
판례일련번호: 67826, 찾은 주소: ['권리 80', '권리 80']
판례일련번호: 67872, 찾은 주소: ['노동 3', '노동 3', '노동 3', '노동 3']
판례일련번호: 68000, 찾은 주소: ['짜리 6']
판례일련번호: 68103, 찾은 주소: ['의도동 