In [21]:
import pandas as pd
import re

def find_korean_addresses(text):
    """
    주어진 텍스트에서 한국 주소 형식에 맞는 문자열을 찾습니다.

    :param text: 검색할 전체 텍스트
    :return: 찾은 주소 목록
    """
    address_pattern = r'([가-힣]+(?:시|도)\s?[가-힣]+(?:구|군)?\s?[가-힣]+(?:동|면|리)\s?\d+(?:-\d+)?)'
    text = str(text)
    found_addresses = re.findall(address_pattern, text)
    return found_addresses


def extract_addresses_from_csv(file_path):
    """
    CSV 파일에서 A열과 B열을 읽고, B열의 텍스트 내에서 한국 주소를 찾아 A열의 판례일련번호와 연결합니다.

    :param file_path: CSV 파일의 경로
    :return: 판례일련번호와 찾은 주소 목록
    """
    df = pd.read_csv(file_path)
    df['Found_Addresses'] = df['판례내용'].apply(find_korean_addresses)

    return df[df['Found_Addresses'].map(lambda d: len(d) > 0)][['판례일련번호', 'Found_Addresses']]

# CSV 파일 경로
csv_file_path = '/content/비실명화_형사.csv'  # 여기에 실제 파일 경로를 입력하세요.

# CSV 파일에서 주소 추출 및 판례일련번호와 연결
address_data = extract_addresses_from_csv(csv_file_path)

# 결과 출력
for index, row in address_data.iterrows():
    print(f"판례일련번호: {row['판례일련번호']}, 찾은 주소: {row['Found_Addresses']}")

판례일련번호: 64477, 찾은 주소: ['의정부시 신곡동 679']
판례일련번호: 64832, 찾은 주소: ['남양주시 수동면 수산리 167', '남양주시 수동면 수산리 167']
판례일련번호: 65129, 찾은 주소: ['양주시 율정동 281', '양주시 율정동 2']
판례일련번호: 67163, 찾은 주소: ['진주시 일반성면 창촌리 53-3', '진주시 일반성면 남산리 1225', '진주시 일반성면 창촌리 666-5', '진주시 일반성면 창촌리 22', '진주시 일반성면 창촌리 698-1']
판례일련번호: 67223, 찾은 주소: ['진주시 칠암동 90']
판례일련번호: 67482, 찾은 주소: ['수원시 권선구 고색동 886', '수원시 권선구 고색동 886-11']
판례일련번호: 67497, 찾은 주소: ['수원시 권선구 평동 151']
판례일련번호: 67641, 찾은 주소: ['알코올농도를 계산하면 0']
판례일련번호: 67723, 찾은 주소: ['하남시 덕풍동 378-7']
판례일련번호: 67753, 찾은 주소: ['원주시 평원동 349-1']
판례일련번호: 67758, 찾은 주소: ['남원시 주천면 용담리 344', '남원시 주천면 용담리 172', '남원시 광치동 548-3']
판례일련번호: 68242, 찾은 주소: ['혈중알코올농도를 계산하면 0']
판례일련번호: 68289, 찾은 주소: ['시흥시사무전결처리규칙개정규칙에 의하면 7']
판례일련번호: 68795, 찾은 주소: ['수입시와 달리 2']
판례일련번호: 69087, 찾은 주소: ['성남시 분당구 정자동 6']
판례일련번호: 69529, 찾은 주소: ['경주시 강동면 유금리 1020']
판례일련번호: 69565, 찾은 주소: ['천안시 쌍용동 567']
판례일련번호: 69634, 찾은 주소: ['전주시 덕진구 인후동2']
판례일련번호: 69754, 찾은 주소: ['광주시 퇴촌면 관음리 549-10']
판례일련번호: 69787, 찾은 주소: ['마산시 회성동 233-7']
판례일련번호: