# 주요 로직

In [43]:
import re

replacement_mapping = {
    'À': 'A', 'Á': 'A', 'Â': 'A', 'Ã': 'A', 'Ä': 'A', 'Å': 'A', 'Ā': 'A', 
    'Æ': 'AE', 
    'Ç': 'C', 'Č': 'C', 
    'Ð': 'D', 
    'Đ': 'Dj', 
    'È': 'E', 'É': 'E', 'Ê': 'E', 'Ë': 'E', 'Ē': 'E', 
    'Ğ': 'G', 
    'I': 'I', 'Ì': 'I', 'Í': 'I', 'Î': 'I', 'Ï': 'I', 'Ī': 'I', 'İ': 'I', 
    'Ł': 'L', 
    'Ñ': 'N', 'Ń': 'N', 
    'Ò': 'O', 'Ó': 'O', 'Ô': 'O', 'Õ': 'O', 'Ö': 'O', 'Ø': 'O', 'Ō': 'O', 
    'Ś': 'S', 'Ş': 'S', 'Š': 'S', 
    'Þ': 'TH', 
    'Ù': 'U', 'Ú': 'U', 'Û': 'U', 'Ü': 'U', 'Ū': 'U', 
    'Ý': 'Y', 
    'Ź': 'Z', 'Ż': 'Z', 'Ž': 'Z', 
    'à': 'a', 'á': 'a', 'â': 'a', 'ã': 'a', 'ä': 'a', 'å': 'a', 'ā': 'a', 
    'æ': 'ae', 
    'ç': 'c', 'č': 'c', 
    'ð': 'd', 
    'đ': 'dj', 
    'è': 'e', 'é': 'e', 'ê': 'e', 'ë': 'e', 'ē': 'e', 
    'ğ': 'g', 
    'i': 'i', 'ì': 'i', 'í': 'i', 'î': 'i', 'ï': 'i', 'ī': 'i', 'ı': 'i', 
    'ł': 'l', 
    'ñ': 'n', 'ń': 'n', 
    'ò': 'o', 'ó': 'o', 'ô': 'o', 'õ': 'o', 'ö': 'o', 'ø': 'o', 'ō': 'o', 
    'ś': 's', 'ş': 's', 'š': 's', 
    'ß': 'ss', 
    'þ': 'th', 
    'ù': 'u', 'ú': 'u', 'û': 'u', 'ü': 'u', 'ū': 'u', 
    'ý': 'y', 'ÿ': 'y', 
    'ź': 'z', 'ż': 'z', 'ž': 'z'}

def replace_special_characters(text):
    """
    주어진 텍스트에서 특수 문자를 영문으로 대체한다.
    """
    for original_char, replacement_char in replacement_mapping.items():
        text = text.replace(original_char, replacement_char)
    return text

def cleansing_name(name: str) -> str:
    name = replace_special_characters(name) # 영문으로 치환가능한 문자 치환
    name = name.lower()     # 소문자
    name = name.replace('&', 'and') # & 처리

    suffixes = [
        "ltd", "co", "co ltd", "coltd", "company limited", "companylimited",
        "private limited", "privatelimited", "limited", "llc", "sac", "sa", "inc",
        "co-op", "inc", "pty ltd", "ptyltd", "gmbh", "eirl", "sarl", "ltd sti", "ltdsti"
    ]

    # 정규식 패턴 생성: 접미사들을 '|'로 연결하여 선택적으로 매치하도록 함
    # 각 접미사는 단어 경계(\b)로 둘러싸여 있으며, 접미사 앞에 공백이 있을 수 있음
    pattern = r'\b(?:' + '|'.join(re.escape(suffix) for suffix in suffixes) + r')\b'
    name = re.sub(pattern, '', name, flags=re.IGNORECASE)

    # 숫자 문자 외 모두 제거(특수문자, 공백)
    name = re.sub(r'[^\w]', '', name, flags=re.UNICODE)

    return name

target_name = 'Greenlabs 한글 きゆん。 Esto es español, Bu Türkçe.1'
search_name = 'Green Labs Llc'

print(cleansing_name(target_name), "/", cleansing_name(search_name))

greenlabs한글きゆんestoesespanolbuturkce1 / greenlabs


# 소소한 단위모듈

In [29]:
import re

# 제거할 접미사 목록 정의
suffixes = [
    "ltd", "co", "co ltd", "coltd", "company limited", "companylimited",
    "private limited", "privatelimited", "limited", "llc", "sac", "sa", "inc",
    "co-op", "inc", "pty ltd", "ptyltd", "gmbh", "eirl", "sarl", "ltd sti", "ltdsti"
]

# 정규식 패턴 생성: 접미사들을 '|'로 연결하여 선택적으로 매치하도록 함
# 각 접미사는 단어 경계(\b)로 둘러싸여 있으며, 접미사 앞에 공백이 있을 수 있음
pattern = r'\b(?:' + '|'.join(re.escape(suffix) for suffix in suffixes) + r')\b'


def remove_company_suffixes(name):
    # 대소문자 구분 없이 접미사 제거
    cleaned_name = re.sub(pattern, '', name, flags=re.IGNORECASE)
    # 공백 제거
    cleaned_name = re.sub(r'\s+', ' ', cleaned_name).strip()
    
    return cleaned_name

# 예제 회사명
company_names = [
    "OpenAI LLC111ㅁㅁ",
    "Google Inc",
    "Samsung Electronics Co Ltd",
    "Berkshire Hathaway Inc.",
    "Toyota Motor Corporation PTY LTD"
]

# 회사명에서 접미사 제거 실행 및 출력
for name in company_names:
    print(remove_company_suffixes(name))


OpenAI LLC111ㅁㅁ
Google
Samsung Electronics
Berkshire Hathaway .
Toyota Motor Corporation


In [38]:
# 문자 대체 매핑 정의
replacement_mapping = {
    'Ç': 'C', 'ç': 'c',
    'Ğ': 'G', 'ğ': 'g',
    'I': 'I', 'ı': 'i',
    'İ': 'I', 'i': 'i',
    'Ö': 'O', 'ö': 'o',
    'Ş': 'S', 'ş': 's',
    'Ü': 'U', 'ü': 'u',
    'á': 'a', 'é': 'e', 'ñ': 'n', 'ó': 'o', 'ú': 'u', 'ü': 'u',
    'â': 'a', 'è': 'e', 'ê': 'e', 'ë': 'e', 'î': 'i', 'ï': 'i',
    'ô': 'o', 'ù': 'u', 'û': 'u', 'ÿ': 'y', 'ç': 'c',
    'ã': 'a', 'õ': 'o',
    # 추가적인 포르투갈어 문자
    'à': 'a', 'á': 'a', 'â': 'a', 'ä': 'a',
    'é': 'e', 'ê': 'e', 'ë': 'e',
    'í': 'i', 'î': 'i', 'ï': 'i',
    'ó': 'o', 'ô': 'o', 'ö': 'o',
    'ú': 'u', 'û': 'u', 'ü': 'u',
    'ç': 'c',
    'ñ': 'n',
    # 기존 매핑에 추가
    'À': 'A', 'Á': 'A', 'Â': 'A', 'Ã': 'A', 'Ä': 'A', 'Å': 'A', 'Æ': 'AE', 'Ç': 'C',
    'È': 'E', 'É': 'E', 'Ê': 'E', 'Ë': 'E', 'Ì': 'I', 'Í': 'I', 'Î': 'I', 'Ï': 'I',
    'Ð': 'D', 'Ñ': 'N', 'Ò': 'O', 'Ó': 'O', 'Ô': 'O', 'Õ': 'O', 'Ö': 'O', 'Ø': 'O',
    'Ù': 'U', 'Ú': 'U', 'Û': 'U', 'Ü': 'U', 'Ý': 'Y', 'Þ': 'TH', 'ß': 'ss',
    'à': 'a', 'á': 'a', 'â': 'a', 'ã': 'a', 'ä': 'a', 'å': 'a', 'æ': 'ae', 'ç': 'c',
    'è': 'e', 'é': 'e', 'ê': 'e', 'ë': 'e', 'ì': 'i', 'í': 'i', 'î': 'i', 'ï': 'i',
    'ð': 'd', 'ñ': 'n', 'ò': 'o', 'ó': 'o', 'ô': 'o', 'õ': 'o', 'ö': 'o', 'ø': 'o',
    'ù': 'u', 'ú': 'u', 'û': 'u', 'ü': 'u', 'ý': 'y', 'þ': 'th', 'ÿ': 'y',
    # 추가 언어 문자
    'Ā': 'A', 'ā': 'a', 'Ē': 'E', 'ē': 'e', 'Ī': 'I', 'ī': 'i', 'Ō': 'O', 'ō': 'o',
    'Ū': 'U', 'ū': 'u', 'Č': 'C', 'č': 'c', 'Đ': 'Dj', 'đ': 'dj', 'Š': 'S', 'š': 's',
    'Ž': 'Z', 'ž': 'z', 'Ł': 'L', 'ł': 'l', 'Ń': 'N', 'ń': 'n', 'Ś': 'S', 'ś': 's',
    'Ź': 'Z', 'ź': 'z', 'Ż': 'Z', 'ż': 'z',
    # 다른 문자들을 추가할 수 있습니다.
}

def replace_special_characters(text):
    """
    주어진 텍스트에서 특수 문자를 영문으로 대체한다.
    """
    for original_char, replacement_char in replacement_mapping.items():
        text = text.replace(original_char, replacement_char)
    return text

# 예제 문자열
examples = [
    'Çilek', 'Ğöbekli Tepe', 'Istanbul', 'İzmir', 'Ölüdeniz', 'Şişli', 'Güneş',
    'niño', 'acción', 'université', 'français', 'año', 'maçã', 'coração', 'fête', 'noël'
]

# 변환 실행
normalized_examples = [replace_special_characters(example) for example in examples]

# 결과 출력
for original, normalized in zip(examples, normalized_examples):
    print(f'Original: {original}, Normalized: {normalized}')


Original: Çilek, Normalized: Cilek
Original: Ğöbekli Tepe, Normalized: Gobekli Tepe
Original: Istanbul, Normalized: Istanbul
Original: İzmir, Normalized: Izmir
Original: Ölüdeniz, Normalized: Oludeniz
Original: Şişli, Normalized: Sisli
Original: Güneş, Normalized: Gunes
Original: niño, Normalized: nino
Original: acción, Normalized: accion
Original: université, Normalized: universite
Original: français, Normalized: francais
Original: año, Normalized: ano
Original: maçã, Normalized: macã
Original: coração, Normalized: coracão
Original: fête, Normalized: fete
Original: noël, Normalized: noel


In [41]:
replacement_mapping = {
    'Ç': 'C', 'ç': 'c',
    'Ğ': 'G', 'ğ': 'g',
    'I': 'I', 'ı': 'i',
    'İ': 'I', 'i': 'i',
    'Ö': 'O', 'ö': 'o',
    'Ş': 'S', 'ş': 's',
    'Ü': 'U', 'ü': 'u',
    'á': 'a', 'é': 'e', 'ñ': 'n', 'ó': 'o', 'ú': 'u', 'ü': 'u',
    'â': 'a', 'è': 'e', 'ê': 'e', 'ë': 'e', 'î': 'i', 'ï': 'i',
    'ô': 'o', 'ù': 'u', 'û': 'u', 'ÿ': 'y', 'ç': 'c',
    'ã': 'a', 'õ': 'o',
    'à': 'a', 'á': 'a', 'â': 'a', 'ä': 'a',
    'é': 'e', 'ê': 'e', 'ë': 'e',
    'í': 'i', 'î': 'i', 'ï': 'i',
    'ó': 'o', 'ô': 'o', 'ö': 'o',
    'ú': 'u', 'û': 'u', 'ü': 'u',
    'ç': 'c',
    'ñ': 'n',
    'À': 'A', 'Á': 'A', 'Â': 'A', 'Ã': 'A', 'Ä': 'A', 'Å': 'A', 'Æ': 'AE',
    'È': 'E', 'É': 'E', 'Ê': 'E', 'Ë': 'E', 'Ì': 'I', 'Í': 'I', 'Î': 'I', 'Ï': 'I',
    'Ð': 'D', 'Ñ': 'N', 'Ò': 'O', 'Ó': 'O', 'Ô': 'O', 'Õ': 'O', 'Ö': 'O', 'Ø': 'O',
    'Ù': 'U', 'Ú': 'U', 'Û': 'U', 'Ü': 'U', 'Ý': 'Y', 'Þ': 'TH', 'ß': 'ss',
    'à': 'a', 'á': 'a', 'â': 'a', 'ã': 'a', 'ä': 'a', 'å': 'a', 'æ': 'ae',
    'è': 'e', 'é': 'e', 'ê': 'e', 'ë': 'e', 'ì': 'i', 'í': 'i', 'î': 'i', 'ï': 'i',
    'ð': 'd', 'ñ': 'n', 'ò': 'o', 'ó': 'o', 'ô': 'o', 'õ': 'o', 'ö': 'o', 'ø': 'o',
    'ù': 'u', 'ú': 'u', 'û': 'u', 'ü': 'u', 'ý': 'y', 'þ': 'th', 'ÿ': 'y',
    'Ā': 'A', 'ā': 'a', 'Ē': 'E', 'ē': 'e', 'Ī': 'I', 'ī': 'i', 'Ō': 'O', 'ō': 'o',
    'Ū': 'U', 'ū': 'u', 'Č': 'C', 'č': 'c', 'Đ': 'Dj', 'đ': 'dj', 'Š': 'S', 'š': 's',
    'Ž': 'Z', 'ž': 'z', 'Ł': 'L', 'ł': 'l', 'Ń': 'N', 'ń': 'n', 'Ś': 'S', 'ś': 's',
    'Ź': 'Z', 'ź': 'z', 'Ż': 'Z', 'ż': 'z',
}

# 중복 항목 제거 및 정리
# 이 과정은 주어진 매핑에서 중복된 항목을 식별하고 제거하는 것을 목표로 합니다.

# 중복된 키-값 쌍을 식별하여 제거
cleaned_mapping = {}
for key, value in replacement_mapping.items():
    if key not in cleaned_mapping or cleaned_mapping[key] != value:
        cleaned_mapping[key] = value


# 값(value) 기준으로 1차 정렬, 그 후 키(key) 기준으로 2차 정렬
sorted_items = sorted(cleaned_mapping.items(), key=lambda item: (item[1], item[0]))

# 정렬된 아이템을 바탕으로 새 딕셔너리 생성
sorted_dict = {k: v for k, v in sorted_items}

print(sorted_dict)



{'À': 'A', 'Á': 'A', 'Â': 'A', 'Ã': 'A', 'Ä': 'A', 'Å': 'A', 'Ā': 'A', 'Æ': 'AE', 'Ç': 'C', 'Č': 'C', 'Ð': 'D', 'Đ': 'Dj', 'È': 'E', 'É': 'E', 'Ê': 'E', 'Ë': 'E', 'Ē': 'E', 'Ğ': 'G', 'I': 'I', 'Ì': 'I', 'Í': 'I', 'Î': 'I', 'Ï': 'I', 'Ī': 'I', 'İ': 'I', 'Ł': 'L', 'Ñ': 'N', 'Ń': 'N', 'Ò': 'O', 'Ó': 'O', 'Ô': 'O', 'Õ': 'O', 'Ö': 'O', 'Ø': 'O', 'Ō': 'O', 'Ś': 'S', 'Ş': 'S', 'Š': 'S', 'Þ': 'TH', 'Ù': 'U', 'Ú': 'U', 'Û': 'U', 'Ü': 'U', 'Ū': 'U', 'Ý': 'Y', 'Ź': 'Z', 'Ż': 'Z', 'Ž': 'Z', 'à': 'a', 'á': 'a', 'â': 'a', 'ã': 'a', 'ä': 'a', 'å': 'a', 'ā': 'a', 'æ': 'ae', 'ç': 'c', 'č': 'c', 'ð': 'd', 'đ': 'dj', 'è': 'e', 'é': 'e', 'ê': 'e', 'ë': 'e', 'ē': 'e', 'ğ': 'g', 'i': 'i', 'ì': 'i', 'í': 'i', 'î': 'i', 'ï': 'i', 'ī': 'i', 'ı': 'i', 'ł': 'l', 'ñ': 'n', 'ń': 'n', 'ò': 'o', 'ó': 'o', 'ô': 'o', 'õ': 'o', 'ö': 'o', 'ø': 'o', 'ō': 'o', 'ś': 's', 'ş': 's', 'š': 's', 'ß': 'ss', 'þ': 'th', 'ù': 'u', 'ú': 'u', 'û': 'u', 'ü': 'u', 'ū': 'u', 'ý': 'y', 'ÿ': 'y', 'ź': 'z', 'ż': 'z', 'ž': 'z'}
