# 식별된 모든 텍스트 목록 가져오기

이 샘플은 탐지를 위해 Presidio Analyzer와 맞춤형 Presidio Anonymizer 연산자를 사용하여 식별된 모든 PII 엔터티 목록을 가져오는 방법을 보여줍니다.

In [1]:
from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine
from presidio_anonymizer.entities import OperatorConfig

In [2]:
analyzer = AnalyzerEngine()
anonymizer = AnonymizerEngine()

In [3]:
text_to_analyze = "Hi my name is Charles Darwin and my email is cdarwin@hmsbeagle.org"
analyzer_results = analyzer.analyze(text_to_analyze, language="en")


텍스트 값을 얻기 위한 순진한 접근 방식:

In [4]:
[(text_to_analyze[res.start:res.end], res.start, res.end) for res in analyzer_results]

[('cdarwin@hmsbeagle.org', 45, 66),
 ('Charles Darwin', 14, 28),
 ('hmsbeagle.org', 53, 66)]

또 다른 옵션은 식별 기능( lambda x: x)을 실행하는 사용자 정의 연산자*를 설정하는 것입니다. 이 연산자는 실제로 익명화하지 않지만 식별된 값을 자체로 바꿉니다. Anonymizer가 겹침을 자동으로 처리하므로 유용합니다.

* Operator일반적으로 Anonymizer또는 Deanonymizerpresidio-anonymizer 라이브러리에 있습니다/

In [5]:
anonymized_results = anonymizer.anonymize(
        text=text_to_analyze,
        analyzer_results=analyzer_results,            
        operators={"DEFAULT": OperatorConfig("custom", {"lambda": lambda x: x})}        
    )

여기에 정의된 연산자는 이며 DEFAULT, 이는 모든 엔터티에 사용됨을 의미합니다.

OperatorConfig사용자 지정 함수이고 labmda는 식별 함수입니다.

감지된 각 개체에 대한 출력 텍스트, 시작 및 종료 위치

In [6]:
[(item.text, item.start, item.end) for item in anonymized_results.items]

[('cdarwin@hmsbeagle.org', 45, 66), ('Charles Darwin', 14, 28)]