In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import random

np.random.seed(42) # 결과 재현성을 위한 시드 설정

num_samples = 1000

# 개인 정보 관련 특성
ages = np.random.randint(18, 75, num_samples)
genders = np.random.choice(['M', 'F'], num_samples)
incomes = np.random.randint(20000, 200000, num_samples)

# 보험 정책 관련 특성
policy_durations = np.random.randint(1, 360, num_samples) # 개월 수
premiums = np.random.randint(50, 500, num_samples)
coverage_amounts = np.random.choice([50000, 100000, 250000, 500000, 1000000], num_samples)
policy_types = np.random.choice(['Auto', 'Home', 'Health', 'Life'], num_samples)

# 청구 관련 특성
claim_amounts = np.random.randint(100, 600000, num_samples)
num_claims_past_year = np.random.randint(0, 3, num_samples)
num_claims_past_5years = np.random.randint(0, 10, num_samples)
enrollment_dates = [datetime.now() - timedelta(days=d) for d in np.random.randint(30, 365 * 5, num_samples)]
claim_dates = [enrollment_dates[i] + timedelta(days=d) for i, d in enumerate(np.random.randint(1, 365 * 3, num_samples))]
days_to_claim = [(claim_dates[i] - enrollment_dates[i]).days for i in range(num_samples)]
weekend_claim = [1 if claim_dates[i].weekday() >= 5 else 0 for i in range(num_samples)] # 5: 토, 6: 일

# 위험 지표
policy_changes_before_claim = np.random.randint(0, 4, num_samples)
claim_in_policy_start = [1 if d < 30 else 0 for d in days_to_claim]
claim_amount_near_limit = [1 if claim_amounts[i] > 0.8 * coverage_amounts[i] else 0 for i in range(num_samples)]
unusual_documentation = np.random.choice([0, 1], num_samples, p=[0.95, 0.05])
multiple_beneficiaries = np.random.choice([0, 1], num_samples, p=[0.9, 0.1])
late_night_claim_filing = np.random.choice([0, 1], num_samples, p=[0.98, 0.02])

# 사기 여부 (타겟 변수) - 일부러 사기 케이스 만들기
fraud = np.zeros(num_samples)
for i in range(num_samples):
    if (num_claims_past_year > 1 and claim_amount[i] > np.mean(claim_amounts)) or \
       (claim_in_policy_start[i] == 1 and claim_amount_near_limit[i] == 1) or \
       (policy_changes_before_claim[i] > 2 and unusual_documentation[i] == 1) or \
       (multiple_beneficiaries[i] == 1 and claim_amount[i] > 0.9 * coverage_amounts[i]) or \
       (late_night_claim_filing[i] == 1 and np.random.rand() < 0.3): # 일부 케이스만
        fraud[i] = 1

# DataFrame 생성
data = pd.DataFrame({
    'age': ages,
    'gender': genders,
    'income': incomes,
    'policy_duration': policy_durations,
    'premium': premiums,
    'coverage_amount': coverage_amounts,
    'policy_type': policy_types,
    'claim_amount': claim_amounts,
    'num_claims_past_year': num_claims_past_year,
    'num_claims_past_5years': num_claims_past_5years,
    'days_to_claim': days_to_claim,
    'weekend_claim': weekend_claim,
    'policy_changes_before_claim': policy_changes_before_claim,
    'claim_in_policy_start': claim_in_policy_start,
    'claim_amount_near_limit': claim_amount_near_limit,
    'unusual_documentation': unusual_documentation,
    'multiple_beneficiaries': multiple_beneficiaries,
    'late_night_claim_filing': late_night_claim_filing,
    'fraud': fraud
})

print(data.head())
print("\n사기 비율:", data['fraud'].mean())

TypeError: unsupported type for timedelta days component: numpy.int32

In [2]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import random

np.random.seed(42) # 결과 재현성을 위한 시드 설정

num_samples = 1000

In [6]:
ages = np.random.randint(18, 75, num_samples)
genders = np.random.choice(['M', 'F'], num_samples)
incomes = np.random.randint(20000, 200000, num_samples)

# 보험 정책 관련 특성
policy_durations = np.random.randint(1, 360, num_samples) # 개월 수
premiums = np.random.randint(50, 500, num_samples)
coverage_amounts = np.random.choice([50000, 100000, 250000, 500000, 1000000], num_samples)
policy_types = np.random.choice(['Auto', 'Home', 'Health', 'Life'], num_samples)

# 청구 관련 특성
claim_amounts = np.random.randint(100, 600000, num_samples)
num_claims_past_year = np.random.randint(0, 3, num_samples)
num_claims_past_5years = np.random.randint(0, 10, num_samples)
enrollment_dates = [datetime.now() - timedelta(days=int(d)) for d in np.random.randint(30, 365 * 5, num_samples)]
claim_dates = [enrollment_dates[i] + timedelta(days=int(d)) for i, d in enumerate(np.random.randint(1, 365 * 3, num_samples))]
days_to_claim = [(claim_dates[i] - enrollment_dates[i]).days for i in range(num_samples)]
weekend_claim = [1 if claim_dates[i].weekday() >= 5 else 0 for i in range(num_samples)] # 5: 토, 6: 일

# 위험 지표
policy_changes_before_claim = np.random.randint(0, 4, num_samples)
claim_in_policy_start = [1 if d < 30 else 0 for d in days_to_claim]
claim_amount_near_limit = [1 if claim_amounts[i] > 0.8 * coverage_amounts[i] else 0 for i in range(num_samples)]
unusual_documentation = np.random.choice([0, 1], num_samples, p=[0.95, 0.05])
multiple_beneficiaries = np.random.choice([0, 1], num_samples, p=[0.9, 0.1])
late_night_claim_filing = np.random.choice([0, 1], num_samples, p=[0.98, 0.02])

# 사기 여부 (타겟 변수) - 일부러 사기 케이스 만들기
fraud = np.zeros(num_samples)
for i in range(num_samples):
    if (num_claims_past_year[i] > 1 and claim_amounts[i] > np.mean(claim_amounts)) or \
       (claim_in_policy_start[i] == 1 and claim_amount_near_limit[i] == 1) or \
       (policy_changes_before_claim[i] > 2 and unusual_documentation[i] == 1) or \
       (multiple_beneficiaries[i] == 1 and claim_amounts[i] > 0.9 * coverage_amounts[i]) or \
       (late_night_claim_filing[i] == 1 and np.random.rand() < 0.3):
        fraud[i] = 1

# DataFrame 생성
data = pd.DataFrame({
    'age': ages,
    'gender': genders,
    'income': incomes,
    'policy_duration': policy_durations,
    'premium': premiums,
    'coverage_amount': coverage_amounts,
    'policy_type': policy_types,
    'claim_amount': claim_amounts,
    'num_claims_past_year': num_claims_past_year,
    'num_claims_past_5years': num_claims_past_5years,
    'days_to_claim': days_to_claim,
    'weekend_claim': weekend_claim,
    'policy_changes_before_claim': policy_changes_before_claim,
    'claim_in_policy_start': claim_in_policy_start,
    'claim_amount_near_limit': claim_amount_near_limit,
    'unusual_documentation': unusual_documentation,
    'multiple_beneficiaries': multiple_beneficiaries,
    'late_night_claim_filing': late_night_claim_filing,
    'fraud': fraud
})

In [7]:
print(data.head())
print("\n사기 비율:", data['fraud'].mean())

   age gender  income  policy_duration  premium  coverage_amount policy_type  \
0   58      F  161016               14      353          1000000        Auto   
1   58      F  174831               20      448           250000        Life   
2   32      M  169193              244      184           250000        Home   
3   18      F  196201              173      377           250000        Auto   
4   67      M  134147              122      248           100000        Life   

   claim_amount  num_claims_past_year  num_claims_past_5years  days_to_claim  \
0         31465                     0                       1            707   
1        343597                     1                       3            599   
2          1903                     2                       5            236   
3        139444                     1                       3            100   
4        474520                     1                       5            739   

   weekend_claim  policy_changes_befor

In [20]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import random

# 결과 재현성을 위한 시드 설정 (같은 코드를 실행하면 항상 같은 결과가 나옵니다)
np.random.seed(42)

# 생성할 가상 데이터의 샘플 수
num_samples = 1000

# -------------------- 개인 정보 관련 특성 --------------------
ages = np.random.randint(18, 75, num_samples)  # 18세부터 74세까지의 무작위 나이
genders = np.random.choice(['M', 'F'], num_samples)  # 'M' 또는 'F' 중 무작위 선택
incomes = np.random.randint(20000, 200000, num_samples)  # 20000부터 199999까지의 무작위 연소득

# -------------------- 보험 정책 관련 특성 --------------------
policy_durations = np.random.randint(1, 360, num_samples)  # 1개월부터 359개월까지의 무작위 보험 유지 기간
premiums = np.random.randint(50, 500, num_samples)  # 50부터 499까지의 무작위 보험료
coverage_amounts = np.random.choice([50000, 100000, 250000, 500000, 1000000], num_samples)  # 주어진 보장 금액 중 무작위 선택
policy_types = np.random.choice(['Auto', 'Home', 'Health', 'Life'], num_samples)  # 주어진 보험 종류 중 무작위 선택

# -------------------- 청구 관련 특성 --------------------
claim_amounts = np.random.randint(100, 600000, num_samples)  # 100부터 599999까지의 무작위 청구 금액
num_claims_past_year = np.random.randint(0, 3, num_samples)  # 지난 1년간 0회부터 2회까지의 무작위 청구 횟수
num_claims_past_5years = np.random.randint(0, 10, num_samples)  # 지난 5년간 0회부터 9회까지의 무작위 청구 횟수
enrollment_dates = [datetime.now() - timedelta(days=int(d)) for d in np.random.randint(30, 365 * 5, num_samples)]  # 무작위 가입 날짜 생성 (현재로부터 30일 ~ 5년 전)
claim_dates = [enrollment_dates[i] + timedelta(days=int(d)) for i, d in enumerate(np.random.randint(1, 365 * 3, num_samples))]  # 가입일로부터 무작위 기간 후의 청구 날짜 생성
days_to_claim = [(claim_dates[i] - enrollment_dates[i]).days for i in range(num_samples)]  # 보험 가입 후 청구까지 걸린 일수 계산
weekend_claim = [1 if claim_dates[i].weekday() >= 5 else 0 for i in range(num_samples)]  # 청구일이 주말(토, 일)인지 여부 (1: 주말, 0: 평일)

# -------------------- 위험 지표 --------------------
policy_changes_before_claim = np.random.randint(0, 4, num_samples)  # 청구 전 정책 변경 횟수 (0회부터 3회)
claim_in_policy_start = [1 if d < 30 else 0 for d in days_to_claim]  # 보험 가입 후 30일 이내 청구 여부 (1: 초기 청구, 0: 이후 청구)
claim_amount_near_limit = [1 if claim_amounts[i] > 0.8 * coverage_amounts[i] else 0 for i in range(num_samples)]  # 청구액이 보장 한도의 80% 이상인지 여부
unusual_documentation = np.random.choice([0, 1], num_samples, p=[0.95, 0.05])  # 비정상적인 서류 제출 여부 (1: 비정상, 0: 정상) - 비정상 비율 낮게 설정
multiple_beneficiaries = np.random.choice([0, 1], num_samples, p=[0.9, 0.1])  # 다수의 수익자 지정 여부 (1: 다수, 0: 단일)
late_night_claim_filing = np.random.choice([0, 1], num_samples, p=[0.98, 0.02])  # 심야 시간대 청구 제출 여부 (1: 심야, 0: 아님) - 심야 비율 낮게 설정

# -------------------- 사기 여부 (타겟 변수) - 일부러 사기 케이스 만들기 --------------------
fraud = np.zeros(num_samples)
for i in range(num_samples):
    # 여러 위험 요인이 복합적으로 작용하는 경우 사기일 가능성을 높임
    if (num_claims_past_year[i] > 1 and claim_amounts[i] > np.mean(claim_amounts)) or \
       (claim_in_policy_start[i] == 1 and claim_amount_near_limit[i] == 1) or \
       (policy_changes_before_claim[i] > 2 and unusual_documentation[i] == 1) or \
       (multiple_beneficiaries[i] == 1 and claim_amounts[i] > 0.9 * coverage_amounts[i]) or \
       (late_night_claim_filing[i] == 1 and np.random.rand() < 0.3):  # 심야 청구의 일부만 사기로 처리
        fraud[i] = 1

# -------------------- Pandas DataFrame 생성 --------------------
data = pd.DataFrame({
    'age': ages,
    'gender': genders,
    'income': incomes,
    'policy_duration': policy_durations,
    'premium': premiums,
    'coverage_amount': coverage_amounts,
    'policy_type': policy_types,
    'claim_amount': claim_amounts,
    'num_claims_past_year': num_claims_past_year,
    'num_claims_past_5years': num_claims_past_5years,
    'days_to_claim': days_to_claim,
    'weekend_claim': weekend_claim,
    'policy_changes_before_claim': policy_changes_before_claim,
    'claim_in_policy_start': claim_in_policy_start,
    'claim_amount_near_limit': claim_amount_near_limit,
    'unusual_documentation': unusual_documentation,
    'multiple_beneficiaries': multiple_beneficiaries,
    'late_night_claim_filing': late_night_claim_filing,
    'fraud': fraud
})

# 생성된 데이터의 처음 5행 출력
print("생성된 가상 데이터의 처음 5행:\n", data.head())

# 사기 비율 출력
print("\n전체 데이터에서 사기 비율:", data['fraud'].mean())

# 생성된 DataFrame을 CSV 파일로 저장 (필요한 경우 주석 해제)
# data.to_csv('insurance_fraud_data.csv', index=False)

print("\n가상 데이터 생성이 완료되었습니다.")

생성된 가상 데이터의 처음 5행:
    age gender  income  policy_duration  premium  coverage_amount policy_type  \
0   56      M  188645              269      283           100000        Auto   
1   69      F  151878              181      429           250000        Life   
2   46      M  144343              160      193           500000      Health   
3   32      F  148301              351      407           250000        Home   
4   60      M  146295              288      237          1000000        Home   

   claim_amount  num_claims_past_year  num_claims_past_5years  days_to_claim  \
0        255819                     0                       8            375   
1        553144                     1                       2             63   
2        333820                     0                       2            504   
3        272548                     0                       4            668   
4        554729                     1                       1            449   

   weekend_claim  

In [21]:
data.to_csv("보험데이터.csv", index=False)

In [22]:
data.to_csv("insurance_data.csv", index=False, encoding='utf-8-sig')

In [23]:
import pandas as pd

# 모든 행과 열이 출력되도록 설정
pd.set_option('display.max_rows', None)  # 모든 행 출력
pd.set_option('display.max_columns', None)  # 모든 열 출력
pd.set_option('display.width', None)  # 줄 바꿈 없이 출력
pd.set_option('display.max_colwidth', None)  # 열 내용 전체 표시

# DataFrame 출력
print(data)

     age gender  income  policy_duration  premium  coverage_amount  \
0     56      M  188645              269      283           100000   
1     69      F  151878              181      429           250000   
2     46      M  144343              160      193           500000   
3     32      F  148301              351      407           250000   
4     60      M  146295              288      237          1000000   
5     25      M  180829              288      371           250000   
6     38      F   54636              226      499           100000   
7     56      M  199352               11       62            50000   
8     36      M   44262               10      233           250000   
9     40      M  100435              271      160           250000   
10    28      M  148583              273      464           100000   
11    28      M  189269              183      339            50000   
12    41      M   61844              153      344            50000   
13    70      F   84

In [24]:
data.to_csv("보험데이터.csv", index=False)

In [25]:
# 데이터 로드
detector = InsuranceFraudDetector(data_path='your_data.csv')
detector.load_data()

# 또는 샘플 데이터 생성
detector = InsuranceFraudDetector()
detector.generate_sample_data(n_samples=10000)

# 이후 분석 진행
detector.run_complete_analysis()

FileNotFoundError: [Errno 2] No such file or directory: 'your_data.csv'

In [17]:
import pandas as pd
import numpy as np

class InsuranceFraudDetector:
    def __init__(self, data_path=None):
        self.data_path = data_path
        self.data = None

    def load_data(self):
        if self.data_path:
            self.data = pd.read_csv(self.data_path)
            print(f"✅ 데이터 로드 완료: {self.data.shape[0]}건")
        else:
            raise ValueError("데이터 경로가 지정되지 않았습니다.")

    def generate_sample_data(self, n_samples=1000):
        # 여기에 샘플 데이터 생성 코드 삽입 (이전 생성 코드)
        # 예시:
        self.data = self._create_sample(n_samples)
        print(f"✅ 샘플 데이터 {n_samples}건 생성 완료")

    def _create_sample(self, num_samples):
        # 앞서 작성한 NumPy 기반 샘플 데이터 생성 로직 여기에 삽입
        # ...
        return pd.DataFrame({
            # 실제 필드들로 구성
        })

    def run_complete_analysis(self):
        if self.data is None:
            raise ValueError("데이터가 없습니다. 먼저 load_data() 또는 generate_sample_data()를 실행하세요.")
        
        # 예시 분석: 통계/시각화/모델링 등
        print("📊 기본 통계:")
        print(self.data.describe())
        
        print("\n📈 사기 여부 비율:")
        print(self.data['fraud'].value_counts(normalize=True))

In [26]:
detector = InsuranceFraudDetector(data_path='your_data.csv')
detector.load_data()

# 2. 또는 샘플 데이터 생성
# detector = InsuranceFraudDetector()
# detector.generate_sample_data(n_samples=10000)

# 3. 전체 분석 실행
detector.run_complete_analysis()

FileNotFoundError: [Errno 2] No such file or directory: 'your_data.csv'

In [27]:
detector = InsuranceFraudDetector(data_path='insurance_fraud_data.csv')

In [28]:
detector = InsuranceFraudDetector(data_path='./data/insurance_fraud_data.csv')

In [31]:
detector = InsuranceFraudDetector()
detector.generate_sample_data(n_samples=1000)

✅ 샘플 데이터 1000건 생성 완료


In [37]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import random

class InsuranceFraudDetector:
    def __init__(self, data_path=None):
        self.data_path = data_path
        self.data = None

    def load_data(self):
        if self.data_path:
            try:
                self.data = pd.read_csv(self.data_path)
                print(f"✅ 데이터 로드 완료: {self.data.shape[0]}건")
            except FileNotFoundError:
                print(f"❌ 오류: '{self.data_path}' 파일을 찾을 수 없습니다. 파일 경로를 확인해주세요.")
                self.data = pd.DataFrame()
            except Exception as e:
                print(f"❌ 오류: 데이터 로드 중 오류 발생: {e}")
                self.data = pd.DataFrame()
        else:
            print("⚠️ 경고: 데이터 파일 경로가 지정되지 않았습니다.")
            self.data = pd.DataFrame()

    def generate_sample_data(self, n_samples=1000):
        np.random.seed(42)
        ages = np.random.randint(18, 75, n_samples)
        genders = np.random.choice(['M', 'F'], n_samples)
        incomes = np.random.randint(20000, 200000, n_samples)
        policy_durations = np.random.randint(1, 360, n_samples)
        premiums = np.random.randint(50, 500, n_samples)
        coverage_amounts = np.random.choice([50000, 100000, 250000, 500000, 1000000], n_samples)
        policy_types = np.random.choice(['Auto', 'Home', 'Health', 'Life'], n_samples)
        claim_amounts = np.random.randint(100, 600000, n_samples)
        num_claims_past_year = np.random.randint(0, 3, n_samples)
        num_claims_past_5years = np.random.randint(0, 10, n_samples)
        enrollment_dates = [datetime.now() - timedelta(days=int(d)) for d in np.random.randint(30, 365 * 5, n_samples)]
        claim_dates = [enrollment_dates[i] + timedelta(days=int(d)) for i, d in enumerate(np.random.randint(1, 365 * 3, n_samples))]
        days_to_claim = [(claim_dates[i] - enrollment_dates[i]).days for i in range(n_samples)]
        weekend_claim = [1 if claim_dates[i].weekday() >= 5 else 0 for i in range(n_samples)]
        policy_changes_before_claim = np.random.randint(0, 4, n_samples)
        claim_in_policy_start = [1 if d < 30 else 0 for d in days_to_claim]
        claim_amount_near_limit = [1 if claim_amounts[i] > 0.8 * coverage_amounts[i] else 0 for i in range(n_samples)]
        unusual_documentation = np.random.choice([0, 1], n_samples, p=[0.95, 0.05])
        multiple_beneficiaries = np.random.choice([0, 1], n_samples, p=[0.9, 0.1])
        late_night_claim_filing = np.random.choice([0, 1], n_samples, p=[0.98, 0.02])
        fraud = np.zeros(n_samples)
        for i in range(n_samples):
            if (num_claims_past_year[i] > 1 and claim_amounts[i] > np.mean(claim_amounts)) or \
               (claim_in_policy_start[i] == 1 and claim_amount_near_limit[i] == 1) or \
               (policy_changes_before_claim[i] > 2 and unusual_documentation[i] == 1) or \
               (multiple_beneficiaries[i] == 1 and claim_amounts[i] > 0.9 * coverage_amounts[i]) or \
               (late_night_claim_filing[i] == 1 and np.random.rand() < 0.3):
                fraud[i] = 1
        self.data = pd.DataFrame({
            'age': ages, 'gender': genders, 'income': incomes, 'policy_duration': policy_durations,
            'premium': premiums, 'coverage_amount': coverage_amounts, 'policy_type': policy_types,
            'claim_amount': claim_amounts, 'num_claims_past_year': num_claims_past_year,
            'num_claims_past_5years': num_claims_past_5years, 'days_to_claim': days_to_claim,
            'weekend_claim': weekend_claim, 'policy_changes_before_claim': policy_changes_before_claim,
            'claim_in_policy_start': claim_in_policy_start, 'claim_amount_near_limit': claim_amount_near_limit,
            'unusual_documentation': unusual_documentation, 'multiple_beneficiaries': multiple_beneficiaries,
            'late_night_claim_filing': late_night_claim_filing, 'fraud': fraud
        })
        print(f"✅ 가상 데이터 생성 완료: {self.data.shape[0]}건")

    def run_complete_analysis(self):
        if self.data is None or self.data.empty:
            print("❌ 오류: 분석을 위한 데이터가 없습니다. 데이터를 로드하거나 생성해주세요.")
            return

        print("📊 기본 통계:")
        print(self.data.describe())

        print("\n📈 사기 여부 비율:")
        print(self.data['fraud'].value_counts(normalize=True))

# 사용 예시 (가상 데이터 생성 방식만 사용):
detector = InsuranceFraudDetector()
detector.generate_sample_data(n_samples=1000)
detector.run_complete_analysis()

✅ 가상 데이터 생성 완료: 1000건
📊 기본 통계:
               age         income  policy_duration      premium  \
count  1000.000000    1000.000000      1000.000000  1000.000000   
mean     46.247000  112773.476000       177.918000   270.422000   
std      16.288072   52368.089398       102.343605   131.360365   
min      18.000000   20163.000000         1.000000    50.000000   
25%      33.000000   66585.500000        90.000000   152.750000   
50%      46.000000  112512.500000       173.000000   266.000000   
75%      60.250000  158512.750000       267.250000   386.000000   
max      74.000000  199967.000000       359.000000   499.000000   

       coverage_amount   claim_amount  num_claims_past_year  \
count      1000.000000    1000.000000           1000.000000   
mean     386550.000000  297761.864000              0.995000   
std      352378.728456  171870.484483              0.807234   
min       50000.000000     315.000000              0.000000   
25%      100000.000000  150880.500000             